Le « Mécanisme d’Attention » est une technique utilisée dans les réseaux neuronaux pour permettre à un modèle de se concentrer sur des parties spécifiques du texte reçu en entrée lors de son traitement. Il est devenu très vite un élément crucial dans le domaine du Deep Learning, en particulier dans le domaine du traitement du langage naturel (NLP). C’est la composante clé de la technologie des Transformers, qui sont un type de modèle de NLP qui a été présenté dans l’article « Attention Is All You Need » par les chercheurs de Google en 2017. L’architecture de cette technologie utilise des mécanismes d’attention pour pondérer l’importance des différentes parties de texte d’entrée, lui permettant de traiter efficacement des séquences de longueurs variables.
Avant l’introduction du Transformer, les modèles de NLP étaient principalement basés sur les réseaux de neurones récurrents (RNNs) tels que le Long Short-Term Memory (LSTM) et le Gated Recurrent Unit (GRU). Ces modèles présentent un inconvénient majeur, à savoir leur incapacité à traiter efficacement des séquences d’entrée de longueurs variables. En effet, les RNNs traitent les séquences d’entrée élément par élément, ce qui signifie que la capacité du modèle à traiter une séquence est limitée par la longueur de la séquence.
Le modèle du Transformer est composé de deux composants principaux : l’encoder et le decoder.
- L’encoder prend la séquence d’entrée et la convertit en un ensemble d’états cachés, qui sont ensuite passés au decoder.
- Le decoder prend les états cachés et génère la séquence de sortie.
Le mécanisme d’attention est appliqué à la fois dans l’encoder et le decoder. Il effectue le calcul d’un ensemble de poids d’attention pour chaque élément de la séquence d’entrée. Ces poids d’attention sont utilisés pour déterminer l’importance des différentes parties de la séquence d’entrée.
Le modèle du Transformer présente alors deux avantages majeurs par rapport aux modèles RNN traditionnels :
- Il peut traiter efficacement des séquences d’entrée de longueurs variables,
- Il est muni d’un mécanisme d’attention.
Le modèle a ainsi ce qui qu’il faut pour être en mesure de comprendre le contexte dans une séquence de texte. En effet, il peut gérer des tâches telles que la traduction automatique, le résumé de texte ou bien encore tenir une conversation. Le modèle du Transformer est également utilisé dans d’autres tâches de NLP telle que la modélisation du langage.
L’architecture du Transformer est également la base de plusieurs variations et extensions telles que le model de BERT (Bidirectional Encoder Representations from Transformers) qui est introduit par Google (Jacob Devlin) en 2018 et GPT (Generative Pre-trained Transformer) introduit la même année par OpenAI. Tous deux ont réalisé des performances de pointe sur un large éventail de tâches NLP.
Dans la forme, les acronymes BERT et GPT ont en commun la lettre « T » pour Transformer dans leurs accronymes respectifs. En ce qui concerne leur fonctionnement, ces deux modèles utilisent le mécanisme d’attention et peuvent traiter des séquences de longueur variable. Le ChatGPT, développé récemment par Microsoft en collaboration avec OpenAI, est une version plus légère du GPT-3, optimisé pour gérer des conversations comme un humain, idéale pour les chatbots. L’intégration du mécanisme d’attention a été un moment clé dans l’évolution de l’état de l’art en NLP et en Intelligence Artificielle en général.
Le Transformer fait déjà parti du quotidien chez AKABI, nous en faisons usage pour répondre aux besoins de nos clients dans différents domaines.
Merci de votre attention!
Pour en savoir plus: [1706.03762] Attention Is All You Need (arxiv.org)