Commence à décrire l'attention

linogaliana · linogaliana · commit 0ec1e15c2a7c · 2024-12-07T15:54:20.000Z
diff --git a/content/NLP/03_embedding.qmd b/content/NLP/03_embedding.qmd
@@ -759,6 +759,29 @@ df
 
 :::
 
+Ces modèles sont héritiers de `Word2Vec` dans le sens où ils reprennent une représentation vectorielle dense de faible dimension de documents textuels. `Word2Vec` reste un modèle héritier de la logique sac de mot. La représentation d'une phrase ou d'un document est une forme de moyenne des représentations des mots qui les composent. 
+
+Depuis 2013, plusieurs révolutions ont amené à enrichir les modèles de langage pour aller au-delà d'une représentation par mot de ceux-ci. Des architectures beaucoup plus complexes pour représenter non seulement les mots sous forme d'_embeddings_ mais aussi les phrases et les documents sont aujourd'hui à l'oeuvre et peuvent être reliées à la révolution des architectures _transformers_.
+
+# Les _transformers_: une représentation plus riche du langage
+
+Si le modèle `Word2Vec` est entraîné de manière contextuelle, sa vocation est de donner une représentation vectorielle d'un mot de manière absolue, indépendamment du contexte. Par exemple, le terme _"banc"_ aura exactement la même représentation vectorielle qu'il se trouve dans la phrase _"Elle court vers le banc de sable"_ ou "Il t'attend sur un banc au parc"_. C'est une limite majeure de ce type d'approche et on se doute bien de l'importance du contexte pour l'interprétation du langage.
+
+L'objectif des architectures _transformers_ est de permettre des représentations vectorielles contextuelles. Autrement dit, un mot aura plusieurs représentations vectorielles, selon son contexte d'occurrence. Ces modèles s'appuient sur le mécanisme d'attention [@vaswani2017attention]. Avant cette approche, lorsqu'un modèle apprenait à vectoriser un texte et qu'il arrivait au énième mot, la seule mémoire qu'il gardait était celle du mot précédent. Par récurrence, cela signifiait qu'il gardait une mémoire des mots précédents mais celle-ci tendait à se dissiper. Par conséquent, pour un mot arrivant loin dans la phrase, il était probable que le contexte de début de phrase était oublié. Autrement dit, dans la phrase _"à la plage, il allait explorer le banc"_, il était fort probable qu'arrivé au mot _"banc"_, le modèle ait oublié le début de phrase qui avait pourtant de l'importance pour l'interprétation. 
+
+L'objectif du mécanisme d'attention est de créer une mémoire interne au modèle permettant, pour tout mot d'un texte, de pouvoir garder trace des autres mots. Bien-sûr tous ne sont pas pertinents pour interpréter le texte mais cela évite d'oublier ceux qui sont importants.
+
+<!--------
+https://fr.wikipedia.org/wiki/Transformeur
+-------->
+
+Le modèle qui a marqué son époque dans le domaine est le modèle `BERT` développé en 2018 par _Google_ (qui était déjà à l'origine de `Word2Vec`). 
+
+
+
+
+
+
 # Word2vec pré-entraîné + averaging
 
 Quand on travaille avec des corpus de taille restreinte,
diff --git a/reference.bib b/reference.bib
@@ -21,6 +21,13 @@ @article{mikolov2013efficient
   year={2013}
 }
 
+@article{vaswani2017attention,
+  title={Attention is all you need},
+  author={Vaswani, A},
+  journal={Advances in Neural Information Processing Systems},
+  year={2017}
+}
+
 @book{siegfried1913tableau,
   title={Tableau politique de la France de l'ouest sous la troisi{\`e}me r{\'e}publique: 102 cartes et croquis, 1 carte hors texte},
   author={Siegfried, Andr{\'e}},