Skip to content

Commit 0ec1e15

Browse files
committed
Commence à décrire l'attention
1 parent 35443b7 commit 0ec1e15

File tree

2 files changed

+30
-0
lines changed

2 files changed

+30
-0
lines changed

content/NLP/03_embedding.qmd

Lines changed: 23 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -759,6 +759,29 @@ df
759759
760760
:::
761761
762+
Ces modèles sont héritiers de `Word2Vec` dans le sens où ils reprennent une représentation vectorielle dense de faible dimension de documents textuels. `Word2Vec` reste un modèle héritier de la logique sac de mot. La représentation d'une phrase ou d'un document est une forme de moyenne des représentations des mots qui les composent.
763+
764+
Depuis 2013, plusieurs révolutions ont amené à enrichir les modèles de langage pour aller au-delà d'une représentation par mot de ceux-ci. Des architectures beaucoup plus complexes pour représenter non seulement les mots sous forme d'_embeddings_ mais aussi les phrases et les documents sont aujourd'hui à l'oeuvre et peuvent être reliées à la révolution des architectures _transformers_.
765+
766+
# Les _transformers_: une représentation plus riche du langage
767+
768+
Si le modèle `Word2Vec` est entraîné de manière contextuelle, sa vocation est de donner une représentation vectorielle d'un mot de manière absolue, indépendamment du contexte. Par exemple, le terme _"banc"_ aura exactement la même représentation vectorielle qu'il se trouve dans la phrase _"Elle court vers le banc de sable"_ ou "Il t'attend sur un banc au parc"_. C'est une limite majeure de ce type d'approche et on se doute bien de l'importance du contexte pour l'interprétation du langage.
769+
770+
L'objectif des architectures _transformers_ est de permettre des représentations vectorielles contextuelles. Autrement dit, un mot aura plusieurs représentations vectorielles, selon son contexte d'occurrence. Ces modèles s'appuient sur le mécanisme d'attention [@vaswani2017attention]. Avant cette approche, lorsqu'un modèle apprenait à vectoriser un texte et qu'il arrivait au énième mot, la seule mémoire qu'il gardait était celle du mot précédent. Par récurrence, cela signifiait qu'il gardait une mémoire des mots précédents mais celle-ci tendait à se dissiper. Par conséquent, pour un mot arrivant loin dans la phrase, il était probable que le contexte de début de phrase était oublié. Autrement dit, dans la phrase _"à la plage, il allait explorer le banc"_, il était fort probable qu'arrivé au mot _"banc"_, le modèle ait oublié le début de phrase qui avait pourtant de l'importance pour l'interprétation.
771+
772+
L'objectif du mécanisme d'attention est de créer une mémoire interne au modèle permettant, pour tout mot d'un texte, de pouvoir garder trace des autres mots. Bien-sûr tous ne sont pas pertinents pour interpréter le texte mais cela évite d'oublier ceux qui sont importants.
773+
774+
<!--------
775+
https://fr.wikipedia.org/wiki/Transformeur
776+
-------->
777+
778+
Le modèle qui a marqué son époque dans le domaine est le modèle `BERT` développé en 2018 par _Google_ (qui était déjà à l'origine de `Word2Vec`).
779+
780+
781+
782+
783+
784+
762785
# Word2vec pré-entraîné + averaging
763786
764787
Quand on travaille avec des corpus de taille restreinte,

reference.bib

Lines changed: 7 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -21,6 +21,13 @@ @article{mikolov2013efficient
2121
year={2013}
2222
}
2323

24+
@article{vaswani2017attention,
25+
title={Attention is all you need},
26+
author={Vaswani, A},
27+
journal={Advances in Neural Information Processing Systems},
28+
year={2017}
29+
}
30+
2431
@book{siegfried1913tableau,
2532
title={Tableau politique de la France de l'ouest sous la troisi{\`e}me r{\'e}publique: 102 cartes et croquis, 1 carte hors texte},
2633
author={Siegfried, Andr{\'e}},

0 commit comments

Comments
 (0)