# Deep learning pour le NLP

- Les méthodes Bag Of Words étaient à l'état de l'art jusqu'en 2013:

    On a vu la méthode TF-IDF par exemple
    
- Puis est venu l'age d'or des méthodes de type Word Embedding:

    On a vu Word2Vec mais on peut aussi citer fastText et GloVe

    Word2Vec utilise des réseaux de neurones peu profond (1 couche cachée)
    
    Ces méthodes capturent le sens des mots, mais comment l'utiliser sur des phrases?
    
    Plusieures évolutions type Doc2Vec
  
- Le traitement des images utilise depuis longtemps et avec succès des réseaux profonds, pourquoi pas sur du texte?

# Les réseaux convolutionnels

C'est des réseaux qui marchent très bien sur les images.

![](https://i.stack.imgur.com/NU7y2.png)

Ca tire parti du fait que des pixels proches dans une images sont "liés". 

Les convolutions vont extraires des features locales de ces groupes de pixels proches.

# Mais sur du texte 

Ca ne marche pas pareil.

Déjà on n'est déjà pas en 2D.

On a une suite de mots qui se lisent les uns à la suite des autres. Les mots que l'on a lu depuis le début de la phrase nous aident à comprendre les mots suivants.

2 mots proches vont comme les pixels d'une image être liés, c'est l'hypothèse que l'on a utilisé pour développer Word2Vec. Mais certains mots dans un texte vont faire référence à des mots très lointains.

`L'article que j'ai lu était très intéressant, il parlait de NLP`

Le **il** dans cette phrase fait référence à **article** qui est 9 mots avant lui.

# 1ère architecture : des réseaux de neurones récurrents

Les 1ères architectures utilisées avec succes sur du texte étaient des réseaux de neurones récurrents.

![](http://colah.github.io/posts/2015-08-Understanding-LSTMs/img/RNN-unrolled.png)

On propage les mots d'un texte 1 à 1 dans ce type de réseau, le réseau calcule un output $h$ que l'on appelle aussi "hidden state" et qui va être utilisé par le réseau lors de l'insertion du prochain mot.

Cet état caché représente le contexte de la phrase que l'on traite.

Ces réseaux sont très difficiles à entrainer à cause du problème dit du "exploding/vanishing gradient".

En pratique le contexte ne permet de faire référence qu'à des mots très proches du mot courant.

# Le RNN qui sauve la donne : LSTM

Une architecture a été développée pour traiter ce problème et être capable de capturer des dépendances longue distance entre des mots. 

Les **Long-Short Term Memory**.

![](http://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-var-GRU.png)

Une LSTM est composée de 3 "portes" qui contrôle l'état de la cellule (le "hidden state"):

- Une porte d'oubli
- Une porte d'entrée
- Une porte de sortie

La porte d'oubli va permettre de vider la cellule.

La porte d'entrée va permettre de mettre à jour l'état de la cellule

La porte de sortie va calculer l'output du réseau en fonction de l'état de la cellule et du signal en entrée. 

## Forces et faiblesses :
- On arrive à capturer des dépendances à plus long terme
- Mais pas si loin quand même
- Plus on avance dans la phrase mieux le contexte est capturé
- Mais du coup en début de phrase on n'est pas très bon
- Quand on traite un mot, on connait le début de la phrase mais rien de la fin de la phrase, il peut nous manquer de l'information

# Let's go deeper : Le mécanisme d'Attention

C'est un mécanisme qui permet de capturer les dépendances termes à termes entre 2 sequences.

Très utile pour de la traduction par exemple:

![](https://wiki.pathmind.com/images/wiki/attention_translation_grid.png)

Les maths derrière ce mécanisme : 
$$\mathrm{Attention}(Q, K, V) = \mathrm{softmax}(\frac{QK^T}{\sqrt{d_k}})V$$

Si les 2 phrases sont identiques, ca marche aussi!

On parle de **self-attention**.

Autre gros atout de ce mécanisme, on traite la phrase dans son ensemble, on capture réellement des dépendances à long terme.

# Attention is All You Need : Le Transformer

Dans le papier [Attention is All You Need](https://arxiv.org/abs/1706.03762) les auteurs proposent une nouvelle architecture qui utilise de nombreuses mécaniques d'Attention.

Le Transformer :
![](https://jalammar.github.io/images/t/The_transformer_encoder_decoder_stack.png)

![](https://jalammar.github.io/images/t/Transformer_decoder.png)

__Ressources__ :

The Illustrated Transformer : http://jalammar.github.io/illustrated-transformer/

The Annotated Transformer : https://nlp.seas.harvard.edu/2018/04/03/attention.html

## 2 modèles à base de transformers qui ont fait parler d'eux 

- BERT : Bidirectional Encoder Representations from Transformers [Open sourcé](https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html) par google en Novembre 2018 et utilisé dans google search depuis novembre 2019

![](https://jalammar.github.io/images/distilBERT/bert-distilbert-sentence-classification.png)

BERT est entrainé sur 2 taches :

- Prédire des mots qui ont été masqués dans le texte.
- Prédire des relations entre 2 phrases consécutives.

Les performances de BERT :

- Sur le problème SQuAD (Stanford Question Answering Dataset):
![](https://4.bp.blogspot.com/-iQZIsE3lbVY/W9i8Tc-F7RI/AAAAAAAADfU/DrxjBoDfqrwe6GJUxENqWuzQ0IPlgT3TgCLcBGAs/s1600/image3.png)

- Sur le benchmark GLUE qui regroupe 9 taches de NLU BERT surpasse de 7.6% l'ancien meilleur modèle

# C'est encore en Anglais :'(

Mais merci l'INRIA qui a publié ...

# CamemBERT: [A Tasty French Language Model](https://arxiv.org/abs/1911.03894)

![](https://camembert-model.fr/authors/admin/avatar_huac8a9374dbd7d6a2cb77224540858ab4_463389_250x250_fill_lanczos_center_2.png)


# Et le 2ème modèle qui a marqué les esprits récemment: GPT-2 (3)

Les articles dans la presse

- "le générateur de texte trop performant pour être rendu public"
- "cette intelligence artificielle pourrait devenir l'arme ultime des trolls"

Les informations données par OpenAI qui a développé ce modèle :

`Release Strategy
Due to concerns about large language models being used to generate deceptive, biased, or abusive language at scale, we are only releasing a much smaller version of GPT-2 along with sampling code. We are not releasing the dataset, training code, or GPT-2 model weights`

Mais 9 mois plus tard : [La release](https://www.openai.com/blog/gpt-2-1-5b-release/) du modèle 1.5 Milliards de paramètres.

## L'entrainement :
GPT-2 est entrainé sur une tache simple : A partir d'une phrase prédire le mot suivant

Mais tout se joue au niveau de la démesure:

 - 40GB de texte provenant d'internet
 - 8 millions de pages Web
 - 1.5 Milliards de paramètres
 
## Les résultats :

Des performances qui surpassent l'état de l'art dans plusieurs domaines:
- Compréhension de texte
- Résumé de texte
- Réponse à des questions
- Traduction

# Mais c'est super complexe !

Les modèles sont d'une complexité de plus en plus importante.

Mais il est très très facile de les utiliser.

HuggingFace propose énormément d'implémentations de modèles Etat de l'Art à base de [transformers](https://huggingface.co/transformers/)
![](https://huggingface.co/landing/assets/transformers-docs/huggingface_logo.svg)

# Et en 2022 ?

Techniques :
https://openai.com/blog/techniques-for-training-large-neural-networks/

Recherche d'information :
https://openai.com/blog/webgpt/ (bon ok c'est 2021...)

Des maths : 
https://github.com/facebookresearch/SymbolicMathematics (bon là c'est 2020)

Chat : 
https://openai.com/blog/chatgpt/

Text + Image :
https://openai.com/blog/dall-e-2-extending-creativity/ ou https://stablediffusionweb.com/