# **Recurrent Neural Network - Analyse de sentiments**

Le but de cet exercice est la classification binaire (positive ou négative) de reviews en utilisant un RNN sur un dataset de commentaires IMDB que vous trouverez dans le dossier data.

## **1. Import des données et preprocessing**

1. Importer les 2 fichiers ".txt" de data/imdb
2. Vérifier ce qu'il y a dedans si c'est pas déjà fait...
3. Un peu de preprocessing de texte, allez on va chercher dans sa petite mémoire et sinon dans son gros ordinateur :
>- convertir en minuscules
>- retirer la ponctuation
>- créer une liste des reviews et déterminer combien il y en a. Pareil pour les labels. Inch'Allah y en aura autant.

## **2. Tokenisation ou encodage**

Le but est de remplacer les mots des reviews par des entiers. Si vous voulez faire à votre sauce, vous y êtes encouragés !

Sinon, les quelques étapes décrites ci-dessous vous permettront de le faire :
>- compter l'ensemble des mots (vous pouvez utiliser `Counter` de la librairie `collections` qui est une des plus rapide dans ce domaine)
>- les trier par ordre décroissant d'occurrences
>- créer un dictionnaire `word_mapping` où les clés sont les mots et les valeurs l'entier associé (votre dico doit être `{'the': 1, 'and': 2, 'a': 3, 'of': 4,..., 'muppified': 74070, 'whelk': 74071, 'hued': 74072}}`). C'est volontaire que ça commence à 1 car on utilisera le "0" comme caractère spécial (il servira pour "remplir" les reviews les plus courtes afin qu'elles aient toutes la même taille...)
>- encoder les mots (c'est-à-dire les remplacer par l'entier qui les représente)
>- encoder les labels (ça c'est fastoche, on se débrouille)

## **3. Longueur des séquences**

Il s'agit ici d'analyser la longueur des reviews pour déterminer éventuellement des outliers et choisir ce qu'on en fait. On va aussi "uniformiser" la longueur des séquence.

1. Avec la méthode de votre choix (graphique, stats desc...), étudier la longueur des reviews
2. Déterminer s'il y a des outliers et ce que vous souhaitez en faire (si vous les décidez de les supprimer, attention de bien supprimer aussi les labels correspondants...)
3. Ça a été évoqué un peu plus haut, on veut que nos reviews aient toutes la même taille pour faciliter l'entraînement du réseau. Par conséquent on va ajouter des 0 aux reviews les plus courtes et tronquer les reviews les plus longues (*padding/truncating*, si vous vous souvenez bien on a vu il y a peu le *zero-padding* dans un certain cas...bon ben c'est pareil).  
>- définir une fonction `trunc_pad(review_list, length)` :
>>- qui prend en paramètres la liste des reviews (chaque review étant encodée en une liste d'entiers) et une longueur donnée
>>- et qui retourne un array 2D avec (en ligne) les reviews trop longues tronquées et des 0 à gauche pour les reviews trop courtes. Avant de vous lancer et pour vous assurer d'avoir compris, quelles dimensions doit avoir votre array en sortie ?
>>- tester votre fonction avec une longueur fixée à 250 et afficher les 5 premières valeurs des 5 premières reviews. Vous devez obtenir ça:
 
\[[    0     0     0     0     0]  
[    0     0     0     0     0]  
[22382    42 46418    15   706]  
[ 4505   505    15     3  3342]  
[    0     0     0     0     0]\]

>- maintenant, que c'est fait, je peux vous le dire, il y a une fonction dans `keras.preprocessing` qui permet de le faire. La trouver et comparer les temps d'éxecution des 2 fonctions.

## **4. Échantillons d'entraînement, de validation et de test**

Découper les données en train, validation et test sets de la manière qui vous plaira. Tant que c'est juste et cohérent bien sûr.  
Il faut qu'il y ait 20000 observations dans le train, 2500 dans le validation et 2500 dans le test. 

## **5. Petite paranthèse sur le _word embedding_**

Le [*word embedding*](https://fr.wikipedia.org/wiki/Word_embedding) consiste à transformer des mots sous forme de vecteurs de nombres. Bon ça on peut le faire relativement facilement, vous venez d'ailleurs de le faire avec la représentation du lexique des reviews en nombres entiers. Pour passer à un vecteur il suffirait juste de faire un one-hot-encoding.

Il y a plusieurs problèmes à cette solution (même si on l'utilise parfois dans du NLP simple) :
- la dimension de l'espace engendré
- l'absence totale de notion de similarité (avec la représentation one-hot, 2 mots qui n'ont rien à voir sont aussi différents que 2 mots tout à fait synonyme)
- le fait que les vecteurs contiennent quasiment que des 0 (sparse matrix)
- le fait que les modèles sont ensuite difficilement généralisable car en cas de nouveau mot, le modèle ne sait pas du tout les traiter puisqu'il ne peut pas du tout les comparer aux mots vus dans l'entraînement

Donc le *word embedding* s'attaque à ce problème avec pour objectifs de :
1. représenter les mots sous forme de vecteurs de nombres réels (et non entiers, on passe donc à un espace continu et plus discret)
2. conserver la notion de similarité c'est-à-dire que 2 vecteurs qui sont proches doivent représenter des mots "sémantiquement proches"
3. de les représenter dans un espace de plus petite dimension (en fonction de votre vocabulaire, soit le nombre de mots dans votre problème, ça peut aller très vite, généralement plusieurs milliers ou 10aines de milliers)

Le principe est de s'intéresser au contexte des mots, c'est-à-dire, quels mots sont associés ensemble en s'appuyant sur la co-occurrence.
Différents modèles de word embedding existent : [word2vec](https://fr.wikipedia.org/wiki/Word2vec), Glove, fasttext...

En pratique avec `keras`, que se passe-t-il lorsqu'on ajout une couche [*embedding*](https://keras.io/api/layers/core_layers/embedding/) ? Un exemple juste en dessous.

Un peu de visionnage pour y voir plus clair si ça vous intéresse :
- https://www.youtube.com/watch?v=Eku_pbZ3-Mw
- https://www.youtube.com/watch?v=oUpuABKoElw
- https://www.youtube.com/watch?v=5PL0TmQhItY

Et un peu de lecture :
- https://www.analyticsvidhya.com/blog/2017/06/word-embeddings-count-word2veec/
- https://towardsdatascience.com/why-do-we-use-embeddings-in-nlp-2f20e1b632d2
- https://towardsdatascience.com/word-embeddings-for-nlp-5b72991e01d4
- https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf
- https://medium.com/rasa-blog/supervised-word-vectors-from-scratch-in-rasa-nlu-6daf794efcd8
- https://web.stanford.edu/~jurafsky/slp3/6.pdf

In [156]:
# on prend quelques phrases d'exemples pour illustrer le word embedding
t1 = "i hope to see you again"
t2 = "you wish to see me soon"
t3 = "i wish we will meet again"

In [157]:
# méthode mise en place au dessus
cnts = Counter(' '.join([t1,t2,t3]).split())
dico = {w:i+1 for i,w in enumerate(sorted(cnts, key=cnts.get, reverse=True))}
dico, len(dico)

({'i': 1,
  'to': 2,
  'see': 3,
  'you': 4,
  'again': 5,
  'wish': 6,
  'hope': 7,
  'me': 8,
  'soon': 9,
  'we': 10,
  'will': 11,
  'meet': 12},
 12)

In [158]:
# en représentant les vecteurs avec cette méthode on obtient
t_num = [[dico[w] for w in t.split()] for t in [t1, t2, t3]]
t_num

[[1, 7, 2, 3, 4, 5], [4, 6, 2, 3, 8, 9], [1, 6, 10, 11, 12, 5]]

In [161]:
# on crée un modèle avec un couche embedding
mod_emb = Sequential()
mod_emb.add(Embedding(input_dim=13, output_dim=2, input_length=6))
mod_emb.compile()
print(mod_emb.summary())

out1 = mod_emb.predict([t_num[0]])
out2 = mod_emb.predict([t_num[1]])
out3 = mod_emb.predict([t_num[2]])

print(out1, out2, out3)

Model: "sequential_7"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_7 (Embedding)      (None, 6, 2)              26        
Total params: 26
Trainable params: 26
Non-trainable params: 0
_________________________________________________________________
None
[[[ 1.21878982e-02 -2.65855677e-02]
  [ 2.03719474e-02  8.20383430e-05]
  [ 3.71456854e-02 -9.21390206e-03]
  [ 2.59860642e-02  1.91943385e-02]
  [ 1.03757605e-02 -2.71544456e-02]
  [ 3.49335335e-02  2.88656987e-02]]] [[[ 0.01037576 -0.02715445]
  [ 0.03473543 -0.01919251]
  [ 0.03714569 -0.0092139 ]
  [ 0.02598606  0.01919434]
  [-0.00295806  0.04078201]
  [-0.03978165 -0.02091659]]] [[[ 0.0121879  -0.02658557]
  [ 0.03473543 -0.01919251]
  [-0.02161729  0.04306128]
  [-0.01042342  0.01372781]
  [ 0.00705602  0.00491847]
  [ 0.03493353  0.0288657 ]]]


## **6. Création, entraînement et évaluation du modèle**

Créer un premier modèle, que vous serez tout à fait libre et même cordialement conviés à améliorer par la suite, avec :
- une couche Embedding
- une couche LSTM