# AMAL // Cellules à mémoire
                       notebook n°2 sur 3

On reprochait aux RNN de ne pas pouvoir comprendre les dépendances à long-terme dans des données séquentielles. Les cellules à mémoire comme celles des LSTM (Long Short-Term Memories) ou les GRU (Gated Recurrent Units) permettent de régler ce problème en conservant toutefois le même principe : une lecture de l'*input* par morceaux.

![image.png](attachment:image.png)


In [1]:
# //////////////////////////////////////////////////////////////////////////////////////////////// <useful libraries> ////

# Ne pas oublier d'executer dans le shell avant de lancer python :
# source /users/Enseignants/piwowarski/venv/amal/3.7/bin/activate

import torch
from torch.utils.data import DataLoader
# On importera tous les fichiers nécessaires exercice par exercice.

# /////////////////////////////////////////////////////////////////////////////////////////////// </useful libraries> ////

In [2]:
# //////////////////////////////////////////////////////////////////////////////////////////////// <basic configuration> ////

import logging
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
logging.basicConfig(level=logging.INFO)

# /////////////////////////////////////////////////////////////////////////////////////////////// </basic configuration> ////

**DISCLAIMER : la grande quantité de résultats a rendu toutes ces expériences longues à commenter et ce rapport très long à lire.  
On a essayé de conclure en quatre lignes tout à la fin.**

### Table des matières

<a href="#data">Préparation du dataset</a>  
<a href="#trng">Préparation de l'apprentissage</a>  
<a href="#eval">Préparation des modes de génération</a>  
<a href="#grnn">Génération par RNN</a>  
&nbsp;&nbsp;Premier essai + analyse // Entraînement effectif + analyse  
<a href="#ggru">Modèles à mémoire : GRU</a>   
&nbsp;&nbsp;Entraînement GRU + analyse  
<a href="#lstm">Modèles à mémoire : LSTM</a>  
&nbsp;&nbsp;Entraînement LSTM + analyse  
<a href="#comp">Comparaison sur des phrases courtes</a>  
<a href="#tldr">TL;DR</a> 

### Préparation du dataset <a id='data'></a>

Revenons à la génération dans le style de D. Trump. Cette fois, l'objectif final est de générer des phrases entières, et donc de les finir toutes par un point (et un caractère spécifique `EndOfString`). Elles peuvent être de longueurs différentes dans le set d'entraînement.  

Le fichier `tme5trumpdataset.py` contient de quoi implémenter ce nouveau mode de fonctionnement. Il contient   
> fonction `listen` pour récupérer les chaînes de caractères du discours  
> classe `handleSpeech`pour créer le `Dataset` lié  
> fonction `collate_fn` pour assurer le padding jusqu'à la longueur maximale par batch  
> et utilitaires `normalise`, `code2string`, `string2code`

In [3]:
# /////////////////////////////////////////////////////////////////////////////////// <checking the dataset handling> ////

from tme5trumpdataset import *

test = "Greeaat. job,. honey."
loader = DataLoader(handleSpeech(test), collate_fn=collate_fn, batch_size=3)
data = next(iter(loader))
print(data)
assert data.shape == (9, 3)
assert data[2, 0] == data[3, 2]
assert test == " ".join([code2string(s).replace("|","") for s in data.t()])
print(test)
# self-esteem += 1

# ////////////////////////////////////////////////////////////////////////////////// </checking the dataset handling> ////

tensor([[34, 11,  9],
        [19, 16, 16],
        [ 6,  3, 15],
        [ 6, 65,  6],
        [ 2, 67, 26],
        [ 2,  0, 67],
        [21,  0,  0],
        [67,  0,  0],
        [ 1,  1,  1]])
Greeaat. job,. honey.


Le dataset a l'air fonctionnel.

### Préparation de l'apprentissage <a id='trng'></a>

Le fait d'avoir paddé les séquences (pour gérer les longueurs variables) doit changer le calcul des loss : on ne s'intéresse pas à ce que le modèle génère sur les positions qui contiennent un pad. On implémente donc une fonction de coût qui comporte un masque pour ignorer les caractères de padding.  
La boucle d'apprentissage est aussi transformée en fonction : le même système sera utilisé pour tous les types de modèles.

Les deux fonctions citées sont consultables dans le fichier `tme5training.py`. Il contient donc
> fonction `maskedCrossEntropy` pour assurer un calcul cohérent des loss  
> fonction `trainModel` pour lancer l'apprentissage d'un modèle récurrent (avec paramétrage + quel que soit son type)

In [4]:
from tme5training import maskedCrossEntropy,trainModel

### Modes de génération <a id='eval'></a>

Chaque modèle doit pouvoir générer des phrases nouvelles (avec ou sans prompt) après l'apprentissage.  
La fonction de génération de base ressemble à celle du TME précédent, mais comporte une condition d'arrêt différente : il faut soit générer naturellement un EOS, soit aller jusqu'à une longueur maximale s'il ne vient pas.  
On comparera la génération par *argmax* systématique à la génération par *sampling* sur les distributions prédites par les modèles.  

**On utilisera ensuite des techniques qui peuvent améliorer les résultats, comme le *beam search*.**  
Fonctionnement : après chaque pas de génération, plusieurs séquences plausibles sont gardées en mémoire. Conserver et mettre à jour séparément ces séquences de vraisemblance maximale permet de diversifier les perspectives de complétion, mais aussi d'obtenir potentiellement une phrase plus vraisemblable au final que ce qu'on obtiendrait avec l'argmax seul. Les résultats confirmeront cela.  
Nous verrons si le nucleus sampling (mise à jour limitée juste aux phrases déjà prometteuses) peut encore améliorer la situation.

Voir `tme5generation.py`, qui contient
> fonction `generate`  
> fonction `generateBeam`

In [5]:
from tme5generation import generate, generateBeam

### Génération par RNN <a id="grnn">

On récupère le modèle de `RNN` du TME4 (la façon de traiter les phrases ne change pas).  
La classe `State` va encore servir au checkpointing.

Fichier `tme5models.py`.

In [6]:
from tme5models import RNN, State

*Note* : étant données les expériences du TME4, on a augmenté le pas d'apprentissage par défaut. On a également diminué la taille de la couche d'embedding sur les conseils professoraux, il était précédemment gardé aux mêmes dimensions que le vocabulaire (`len(lettre2id)`).  
Cf. les paramètres par défaut pour l'entraînement :  
`def trainModel(modeltype,etiq,dimbed=60,latent=len(lettre2id),maxlen=200,maxiter=300,epsilon=0.001,sbatch=64)`

*Important* : à paramètres égaux (non montrés ici), l'apprentissage se fait beaucoup plus vite (facteur 10) par rapport au TME précédent, car la disparition du one-hot encoding permet de gagner beaucoup de temps.  
Cependant, c'est toujours trop. **A titre d'exemple, une longueur de séquences de 200 donnerait un temps d'entraînement de 10h sur un hardware personnel (pas encore d'accès aux GPU de l'université) ; en pratique, on bornera donc `maxlen` à 100.**  

#### PREMIER ESSAI (vérification des fonctions)

On maximise ici la rapidité de l'entraînement pour pouvoir faire quelques préobservations. On choisit donc une longueur de séquence relativement courte et on multiplie la taille des batchs (128) pour accélérer chaque epoch.

In [8]:
# //////////////////////////////////////////////////////////////////////////////////////////////// <let's talk Trump> ////

trainModel(RNN,'RNN',maxlen=42,maxiter=300,sbatch=128)

# /////////////////////////////////////////////////////////////////////////////////////////////// </let's talk Trump> ////


Generating the sequences...

/////////////////////////////// RNN-based generation using an embedding ///////////////////////////////

Restarting from previous state.


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=298.0), HTML(value='')))


[1mTrying to generate new sentences[0m

...from known init strings (argmax)

[appl[92mause] Thank you.|[0m
. [92mU.|[0m
The world [92mread for be on a big deal.|[0m
A lot [92mof the story.|[0m
We w[92mill be the story.|[0m
$[92m1 problems.|[0m
That's not [92mgoing to happen.|[0m
I am [92mand so done.|[0m
Our [92mcountry one of the built.|[0m
Hi[92mllary Clinton was so badly.|[0m
It's[92m a big deal.|[0m
The U[92m.|[0m
These[92m better.|[0m

...from empty strings (full sampling from the predicted distributions)

[92murats.|[0m
[92mates is them in problems.|[0m
[92mot of Noble got to mess.|[0m
[92mo well.|[0m
[92mere down.|[0m
[92mater Futerableat.|[0m
[92mooks.|[0m
[92mhood.|[0m
[92mow helpen.|[0m
[92mooks.|[0m

...from empty strings again (sampling the first letter + argmax)

[92mill and on.o want.|[0m
[92mo win.|[0m
[92mo win.|[0m
[92mo win.|[0m
[92mo win.|[0m
[92mo win.|[0m
[92mo win.|[0m
[92mo win.|[0m
[92mo win.|[0m

Tout semble là aussi fonctionnel.

**En général** : 
![image.png](attachment:image.png)

                                                                        *issu d'un run antérieur
Les prédictions ne sont pas si mauvaises.  
C'est toujours un RNN, et on travaille quand même avec des séquences longues sur lesquelles on s'attend à ce que le modèle performe mal. De fait, comme dans le TME4, il est victime de sa mauvaise mémoire : dès qu'il tombe sur un mot ou une fin de mot susceptible de terminer la phrase générée, il la coupe sans aller plus loin / sans prendre en compte le contexte et cela en fait une construction peu réaliste.

**Impact sampling vs. argmax systématique** :

Pour la génération *vanilla* (en vert, sans beam search), il y a trois groupes.  
Le premier groupe dépend d'un prompt qu'on complète avec un système d'argmax.  
Le second (exemple ci-dessous)

![image.png](attachment:image.png)
                                                                        
                                                                        *issu d'un run antérieur                                                        
se construit à partir de la chaîne vide et de samplings successifs lettre par lettre. En général, les phrases générées ne sont pas du tout grammaticales, car on peut tomber par hasard sur des lettres de faible probabilité qui changent le cours de la génération au milieu d'un mot. Notons quand même que le résultat a l'apparence de l'anglais - un vague air de poèmes à la Carroll.  
On a donc introduit une troisième méthode de génération (troisième groupe) où seule la première lettre est samplée, pour diversifier les générations, et la suite est construite par argmax. Cette forme mixte pourra nous aider dans nos observations. *(spoiler : elle n'a finalement pas servi à grand chose)*

**Impact du beam search** :

Le *beam search* permet effectivement de générer des séquences plus intéressantes qu'en argmax, mais au prix de calculs plus lourds (génération très lente). 

![image.png](attachment:image.png)                                                                        

Toutes ne sont pas forcément plus satisfaisantes d'ailleurs.

**L'ajout du *nucleus sampling* permet d'être encore plus sévère sur la plausibilité des phrases. A priori, elles sont d'autant meilleures (= plus justes grammaticalement)** qu'il est plus restrictif. Cela a d'ailleurs tendance à favoriser la création de phrases très simples pour éviter les erreurs !  
L'autre avantage du nucleus sampling est qu'il réduit le temps de traitement en ignorant certaines possibilités.

**Analyse quantitative des résultats** : 

La courbe d'apprentissage montre que la loss descend assez bas, jusqu'à 1, 1.1. Ce n'était pas le cas dans le TME précédent (même en comparant à 100 epochs, loss=1.2 vs 1.5 précédemment). C'est probablement dû à la baisse de la dimension de sortie pour l'embedding (60) qu'on gardait précédemment à la même taille que le vocabulaire (96).

![image.png](attachment:image.png)

Cependant, la loss stagne et ne diminue pas davantage, même 150 itérations après la centième.

#### ENTRAÎNEMENT EFFECTIF

Cette fois, on privilégie la justesse de l'apprentissage. On fera deux fois plus de mises à jour par epoch : la taille des batchs est fixée à 64. Pour bien évaluer l'impact de la mémoire courte des RNN, les séquences d'entraînement s'allongent pour atteindre 100 caractères. Voyons comment le modèle s'en sort.

In [9]:
# //////////////////////////////////////////////////////////////////////////////////////////////// <let's talk Trump> ////

trainModel(RNN,'RNN',maxlen=100,maxiter=300)

# /////////////////////////////////////////////////////////////////////////////////////////////// </let's talk Trump> ////


Generating the sequences...

/////////////////////////////// RNN-based generation using an embedding ///////////////////////////////



HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=300.0), HTML(value='')))


[1mTrying to generate new sentences[0m

...from known init strings (argmax)

[appl[92mause] They're state the people.|[0m
. [92mthe people.|[0m
The world [92mof the world.|[0m
A lot [92mof the world.|[0m
We w[92mill start the people.|[0m
$[92m800 and the world.|[0m
That's not [92mthe people.|[0m
I am [92mthe world.|[0m
Our [92mcountry.|[0m
Hi[92mllary Clinton could be a disaster.|[0m
It's[92m to be a disaster.|[0m
The U[92mnited States.|[0m
These[92m we will seen and the world.|[0m

...from empty strings (full sampling from the predicted distributions)

[92mar of unbelieves better deal.|[0m
[92m one of our country.|[0m
[92me and was beas has into their border America we are just was look.|[0m
[92m devalitaly, for are going to go 40 years very said "hans words: I the most.|[0m
[92me undell Mexico of the president.|[0m
[92mers.|[0m
[92mars.|[0m
[92me in Obaguzed of American now, they're lie.|[0m
[92mory tonigratting trulity.|[0m
[92mer infr

#### Analyse qualitative des résultats : comparaison avec la longueur 42

**En général** : Par rapport à la longueur 42, juste avec un argmax, les prédictions sont moins variées. Le modèle a l'air de se concentrer sur les mots communs utilisés par Trump. Cela dit, la présence du point empêche de se répéter à l'infini et d'avoir l'effet "disque rayé" comme au TME4.

**Impact sampling vs. argmax systématique** : Les phrases obtenues par sampling sont effectivement plus longues avec la longueur d'entraînement 100, et les mots sont plus compréhensibles, mais la sémantique n'est pas meilleure qu'auparavant.

**Impact du beam search** : Le beam search n'allonge pas du tout les phrases par rapport au run précédent : il est plus plausible que Trump prononce des phrases courtes. Par contre, elles comportent moins d'erreurs, **on a donc gagné en qualité avec ces séquences d'entraînement plus longues**.  
Le nucleus sampling n'apporte pas plus de diversité. A noter que l'on retombe sur la prédiction du beam search simple dans plusieurs cas. C'est peut-être parce que les phrases générées comme "We're going to deal" reflètent vraiment ce qui est le plus caractéristique de Trump selon le modèle.

**Analyse quantitative** :
On a perdu en termes de loss par rapport à la version maxlen=42 : elle converge plus haut, c'est le problème de la mémoire à court-terme. D'ailleurs, l'entraînement aurait pu être coupé à 200 itérations en raison de la stagnation observée autour de 1.2.

![image.png](attachment:image.png)

**Ce score servira de référence pour les modèles plus complexes essayés ci-dessous.**  

### Modèles à mémoire : GRU <a id="ggru">


**Entraîner les modèles pour 300 epochs prend cinq heures trente pour chacun. Cela restreint le nombre d'expériences envisageables.** Ces modèles sont plus complexes et le temps mis est normalement le prix d'une sortie plus expressive et plausible grammaticalement, y compris sur des séquences longues (100-200 caractères).

In [11]:
from tme5models import LSTM, GRU

Entre les deux, le GRU est le plus simple :

In [13]:
# //////////////////////////////////////////////////////////////////////////////////////////////// <let's talk Trump> ////

trainModel(GRU,'GRU',maxlen=100,maxiter=300)

# /////////////////////////////////////////////////////////////////////////////////////////////// </let's talk Trump> ////


Generating the sequences...

/////////////////////////////// GRU-based generation using an embedding ///////////////////////////////

Restarting from previous state.


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=297.0), HTML(value='')))


[1mTrying to generate new sentences[0m

...from known init strings (argmax)

[appl[92mause] Thank you.|[0m
. [92mAmerica again.|[0m
The world [92mis a lot of our country and the people of the way.|[0m
A lot [92mof our country and the people of the world.|[0m
We w[92mill be a lot of our country and the people of the way.|[0m
$[92m5 tride deals and for the way of life starting to do it.|[0m
That's not [92mthe people and the people of the world.|[0m
I am [92mgoing to be a lot of our country and the people of the way.|[0m
Our [92mcountry and the people of the world.|[0m
Hi[92mllary Clinton is the streets.|[0m
It's[92m a lot of our country and the people of the way, so many people.|[0m
The U[92mnited States are not the people of the way, so many people.|[0m
These[92m are the problems in the world.|[0m

...from empty strings (full sampling from the predicted distributions)

[92mets a crime and Chis choice.|[0m
[92m has said in our politicians officers.|[0m
[

**Analyse qualitative :** Certaines des générations sont très satisfaisantes.

![image.png](attachment:image.png)

                                                                        * issu d'un run antérieur

 Le modèle produit par exemple toujours des phrases motivantes après les applaudissements.  

**Même les phrases obtenues par sampling semblent un peu plus porteuses de sens. On dirait que le GRU est plus capable de détecter des corrélations sémantiques entre les parties des phrases.  
On se débarrasse également d'un certain nombre de fautes d'accord (plus de *going to happenED*, mais peut-être est-ce un hasard).**

Cependant, les phrases obtenues par argmax seul montrent toujours des signes de répétition ("the people of the way", ce qui n'a pas de sens) ; heureusement, le beam search permet de se débarrasser de ce genre de défauts.  
Plus l'on restreint le nucleus pour le nucleus sampling, plus les phrases sont représentatives et cohérentes, même si peu élaborées. Cela reste mieux et plus diversifié que ce qu'on avait pour le RNN.

**Analyse quantitative** : même s'il s'agit des mêmes paramètres que pour le RNN, la loss se stabilise beaucoup plus bas (autour de 1/0.9).

![image.png](attachment:image.png)

Nous constatons que ce gain en termes de loss a des effets directs sur la qualité de génération.
Par ailleurs, cette valeur de 1 est obtenue dès 50 itérations et change peu dans la suite de l'apprentissage : on a donc une convergence plutôt rapide.  

*Note : de très faibles variations dans la loss changent énormément l'output du modèle en termes de qualité. Les sorties affichées au bout de la 50ème itération sur divers essais étaient beaucoup plus basiques que celles que nous avons ici alors que la loss est à peu près la même.*

### Modèles à mémoire : LSTM <a id="lstm">

Les LSTM sont encore plus complexes que les GRU, car leurs cellules comportent en plus des états internes. Cela allonge le temps de calcul.

In [None]:
from tme5models import LSTM

In [28]:
# //////////////////////////////////////////////////////////////////////////////////////////////// <let's talk Trump> ////

trainModel(LSTM,'LSTM',maxlen=100,maxiter=300)

# /////////////////////////////////////////////////////////////////////////////////////////////// </let's talk Trump> ////


Generating the sequences...

/////////////////////////////// LSTM-based generation using an embedding ///////////////////////////////



HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=300.0), HTML(value='')))


[1mTrying to generate new sentences[0m

...from known init strings (argmax)

[appl[92mause] We will be a company of the people and the streets.|[0m
. [92mis is the streets.|[0m
The world [92mis a great support and replaced on the people and the streets.|[0m
A lot [92mof the country.|[0m
We w[92mill be a country.|[0m
$[92m50 percent of the United States.|[0m
That's not [92mthe place.|[0m
I am [92mgoing to be a vote that the crime is a big times.|[0m
Our [92mcountry like they're going to be a country.|[0m
Hi[92mllary Clinton wants to do that.|[0m
It's[92m the state of the country.|[0m
The U[92m.|[0m
These[92m are the streets.|[0m

...from empty strings (full sampling from the predicted distributions)

[92m3, they're see's congress.|[0m
[92man the Senate.|[0m
[92m, trul it.|[0m
[92m temrultry.|[0m
[92mwRLadyines madly A not entire starting force.|[0m
[92m.|[0m
[92ma wack a 40 Lintneating away to vote of everceder.|[0m
[92m we leave every smalle-

![image.png](attachment:image.png)

**Analyse qualitative :** les LSTM sont censées être encore meilleures pour la génération, et c'est bien le cas. Les répétitions qu'on observait pour RNN et GRU ne sont plus visibles pour les phrases produites par argmax. On a donc quelque chose de bien plus diversifié, et peu de fautes d'accord ; par contre, la sémantique des phrases n'est pas toujours optimale.

Le beam search restreint les possibilités... et met un point d'honneur à gagner l'élection : c'est en substance ce que veut dire Trump, donc ce n'est pas gênant.  
Petite note sur la génération récurrente de "The U" qui semble compromettre le reste dans le cas du nucleus sampling : ce peut être à cause du point qui suit souvent ce U dans "the U.S."

Par rapport à tout ce qui précède, les phrases obtenues avec la LSTM sont les plus complexes, même s'il y a quelques ratés.

![image.png](attachment:image.png)

**Analyse quantitative** : la loss ne descend pas plus bas que pour le GRU. La convergence est d'ailleurs plus lente (différence de complexité).

![image.png](attachment:image.png)

Un phénomène très important ici est le pic de loss qui apparaît au milieu de l'entraînement, et qu'il a fallu compenser. C'est potentiellement dû à l'explosion des gradients (ce qui se règle normalement par clipping). Il y a tant de paramètres dans les LSTM, il est compréhensible que leur entraînement sans mécanismes de régularisation soit aussi instable.

*Note : Il est arrivé que la loss du modèle rencontre ce genre de pic après plusieurs heures d'entraînement. Cela rendait les résultats inutilisables :*


![image.png](attachment:image.png)

### Comparaison finale : que choisir ? <a id="comp">


Pour confirmer les observations et éviter un entraînement trop long, on a finalement relancé RNN, GRU et LSTM sur des phrases relativement courtes. 

In [25]:
# //////////////////////////////////////////////////////////////////////////////////////////////// <let's talk Trump> ////

trainModel(RNN,'RNN',maxlen=42,maxiter=250,sbatch=64, epsilon=0.001)

# /////////////////////////////////////////////////////////////////////////////////////////////// </let's talk Trump> ////


Generating the sequences...

/////////////////////////////// RNN-based generation using an embedding ///////////////////////////////



HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=250.0), HTML(value='')))


[1mTrying to generate new sentences[0m

...from known init strings (argmax)

[appl[92mause] Thank you.|[0m
. [92mbillion in debt.|[0m
The world [92mTrump.|[0m
A lot [92mof the state.|[0m
We w[92mill be a disaster.|[0m
$[92m15 too.|[0m
That's not [92mgoing to happen.|[0m
I am [92mnot in and that was a big deal.|[0m
Our [92mcountry and more.|[0m
Hi[92mllary Clinton lie.|[0m
It's[92m a great place.|[0m
The U[92m.|[0m
These[92m are the stop the stupid people.|[0m

...from empty strings (full sampling from the predicted distributions)

[92mo talk, today atrid.|[0m
[92mo great job.|[0m
[92mate.|[0m
[92mate.|[0m
[92mate that Pay it", froty.|[0m
[92mive your cander.|[0m
[92me it.|[0m
[92meed to duest.|[0m
[92mealtys will Douthings in New Yored it was [0m
[92mo is.|[0m

...from empty strings again (sampling the first letter + argmax)

[92me was to do it.|[0m
[92might.|[0m
[92mates.|[0m
[92me was to do it.|[0m
[92me was to do it.|[0m
[9

In [26]:
# //////////////////////////////////////////////////////////////////////////////////////////////// <let's talk Trump> ////

trainModel(GRU,'GRU',maxlen=42,maxiter=250,sbatch=64, epsilon=0.001)

# /////////////////////////////////////////////////////////////////////////////////////////////// </let's talk Trump> ////


Generating the sequences...

/////////////////////////////// GRU-based generation using an embedding ///////////////////////////////



HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=250.0), HTML(value='')))


[1mTrying to generate new sentences[0m

...from known init strings (argmax)

[appl[92mause] Thank you.|[0m
. [92mBelow it all ago.|[0m
The world [92msecure.|[0m
A lot [92mof the borders.|[0m
We w[92mill make America strong again.|[0m
$[92m5 people.|[0m
That's not [92mit.|[0m
I am [92mso badly resunting to happen.|[0m
Our [92mcountry is not a lot of people.|[0m
Hi[92mllary Clinton state this contrices.|[0m
It's[92m a disaster.|[0m
The U[92m.|[0m
These[92m are the story.|[0m

...from empty strings (full sampling from the predicted distributions)

[92mort the only very isn's.|[0m
[92mget it.|[0m
[92mwall.|[0m
[92m that's not going to me.|[0m
[92moran's will.|[0m
[92motat hat." Again.|[0m
[92mrangers going to win in.|[0m
[92mon't have no.|[0m
[92mtimic down.|[0m
[92moment The never let this.|[0m

...from empty strings again (sampling the first letter + argmax)

[92mmint of the money? No.bl|[0m
[92m" And other is a great great that.|[0m


In [27]:
# //////////////////////////////////////////////////////////////////////////////////////////////// <let's talk Trump> ////

trainModel(LSTM,'LSTM',maxlen=42,maxiter=250,sbatch=64, epsilon=0.001)

# /////////////////////////////////////////////////////////////////////////////////////////////// </let's talk Trump> ////


Generating the sequences...

/////////////////////////////// LSTM-based generation using an embedding ///////////////////////////////



HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=250.0), HTML(value='')))


[1mTrying to generate new sentences[0m

...from known init strings (argmax)

[appl[92mause] Thank you.|[0m
. [92mshorence three new the breach.|[0m
The world [92mhas no change.|[0m
A lot [92mof them.|[0m
We w[92mill make America safe again.|[0m
$[92m1 talking.|[0m
That's not [92meven me a litely.|[0m
I am [92mfor Trump.|[0m
Our [92mcountry was nothing.|[0m
Hi[92mllary Clinton say that.|[0m
It's[92m a disaster.|[0m
The U[92m.dlyand that was.|[0m
These[92m are the cash.on, and we're going to them.[0m

...from empty strings (full sampling from the predicted distributions)

[92mcome on wears.|[0m
[92m% onaror Bill call I can about.|[0m
[92mestonefT, year repreign faie.|[0m
[92mpeosted look at this.|[0m
[92momen America First.|[0m
[92m- lass ThaDe A know.|[0m
[92m7 people.|[0m
[92mfaudict guys, they are good newa by uncies[0m
[92my one how to 4ate things.|[0m
[92migrst anymore.|[0m

...from empty strings again (sampling the first letter + arg

**Analyse quantitative** : la loss du RNN est plus élevée que celle des deux autres qui finissent à peu près au même score. La convergence n'est pas terminée pour la LSTM et elle est plus lente que pour le GRU. Ce serait prometteur pour continuer l'entraînement.

![image.png](attachment:image.png)

Quant à l'analyse qualitative, on la laissera à l'appréciation du lecteur.  


# Le mot de la fin <a id="tldr">

**Généralement, s'il fallait créer un avatar parlant de Trump, notre choix ne se porterait probablement pas sur un RNN mais plutôt sur un modèle à mémoire (LSTM ou GRU). Selon la complexité du discours voulu, on choisirait ensuite la fonction de génération.  
Faut-il aller au plus simple et au plus crédible ? nucleus sampling ; on aurait tendance à retrouver des phrases connues,  très vraisemblables.  
Veut-on essayer d'innover ? il faudrait peut-être entraîner le modèle plus avant, et fonctionner par argmax en espérant qu'il sera créatif.**