# Analyse des resultats des test de différentes structures de LSTM sur le dataset Cifar-10

### Informations 

&emsp;Dans ce notebook, nous allons analyser les resultats obtenus sur les tests de différentes structures et hyperparametres de LSTM. Nous avons mené des tests pour des modèles de tailles variant entre 3 et 9 couches cahchées (le modèle à 9 couches étant le plus gros qu'on ai pu tester avec 6h de temps de train par modèle), en plus des différentes couches qu'on aurait ajouté pour étudier leurs effet (Maxpool, dropout etc..)

## Preparation des outils

In [1]:
import pandas as pd
from IPython.display import display
import numpy as np
from PIL import Image

pd.set_option('display.max_columns', None)

# --------------------------------------------------------------------------------------------------------------

# LSTM Sans régularisation

### Tests réalisés :
&emsp;Pour ces premiers tests, nous avons testé des modèles constitués de la manière suivante:
        - Tailles de 3 à 9 couches cachées
        - Tests avec un nombre d'epochs fixe (500 epochs)
        - Pas de régularisation
        - Sigmoid comme acivation des reccurences, Tanh pour les couches cachées et Softmax pour l'output (On n'a pas eu le temps de tester d'autres fonctions)  
        
&emsp;Nous avons ensuite enregistré les résultats obtenus dans des fichiers CSV, en plus des logs générés par tensorflow, pour étudier les résultats obtenus.
    
&emsp;Nous allons donc charger ces statistiques et voir ce que ce genre de modèles peut donner sur le Dataset

# modèles avec une mémoire à 32 unités

## Chargement des résultats obtenus :

In [2]:
root_csv_folder = "..\\historique_tests\\"

results_lstm_32 = pd.read_csv("{}tested_lstm_32_units_history.csv".format(root_csv_folder), sep=";")
results_lstm_32 = results_lstm_32.sort_values("accuracy_val",ascending=False)

#### Affichage et premiere analyse des résultats :

In [3]:
display(results_lstm_32)

Unnamed: 0,nb_couches,units,activation_couches,activation_recurrence,activation_output,dropout_value,recurrent_dropout_value,kernel_regulizer,reccurent_regulizer,output_regulizer,l1_value,l2_value,loss,optimizer,metrics,epochs,model_id,accuracy_train,accuracy_val,dossier
1,3,32,tanh,sigmoid,softmax,0.0,0.0,,,,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,500,384883,0.74528,0.5592,20200202
0,3,32,tanh,sigmoid,softmax,0.0,0.0,,,,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,500,5404520,0.7289,0.5561,20200202
2,3,32,tanh,sigmoid,softmax,0.0,0.0,,,,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,500,739168,0.72784,0.537,20200202
3,5,32,tanh,sigmoid,softmax,0.0,0.0,,,,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,500,1588234,0.8123,0.5164,20200203
4,5,32,tanh,sigmoid,softmax,0.0,0.0,,,,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,500,7196124,0.8489,0.5125,20200203
5,5,32,tanh,sigmoid,softmax,0.0,0.0,,,,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,500,2905330,0.827,0.5022,20200203


##### Premières Constatations:
&emsp;Pour ce premiers tests, nous avons entrainé des modèles à 3 couches puis à 5 couches avec les mêmes hyper paramètres.

&emsp;La première constatation qu'on peut faire, c'est que le modèle a 5 couches performe moins bien que le modèle à 3 couches en train. Ce qui indique que plus le modèle est grand, plus il demande de mémoire (units).
    
&emsp;Ensuite, même avec un très grand nombre d'epochs, notre modèle a un peu de mal même en train.

&emsp;Et enfin, on voit que les résultats en validation ne sont pas non plus interéssants.

Nous allons donc essayer de lancer des modèles avec plus de mémoire, tout en baissant le nombre d'epochs pour gagner en temps de calcul (en comptant sur l'augmentation de la mémoire pour améliorer les résultats).

# modèles avec une mémoire à 128 unités

## Chargement des résultats obtenus :

In [4]:
root_csv_folder = "..\\historique_tests\\"

results_lstm_128 = pd.read_csv("{}tested_new_lstm_128_history.csv".format(root_csv_folder), sep=";")
results_lstm_128 = results_lstm_128.sort_values("accuracy_val",ascending=False)

#### Affichage et premiere analyse des résultats :

In [5]:
display(results_lstm_128)

Unnamed: 0,nb_couches,units,activation_couches,activation_recurrence,activation_output,dropout_value,recurrent_dropout_value,kernel_regulizer,reccurent_regulizer,output_regulizer,l1_value,l2_value,loss,optimizer,metrics,epochs,model_id,accuracy_train,accuracy_val,dossier
1,3,128,tanh,sigmoid,softmax,0.0,0.0,NoneType,NoneType,NoneType,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,5753647,0.94234,0.5755,20200208
0,3,128,tanh,sigmoid,softmax,0.0,0.0,NoneType,NoneType,NoneType,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,5300426,0.96454,0.5744,20200208
2,3,128,tanh,sigmoid,softmax,0.0,0.0,NoneType,NoneType,NoneType,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,8869017,0.94272,0.5713,20200208


##### Analyses et Constatations :

&emsp;Pour cette autre vague de tests, nous avons testé le modèle à 3 couches cachées en l’entraînant sur 60 epochs car nous avons remarqué qu’il commence à overfitter très rapidement (dès la 40 itération).

&emsp;On voit que malgré le nombre d'epochs beaucoup plus bas, les résultats sur le train a explosé pour atteindre 95% contre 84% obtenus dans les tests précédents. De plus, le résultat sur la validation a augmenté de 6% pour atteindre 57%.

&emsp;Ces résultats sur le train et la validation montrent un overfitt très grand sur ces modèles. Les prochains tests auront pour but d’essayer de trouver le meilleur moyen d’obtenir de meilleurs résultats sur la validation tout en diminuant l'overfitting. Nous allons donc essayer des techniques de régularisation.


# --------------------------------------------------------------------------------------------------------------

# LSTM avec régularisation

##### &emsp;Pour ces tests, nous aller utiliser différentes techniques de régularisation pour voir leur effet. Par contrainte de temps, nous allons concentrer les tests sur les modèles à 3 couches (les plus petits) pour étudier leurs effets, puis une fois qu'on a identifié les meilleurs techniques, on essaiera de les appliquer à de plus fros modèles si nécessaire.  

## I) Dropout :

#### &emsp;Valeur de 0.2, 0.4, 0.6

## Chargement des résultats obtenus :

In [6]:
root_csv_folder = "..\\historique_tests\\"

results_lstm_128_drp = pd.read_csv("{}tested_new_lstm_128_drp_history.csv".format(root_csv_folder), sep=";")
results_lstm_128_drp = results_lstm_128_drp.sort_values("accuracy_val",ascending=False)

#### Affichage et premiere analyse des résultats :

In [7]:
display(results_lstm_128_drp)

Unnamed: 0,nb_couches,units,activation_couches,activation_recurrence,activation_output,dropout_value,recurrent_dropout_value,kernel_regulizer,reccurent_regulizer,output_regulizer,l1_value,l2_value,loss,optimizer,metrics,epochs,model_id,accuracy_train,accuracy_val,dossier
0,3,128,tanh,sigmoid,softmax,0.2,0.0,NoneType,NoneType,NoneType,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,9277345,0.7214,0.5356,20200208
1,3,128,tanh,sigmoid,softmax,0.4,0.0,NoneType,NoneType,NoneType,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,6698589,0.58088,0.489,20200208
2,3,128,tanh,sigmoid,softmax,0.6,0.0,NoneType,NoneType,NoneType,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,5223427,0.40504,0.3813,20200208


In [8]:
display(results_lstm_128_drp[["nb_couches", "dropout_value", "epochs", "accuracy_train", "accuracy_val"]])

Unnamed: 0,nb_couches,dropout_value,epochs,accuracy_train,accuracy_val
0,3,0.2,60,0.7214,0.5356
1,3,0.4,60,0.58088,0.489
2,3,0.6,60,0.40504,0.3813


##### Analyses et Constatations :
&emsp;On remarque tout de suite que cette régularisation règle bien le problème d’overfitting, cependant elle pénalise beaucoup trop notre modèle et nos résultats en validation sont beaucoup trop bas. Cependant, nous allons vérifier les logs du train pour voir si les modèles n’overfittent pas.


![Dropout Results](courbe_lstm_drp.png)

&emsp;Ces courbes nous montre clairement que nos modèles n’overfittent pas. Ce qui nous fait penser que la technique de régularisation par dropout n’est pas très intéressante dans notre cas, car elle pénalise trop notre modèle sans améliorer les résultats. Nous n’allons donc pas nous en servir pour le moment.


## II) Recurrent Dropout :

#### &emsp;Valeur de 0.3, 0.5, 0.7

## Chargement des résultats obtenus :

In [9]:
root_csv_folder = "..\\historique_tests\\"

results_lstm_128_rdrp = pd.read_csv("{}tested_new_lstm_128_rdrp_history.csv".format(root_csv_folder), sep=";")
results_lstm_128_rdrp = results_lstm_128_rdrp.sort_values("accuracy_val",ascending=False)

#### Affichage et premiere analyse des résultats :

In [10]:
display(results_lstm_128_rdrp)

Unnamed: 0,nb_couches,units,activation_couches,activation_recurrence,activation_output,dropout_value,recurrent_dropout_value,kernel_regulizer,reccurent_regulizer,output_regulizer,l1_value,l2_value,loss,optimizer,metrics,epochs,model_id,accuracy_train,accuracy_val,dossier
1,3,128,tanh,sigmoid,softmax,0.0,0.5,NoneType,NoneType,NoneType,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,9124845,0.7831,0.6268,20200208
0,3,128,tanh,sigmoid,softmax,0.0,0.3,NoneType,NoneType,NoneType,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,9087971,0.8309,0.6243,20200208
2,3,128,tanh,sigmoid,softmax,0.0,0.7,NoneType,NoneType,NoneType,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,2531296,0.73958,0.6183,20200208


In [11]:
display(results_lstm_128_rdrp[["nb_couches", "recurrent_dropout_value", "epochs", "accuracy_train", "accuracy_val"]])

Unnamed: 0,nb_couches,recurrent_dropout_value,epochs,accuracy_train,accuracy_val
1,3,0.5,60,0.7831,0.6268
0,3,0.3,60,0.8309,0.6243
2,3,0.7,60,0.73958,0.6183


##### Analyses et Constatations :
&emsp;On voit tout de suite que cette technique est efficace, étant donné qu’on gagne près de 6 points en passant de 57% à près de 63%. On voit aussi que la valeur la plus intéressante est 0.5, étant donné qu’en validation c’est celle qui a le meilleur résultats en validation. Cependant, le modèle overfit toujours comme le montrent les logs qui suivent. Nous allons donc essayer de la combiner plus tard à d’autres techniques de régularisation, ou encore augmenter la valeur de dropout.

![Dropout Results](courbe_lstm_rdrp.png)

## III) L2 sur les couches cachées et output :

#### &emsp;Valeur de 0.001, 0.01, 0.1

## Chargement des résultats obtenus :

In [12]:
root_csv_folder = "..\\historique_tests\\"

results_lstm_128_l2_o = pd.read_csv("{}tested_new_lstm_128_l2_o_history.csv".format(root_csv_folder), sep=";")
results_lstm_128_l2_o = results_lstm_128_l2_o.sort_values("accuracy_val",ascending=False)

#### Affichage et premiere analyse des résultats :

In [13]:
display(results_lstm_128_l2_o)

Unnamed: 0,nb_couches,units,activation_couches,activation_recurrence,activation_output,dropout_value,recurrent_dropout_value,kernel_regulizer,reccurent_regulizer,output_regulizer,l1_value,l2_value,loss,optimizer,metrics,epochs,model_id,accuracy_train,accuracy_val,dossier
0,3,128,tanh,sigmoid,softmax,0.0,0.0,L1L2,NoneType,L1L2,0.0,0.001,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,8632026,0.8259,0.5662,20200208
1,3,128,tanh,sigmoid,softmax,0.0,0.0,L1L2,NoneType,L1L2,0.0,0.01,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,7416366,0.5727,0.5256,20200208
2,3,128,tanh,sigmoid,softmax,0.0,0.0,L1L2,NoneType,L1L2,0.0,0.1,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,8224606,0.435,0.4326,20200208


In [14]:
display(results_lstm_128_l2_o[["nb_couches", "kernel_regulizer", "output_regulizer", "l2_value", "epochs", "accuracy_train", "accuracy_val"]])

Unnamed: 0,nb_couches,kernel_regulizer,output_regulizer,l2_value,epochs,accuracy_train,accuracy_val
0,3,L1L2,L1L2,0.001,60,0.8259,0.5662
1,3,L1L2,L1L2,0.01,60,0.5727,0.5256
2,3,L1L2,L1L2,0.1,60,0.435,0.4326


##### Analyses et Constatations :
&emsp;Nous voyons clairement qu’à défaut d’améliorer les résultats du modèles, elle les diminue. Nous allons quand même vérifier les logs au cas où.

![Dropout Results](courbe_lstm_l2_o.png)

&emsp;Les logs montrent confirment notre intuition: avec une l2 à 0.001, le modèle overfitte et la l’accuracy sur la validation n’est pas intéressante, et en utilisant de plus grandes valeurs (0.01 ou 0.1), le modèle underfitte. Cependant, nous allons peut-etre voir ce que cela donne sur les plus gros modèles que nous allons tester.


## IV) L2 sur les couches cachées :

#### &emsp;Valeur de 0.001, 0.03, 0.1

## Chargement des résultats obtenus :

In [15]:
root_csv_folder = "..\\historique_tests\\"

results_lstm_128_l2 = pd.read_csv("{}tested_new_lstm_128_l2_history.csv".format(root_csv_folder), sep=";")
results_lstm_128_l2 = results_lstm_128_l2.sort_values("accuracy_val",ascending=False)

#### Affichage et premiere analyse des résultats :

In [16]:
display(results_lstm_128_l2)

Unnamed: 0,nb_couches,units,activation_couches,activation_recurrence,activation_output,dropout_value,recurrent_dropout_value,kernel_regulizer,reccurent_regulizer,output_regulizer,l1_value,l2_value,loss,optimizer,metrics,epochs,model_id,accuracy_train,accuracy_val,dossier
0,3,128,tanh,sigmoid,softmax,0.0,0.0,L1L2,NoneType,NoneType,0.0,0.001,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,524556,0.7961,0.5579,20200208
1,3,128,tanh,sigmoid,softmax,0.0,0.0,L1L2,NoneType,NoneType,0.0,0.03,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,6904826,0.47998,0.4535,20200208
2,3,128,tanh,sigmoid,softmax,0.0,0.0,L1L2,NoneType,NoneType,0.0,0.1,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,3854695,0.3779,0.3736,20200208


In [17]:
display(results_lstm_128_l2[["nb_couches", "kernel_regulizer", "l2_value", "epochs", "accuracy_train", "accuracy_val"]])

Unnamed: 0,nb_couches,kernel_regulizer,l2_value,epochs,accuracy_train,accuracy_val
0,3,L1L2,0.001,60,0.7961,0.5579
1,3,L1L2,0.03,60,0.47998,0.4535
2,3,L1L2,0.1,60,0.3779,0.3736


##### Analyses et Constatations :
&emsp;Tout comme pour le test précédent, les résultats ne sont pas très intéressants. Nous allons donc, pour l’instant, nous passer de ces deux techniques.

## V) Recurrent L2 :

#### &emsp;Valeur de 0.001, 0.02, 0.1

## Chargement des résultats obtenus :

In [18]:
root_csv_folder = "..\\historique_tests\\"

results_lstm_128_rl2 = pd.read_csv("{}tested_new_lstm_128_rl2_history.csv".format(root_csv_folder), sep=";")
results_lstm_128_rl2 = results_lstm_128_rl2.sort_values("accuracy_val",ascending=False)

#### Affichage et premiere analyse des résultats :

In [19]:
display(results_lstm_128_rl2)

Unnamed: 0,nb_couches,units,activation_couches,activation_recurrence,activation_output,dropout_value,recurrent_dropout_value,kernel_regulizer,reccurent_regulizer,output_regulizer,l1_value,l2_value,loss,optimizer,metrics,epochs,model_id,accuracy_train,accuracy_val,dossier
0,3,128,tanh,sigmoid,softmax,0.0,0.0,NoneType,L1L2,NoneType,0.0,0.001,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,6449189,0.87014,0.5672,20200208
1,3,128,tanh,sigmoid,softmax,0.0,0.0,NoneType,L1L2,NoneType,0.0,0.02,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,2554842,0.77494,0.5666,20200208
2,3,128,tanh,sigmoid,softmax,0.0,0.0,NoneType,L1L2,NoneType,0.0,0.1,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,2924504,0.78124,0.5646,20200208


In [20]:
display(results_lstm_128_rl2[["nb_couches", "reccurent_regulizer", "l2_value", "epochs", "accuracy_train", "accuracy_val"]])

Unnamed: 0,nb_couches,reccurent_regulizer,l2_value,epochs,accuracy_train,accuracy_val
0,3,L1L2,0.001,60,0.87014,0.5672
1,3,L1L2,0.02,60,0.77494,0.5666
2,3,L1L2,0.1,60,0.78124,0.5646


##### Analyses et Constatations :
&emsp;Il apparaît clairement que cette technique n’a pas beaucoup d’incidence sur le résultat en validation. Par contre, Elle peut tout à fait service à équilibrer les résultats entre le train et la validation. Nous allons la combiner à la Recurrent Dropout un peu plus tard.

## VI) Recurrent L1 :

#### &emsp;Valeur de 0.001, 0.01, 0.1

## Chargement des résultats obtenus :

In [21]:
root_csv_folder = "..\\historique_tests\\"

results_lstm_128_rl1 = pd.read_csv("{}tested_new_lstm_128_rl1_history.csv".format(root_csv_folder), sep=";")
results_lstm_128_rl1 = results_lstm_128_rl1.sort_values("accuracy_val",ascending=False)

#### Affichage et premiere analyse des résultats :

In [22]:
display(results_lstm_128_rl1)

Unnamed: 0,nb_couches,units,activation_couches,activation_recurrence,activation_output,dropout_value,recurrent_dropout_value,kernel_regulizer,reccurent_regulizer,output_regulizer,l1_value,l2_value,loss,optimizer,metrics,epochs,model_id,accuracy_train,accuracy_val,dossier
1,3,128,tanh,sigmoid,softmax,0.0,0.0,NoneType,L1L2,NoneType,0.01,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,7768141,0.79866,0.5829,20200208
0,3,128,tanh,sigmoid,softmax,0.0,0.0,NoneType,L1L2,NoneType,0.001,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,7988411,0.77922,0.57,20200208
2,3,128,tanh,sigmoid,softmax,0.0,0.0,NoneType,L1L2,NoneType,0.1,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,1847227,0.75922,0.5697,20200208


In [23]:
display(results_lstm_128_rl1[["nb_couches", "reccurent_regulizer", "l1_value", "epochs", "accuracy_train", "accuracy_val"]])

Unnamed: 0,nb_couches,reccurent_regulizer,l1_value,epochs,accuracy_train,accuracy_val
1,3,L1L2,0.01,60,0.79866,0.5829
0,3,L1L2,0.001,60,0.77922,0.57
2,3,L1L2,0.1,60,0.75922,0.5697


##### Analyses et Constatations :
&emsp;On peut faire le même constat que pour la Recurrent L2: il n’y a pas beaucoup d’effet sur l’accuracy en validation (même si c’est un peu mieux que la précédente), cependant et pénalise le modèle sur le train, et ce, bien plus violemment que la précédentes technique. Nous allons essayer de la combiner à la Recurrent Dropout et étudier le résultat.

## VII) Recurrent Dropout + Recurrent L1 :

#### &emsp;Valeur de Recurrent Dropout : 0.5, 0.6 
#### &emsp;Valeur L1 : 0.001, 0.01, 0.1

## Chargement des résultats obtenus :

In [24]:
root_csv_folder = "..\\historique_tests\\"

results_lstm_128_rdl1 = pd.read_csv("{}tested_new_lstm_128_rdl1_history.csv".format(root_csv_folder), sep=";")
results_lstm_128_rdl1 = results_lstm_128_rdl1.sort_values("accuracy_val",ascending=False)

#### Affichage et premiere analyse des résultats :

In [25]:
display(results_lstm_128_rdl1)

Unnamed: 0,nb_couches,units,activation_couches,activation_recurrence,activation_output,dropout_value,recurrent_dropout_value,kernel_regulizer,reccurent_regulizer,output_regulizer,l1_value,l2_value,loss,optimizer,metrics,epochs,model_id,accuracy_train,accuracy_val,dossier
2,3,128,tanh,sigmoid,softmax,0.0,0.5,NoneType,L1L2,NoneType,0.01,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,7885972,0.78278,0.583,20200208
3,3,128,tanh,sigmoid,softmax,0.0,0.6,NoneType,L1L2,NoneType,0.01,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,9159566,0.77164,0.5771,20200208
1,3,128,tanh,sigmoid,softmax,0.0,0.6,NoneType,L1L2,NoneType,0.001,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,4887551,0.76084,0.5742,20200208
0,3,128,tanh,sigmoid,softmax,0.0,0.5,NoneType,L1L2,NoneType,0.001,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,6807138,0.77194,0.5697,20200208


In [26]:
display(results_lstm_128_rdl1[["nb_couches", "recurrent_dropout_value", "reccurent_regulizer", "l1_value", "epochs", "accuracy_train", "accuracy_val"]])

Unnamed: 0,nb_couches,recurrent_dropout_value,reccurent_regulizer,l1_value,epochs,accuracy_train,accuracy_val
2,3,0.5,L1L2,0.01,60,0.78278,0.583
3,3,0.6,L1L2,0.01,60,0.77164,0.5771
1,3,0.6,L1L2,0.001,60,0.76084,0.5742
0,3,0.5,L1L2,0.001,60,0.77194,0.5697


##### Analyses et Constatations :
&emsp;On voit ici qu’il n’y a aucune différence comparé au même modèle avec seulement des Recurrent L1. Cette combinaison ne représente donc pas beaucoup d’intérêt.

## VIII) Modèles à 5, 7 et 9 couches avec Recurrent Dropout :

#### &emsp;Valeur de Recurrent Dropout : 0.5

## Chargement des résultats obtenus :

In [27]:
root_csv_folder = "..\\historique_tests\\"

results_lstm_128_579_rd = pd.read_csv("{}tested_new_lstm_128L_rd2_history.csv".format(root_csv_folder), sep=";")
results_lstm_128_579_rd = results_lstm_128_579_rd.sort_values("accuracy_val",ascending=False)

#### Affichage et premiere analyse des résultats :

In [28]:
display(results_lstm_128_579_rd)

Unnamed: 0,nb_couches,units,activation_couches,activation_recurrence,activation_output,dropout_value,recurrent_dropout_value,kernel_regulizer,reccurent_regulizer,output_regulizer,l1_value,l2_value,loss,optimizer,metrics,epochs,model_id,accuracy_train,accuracy_val,dossier
0,5,128,tanh,sigmoid,softmax,0.0,0.5,NoneType,NoneType,NoneType,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,535581,0.80598,0.6194,20200209
1,7,128,tanh,sigmoid,softmax,0.0,0.5,NoneType,NoneType,NoneType,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,6874820,0.73312,0.5986,20200209
2,9,128,tanh,sigmoid,softmax,0.0,0.5,NoneType,NoneType,NoneType,0.0,0.0,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,3512867,0.625,0.5463,20200209


In [29]:
display(results_lstm_128_579_rd[["nb_couches", "recurrent_dropout_value", "epochs", "accuracy_train", "accuracy_val"]])

Unnamed: 0,nb_couches,recurrent_dropout_value,epochs,accuracy_train,accuracy_val
0,5,0.5,60,0.80598,0.6194
1,7,0.5,60,0.73312,0.5986
2,9,0.5,60,0.625,0.5463


##### Analyses et Constatations :
&emsp;Comme on le voit ici, les résultats sont très décevants. Même avec de plus gros modèles on n'arrive pas à dépasser les 62%. De plus, on a toujours tendance à overfitter même en utilisant une recurrent dropout à 0.5. Voici les logs des entrainement :

![Courbe entrainement lstm 5 7 et 9 couches](courbe_lstm_579_rdrp.png)

&emsp;On voit clairement qu'il y a de l'overfitting sur les modèles à 5 et 7 couches, mais un peu moins sur le modèle à 9 couches. Cependant, à cause d'un manque de temps, nous n'avons pas pu le tester avec un plus grand nombre d'epochs.

## IX) Modèles à 7 couches Recurrent L2 :

&emsp;Etant donné les derniers résultats obtenus, nous avons essayé de reprendre le modèle à 7 couches précédent, en utilisant une autre régularisation: une Recurrent L2 à 0.01 puis 0.1. 

#### &emsp;Valeur de Recurrent L2 : 0.05, 0.1

## Chargement des résultats obtenus :

In [30]:
root_csv_folder = "..\\historique_tests\\"

results_lstm_128_7_rl2 = pd.read_csv("{}tested_new_lstm_128L_rdl2_history.csv".format(root_csv_folder), sep=";")
results_lstm_128_7_rl2 = results_lstm_128_7_rl2.sort_values("accuracy_val",ascending=False)

#### Affichage et premiere analyse des résultats :

In [31]:
display(results_lstm_128_7_rl2)

Unnamed: 0,nb_couches,units,activation_couches,activation_recurrence,activation_output,dropout_value,recurrent_dropout_value,kernel_regulizer,reccurent_regulizer,output_regulizer,l1_value,l2_value,loss,optimizer,metrics,epochs,model_id,accuracy_train,accuracy_val,dossier
0,7,128,tanh,sigmoid,softmax,0.0,0.0,NoneType,L1L2,NoneType,0.0,0.05,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,7740785,0.8613,0.5278,20200209


In [32]:
display(results_lstm_128_7_rl2[["nb_couches", "reccurent_regulizer", "l2_value", "epochs", "accuracy_train", "accuracy_val"]])

Unnamed: 0,nb_couches,reccurent_regulizer,l2_value,epochs,accuracy_train,accuracy_val
0,7,L1L2,0.05,60,0.8613,0.5278


##### Analyses et Constatations :
&emsp;Ici aussi, le résultats ne sont pas très intéressants. Une accuracy en validation en baisse avec toujours beaucoup d'overfitting. 

## X) Modèles à 5 couches avec Recurrent L2 et Recurrent Dropout :

&emsp;Lors de ce dernier test, nous allons essayer de voir si le couple Recurrent L2/Recurrent Dropout peut nous aider à améliorer nos performances.

#### &emsp;Valeur de Recurrent L2 : 0.05
#### &emsp;Valeur de Recurrent Dropout : 0.5

## Chargement des résultats obtenus :

In [33]:
root_csv_folder = "..\\historique_tests\\"

results_lstm_128_5_rdl2 = pd.read_csv("{}tested_new_lstm_1285_rdl2_history.csv".format(root_csv_folder), sep=";")
results_lstm_128_5_rdl2 = results_lstm_128_5_rdl2.sort_values("accuracy_val",ascending=False)

#### Affichage et premiere analyse des résultats :

In [34]:
display(results_lstm_128_5_rdl2)

Unnamed: 0,nb_couches,units,activation_couches,activation_recurrence,activation_output,dropout_value,recurrent_dropout_value,kernel_regulizer,reccurent_regulizer,output_regulizer,l1_value,l2_value,loss,optimizer,metrics,epochs,model_id,accuracy_train,accuracy_val,dossier
0,5,128,tanh,sigmoid,softmax,0.0,0.5,NoneType,L1L2,NoneType,0.0,0.05,sparse_categorical_crossentropy,Adam,sparse_categorical_accuracy,60,123285,0.90794,0.5513,20200209


In [35]:
display(results_lstm_128_5_rdl2[["nb_couches", "recurrent_dropout_value", "reccurent_regulizer", "l2_value", "epochs", "accuracy_train", "accuracy_val"]])

Unnamed: 0,nb_couches,recurrent_dropout_value,reccurent_regulizer,l2_value,epochs,accuracy_train,accuracy_val
0,5,0.5,L1L2,0.05,60,0.90794,0.5513


##### Analyses et Constatations :
&emsp;Les résultats de ce tests aussi ne sont pas intéressant ! Même en combinant les deux technique on a toujours beaucoup d'overfitting et une accuracy sur la validation beaucoup trop basse. 

Log :

![log lstù 5 couches rdl2](log_lstm_5_rdl2.png)

# ---------------------------------------------------------------------------------------------------------

# Conclusion LSTM :


###### &emsp;Nous aimerions tester des régularisations plus pénalisantes sur les gros modèles pour régler ce problème, cependant, nous manquons de temps pour lancer ces tests: l'entrainement de ces modèles prends trop de temps, mais aussi, quand on essaye d'appliquer plus de régularisation, nos modèles crashent souvent.

###### &emsp;Nous allons donc repartir sur le modèle à 3 couches qui a été le plus performant (63%).

# ---------------------------------------------------------------------------------------------------------