# TP Programmation avec Keras - Cas MNIST

Nous allons produire un réseau de neurones pour effectuer une classification sur le cas MNIST avec les bibliothèques keras/tensorflow. MNIST est une base de données composée d'images de chiffres.

Ce TP se fera en plusieurs étapes. Dans un premier temps, nous mettrons en place un réseau de neurones simple (fully-connected), sans procédure de régularisation particulière. Puis, nous ajouterons de la régularisation et un jeu de validation, pour essayer d'améliorer les performances de généralisation. Enfin, nous mettrons en place un réseau de neurones de convolution.

Dans ce TP, des cellules seront laissées à trous, il faudra les compléter suivant les consignes. Elles seront identifiées par le mot **Exercice**. Les **Vérifications** seront effectuées principalement par vous-mêmes, sur la bonne convergence des algorithmes ou leur bon fonctionnement.

Ci-dessous, on importe les bibliothèques qui seront utiles.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import tensorflow.keras as keras

## Mise en place des données

Le code ci-dessous charge les données MNIST.

In [None]:
#NE PAS MODIFIER

(X_train, Y_train), (X_test, Y_test) = keras.datasets.mnist.load_data()

**Exercice** : Avec plt.imshow, regardez à quoi ressemble les données de X_train.

In [None]:
#A COMPLETER

**Vérification** : Des images de chiffres doivent apparaître.

**Exercice** : Regardez les dimensions des données d'entrée, celle des données de sortie. Affichez aussi sous forme d'un tableau les données d'entrées du premier exemples ainsi que les 15 premières données de sortie.

In [None]:
#A COMPLETER

### Mise en forme des données d'entrée

**Exercice** : Vous constatez que les données d'entrée sont composées de tableaux de nombres compris entre 0 et 255. Ce sont des nombres relativement grand pour un réseau de neurones, qui peuvent créer des instabilités numériques lors des calculs des gradients. Pour éviter ces instabilités numériques, il convient d'avoir des nombres de l'ordre de l'unité.
Pour ce faire, on va simplement normaliser les données en les divisant par 255, valeur maximale des pixels. Faites-le ci-dessous pour X_train et X_test.

In [None]:
X_train = #A COMPLETER

X_test = #A COMPLETER

### Mise en forme des données de sortie

**Exercice** : Vous constaterez aussi que les données de sortie correspondent au chiffre de l'image (nombre en 0 et 9). Pour effectuer une classification, il faut en fait des classes binaires, dont la valeur est 0 ou 1, avec le nombre de classes attendu. Par exemple, le chiffre 5 sera encodé par le vecteur [0,0,0,0,0,1,0,0,0,0].

Pour ce faire, vous pouvez utiliser la fonction de keras keras.utils.to_categorical, en indiquant le vecteur à traiter, ainsi que le nombre de classes avec le mot-clé num-classes. Faites-le pour Y_train et Y_test.

In [None]:
Y_train_cat = #A COMPLETER

Y_test_cat = #A COMPLETER

## Modèle Keras simple

### Création du modèle

**Exercice** : Créez un modèle avec Keras que vous appellerez "my_model".

**Instructions spécifiques** : 
- La première couche doit être Flatten avec un input_shape qui correspond à la dimension des données d'entrée. Cette couche permet seulement d'applatir les données en un vecteur : un réseau de type Multilayer Perceptron s'applique en effet à des vecteurs. Il n'y a pas besoin de préciser d'autre variable que les dimensions d'entrée.
- On effectue une classification exclusive, il n'y a qu'un seul chiffre affiché : la dernière couche doit faire intervenir la fonction softmax. Mettez aussi le bon nombre de neurones en sortie.
- Pour le reste, mettez 2 ou 3 couches intermédiaires, une centaine de neurones, une fonction d'activation relu. Vous êtes assez libres !

In [None]:
#A COMPLETER

**Exercice** : Affichez la structure de votre modèle avec my_model.summary()

In [None]:
#A COMPLETER

**Vérification** : Pour l'instant, il suffit qu'il n'y ait pas d'erreur.

### Compilation du modèle

**Exercice** : Compilez le modèle avec l'optimizer que vous souhaitez.

**Instructions spécifiques** :
- Pour la loss function, nous faisons une classification exclusive, la "categorical_crossentropy" pourra être utilisée comme loss function.
- Pour la métrique, ce sera "categorical_accuracy"

In [None]:
#A COMPLETER

**Vérification** : De nouveau, s'il n'y a pas d'erreur et que vous avez suivi les instructions, tout devrait bien se passer.

### L'apprentissage

**Exercice** : Il faut maintenant effectuer l'apprentissage. Attention à bien utiliser Y_train_cat comme donnée de sortie. Stockez l'historique de votre entraînement dans une variable pour pouvoir ensuite afficher l'évolution de la fonction de coût et de l'accuracy.

In [None]:
#A COMPLETER

**Vérification** : La loss function devrait diminuer et l'accuracy augmenter.

**Exercice** : Tracez l'évolution de la fonction de coût et de l'accuracy.

In [None]:
#A COMPLETER

### Prédictions avec le modèle

**Exercice** : Effectuez la prédiction sur le jeu de test.

In [None]:
#A COMPLETER

**Exercice** : Extrayez les labels prédits par votre réseau, qui correspondent aux classes avec la plus grande probabilité. La fonction np.argmax vous sera utile, à appliquer sur le bon "axis".

In [None]:
#A COMPLETER

**Exercice** : Calculez l'accuracy sur le jeu de test.

In [None]:
#A COMPLETER

Le code ci-dessous vous permet de visualiser quelques résultats pris au hasard sur la base de test.

In [None]:
r = np.random.randint(X_test.shape[0])

figure = plt.figure(figsize = (16,9))

ax1 = plt.subplot(121)
ax1.imshow(X_test[r,:,:],cmap = "hot")
plt.title("Prédiction du réseau : " + str(Y_test_pred_lab[r]) + "\n Vraie valeur : " + str(Y_test[r]))

ax2 = plt.subplot(122)
ax2.bar(np.arange(10),height = Y_pred_test[r],tick_label = np.arange(10))
plt.xlabel("Valeur")
plt.ylabel("Output du réseau")


**Exercice** : Réutilisez le code d'affichage ci-dessus, mais pour afficher aléatoirement des erreurs. La fonction np.where vous sera utile pour localiser les erreurs.

In [None]:
#A COMPLETER

## Modèle Keras avec régularisation

Nous allons mettre en place ici des fonctionnalités un peu plus avancées, liées à la régularisation, batchnormalisation, au jeu de validation, early stopping...

### Création du modèle avec régularisation

**Exercice** : Créez un modèle avec Keras que vous appellerez "my_model".

**Instructions spécifiques** : 
- La première couche doit être Flatten en mettant le bon input_shape
- Faites attention à la dernière couche (nombre de neurones, fonction d'activation)
- Placez entre chaque couche une couche de batchnormalization : keras.layers.Batchnormalization. Pas besoin de mettre d'argument. Ne pas utiliser cette couche en sortie.
- Placez après chaque batchnormalization une couche de Dropout : keras.layers.Dropout. Il faut mettre en argument le taux de dropout (entre 0 et 1). Essayez quelque chose de l'ordre de 0.1. Ne pas utiliser ce type de couche en sortie.
- Dans chaque couche Dense, mettez une régularisation. Utilisez le mot-clé kernel_regularizer dans les couches Dense. Donnez leur ensuite les variables keras.regularizers.l2(1e-3). 1e-3 correspond au paramètre de régularisation.

In [None]:
#A COMPLETER

**Exercice** : Affichez la structure de votre modèle avec my_model.summary()

In [None]:
#A COMPLETER

**Vérification** : Pour l'instant, il suffit qu'il n'y ait pas d'erreur.

### Compilation du modèle

**Exercice** : Compilez le modèle avec l'optimizer que vous souhaitez. Mettez une loss function adaptée ainsi qu'une métrique adaptée.

In [None]:
#A COMPLETER

**Vérification** : De nouveau, s'il n'y a pas d'erreur et que vous avez suivi les instructions, tout devrait bien se passer.

### Mise en place de l'early stopping

**Exercice** : Nous allons utiliser un jeu de validation lors de l'apprentissage, que vous programmerez par la suite dans my_model.fit. Nous mettrons en place un early stopping sur ce jeu de validation qui arrêtera l'apprentissage lorsque la fonction de coût sur ce jeu de validation ne décroît plus après un certain nombre d'époques.

Pour ce faire :
- Mettez dans cette variable un keras.callbacks.EarlyStopping(...)
- Il faut dire ce qui est surveillé pour cet early stopping. Nous allons utiliser la loss de validation. Pour ce faire, utilisez le mot-clé monitor et affectez-lui la chaîne de caractères "val_loss"
- Il faut dire pendant combien d'époques d'affilée on surveille si la fonction de coût de validation ne diminue plus. Pour ce faire, utilisez le mot-clé patience et affectez-lui le nombre d'époques que vous souhaitez surveiller. Dans notre cas, une dizaine d'époques devrait suffire.
- Enfin, il faut préciser au modèle qu'il doit restaurer les paramètres correspondant à la meilleure valeur de la fonction de coût. Cela se fait en utilisant le mot-clé restore_best_weights et lui affectant True.

In [None]:
early_stopping = #A COMPLETER

### L'apprentissage

**Exercice** : Il faut maintenant effectuer l'apprentissage. Stockez l'historique de votre entraînement dans une variable pour pouvoir ensuite afficher l'évolution de la fonction de coût et de l'accuracy.

**Instructions spécifiques** :
- Il faut préciser un jeu de validation. Cela peut se faire en utilisant le mot-clé validation_data et lui donnant un jeu de validation prédéfini sous la forme (X_val,Y_val), si vous avez un tel jeu de validation sous la main. On pourrait par exemple utiliser X_test et Y_test_cat par exemple. Cependant dans notre cas, nous allons conserver le jeu de test pour des tests finaux. L'autre possibilité est de scinder X_train et Y_train_cat en deux parties : une partie sera le jeu d'entraînement et l'autre partie sera conservée pour la validation. Pour ce faire, il faut utiliser le mot-clé validation_split et lui affecter la part des données que vous souhaitez utiliser pour la validation. Vous pouvez utilisez 0.1 par exemple, ce qui signifie que 10 % des données seront utilisées pour la validation.
- Il faut aussi préciser l'early stopping. Cela se fait en utilisant le mot-clé callbacks et en lui affectant une liste contenant la variable early_stopping. Il faut effectivement utiliser une liste car plusieurs callbacks peuvent être affectés.
- Enfin, utilisez aussi des mini-batchs. Pour ce faire, utilisez le mot-clé batch_size et indiquez la taille des mini-batchs. 128 pourrait faire l'affaire.

In [None]:
#A COMPLETER

**Vérification** : La loss function devrait diminuer et l'accuracy augmenter. De même pour le jeu de validation.

**Exercice** : Tracez l'évolution de la fonction de coût et de l'accuracy pour le jeu d'entraînement et pour le jeu de validation. Les clés à utiliser dans history sont "val_loss" et "val_categorical_accuracy".

In [None]:
loss_evolution = #A COMPLETER
acc_evolution = #A COMPLETER
val_loss_evolution = #A COMPLETER
val_acc_evolution = #A COMPLETER

### Prédictions avec le modèle

**Exercice** : Effectuez la prédiction sur le jeu de test.

In [None]:
#A COMPLETER

**Exercice** : Extrayez les labels prédits par votre réseau, qui correspondent aux classes avec la plus grande probabilité. La fonction np.argmax vous sera utile, à appliquer sur le bon "axis".

In [None]:
#A COMPLETER

**Exercice** : Calculez l'accuracy sur le jeu de test.

In [None]:
#A COMPLETER

Le code ci-dessous vous permet de visualiser quelques résultats pris au hasard sur la base de test.

In [None]:
r = np.random.randint(X_test.shape[0])

figure = plt.figure(figsize = (16,9))

ax1 = plt.subplot(121)
ax1.imshow(X_test[r,:,:],cmap = "hot")
plt.title("Prédiction du réseau : " + str(Y_test_pred_lab[r]) + "\n Vraie valeur : " + str(Y_test[r]))

ax2 = plt.subplot(122)
ax2.bar(np.arange(10),height = Y_pred_test[r],tick_label = np.arange(10))
plt.xlabel("Valeur")
plt.ylabel("Output du réseau")


**Exercice** : Réutilisez le code d'affichage ci-dessus, mais pour afficher aléatoirement des erreurs. La fonction np.where vous sera utile pour localiser les erreurs.

In [None]:
#A COMPLETER

## Modèle Keras avec réseau de convolution

Nous allons mettre en place ici des couches de convolution (CNN).

### Modification du format des données

**Exercice** : Nous allons utiliser des couches de convolution à deux dimensions. Ce type de couche attend en entrée des données de taille $n\times m \times c$, où $n$ et $m$ sont la taille de l'image, et $c$ correspond au nombre de canaux, il faut donc 3 dimensions au total. Par exemple, une image en couleurs RGB est composée de 3 canaux ($c = 3$). Dans le cas de MNIST, les images sont en niveaux de gris, donc composées d'un seul canal. Cependant, la dimension des images de X_train est (28,28) soit deux dimensions, et il faudrait lui ajouter une dimension pour qu'il y ait le bon nombre de dimensions.

Ci-dessous, effectuez cette correction grâce à la fonction np.expand_dims, en ajoutant une dimension sur le dernier axe (mot-clé axis = 3).

In [None]:
X_train = #A COMPLETER

X_test = #A COMPLETER

### Création du modèle avec régularisation

**Exercice** : Créez un modèle avec Keras que vous appellerez "my_model".

**Instructions spécifiques** : 
- Les premières couches devront être des couches de convolution 2D : keras.layers.Conv2D. En argument, indiquez le nombre de neurones (ou de filtres), quelques-uns devraient suffire, pas la peine d'en mettre des dizaines. Puis, il faut préciser la taille des filtres : quelques pixels seront suffisants. Vous pouvez mettre la taille sous la forme (n,m) si vous souhaitez des filtres rectangulaires ou juste n si vous voulez des filtres carrés. Enfin, vous pouvez aussi préciser une fonction d'activation (de type "relu".
- La toute première couche de convolution doit comporter l'input_shape. Attention : on a ajouté une dimension.
- Faites suivre chaque couche de convolution d'une couche de MaxPooling2D (keras.layers.MaxPooling2D) pour réduire la taille de l'image. Indiquez en argument la taille du pooling (en général 2 est une valeur par défaut).
- Ne mettez que quelques couches de convolution (2 ou 3 devraient suffire).
- A la suite de la partie convolutive, applatissez la réponse grâce à une couche de Flatten, sans argument.
- Ensuite, vous pouvez remettre des couches Dense pour compléter le réseau, et finir par une dernière couche avec le nombre de neurones et la fonction d'activation adaptée.
- Vous pouvez ajouter des couches de BatchNormalization, Dropout et de la régularisation si vous le souhaitez.

In [None]:
#A COMPLETER


**Exercice** : Affichez la structure de votre modèle avec my_model.summary()

In [None]:
#A COMPLETER

**Vérification** : Pour l'instant, il suffit qu'il n'y ait pas d'erreur.

### Compilation du modèle

**Exercice** : Compilez le modèle avec l'optimizer que vous souhaitez. Mettez une loss function adaptée ainsi qu'une métrique adaptée.

In [None]:
#A COMPLETER

**Vérification** : De nouveau, s'il n'y a pas d'erreur et que vous avez suivi les instructions, tout devrait bien se passer.

### Mise en place de l'early stopping

**Exercice** : Définissez un early-stopping.

In [None]:
#A COMPLETER

### L'apprentissage

**Exercice** : Effectuez l'apprentissage avec un jeu de validation, des mini-batchs, l'early-stopping... et stockez l'historique dans une variable.

In [None]:
#A COMPLETER

**Vérification** : La loss function devrait diminuer et l'accuracy augmenter. De même pour le jeu de validation.

**Exercice** : Tracez l'évolution de la fonction de coût et de l'accuracy pour le jeu d'entraînement et pour le jeu de validation.

In [None]:
#A COMPLETER

### Prédictions avec le modèle

**Exercice** : Effectuez la prédiction sur le jeu de test.

In [None]:
#A COMPLETER

**Exercice** : Extrayez les labels prédits par votre réseau, qui correspondent aux classes avec la plus grande probabilité. La fonction np.argmax vous sera utile, à appliquer sur le bon "axis".

In [None]:
#A COMPLETER

**Exercice** : Calculez l'accuracy sur le jeu de test.

In [None]:
#A COMPLETER

Le code ci-dessous vous permet de visualiser quelques résultats pris au hasard sur la base de test.

In [None]:
r = np.random.randint(X_test.shape[0])

figure = plt.figure(figsize = (16,9))

ax1 = plt.subplot(121)
ax1.imshow(X_test[r,:,:,0],cmap = "hot")
plt.title("Prédiction du réseau : " + str(Y_test_pred_lab[r]) + "\n Vraie valeur : " + str(Y_test[r]))

ax2 = plt.subplot(122)
ax2.bar(np.arange(10),height = Y_pred_test[r],tick_label = np.arange(10))
plt.xlabel("Valeur")
plt.ylabel("Output du réseau")


**Exercice** : Réutilisez le code d'affichage ci-dessus, mais pour afficher aléatoirement des erreurs. La fonction np.where vous sera utile pour localiser les erreurs.

In [None]:
#A COMPLETER