<img src="https://datascientest.fr/train/assets/logo_datascientest.png" style="height:150px">

<hr style="border-width:2px;border-color:#75DFC1">
<center><h1> Introduction au Deep Learning avec Keras </h1></center>
<center><h3>Prédiction à l'aide des Dense Neural Networks</h3></center>
<hr style="border-width:2px;border-color:#75DFC1">


## Contexte et objectif

>Le principal objectif de cet exercice est de créer votre premier réseau de neurones artificiels (*Neural Network*) pour la reconnaissance de chiffres écrits à la main avec le module **Keras**. Le module <b>Keras</b> est accompagnée d'une riche documentation que vous pouvez consulter <a href= https://keras.io/#you-have-just-found-keras)>ici</a>.
>
> Nous allons construire un réseau de neurones artificiels simple avec deux couches de neurones cachées (*hidden layers*). On rappelle que les couches cachées sont toutes les couches qui se trouvent entre la couche d'entrée (*input layer*) et la couche de sortie (*output layer*).

## Compétences requises

> * Scikit-learn
> * Matplotlib
> * Pandas pour la Data Science

* Exécutez la cellule ci-dessous pour importer les modules nécessaires à l'exercice.

In [1]:
import numpy as np # Pour la manipulation de tableaux

import pandas as pd # Pour manipuler des DataFrames pandas

import matplotlib.pyplot as plt # Pour l'affichage d'images
from matplotlib import cm # Pour importer de nouvelles cartes de couleur
%matplotlib inline

from keras.models import Sequential # Pour construire un réseau de neurones
from keras.layers import Dense # Pour instancier une couche dense
from keras.utils import np_utils

import itertools # Pour créer des iterateurs

from sklearn import metrics # Pour évaluer les modèles

Using TensorFlow backend.


* Exécutez la cellule ci-dessous pour charger les échantillons d'entraînement et de test de la base de données MNIST du premier exercice.

In [2]:
# Pour importer le datasets mnist de Keras
from keras.datasets.mnist import load_data

# Chargement des données MNIST
(X_train, y_train), (X_test, y_test) = load_data()

# Changement de forme
X_train = X_train.reshape([-1, 28*28])
X_test = X_test.reshape([-1, 28*28])

# Shape of X_train and y_train
print('Shape of X:', X_train.shape)
print('Shape of y:', y_train.shape)

Shape of X: (60000, 784)
Shape of y: (60000,)


* Pour une meilleure performance du modèle, réduire les pixels des données **X_train** et **X_test** afin qu'ils soient compris entre 0 et 1.

<div class='alert alert-success'>
Pour réduire les pixels il suffit de diviser l'échantillon entier par 255. Ainsi tous les pixels seront compris entre 0 et 1.
</div>

* Transformer les labels de **y_train** et **y_test** en vecteurs catégoriels binaires (*one hot*) grâce à la fonction `to_categorical` du sous-module **np_utils** de **keras**.


* Extraire dans des variables appelées respectivement **num_pixels** et **num_classes** le nombre de colonnes (pixels) de **X_train** et le nombre de colonnes (classes) de **y_test**.

> Nous allons construire notre modèle **séquentiellement**, c'est-à-dire que nous allons le construire couche par couche depuis la couche d'entrée jusqu'à la couche de sortie.
>
> La construction séquentielle d'un modèle avec **Keras** se fait très facilement avec les étapes suivantes:
>
> * **Étape 1** : Instancier un modèle avec le constructeur `Sequential` que nous avons importé.
>
>
> * **Étape 2** : Instancier les couches qui composeront le modèle avec leur constructeur. Pour instancier une couche dense, il faut utiliser le constructeur `Dense`, que nous avons aussi importé.
>
>
> * **Étape 3** : Ajouter les couches au modèle grâce à sa méthode `add`.
>
>
> L'instanciation de couches contient plusieurs nuances:
>
> * La première couche que nous allons ajouter au modèle doit être instanciée **en précisant les dimensions du vecteur d'entrée** avec le paramètre **input_size**. Cette précision n'est pas nécessaire pour les couches suivantes.
>
>
> * Le **nombre de neurones** dans une couche se définit avec le paramètre **units**.
>
>
> * L'**initialisation des vecteurs de poids des neurones** se fait avec le paramètre **kernel_initializer**.
>
>
> * Pour ajouter une fonction activation à une couche de neurones, on peut soit instancier une couche d'activation puis l'ajouter au modèle, ou bien définir la fonction d'activation dans le paramètre **activation** du constructeur d'une couche.
>
>
> Plus d'infos sur les layers et leurs paramètres [ici](https://keras.io/layers/core/).
> Plus d'infos sur les fonctions d'activations [ici](https://keras.io/activations/).

* Instancier un modèle séquentiel qui sera appelé **model** grâce au constructeur `Sequential`.


* Instancier une couche dense appelée **first_layer** avec 20 neurones telle que la dimension de son entrée soit le nombre de pixels de chaque image. Cette couche aura comme fonction d'activation la fonction `tanh`. Le vecteur de poids de cette couche seront initialisés aléatoirement selon la loi `normal`. 


* Instancier une deuxième couche dense appelée **second_layer** contenant autant de neurones que la base contient de classes, c'est-à-dire 10. Les poids de cette couche seront aussi intialisés aléatoirement selon une loi `normal` et la couche aura comme fonction d'activation `softmax`.


* Ajouter au modèle les couches que nous avons instanciées. Il faudra les ajouter dans l'ordre.

> Notre modèle est maintenant défini.
>
> Avant de pouvoir l'entraîner, il faut configurer son processus d'entraînement avec la méthode `compile`, qui reçoit **trois arguments**:
>> * Un **optimiseur** (paramètre **optimizer**) qui définit l'algorithme d'optimisation que nous allons utiliser pour faire la descente de gradient de la fonction de perte.
>>
>>
>> * Une **fonction de perte** (paramètre **loss**) à optimiser.
>>
>>
>> * Une **liste de métriques** (paramètre **metrics**) utilisées pour évaluer la performance du modèle au fur et à mesure qu'il s'entraîne. La métrique *'accuracy'* est utilisée pour évaluer la précision de la classification.

* Compiler le modèle grâce à sa méthode `compile`. La fonction de perte utilisée sera **'categorical_crossentropy'**, l'optimiseur sera **'adam'** et la métrique sera **['accuracy']**.

Plus d'infos sur la compilation [ici](https://keras.io/getting-started/sequential-model-guide/#compilation)

> Contrairement aux modèles classiques de Machine Learning, l'entraînement du modèle doit se faire ici par "***batchs***" :
On divise la base de données d'entraînement en plusieurs *batchs* (ou lots) de la taille que l'on souhaite sur lesquels nous effectuons la descente de gradient. L'entraînement par *batchs* est nécessaire pour contourner les **problèmes de mémoire** des ordinateurs que nous utilisons de nos jours.
>
> Lorsque toutes les données ont été utilisées, on dit que l'entraînement a complété une "***epoch***". On peut choisir le nombre d'*epochs* sur lesquelles le modèle va s'entraîner.
>
> Par exemple, si nous choisissons de faire notre entraînement sur des *batchs* de taille 200 alors que la base de données contient 2000 entrées, chaque *epoch* consistera à faire la descente de gradient sur 2000/200 = 10 *batchs*.
>
>
> Malheuresement, il n'y a pas de moyen analytique permettant de déterminer à l'avance le nombre d'*epochs*, l'*optimizer* ou la taille de batch qui donnera le meilleur résultat.
>
> Pour l'instant, la méthode la plus efficace pour choisir est d'entraîner le modèle plusieurs fois en faisant varier un de ces hyperparamètres à la fois et de choisir la combinaison de paramètres qui donne le meilleur résultat sur l'échantillon de validation.

* Entraîner le modèle sur les données X_train et y_train grâce à la méthode `fit` du modèle:
    * L'entraînement devra se faire sur 20 *epochs* (paramètre **epochs**)
     
    * Les *batchs* devront avoir une taille de 200 (paramètre **batch_size**)
    
    * La perfomance du modèle devra être évaluée sur un échantillon de validation contenant 20% des données (paramètre **validation_split**)
    
    * La sortie de l'entraînement devra être stockée dans une variable nommée **training_history**.

 
Plus d'informations sur les paramètres de la méthode `fit` [ici](https://keras.io/models/sequential/).

> La méthode `fit` renvoie en fait un objet de la classe **History**. Cet objet contient de nombreuses informations sur le déroulement de l'entraînement, en particulier les précisions sur les échantillons d'entraînement et de validation à la fin de chaque époque. Nous pouvons ainsi tracer une courbe représentant leur évolution tout au long de l'entraînement.
>
> L'objet **History** dispose d'un attribut **history** qui est un dictionnaire contenant dans ses clés les précisions obtenues par le modèle.

* Lancer la cellule suivante pour stocker les précisions d'entraînement et de validation obtenues pendant l'entraînement.

In [9]:
train_acc = training_history.history['accuracy']
val_acc = training_history.history['val_accuracy']

* Tracer l'évolution des précisions tout au long de l'entraînement.

* Prédire grâce à la méthode `predict` du modèle la classification de l'échantillon **X_test** dans un tableau appelée **test_pred**.


* Évaluer le modèle sur les données de test grâce à sa méthode `evaluate`. Cette méthode renvoie une liste dont le premier élément est la valeur de la fonction de perte et le second est la précision du modèle.

> Nous voulons maintenant effectuer un diagnostique de notre modèle. Pour cela, nous allons calculer une matrice de confusion sur l'échantillon de test.
>
> Néanmoins, les labels de **y_test** sont des **vecteurs binaires** à cause de la transformation *one-hot* que nous avons effectuée.
> De plus, si nous essayons de prédire la classe de l'échantillon de test, la méthode **`predict`** du modèle renvoie un **vecteur de probabilités** où chaque élément est la probabilité d'appartenance à la classe correspondant à son indice.
>
> Pour utiliser la fonction `classification_report` du sous-module **metrics** de **scikit-learn**, il faut que le vecteur de la prédiction et le vecteur de la classe réelle soient composés d'entiers.
>
> Nous allons alors utiliser la méthode `argmax` d'un *array* **numpy** pour savoir à quelle classe correspondent les vecteurs binaires et les vecteurs de probabilites.

* Prédire les classes de l'échantillon **X_test** à l'aide de la méthode `predict` du modèle. Stocker le résultat dans un tableau nommé **test_pred**.


* Appliquer la méthode `argmax` sur les tableaux **test_pred** et **y_test** pour obtenir des vecteurs d'entiers correspondant aux classes prédites et réelles. Il faudra passer l'argument 'axis = 1' pour que l'argmax soit calculée sur les colonnes et non les lignes. Stocker les sorties des appels de la méthode `argmax` dans des tableaux nommés **test_pred_class** et **y_test_class**.


* Afficher un compte-rendu évaluatif détaillé de la perfomance du modèle grâce à la fonction `classification_report` du sous-module **metrics** de **scikit-learn**.

> On observe facilement que les chiffres 0, 1 et 6 sont toujours les mieux classés, malgré un écart beaucoup moins important avec les autres chiffres qu'avec la méthode **random forest**.
>
> De plus, la précision a augmenté d'environ 3% par rapport à l'éxercice précedent. Ceci nous invite à considérer les modèles à réseaux de neurones, même simples, sont pour ce problème plus performants que les techniques de **random forest**.
>
> On s'intéresse maintenant aux erreurs réelles du modèle sur l'échantillon de test.

* Calculer et afficher la matrice de confusion entre **y_test_class** et **test_pred_class**, appelée **cnf_matrix**, grâce à la fonction `confusion_matrix` du sous-module **metrics** de **scikit-learn**. 

> On remarque que les chiffres 5, 3 et 8 sont souvent confondus. Ces chiffres semblent être les points faibles de notre modèle.
>
> Dans l'exercice suivant, nous essaierons d'améliorer notre modèle avec des couches de *convolution*.