<center>
<a href="http://www.insa-toulouse.fr/" ><img src="http://www.math.univ-toulouse.fr/~besse/Wikistat/Images/logo-insa.jpg" style="float:left; max-width: 120px; display: inline" alt="INSA"/></a> 

<a href="http://wikistat.fr/" ><img src="http://www.math.univ-toulouse.fr/~besse/Wikistat/Images/wikistat.jpg" style="max-width: 250px; display: inline"  alt="Wikistat"/></a>

<a href="http://www.math.univ-toulouse.fr/" ><img src="http://www.math.univ-toulouse.fr/~besse/Wikistat/Images/logo_imt.jpg" style="float:right; max-width: 200px; display: inline" alt="IMT"/> </a>
</center>

# [High Dimensional Statistics](https://github.com/wikistat/HDStat)

# [Reconnaissance de caractères manuscrits](https://github.com/wikistat/Ateliers-Big-Data/2-MNIST) ([MNIST](http://yann.lecun.com/exdb/mnist/)) par *deep learning* avec <a href="https://keras.io/"><img src="https://s3.amazonaws.com/keras.io/img/keras-logo-2018-large-1200.png" style="max-width: 100px; display: inline" alt="Keras"/></a>

### Résumé

## 1  Introduction

### 1.1 Objectif
Ce calepin reprend le même objectif que les calepins de l'[Atelier MNIST](https://github.com/wikistat/Ateliers-Big-Data/tree/master/2-MNIST) sur les mêmes données cette fois avec les librairies Keras et tensorFlow pour aborder l'apprentissage profond. Il est une adpatation du tutoriel de Keras.

### 1.2 Importation des librairies

In [None]:
%matplotlib inline 
import matplotlib.pyplot as plt
import seaborn as sb
sb.set()

import pandas as pd
import numpy as np
import time

import keras.utils as ku
import keras.models as km
import keras.layers as kl
import keras.optimizers as ko

from sklearn.metrics import confusion_matrix

### 1.3 Lecture des données d'apprentissage et de test

Les données peuvent être préalablement téléchargées ou directement lues. Ce sont celles originales du site [MNIST DataBase](http://yann.lecun.com/exdb/mnist/) mais préalablement converties au format .csv, certes plus volumineux mais plus facile à lire. Attention le fichier `mnist_train.zip` présent dans le dépôt est compressé. 

In [None]:
# Lecture des données d'apprentissage
N_classes = 10

# path="" # Si les données sont dans le répertoire courant sinon:
path="../1-MNIST/"
Dtrain=pd.read_csv(path+"mnist_train.csv",header=None)
X_train = Dtrain.values[:,:-1]
Y_train = Dtrain.values[:,-1]

Dtest=pd.read_csv(path+"mnist_test.csv",header=None)
X_test = Dtest.values[:,:-1]
Y_test = Dtest.values[:,-1]


*Attention*, avec Keras, la variable réponse doit être une matrice binaire où chaque classe est représentée par une indicatrice: pour chaque individu, l'élément de la colone correspondant à la classe à laquelle il appartient est à 1, sinon il est à 0. 

Keras possède une fonction `to_catergorical` permettant de convertir directement le vecteur de variable `Y_train`, de réponse en matrice indicatrice`Y_train_cat`.

In [None]:
Y_train_cat = ku.to_categorical(Y_train, N_classes)
Y_test_cat = ku.to_categorical(Y_test, N_classes)

## 2 Apprentissage et prévision du test

### 2.1 MLP Classifier
Première tentative d'appliquer un réseaux de neurone MultiPerceptron classique constitué de 4 couches: 
* Dense: 52 neurones + Foncton d'activation "relu"
* Dropout: 20% des neurones tiré aléatoirement sont desactivés
* Dense: 52 neurones + Foncton d'activation "relu"
* Dropout: 20% des neurones tiré aléatoirement sont desactivés

Une couche softmax permettant la classification

#### Apprentissage

In [None]:
batch_size = 128
epochs = 20

model = km.Sequential()
model.add(kl.Dense(512, activation='relu', input_shape=(784,)))
model.add(kl.Dropout(0.2))
model.add(kl.Dense(512, activation='relu'))
model.add(kl.Dropout(0.2))
model.add(kl.Dense(N_classes, activation='softmax'))

model.summary()

model.compile(loss='categorical_crossentropy',
              optimizer=ko.RMSprop(),
              metrics=['accuracy'])

ts = time.time()
history = model.fit(X_train, Y_train_cat,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_data=(X_test, Y_test_cat))
te = time.time()
t_train_mpl = te-ts

#### Résultats

Les résultats sont assez médiocres puisque l'on obtient seulement 19,33% d'images bien classée. 

In [None]:
score_mpl = model.evaluate(X_test, Y_test_cat, verbose=0)
predict_mpl = model.predict(X_test)
print('Test loss:', score_mpl[0])
print('Test accuracy:', score_mpl[1])
print("Time Running: %.2f seconds" %t_train_mpl )
pd.DataFrame(confusion_matrix(Y_test, predict_mpl.argmax(1)))


### 2.2 MLP With normalized Data

Même modèle mais avec normalisation des données en divisant par leur valeurs maximal (ici 255).

#### Apprentissage

In [None]:
batch_size = 128
epochs = 20

X_train_norm = X_train/255
X_test_norm = X_test/255

model = km.Sequential()
model.add(kl.Dense(512, activation='relu', input_shape=(784,)))
model.add(kl.Dropout(0.2))
model.add(kl.Dense(512, activation='relu'))
model.add(kl.Dropout(0.2))
model.add(kl.Dense(N_classes, activation='softmax'))

model.summary()

model.compile(loss='categorical_crossentropy',
              optimizer=ko.RMSprop(),
              metrics=['accuracy'])

ts=time.time()
history = model.fit(X_train_norm, Y_train_cat,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_data=(X_test_norm, Y_test_cat))
te=time.time()
t_train_mpl_norm = te-ts


#### Résultats

Le résultat est cette fois de 98% d'image bien classé!

In [None]:
score_mpl_norm = model.evaluate(X_test, Y_test_cat, verbose=0)
predict_mpl_norm = model.predict(X_test)
print('Test loss:', score_mpl_norm[0])
print('Test accuracy:', score_mpl_norm[1])
print("Time Running: %.2f seconds" %t_train_mpl_norm )
pd.DataFrame(confusion_matrix(Y_test, predict_mpl_norm.argmax(1)))

### 2.3 Convolutional Network

Test d'un réseau de convolution constitué de 7 couches: 

* Une couche de convolution 2D, avec fenêtre de convolution de taille 3x3 et une fonction d'activation de type "relu"
* Une couche de convolution 2D, avec fenêtre de convolution de taille 3x3 et une fonction d'activation de type "relu"
* Une couche max pooling de fenêtre 2x2
* Une couche dropout où 25% des neurones sont desactivés
* Une couche "Flatten" permetant de "remettre  à plat" les images de taille $NxN$ en vecteur de tailles $N^2$.
* Une couche de 128 neurones classiques
* Une couche dropout ou 50% des neurones sont desactivés

Une couche softmax permettant la classification

#### Format des données

Dans les exemples précédents. Les données était "applaties". Une imade de $28\times 28=784$ pixels est considérée comme un vecteur. 

Pour pouvoir utiliser le principe de la convolution la structure des images est conservée. Une image n'est pas un vecteur de tailles $784\times 1$ mais une matrice de taille $28\times 28$. Ainsi `X_train` est réorganisée en cube ou multitableau de dimensions $60000\times 28\times 28$ pour être utilisé dans un réseau de convolution.

Avec **Keras** `X_train` doit même être de dimensions $60000\times 28\times 28\times 1$. La dernière dimension, de taille 1 peut paraitre inutile. Elle l'est dans le cas des données *MNIST* car les pixels ne sont décrits qu'avec un seul niveau de gris. Cependant, des images couleurs en RGB sont généralement codées avec trois niveaux d'intensité (Rouge, Vert et Bleus) correspondant à la quatrième dimension. 

Noter également que l'utilisation des couches de convolution rend inutile la normalisation préalable des données.

In [None]:
X_train_conv = X_train.reshape(60000, 28, 28, 1)
X_test_conv = X_test.reshape(10000, 28, 28, 1)

#### Apprentissage

In [None]:
model = km.Sequential()
model.add(kl.Conv2D(32, kernel_size=(3, 3),
                 activation='relu',
                 input_shape=(28,28, 1), data_format="channels_last"))
model.add(kl.Conv2D(64, (3, 3), activation='relu'))
model.add(kl.MaxPooling2D(pool_size=(2, 2)))
model.add(kl.Dropout(0.25))
model.add(kl.Flatten())
model.add(kl.Dense(128, activation='relu'))
model.add(kl.Dropout(0.5))
model.add(kl.Dense(N_classes, activation='softmax'))

model.summary()

model.compile(loss="categorical_crossentropy",
              optimizer=ko.Adadelta(),
              metrics=['accuracy'])

ts=time.time()
model.fit(X_train_conv, Y_train_cat,
          batch_size=batch_size,
          epochs=epochs,
          verbose=1,
          validation_data=(X_test_conv, Y_test_cat))
te=time.time()
t_train_conv = te-ts


#### Résultats

In [None]:
score_conv = model.evaluate(X_test_conv, Y_test_cat, verbose=0)
predict_conv = model.predict(X_test_conv)
print('Test loss:', score_conv[0])
print('Test accuracy:', score_conv[1])
print("Time Running: %.2f seconds" %t_train_conv )
pd.DataFrame(confusion_matrix(Y_test, predict_conv.argmax(1)))

## 3 Conclusion

In [None]:
dataframeErreur1 = pd.read_csv("/Users/bguillouet/Insa/TP_Insa/data/data_erreur_mnist_scikit_learn_100_trees.csv")
score_RF_100 = dataframeErreur1["Erreur"].values[-1]
temps_RF_100 = dataframeErreur1["Temps"].values[-1]
dataframeErreur= pd.read_csv("/Users/bguillouet/Insa/TP_Insa/data/data_erreur_mnist_scikit_learn_250_trees.csv")
score_RF_250 = dataframeErreur["Erreur"].values[-1]
temps_RF_250 = dataframeErreur["Temps"].values[-1]


In [None]:
cmap = plt.get_cmap("Set1")
color = [cmap(i) for i in range(4)]
index = np.arange(4)


fig = plt.figure(figsize=(16,8))

ax = fig.add_subplot(1,2,1)
y_score = [score_RF_100, score_RF_250, 1-score_mpl_norm[1], 1-score_conv[1]]
rects = ax.bar(index, y_score, 0.9, color=color)
ax.set_xlabel('Method',fontsize=20)
ax.set_ylabel('Error',fontsize=20)
ax.set_title('Error Per Method', fontsize=30)
ax.set_xticks(index)
ax.set_xticklabels(('Random Forest (100 Trees)', 'Random Forest (250 Trees)', 'MLP classifier', 'Convolutional'), 
                   fontsize=15, rotation=20, ha="right")

ax2 = fig.add_subplot(1,2,2)
y_temps = [temps_RF_100, temps_RF_250, t_train_mpl_norm, t_train_conv]
rects = ax2.bar(index, y_temps, 0.9, color=color)
ax2.set_xlabel('Method',fontsize=20)
ax2.set_ylabel('Learning time',fontsize=20)
ax2.set_title('Learning time Per Method', fontsize=30)
ax2.set_xticks(index)
ax2.set_xticklabels(('Random Forest (100 Trees)', 'Random Forest (250 Trees)', 'MLP classifier', 'Convolutional'), 
                    fontsize=15, rotation=20, ha="right")
ax2.legend()

fig.tight_layout()
plt.show()