<img src="https://datascientest.fr/train/assets/logo_datascientest.png" style="height:150px">

<hr style="border-width:2px;border-color:#75DFC1">
<center><h1>Introduction au Deep Learning avec Keras</h1></center>
<center><h2>Exploration de données</h2></center>
<hr style="border-width:2px;border-color:#75DFC1">

## Introduction

>Depuis 2012, les algorithmes à base de deep learning (apprentissage profond) semblent prêts à résoudre bien des problèmes : reconnaitre des visages comme le propose DeepFace, vaincre des joueurs de go ou de poker ou bientôt permettre la conduite de voitures autonomes ou encore la recherche de cellules cancéreuses.
>
>Pourtant, les fondements de ces méthodes ne sont pas si récents : le deep learning a été formalisé en 2007 à partir des nouvelles architectures de réseaux de neurones dont les précurseurs sont McCulloch et Pitts en 1943. Suivront de nombreux développements comme le perceptron (neuronne artificiel), les réseaux de neurones convolutifs de Yann Le Cun et Yoshua Bengio en 1998 et les réseaux de neurones profonds qui en découlent en 2012 et ouvrent la voie à de nombreux champs d’application comme la vision (images), le traitement du langage (NLP) ou la reconnaissance de la parole (audio).
>
>**Pourquoi maintenant ?**
>
>>Parce que ces nouvelles techniques de machine learning profitent de la montée massive des données, ainsi que de capacités de calcul phénoménales grâce aux processeurs graphiques.

## Objectif

>L'objectif de cette formation est de familiariser avec des méthodes de machine learning plus poussées. Les méthodes de _deep learning_ ont fait leurs preuves récemment et grâce à des package comme **Keras** que nous utiliserons dans cette formation, ces outils sont maintenant dans les mains du plus grand nombre. Nous avons choisi le framework **Keras** pour sa facilité à implémenter des modèles complexe de Deep Learning.
>
> Nous allons travailler avec la base de données ***MNIST***. Cette base contient des images de chiffres manuscrits que nous tenterons de classifier suivant plusieurs méthodes de plus en plus poussées, en partant du simple ramdom Forest jusqu'à l'algorithme LeNet-5 développé spécifiquement pour cette base.
>
><img src="https://datascientest.fr/train/assets/lenet5.gif" style="height:250px">

## Contexte

> La base MNIST ("Modified National Institute of Standards and Technology") est une base de données de chiffres écrits à la main développée pour le problème de reconnaissance de chiffres manuscrits par trois chercheurs très réputés dans ce domaine: Yann LeCun, Corinna Cortes et Christopher Burges.
>
> Elle regroupe 70 000 images, issues d'une base de données antérieure, appelée NIST. 
> Ces images sont en échelle de gris, normalisées centrées et de taille 28x28 pixels.
> Les images sont données ici sous forme de vecteurs unidimensionnels de taille 784 (= 28 x 28).
>
>Plus de détails sur les données MNIST dans le lien suivant: [MNIST](http://yann.lecun.com/exdb/mnist/index.html).<br>
>Plus de détails sur le problème de reconnaissance de chiffres écrits à la main [ici](http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf).


## Compétences requises

> * Scikit-learn
> * Matplotlib

- Exécutez la cellule ci-dessous pour importer les modules nécessaires à l'exercice.

In [None]:
%matplotlib inline
import numpy as np # Pour la manipulation de tableaux

import matplotlib.pyplot as plt # Pour l'affichage d'images
from matplotlib import cm # Pour importer de nouvelles cartes de couleur

from sklearn.model_selection import train_test_split # Pour répartir les données
from keras.datasets.mnist import load_data # Pour importer le datasets mnist de Keras

> Le module **`datasets`** de **keras** comprend un ensemble de sous module de jeu de données ([plus d'informations](https://keras.io/datasets/)). Pour charger un jeu de données de ses sous-modules, nous pouvons utiliser la fonction suivante :
```
from keras.datasets import cifar10
(X_train, y_train), (X_test, y_test) = cifar10.load_data()
```

* Charger le dataset **mnist** à l'aide de la fonction `load_data` du sous module **mnist**. Appeler l'échantillon d'entraînement **X_train** et **y_train**, et l'échantillon de validation **X_test** et **y_test**.

* Afficher la forme de **X_train** et **y_train**

> Pour afficher des graphiques sur une grille de figures, on utilise la fonction [**`subplot`**](http://matplotlib.org/api/pyplot_api.html?highlight=subplot#matplotlib.pyplot.subplot) de *matplotlib.pyplot*.
>
> Les images originales sont en niveau de gris. Lors de leur affichage, il faut préciser à la fonction [**`imshow`**](https://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.imshow) que l'on souhaite visualiser les pixels en nuance de gris, en choisissant la carte de couleur (**cmap**) correspondante . Ici, on choisira `cm.binary` parmi les *colormaps* de `matplotlib` que nous avons importées.



* Afficher, dans une grille de figures, 6 images tirées aléatoirement de l'échantillon **X_train**, avec en titre les labels correspondants de **y_train**. Pour chaque image il faudra :
    * Sélectionner son emplacement dans la grille de figures.
    * Afficher l'image en niveaux de gris en précisant la *colormap* **binary**.
    * Afficher le label correspondant à l'image dans le titre.
    
<div class='alert alert-success'>
<i class='fa fa-exclamation-circle'></i> &emsp;
Les labels des images sont contenus dans le vecteur y_train.
</div>

<div class='alert alert-warning'>
<i class='fa fa-exclamation-circle'></i> &emsp;
Ici, il est nécessaire de préciser le paramètre 'cmap = cm.binary' dans la fonction imshow afin d'afficher l'image en niveaux de gris sur fond blanc.
</div>

> Pour se donner une idée plus précise de la forme des différents chiffres écrits, il est possible de procéder à quelques statistiques basées sur les pixels des images.

* Pour chaque chiffre de 0 à 9, afficher **l'image moyenne** de l'échantillon X_train. Pour cela, pour chaque chiffre allant de 0 à 9, utiliser la méthode `mean` d'un *array* `numpy` pour calculer la moyenne de chaque pixel, en précisant '`axis = 0`' en paramètre de la méthode `mean` pour que la moyenne se fasse sur les images et non sur les lignes ou les colonnes.

<div class="alert alert-success">
<i class="fa fa-info-circle"></i> &emsp; 
Faire une boucle allant de 0 à 9 permettant de calculer l'image moyenne pour chaque chiffre séparément. À l'intérieur de la boucle, sélectionnez les images qui correspondent au bon label et calculez ensuite la moyenne. Enfin, affichez-la comme précédemment. 
</div>

* Pour se donner une idée de la façon dont chaque chiffre varie dans son échantillon respectif, afficher pour chaque label entre 0 et 9 son **écart type** dans l'échantillon X_train , grâce à la méthode **`std`** d'un *array* `numpy`.

<div class="alert alert-success">
<i class="fa fa-info-circle"></i> &emsp; 
Il suffit de reprendre les mêmes étapes qu'à la question précédente, en remplaçant la méthode *mean* par la méthode *std*.
</div>