<a style="float:left;" href="https://colab.research.google.com/github/ClaudeCoulombe/VIARENA/blob/master/Labos/Lab-MNIST/Identification_ChiffresManuscrits_MNIST-PMC.ipynb" target="_blank"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
<br/>
### Rappel - Fonctionnement d'un carnet web iPython

* Pour exécuter le code contenu dans une cellule d'un carnet iPython, cliquez dans la cellule et faites (⇧↵, shift-enter);
* Le code d'un carnet iPython s'exécute séquentiellement de haut en bas de la page. Souvent, l'importation d'une bibliothèque Python ou l'initialisation d'une variable est préalable à l'exécution d'une cellule située plus bas. Il est donc recommandé d'exécuter les cellules en séquence. Enfin, méfiez-vous des retours en arrière qui peuvent réinitialiser certaines variables;
* Pour obtenir de l'information sur une fonction, utilisez la commande Python `help(`"nom de la fonction"`)`

# Identification de chiffres manuscrits - jeu de données MNIST
## Utilisation d'un perceptron multicouche (PMC)

#### Inspiration: 

Michael Nielsen, http://neuralnetworksanddeeplearning.com/

Grant Sanderson, https://www.youtube.com/watch?v=Ilg3gGewQ5U

## Importation des bibliothèques Python

In [None]:
import os
import matplotlib.pyplot as plt

import tensorflow as tf
print("TensorFlow version:",tf.__version__)
import keras
print("Keras version:",keras.__version__)

## Jeu de données - chiffres manuscrits MNIST

Le jeu de données MNIST (Modified National Institute of Standards and Technology) comporte 60,000 images en tons de gris de 28×28 pixels de chiffres manuscrits étiquetés de 0 à 9. Site web: http://yann.lecun.com/exdb/mnist/

Il est incorporé dans keras.datasets 

### Lecture des données
### Séparation entre jeu de données d'entraînement et jeux de données de test

In [None]:
# le jeu de données MNIST
from keras.datasets import mnist

dic_noms_classe = { 
    0 : "0",
    1 : "1",
    2 : "2",
    3 : "3",
    4 : "4",
    5 : "5",
    6 : "6",
    7 : "7",
    8 : "8",
    9 : "9",
}

# lire le jeu de données MNIST et le diviser entre
# les données d'entrainement et les données de test
# MNIST est déjà divisé en un jeu de données d'entraînement (les 60 000 premières images) 
# et un jeu de données de test (les 10 000 dernières images).
(attributs_entrainement, classes_cibles_entrainement), (attributs_test, classes_cibles_test) = mnist.load_data()


## Exploration des données

### Portrait des données

In [None]:
# Portrait des données 
print()
print('Entraînement: attributs=%s, classes=%s' % (attributs_entrainement.shape, classes_cibles_entrainement.shape))
print('Test: attributs=%s, classes=%s' % (attributs_test.shape, classes_cibles_test.shape))

### Visualisation de données

In [None]:
# Afficher les 24 premières images
print()
print("Quelques images avec leur étiquette de classe-cible...")
%matplotlib inline
# définir subplot
fig, axes = plt.subplots(nrows=4,ncols=6,figsize=(13,10))
for i_rangee in range(0,4):
    for i_colonne in range(0,6):
        axes[i_rangee,i_colonne].set_title(dic_noms_classe[int(classes_cibles_entrainement[i_rangee*6+i_colonne])],
                                           fontsize=10)
        axes[i_rangee,i_colonne].imshow(attributs_entrainement[i_rangee*6+i_colonne],cmap='gray')
plt.show()

## Préparation des données

### Linéariser les attributs des images 28 x 28 pixels en 784 attributs

In [None]:
# Linéariser les attributs des images 28 x 28 pixels en 784 attributs
nombre_attributs = attributs_entrainement.shape[1]*attributs_entrainement.shape[1]
print("nombre_attributs:",nombre_attributs)
attributs_entrainement = attributs_entrainement.reshape(attributs_entrainement.shape[0], nombre_attributs)
attributs_test = attributs_test.reshape(attributs_test.shape[0], nombre_attributs)
print("Linéarisation des attributs des images terminée!")

### Conversion des étiquettes-cibles en vecteurs binaires à un bit discriminant

In [None]:
# Conversion des étiquettes-cibles en vecteurs binaires à un bit discriminant
from tensorflow.keras.utils import to_categorical
classes_cibles_entrainement = to_categorical(classes_cibles_entrainement)
classes_cibles_test = to_categorical(classes_cibles_test)
print("Conversion des étiquettes-cibles en vecteurs binaires terminée!")

### Normalisation des images

In [None]:
# Normalisation
def normalisation(entrainement, test):
    # convertir de nombres entiers à nombres décimaux
    entrainement_normalise = entrainement.astype('float32')
    test_normalise = test.astype('float32')
    # normalisation à un nombre entre 0 et 1
    entrainement_normalise = entrainement_normalise / 255.0
    test_normalise = test_normalise / 255.0
    return entrainement_normalise, test_normalise

attributs_entrainement, attributs_test = normalisation(attributs_entrainement, attributs_test)

print("Normalisation des images terminée!")

## Construction d'un modèle de perceptron multicouche (PMC)

In [None]:
# Construction du modèle

from keras.models import Sequential
from keras.layers import Dense

print("Création d'un modèle de base...")

dimension_entree = (nombre_attributs,)
nombre_classes_cibles = 10

modele_de_base = Sequential()

# Apprentissage et extraction des attributs
modele_de_base.add(Dense(16, activation='relu', input_shape=dimension_entree))
modele_de_base.add(Dense(16, activation='relu'))

# Classification des images
modele_de_base.add(Dense(nombre_classes_cibles, 
                         activation='softmax'))

print()
print("Description du modèle de base:")
modele_de_base.summary()

### Compilation du modèle

In [None]:
print()
print("Compilation du modèle...")

modele_de_base.compile(loss="categorical_crossentropy", 
                       optimizer="sgd", 
                       metrics=["accuracy"])

print("Modèle compilé!")

## Entraînement du modèle

In [None]:
# Entraînement du modèle

print()
print("Entraînement du modèle...")

batch_size = 128
epochs = 20
taille_jeu_validation = 0.1

traces_entrainement = modele_de_base.fit(attributs_entrainement, 
                                         classes_cibles_entrainement,
                                         batch_size=batch_size,
                                         epochs=epochs,
                                         validation_split=taille_jeu_validation)

## Évaluation du modèle avec un jeu de données test

In [None]:
# Évaluation du modèle

print()
print("Évaluation du modèle...")

resultats = modele_de_base.evaluate(attributs_test, classes_cibles_test, verbose=0)
print("Exactitude test: {:.2f}%".format(resultats[1]*100))

**Note:** On constate une perte d'environ -1% entre l'exactitude sur le jeu de données de test et l'exactitude sur du jeu de données d'entraînement. Cette différence s'explique par le surajustement (en anglais, overfitting). 

In [None]:
print("Exécution carnet IPython terminée!")