<h1> LAB 4 : Réseau de neurones à convolution </h1>

<p>Pour un ordinateur, une image est une matrice de valeurs correspondant aux pixels. Une image en couleur possède trois canaux. C'est à dire qu'on a 3 valeurs pour chaque pixels. Ces trois valeurs représentent le niveau de rouge, de vert et de bleu. On peut imaginer 3 matrices constituées de valeurs de pixels superposées, donnant une matrice en 3D. Par exemple, pour une image d'une taille de 200 par 200 pixels, sa matrice correspondante aura une taille de 200 multiplié par 200 multiplié par 3 (nombre de canaux). En revanche, pour une image en noir et blanc, sa matrice correspondante ne sera qu'en 2D car possédant qu'un seul canal. Ici, la valeur d'un pixel indique le niveau de gris, cela suffit pour une image en noir et blanc. Les valeurs d'un pixel sont mappées sur 256 bits, c'est-à-dire allant de 0 à 255.
Lorsqu'on compare deux images directement entres elles, s’il y a ne serait-ce qu’un pixel contenant différentes valeurs, alors les images sont considérées comme étant différentes par l’ordinateur. C’est là que les CNNs entrent en jeu.    
</p>




<h2> Filte </h2>
Comme une image, le filtre est une matrice de valeurs mais elle a généralement de petites dimensions et bien souvent carrées. La taille de filtre la plus utilisée est de 3 par 3.

![image.png](attachment:image.png)

Un filtre sert à faire extraire certaines caractéristiques d'une image donnée (couleur, contour, luminosité, netteté, etc...). Ce filtre va etre déplacé par pas successifs sur l'ensemble de image.
![image.png](attachment:image.png)
 

Pour chaque position du filtre, les valeurs des deux matrices en superposition (filtre et image à traiter) sont multipliées. Chaque valeur ainsi inférée est projetée dans une nouvelle matrice. Cette matrice représente une nouvelle image qui fait ressortir les caractéristiques recherchées au travers du filtre.
L'image ci-dessous montre un exemple de calcul. Les valeurs de l'image à traiter sont anormalement petites, mais c'est juste pour comprendre plus facilement le calcul effectué:
![image.png](attachment:image.png)

En fonction des valeurs et de la taille de la matrice du filtre, nous obtenons une nouvelle image plus ou moins modifiée. Par exemple, avec une première image comme celle affichée ci-dessous, on peut la transformer dans le but de produire plusieurs variantes. Voici le résultat de différentes transformations à l'aide de plusieurs filtres couramment utilisés (détection de bord, floutage, etc...)

![image.png](attachment:image.png)

<p>Le nombre de filtres determinera le nombre de caractéristiques détectées. Ce nombre est appelé la profondeur. L'usage de filtres est la base dans un réseau à convolution. En pratique, lors de la phase d'entrainement, plusieurs filtres sont testés avec des valeurs différentes. Les meilleures, par rapport au jeu d'entrainement, sont retenues. Les paramètres essentiels doivent être précisés avant l'entrainement, notamment: le nombre, la taille des filtres et leur pas de déplacement.</p>

</p>Il est préférable de ne pas utiliser de filtres trop petits ou un nombre de filtres trop important car cela peut entraîner un sur-apprentissage.</p>

 

 

<h2> Le Pooling</h2>
Le Pooling est un procédé important dans un réseau à convolution. En extrayant les valeurs importantes des pixels, il permet de réduire une image tout en conservant les caractéristiques pertinentes. La méthode la plus utilisée est le "Max Pooling". Elle consiste à réduire l'image en conservant les valeurs les plus grandes des pixels. Pour ce faire, on a une tuile qui se déplace (comme un filtre) sur la surface de notre image. À chaque position de la tuile, on extrait la valeur la plus haute et ne retient que celle là. Cela produit une nouvelle image avec uniquement les valeurs remarquables de l'image.

L'image ci dessous montre un exemple de Pooling. La tuile a, ici, des dimensions de 3 par 3. L'image de 9 par 9 pixels de départ est réduite en une image de 7 par 7 pixels.
![image.png](attachment:image.png)
En réduisant l'image, le nombre de données traitées diminue et donc le temps de calcul sera aussi réduit. 
Il existe d'autres méthodes que le "Max Pooling", par exemple:<ul>

<li>"Average Pooling" : Moyenne de toutes les valeurs recouvertes par la tuile.</li>

<li>"Pooling stochastique" : Ne retient qu'une seule valeur, comme le "Max Pooling", mais en se basant sur une méthode probabiliste.</li></ul>

En pratique, le "Max Pooling" est la méthode qui donne le plus souvent les meilleurs resultats.



<h2>La convolution</h2>
<p>Le principe d'un réseau à convolution, c'est l'enchainement d'étapes. Chaque étape consiste à appliquer des filtres puis une phase de Pooling sur le résulat de chaque filtre.
L'image obtenue après la première étape est réutilisée en entrée de l'étape suivante (filtrage + pooling) et ainsi de suite... Chaque étape est appellé un niveau. Un réseau à convolution peut avoir plusieurs niveaux.

Lors de l'apprentissage, chaque niveau de convolution doit retenir les filtres les plus pertinents. Cette selection est opérée grâce à un réseau neuronal interne à chaque niveau de convolution. Comme dans un réseau neuronal classique, les poids et biais de ce réseau évoluent; le critère de convergence étant, que les patterns ("images") en sortie caractérisent le mieux l'image de départ.</p>


<h1> Travail demandé </h1>

<p>Durant cette séance est nous allons classer les images en niveaux de gris de chiffres manuscrits (28 pixels par 28 pixels), dans leurs 10 catégories (0 à 9) en utilisant un réseau de neurones  à convolution . Implémenter un réseau neuronal composé de couches convolutives et entièrement connectées pour classer les chiffres manuscrits de l'ensemble de données MNIST. L'ensemble de données étiqueté se compose de 42000 images de taille 28x28 = 784 pixels (niveau de gris), y compris les étiquettes correspondantes de 0, .., 9. L'ensemble de test comprend 28 000 images. Chaque image est normalisée de telle sorte que chaque pixel prend des valeurs dans la plage [0,1].

</p> 


In [20]:
import keras
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, Flatten
from tensorflow.keras.layers import Conv2D, MaxPooling2D
from tensorflow.keras import layers


In [12]:
# Initialisation
batch_size = 10
num_classes = 10
epochs = 150

In [13]:
# input image dimensions
img_rows, img_cols = 28,28

In [14]:
# load the data, split between train and test sets
(x_train, y_train), (x_test, y_test) = mnist.load_data()

In [15]:
x_train.shape[0]

60000

In [16]:
# reshape images 
x_train = x_train.reshape(x_train.shape[0], img_rows, img_cols, 1)
x_test = x_test.reshape(x_test.shape[0], img_rows, img_cols, 1)
input_shape = (60000, 28, 28)

In [17]:
# Normalise images
x_train =x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255.0
x_test /= 255.0



In [18]:
# convert class vectors to binary class matrices
train_labels = to_categorical(y_train)
test_labels = to_categorical(y_test)

In [21]:
#define the model  
model = Sequential()
#keras.layers.Conv2D(filters, kernel_size, strides=(1, 1), padding='valid')
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1))) #Conv2D avec 32 filters , kernel size 3*3 , relu activation , input shape     
model.add(layers.Conv2D(64, (3, 3), activation='relu')) #Conv2D avec 64 filters , kernel size 3*3 , relu activation
model.add(layers.MaxPooling2D((2, 2))) #MaxPooling2D avec pool_size 2*2
model.add(layers.Flatten()) # Flatten
model.add(layers.Dense(128, activation='relu')) # Dense avec 128 units 
model.add(layers.Dense(10, activation='softmax'))

In [22]:
#Compile the model 
model.compile(optimizer='rmsprop',loss='categorical_crossentropy',metrics=['accuracy'])



In [25]:
#Fit the model 
model.fit(x_train, train_labels, epochs=5, batch_size=64)

Train on 60000 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x65761cac8>

In [None]:
score = model.evaluate()
print('Test loss:', score[0])
print('Test accuracy:', score[1])