# <b>4. Classification par réseaux de neurones convolutifs</b>
## <b>Partie 1 : Petits réseaux de neurones personnalisés</b>

### <b>4.1 Avec Keras (Exercice 4.1)</b>

On peut reprendre l'exemple complet de classification des données GTSRB avec un MLP.
Adapter le programme suivant pour obtenir une accuracy >99,5% avec un réseau de neurones convolutif comportant moins de 500000 paramètres.
On pourra jouer sur :
- le nombre de paramètres
- la taille des images
- le "rescale" des images
- la taille des batchs
- le dropout
- la batch-normalisation
- l'augmentation de la base d'apprentissage
- ...

In [None]:
import numpy as np
from numpy import *
from skimage import color, exposure, transform
import cv2
import skimage as sk
from sklearn.model_selection import train_test_split
from sklearn.utils import shuffle
import tensorflow
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation, Flatten
from keras.layers import Conv2D, MaxPooling2D
from tensorflow.keras.optimizers import RMSprop
from keras.utils import np_utils
from tensorflow.keras.layers import BatchNormalization

import os
import glob
import matplotlib.pyplot as plt
import keras

nb_classes = 43
rows, cols = 32, 32

data_path = 'data/GTSRB/Final_Training/Images/'

imgs = []
labels = []

def load_GTSRB():
    print("Load data...")
    images = []
    labels = []
    for i in range(nb_classes):
        image_path = data_path + '/' + format(i, '05d') + '/'
        print("chargement répertoire", image_path)
        #cpt = 0
        for img in glob.glob(image_path + '*.ppm'):
            image = cv2.imread(img)
            #image = (image / 255.0)                            #rescale
            image = cv2.resize(image, (rows, cols))            #resize
            images.append(image)
            label = int(image_path.split('/')[-2])
            labels.append(label)
    print('OK')
    data = np.array(images, dtype='float32')
    Y = np.eye(nb_classes, dtype='uint8')[labels]
    return (data, Y)

def model():
    model = Sequential()
    model.add(Conv2D(filters=8, kernel_size=(3, 3), padding="same", activation="relu",
                                                                    input_shape=(rows, cols, 3)))
    model.add(Flatten())
    model.add(Dense(nb_classes, activation='softmax'))
    model.add(Dropout(0.2))
    return model

#main program
X, y = load_GTSRB()

#print(np.shape(X))
#print(np.shape(y))
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)
print(np.shape(X_train))
print(np.shape(y_train))
print(np.shape(X_test))
print(np.shape(y_test))

model = model()
model.summary()
model.compile(loss='categorical_crossentropy',
              metrics=['accuracy'],
              optimizer=tensorflow.keras.optimizers.Adam(learning_rate=0.001))

history=model.fit(X_train, y_train, batch_size=32, epochs=20, verbose=1, validation_data=(X_test, y_test))

#affichage évolution loss
plt.figure(figsize=(8, 8))
plt.subplot(2, 1, 1)
plt.title("loss vs learning epochs on GTSRB dataset")
plt.ylabel("loss")
plt.plot(history.history['loss'], '--', label='train')
plt.plot(history.history['val_loss'], label='validation')
plt.legend(loc="best")

#affichage évolution précision
plt.subplot(2, 1, 2)
plt.title("accuracy vs learning epochs on GTSRB dataset")
plt.xlabel("epochs")
plt.ylabel("accuracy")
plt.plot(history.history['accuracy'], '--', label='train')
plt.plot(history.history['val_accuracy'], label='validation')
plt.legend(loc="lower right")
plt.show()

### <b>Rappels sur les tableaux</b>

#### <b>Tableaux Python</b>


In [None]:
import numpy as np
from numpy import *
from skimage import color, exposure, transform
import cv2
import skimage as sk
from sklearn.model_selection import train_test_split
from sklearn.utils import shuffle
import tensorflow
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation, Flatten
from keras.layers import Conv2D, MaxPooling2D
from tensorflow.keras.optimizers import RMSprop
from keras.utils import np_utils
from tensorflow.keras.layers import BatchNormalization

import os
import glob
import matplotlib.pyplot as plt
import keras
a = [[1., 2, 3], [4, 5, 6]]
print(a)
b= [[[1., 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]
print(b)
print(type(a))
print(type(b))
print(a[0])
print(a[1])
print(a[1][0])

In [None]:
import numpy as np
import os
import matplotlib.pyplot as plt
a = [[1., 2, 3], [4, 5, 6]]
print(a)
b= [[[1., 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]
print(b)
print(type(a))
print(type(b))
print(a[0])
print(a[1])
print(a[1][0])
print(shape(a))
print(shape(b))
print(len(a))
print(len(b))
print(len(a[0]))
print(len(b[0]))
print(len(b[1]))
print(len(b[0][0]))

#### <b>Tableaux Numpy</b>

In [None]:
import numpy as np
a = np.array([[1, 2, 3], [4, 5, 6]])
print(a)
b= np.array([[[1., 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(b)
print(type(a))
print(type(b))
print(a.dtype)
print(b.dtype)
print(a.shape)
print(b.shape)
print(a.size)
print(b.size)

On constate que le tableau a est de type entier (64 bits) car tous ses éléments sont des entiers. Par contre, la tableau b est de type flottant car il y a au moins un élément de type flottant. 

### <b>Manipulation de tenseurs</b>

Les librairies de deep-learning comme Tensorflow et Pytorch sont basées sur le traitement de tenseurs.  
Un tenseur est un tableau dont la dimension peut être quelconque.  
Notamment :
- un nombre (=scalaire) est un tableau de dimension 0 (tenseur de dimension 0), 
- un vecteur est un tableau de dimension 1 (tenseur de dimension 1), 
- une matrice est un tableau de dimension 2 (tenseur de dimension 2), etc.

In [None]:
import torch

t0 = torch.tensor(1.23) #tenseur de dimension 0
print(t0)
print(t0.ndim)
print(t0.shape)
print(type(t0))

In [None]:
t1 = torch.tensor([1, 2, 3]) #tenseur de dimension 1
print(t1)
print(t1.ndim)
print(t1.shape)
print(type(t1))

In [None]:
t2 = torch.tensor([[1., 2, 3], [4, 5, 6]]) #tenseur de dimension 2
print(t2)
print(t2.ndim)
print(t2.shape)
print(type(t2))

In [None]:
t3 = torch.tensor([[[1., 2], [3, 4], [5, 6]], [[7, 8], [9, 10], [11, 12]], [[13, 14], [15, 16], [17, 18]], [[19, 20], [21, 22], [23, 24]]]) #tenseur de dimension 3
print(t3)
print(t3.ndim)
print(t3.shape)
print(type(t3))

Chaque dimension d'un tenseur possède une taille, qu'on peut afficher séparemment :

In [None]:
print(t3.shape[0])
print(t3.shape[1])
print(t3.shape[2])

### <b>Lien avec les images</b>

On peut charger une image et la comparer avec les tenseurs étudiés ci-dessus.

In [None]:
import matplotlib.pyplot as plt

img = plt.imread("data/GTSRB/Final_Training/Images/00000/00000_00001.ppm")

plt.imshow(img)

print(type(img))
print(img.shape)
print(img.dtype)
print(img)

On constate que la fonction de chargement de Matplotlib a généré un tableau Numpy, de type entier non signé 8 bits.

Pour pouvoir utiliser des images avec les réseaux de neurones de Pytorch, il va falloir les convertir en tenseurs.

In [None]:
x = torch.from_numpy(img) # conversion en tenseur PyTorch
print(type(x))
print(x.ndim)
print(x.dtype)
print(x.shape)
print(x)

On constate que l'image convertie en tenseur a la même structure que le tenseur de dimension 3 étudié plus haut.
Cette image, composée de 3 plans couleurs (R, G, B) est donc un tenseur de dimension 3.

On peut remarquer que nos tenseurs étaient de type float, alors que celui correspondant à l'image est du type uint8 : entier 8 bits non-signé.

### <b>Couche de neurones convolutifs</b>

Dans un réseau de neurones convolutifs, les couches sont constituées de feature maps.
Dans le cas particulier de la 1ère couche du réseau (celle qui reçoit les images d'entrée), les feature maps d'entrée sont constituées par les F canaux des images : F=3 pour les images couleur, F=1 dans le cas monochrome.  

De plus, la 1ère couche de neurones ne prend pas en entrée une seule image, mais un ensemble de B images (un "Batch"). Ceci parce que l'algorithme d'apprentissage s'applique à des paquets d'images et pas a des images isolées (si l'on veut appliquer l'apprentissage à chaque présentation d'une seule images, il faut utiliser un batch de 1).

Dans PyTorch, les entrées des couches de convolution sont donc constituées par des tenseurs de dimension BxFxHxL, avec :
- B taille du batch
- F nombre de features maps
- H hauteur des images
- L largeur des images

Avant d'appliquer notre image en entrée d'une couche convolutive, revenons sur ses dimensions :

In [None]:
print(x.shape)

Avec notre notation, ses dimensions sont HxLxF.
Il faut donc d'abord modifier l'ordre de ces dimensions, à savoir ramener la 3e dimension en 1ère position. 

In [None]:
x = x.permute(2,0,1)      #nouvel ordre des dimensions (ici, la dernière vient en première position)
print(x.shape)

Mais ça n'est pas suffisant. Les couches convolutives prennent en entrée des groupes d'images, qu'on appelle des "batchs". Il faut donc ajouter la dimension du batch. Comme on a une seule image ici, on prend B=1.

In [None]:
print(x.shape[0])
print(x.shape[1])
print(x.shape[2])

x = x.reshape([1, x.shape[0], x.shape[1], x.shape[2]]) # add a dimension for batching
print(x.shape)

On peut alors l'appliquer en entrée d'une couche de neurones convolutifs.

Pour créer une couche convolutive, il faut lui spécifier au moins les éléments suivants :
- le nombre de canaux d'entrée, 
- le nombre de canaux de sortie, 
- la taille du noyau de convolution (celui-ci étant carré, une taille de 3 signifiera, par exemple, un noyau de dimension 3x3).

In [None]:
import torch
import torch.nn as nn
import numpy as np
import matplotlib.pyplot as plt

print('x shape : ', x.shape)
conv = nn.Conv2d(in_channels=3, out_channels=8, kernel_size=3)
y = conv(x.float())
print('y shape : ', y.shape)
y = y.detach().numpy() # convert the result into numpy
print('y shape : ', y.shape)
y = y[0]               # remove the dimension for batching
print('y shape : ', y.shape)

On constate que la sortie de la couche est bien composée de 8 feature-maps, de taille 28x28 du fait de l'effet de bord dû à la convolution.

On peut afficher graphiquement les sorties des feature-maps :

In [None]:
# normalize the result to [0, 1] for plotting
y_max = np.max(y)
y_min = np.min(y)
img_after_conv = y - y_min / (y_max - y_min)
img_after_conv.shape
#print(img_after_conv.shape)
plt.figure(figsize=(14,4))
plt.imshow(img_after_conv)
for i in range(8):
    plt.subplot(1, 8, i+1)
    plt.imshow(img_after_conv[i])
#rm : autre façon de faire :
#for i, img in enumerate(img_after_conv):
#    plt.subplot(1, 8, i+1)
#    plt.imshow(img)

L'interprétation de ces images n'a pas beaucoup de sens dans la mesure où les poids des neurones ont des valeurs aléatoires.

La foncntion Conv2d() comporte un argument suplémentaire "stride", correspondant au décalage des convolutions.
On observe ce qui se passe avec un stride de 2.

In [None]:
conv = nn.Conv2d(in_channels=3, out_channels=8, kernel_size=3, stride=2)
y = conv(x.float())
print('y shape : ', y.shape)
y = y.detach().numpy() # convert the result into numpy
print('y shape : ', y.shape)
y = y[0]               # remove the dimension for batching
print('y shape : ', y.shape)

On constate que la taille des couches a été divisée par 2 (ce qui est normal puisque les convolutions ont été décalées de 2.

In [None]:
# normalize the result to [0, 1] for plotting
y_max = np.max(y)
y_min = np.min(y)
img_after_conv = y - y_min / (y_max - y_min)
img_after_conv.shape

plt.figure(figsize=(14,4))
for i in range(8):
    plt.subplot(1, 8, i+1)
    plt.imshow(img_after_conv[i])

On voit bien que la résolution des sorties des couches a été divisée par 2.


### <b>Couche de max-pooling</b>

Les couches de max-pooling sont utilisées pour réduire la résolution des sorties des couches de convolution.
Cette réduction est quantifiée par le paramètre "kernel_size".
La plupart du temps, cette taille est prise égale à 2.

In [None]:
pool = nn.MaxPool2d(kernel_size=2, stride=2)
y = conv(x.float())
z = pool(y)

print('y shape : ', y.shape)
print('z shape : ', z.shape)
z = z.detach().numpy() # convert the result into numpy
print('y shape : ', z.shape)
z = z[0]               # remove the dimension for batching
print('z shape : ', z.shape)

# normalize the result to [0, 1] for plotting
z_max = np.max(z)
z_min = np.min(z)
img_after_conv = z - z_min / (z_max - z_min)
img_after_conv.shape

plt.figure(figsize=(14,4))
for i in range(8):
    plt.subplot(1, 8, i+1)
    plt.imshow(img_after_conv[i])
    
list(pool.parameters())

On observe que la résolution des sortie de la couche de convolution précédente a encore été divisée par 2.

### <b>Couche complètement connectée</b>

Les couches complètement connectées (fully-connected) sont utilisées en sortie d'un réseau de neurones dédié à la classification.
Remarque : les réseaux de neurones de type MLP (Multi-Layer Perceptron) sont composés uniquement de couches complètement connectées.

Dans Pytorch, elles sont appelées "Linear".

In [None]:
# fully-connected layer between a lower layer of size 100, and a higher layer of size 30
fc = nn.Linear(100, 30)

x = torch.randn(100) # create a tensor of shape [100]
y = fc(x)            # apply the fully conected layer `fc` to x
print("y.shape :", y.shape)

fc_params = list(fc.parameters())
print("len(fc_params) :", len(fc_params))
print("Weights :", fc_params[0].shape)
print("Biases :", fc_params[1].shape)


### <b>Chargement d'un dataset depuis un emplacement local</b>

Pour cette partie on va utiliser un dataset existant, mais faire comme si il s'agissait de nos propres images. 

On peut utiliser pour ça le dataset des images de panneaux de signalisation GTSRB (German Trafic Sign Recognition Benchmark).

Rappel de la commande de téléchargement (/!\ ne pas utiliser sur le serveur ROOC, le dataset est déjà disponible dans data/GTSRB) :

In [None]:
#!wget https://sid.erda.dk/public/archives/daaeac0d7ce1152aea9b61d9f1e19370/GTSRB_Final_Training_Images.zip
#!unzip GTSRB_Final_Training_Images.zip

Dans PyTorch, les données sont chargées au moyen d'une fonction "DataLoader". Les différentes étapes sont les suivantes :
- des transformations peuvent être appliquées aux images au moyen de la fonction "Compose" (de torchvision)
- ces transformations sont appliquées au moyen de la fonction "ImageFolder" (également de torchvision)
- les données sont chargées au moyen de la fonction "DataLoader"

La conversion des images en tenseurs peut se faire au niveau de ces transformations.
Dans le cas des données GTSRB, une autre transormation est indispensable : le redimensionnement des images à une taille unique (fonction "resize"). En effet, les images de ce dataset sont de taille variable, or la taille de la couche d'entrée du réseau de neurones est fixe. On choisira ici une taille de 50x50.

In [None]:
import torch
import torchvision
from torchvision import datasets, transforms
import matplotlib.pyplot as plt

im_w, im_h = 50, 50  #on peut mettre ce qu'on veut comme taille des images, mais garder à peu les proportions d'origine
transf = transforms.Compose([
                               transforms.Resize((im_w, im_h)),
                               transforms.ToTensor()       #conversion en tenseur
                            ])
train_dataset=datasets.ImageFolder("data/GTSRB/Final_Training/Images/", transform=transf)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=10, shuffle=True)

#affichage des 10 1ères images
plt.figure(figsize=(20,4))
for i in range(10):
    plt.subplot(1, 11, i+1)
    torchimage = train_dataset[i][0]
    npimage = torchimage.permute(1, 2, 0)
    plt.imshow(npimage)

On remarque que les images ont maintenant bien toutes la même taille.

## <b>Exemple complet de classification d'images</b>


Les différentes étapes sont les suivantes :
- Chargement des données d'apprentissage et de test à partir de 2 répertoires data/train et data/test
- Redimensionnement des images
- Apprentissage
- Sauvegarde du modèle entraîné

On commence avec les données MNIST car il existe des fonctions de chargement des données intégrées dans Torchvision.  

Rm : l'utilisation des données Iris n'a pas vraiment de sens avec les réseaux de neurones convolutifs, car elles ne sont pas en 2 dimensions. 


### <b>Données MNIST</b>

#### <b>Chargement des librairies utiles et détection de présence d'un GPU</b>

In [2]:
import torch 
import torch.nn as nn
import torch.nn.functional as F
import torchvision
import torchvision.transforms as transforms

# Device configuration
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

  warn(f"Failed to load image Python extension: {e}")


#### <b>Chargement des données</b>

Il faut créer un DataLoader pour les données d'apprentissage et un autre pour les données de test..    
Le redimensionnement des images n'est pas utile ici, car les images sont déjà toutes de la même taille (28x28 pixels). 
La seule transformation obligatoire est donc la conversion des images en tenseurs.

Les autres transformations qui pourraient être utiles sont :

- "Normalize" : normalisation des données pour avoir une moyenne nulle et un écart-type égal à 1
- rotation, translation, changement d'échelle, etc : qui permettent de faire de l'augmentation de données
- ...


#### <b>Normalisation des données</b>

Les données sont souvent normalisées pour avoir une moyenne nulle et un écart-type ("standard deviation") égal à 1.  
La normalisation peut accélerer l'apprentissage et améliorer ses résultats.  
Dans le cas d'un ensemble de valeurs dont la moyenne est M et l'écart-type sigma, cette normalisation consiste à remplacer chaque valeur par :

valeur = (valeur – M) / sigma

Regardons sur un petit tableau l'effet de cette normalisation :  
(source : https://inside-machinelearning.com/en/why-and-how-to-normalize-data-object-detection-on-image-in-pytorch-part-1/)

In [3]:
import numpy as np

l = [60, 9, 37, 14, 23, 4]

print('moyenne : ', np.mean(l))
print('écart type : ', np.std(l))

l_norm = np.zeros(len(l))
for i in range(len(l)):
    l_norm[i] = (l[i] - np.mean(l)) / np.std(l)

#rm : forme compacte :
#l_norm = [(element - np.mean(l)) / np.std(l) for element in l]

print(l_norm)
print('moyenne après normalisation : ', np.mean(l_norm))
print('écart type après normalisation : ', np.std(l_norm))

moyenne :  24.5
écart type :  19.102792117035317
[ 1.85836708 -0.81139971  0.65435461 -0.54965787 -0.07852255 -1.07314155]
moyenne après normalisation :  0.0
écart type après normalisation :  1.0


De la même façon, dans le cas d'un ensemble de vecteurs, chaque élément des vecteurs va être remplacé par sa valeur normalisée, calculée à partir de toutes ses valeurs sur l'ensemble des vecteurs.  
Dans le cas des images, chaque pixel est normalisé en fonction de ses valeurs sur l'ensemble du jeu de données.  
Pour connaître la moyenne et la variance des données MNIST, on les charge d'abord sans transformation, pour pouvoir calculer cette moyenne ("mean") et cette variance ("std" pour "standard deviation").

In [4]:
train_dataset = torchvision.datasets.MNIST(root='./my_data', 
                                           train=True, 
                                           download=True)     #chargement d'internet, la première fois

In [5]:
print('Min Pixel Value: {} \nMax Pixel Value: {}'.format(train_dataset.data.min(), train_dataset.data.max()))
print('Mean Pixel Value {} \nPixel Values Std: {}'.format(train_dataset.data.float().mean(), train_dataset.data.float().std()))
print('Scaled Mean Pixel Value {} \nScaled Pixel Values Std: {}'.format(train_dataset.data.float().mean() / 255, train_dataset.data.float().std() / 255))

Min Pixel Value: 0 
Max Pixel Value: 255
Mean Pixel Value 33.31842041015625 
Pixel Values Std: 78.56748962402344
Scaled Mean Pixel Value 0.13066047430038452 
Scaled Pixel Values Std: 0.30810779333114624


On recommence le chargement, mais cette fois-ci en ajoutant la normalisation. 
(On efface d'abord le répertoire des données pour que le rechargement depuis internet se produise).

In [6]:
!rm -r my_data

In [7]:
transform = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize((0.1307,), (0.3081,))
        ])

train_dataset = torchvision.datasets.MNIST(root='./my_data/',
                                        train=True, 
                                        transform=transform,
                                        download=True)

print('Min Pixel Value: {} \nMax Pixel Value: {}'.format(train_dataset.data.min(), train_dataset.data.max()))
print('Mean Pixel Value {} \nPixel Values Std: {}'.format(train_dataset.data.float().mean(), train_dataset.data.float().std()))
print('Scaled Mean Pixel Value {} \nScaled Pixel Values Std: {}'.format(train_dataset.data.float().mean() / 255, train_dataset.data.float().std() / 255))

Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz to ./my_data/MNIST/raw/train-images-idx3-ubyte.gz


  0%|          | 0/9912422 [00:00<?, ?it/s]

Extracting ./my_data/MNIST/raw/train-images-idx3-ubyte.gz to ./my_data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz to ./my_data/MNIST/raw/train-labels-idx1-ubyte.gz


  0%|          | 0/28881 [00:00<?, ?it/s]

Extracting ./my_data/MNIST/raw/train-labels-idx1-ubyte.gz to ./my_data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz to ./my_data/MNIST/raw/t10k-images-idx3-ubyte.gz


  0%|          | 0/1648877 [00:00<?, ?it/s]

Extracting ./my_data/MNIST/raw/t10k-images-idx3-ubyte.gz to ./my_data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz to ./my_data/MNIST/raw/t10k-labels-idx1-ubyte.gz


  0%|          | 0/4542 [00:00<?, ?it/s]

Extracting ./my_data/MNIST/raw/t10k-labels-idx1-ubyte.gz to ./my_data/MNIST/raw

Min Pixel Value: 0 
Max Pixel Value: 255
Mean Pixel Value 33.31842041015625 
Pixel Values Std: 78.56748962402344
Scaled Mean Pixel Value 0.13066047430038452 
Scaled Pixel Values Std: 0.30810779333114624


On constate que la moyenne et la variance n'ont pas changé. En effet, la normalisation ne sera appliquée qu'au moment de l'utilisation du dataset.

On complète le code par un dataset de test.

In [8]:
transform = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize((0.1307,), (0.3081,))
        ])

train_dataset = torchvision.datasets.MNIST(root='my_data/',
                                            train=True, 
                                            transform=transform,
                                            download=True)

test_dataset = torchvision.datasets.MNIST(root='my_data/',
                                            train=False, 
                                            transform=transform,
                                            download=True)

Une fois les datasets définis, on peut définir les DataLoaders correspondants.

On peut également définir un certain nombre d'autres informations au niveau du DataLoader, notamment :
- "batch_size" : taille du batch, c'est à dire :
    - pour les données d'apprentissage, le nombre d'images présentées en entrée du réseau avant l'adaptation de ses poids au moyen de la règle d'apprentissage
    - pour les données de test, le nombre d'images présentées en entrée du réseau avant le calcul du taux de reconnaissance ("Accuracy")
- "shuffle" : mélange aléatoire des images avant tirage ou pas
- etc.  

Ici, on choisit de mélanger les données d'apprentissage mais pas les données de test.

In [9]:
batch_size = 16

train_loader = torch.utils.data.DataLoader(dataset=train_dataset,
                                           batch_size=batch_size, 
                                           shuffle=True)

test_loader = torch.utils.data.DataLoader(dataset=test_dataset,
                                          batch_size=batch_size, 
                                          shuffle=False)

print(len(train_loader.dataset))
print(len(test_loader.dataset))

60000
10000


#### <b>Création du réseau de neurones</b>

En première approche, on choisit une structure simple composée d'une seule couche convolutive et d'une couche complètement connectée.  
Cette structure est la plus simple qu'on puisse imaginer pour un réseau de neurone convolutif, mais elle ne donnera forcément pas de très bon résultats.

In [10]:
ft = 8                #nombre de feature-maps pour la couche convolutive
nb_cl = 10            #nombre de classes
im_w, im_h = 28, 28

class ConvNet(nn.Module):
    def __init__(self):
        super(ConvNet, self).__init__()
        self.name = "CNN MNIST"
        self.conv = nn.Conv2d(in_channels=1, out_channels=ft, kernel_size=3, padding=1)
        self.fc = nn.Linear(im_w*im_h*ft, nb_cl)
        #self.pool = nn.MaxPool2d(2, 2)
    def forward(self, x):
        x = F.relu(self.conv(x))
        #x = self.pool(x)
        x = torch.flatten(x, 1)     #aplatissement (2D->1D)
        x = self.fc(x)
        return x

model = ConvNet().to(device)      #creation du modèle (=reseau de neurones)

#### <b>Affichage de la structure du réseau</b>

In [11]:
from torchsummary import summary

summary(model, (1, 28, 28))

Layer (type:depth-idx)                   Output Shape              Param #
├─Conv2d: 1-1                            [-1, 8, 28, 28]           80
├─Linear: 1-2                            [-1, 10]                  62,730
Total params: 62,810
Trainable params: 62,810
Non-trainable params: 0
Total mult-adds (M): 0.12
Input size (MB): 0.00
Forward/backward pass size (MB): 0.05
Params size (MB): 0.24
Estimated Total Size (MB): 0.29


[W NNPACK.cpp:51] Could not initialize NNPACK! Reason: Unsupported hardware.


Layer (type:depth-idx)                   Output Shape              Param #
├─Conv2d: 1-1                            [-1, 8, 28, 28]           80
├─Linear: 1-2                            [-1, 10]                  62,730
Total params: 62,810
Trainable params: 62,810
Non-trainable params: 0
Total mult-adds (M): 0.12
Input size (MB): 0.00
Forward/backward pass size (MB): 0.05
Params size (MB): 0.24
Estimated Total Size (MB): 0.29

#### <b>Fonction de coût ("loss") et optimiseur ("optimizer")</b>

Pour l'apprentissage, on doit choisir la fonction de coût (loss) à utiliser. Il en existe différents types.  
Il existe également plusieurs type d'optimiseurs. L'optimiseur est l'algorithme permettant de réduire le loss à chaque itération d'apprentissage.  
Parmi les paramètres d'apprentissage, on trouve le taux d'apprentissage (learning rate), qui ajuste la quantité de modification des poids du réseau de neurones à chaque itération d'apprentissage.  
Dans cet exemple on choisit pour la fonction de coût l'entropie croisée, et pour l'optimiseur Adam.

In [12]:
import torch.nn.functional as F

learning_rate = 0.001

criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
#optimizer = torch.optim.Adadelta(model.parameters(), lr=learning_rate)

#### <b>Fonction d'apprentissage</b>

On écrit une fonction d'apprentissage pour les boucles sur les batches d'images.
Rappel de l'algorithme d'apprentissage :  

- présentation d'un batch d'images d'apprentissage en entrée du réseau
- calcul des sorties correspondantes du réseau
- calcul de l'erreur de sortie
- modification des poids du réseau de neurones en fonction de cette erreur, de la dernière couche à la première (*)

(*)"rétro-propagation de l'erreur"

In [13]:
def train(model, device, train_loader, optimizer, epoch):
    model.train()
    train_loss = 0.0
    correct = 0
    data_len = len(train_loader.dataset)
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)         # calcul de l'erreur de sortie
        loss.backward()
        optimizer.step()
        if batch_idx % 200 == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(data), data_len, 100. * batch_idx / len(train_loader), loss.item()))
        train_loss += loss.item()
        pred = output.argmax(dim=1, keepdim=True)          # get the index of the max log-probability
        correct += pred.eq(target.view_as(pred)).sum().item()  
    train_loss /= data_len
    accuracy = 100. * correct / len(train_loader.dataset)
    print('Train Epoch: {} [{}/{}]\tLoss: {:.4f}\tTrain accuracy: {:.4f}'.format(
                epoch, batch_idx * len(data), data_len, loss.item(), accuracy))
    return train_loss, accuracy

#### <b>Fonction de test</b>

La fonction de test réalise l'activation du réseau de neurones (c'est à dire de ses couches, de la première à la dernière), mais cette fois-ci sans appliquer l'apprentissage. Cela permet de comparer sa sortie réelle à la sortie désirée, afin d'évaluer ses performances.

In [14]:
"""
def test(model, device, test_loader):
    model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)
            output = model(data)
            loss = criterion(output, target)         # calcul de l'erreur
            test_loss += loss.item()
            #test_loss += criterion(output, target)         # calcul de l'erreur
            pred = output.argmax(dim=1, keepdim=True)  # get the index of the max log-probability
            correct += pred.eq(target.view_as(pred)).sum().item()
    test_loss /= len(test_loader.dataset)
    accuracy = 100. * correct / len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        100. * correct / len(test_loader.dataset)))
    #print('\nTest set: Average loss: {:.4f}, Test accuracy: ({:.0f}%)\n'.format(loss, accuracy))
    return test_loss, accuracy
"""
def test(model, device, test_loader):
    model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)
            output = model(data)
            loss = criterion(output, target)         # calcul de l'erreur
            test_loss += loss.item()
            pred = output.argmax(dim=1, keepdim=True)  # get the index of the max log-probability
            correct += pred.eq(target.view_as(pred)).sum().item()
    test_loss /= len(test_loader.dataset)
    accuracy = 100. * correct / len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Test accuracy: ({:.2f}%)\n'.format(test_loss, accuracy))
    return test_loss, accuracy

On peut alors lancer la boucle d'apprentissage sur les époques.  
Le fait de faire le test à chaque itération de cette boucle permet d'obtenir le loss et l'accuracy sur les données de test (dans le but de voir leur évolution au fil des itérations).

In [None]:
epochs = 10

train_losses, test_losses, train_accuracies, test_accuracies = [], [], [], []
for epoch in range(1, epochs + 1):
    train_loss, train_accuracy = train(model, device, train_loader, optimizer, epoch)
    test_loss, test_accuracy = test(model, device, test_loader)
    train_losses.append(train_loss)
    train_accuracies.append(train_accuracy)
    test_losses.append(test_loss)
    test_accuracies.append(test_accuracy)

Train Epoch: 1 [59984/60000]	Loss: 0.1035	Train accuracy: 94.5483

Test set: Average loss: 0.0052, Test accuracy: (97.45%)

Train Epoch: 2 [59984/60000]	Loss: 0.0843	Train accuracy: 97.6850

Test set: Average loss: 0.0050, Test accuracy: (97.41%)

Train Epoch: 3 [59984/60000]	Loss: 0.1577	Train accuracy: 98.3067

Test set: Average loss: 0.0059, Test accuracy: (97.27%)

Train Epoch: 4 [59984/60000]	Loss: 0.0164	Train accuracy: 98.7033


#### <b>Affichage graphique des résultats</b>

Il est toujours intéressant d'afficher graphiquement la progression de l'apprentissage, notamment la précision sur les données d'apprentissage et sur les données de test.


In [None]:
import matplotlib.pyplot as plt

print(train_losses)
print(test_losses)

plt.figure(figsize=(8, 8))
plt.subplot(2, 1, 1)

plt.title("loss vs learning epochs on MNIST dataset")
plt.ylabel("loss")
plt.plot(train_losses, label='Train')
plt.plot(test_losses, label='Test')
plt.legend(loc="upper right")
plt.subplot(2, 1, 2)

plt.title("accuracy vs learning epochs on MNIST dataset")
plt.xlabel("epochs")
plt.ylabel("accuracy")
plt.plot(train_accuracies, label='Train')
plt.plot(test_accuracies, label='Test')
plt.legend(loc="lower right")
plt.show()


On constate que la précision sur les données de test est très bonne dès les premières époques d'apprentissage, et ce malgré la structure très simple du réseau et son faible nombre de paramètres.

#### <b>Sauvegarde du modèle</b>

On peut sauvegarder le modèle, pour utilisation ultérieure.

In [None]:
# Save the model checkpoint
torch.save(model.state_dict(), 'model.ckpt')

#### <b>Utilisation ultérieure : chargement du modèle généré précédemment et inférence</b>

Par inférence, on entend la présentation d'une image en entrée du modèle et le calcul de la prédiction de ce dernier.  
L'utilisation du réseau de neurones en inférence consiste à charger le fichier-modèle, puis à appliquer le modèle à des images de test.  

Remarque : pour être sûr que le modèle présent en mémoire soit celui qui est chargé du fichier, il faut redémarrer le noyau du Notebook.  
Dans ce cas, il faut relancer une partie du code défini plus haut. Plus précisément :

- Importation des librairies nécessaires
- Définition de la structure du réseau de neurones ainsi que son flot d'information
- Création d'un réseau de neurones et adaptation au processeur utilisé

Pour le test, on peut récupérer une image PNG directement du github suivant :

https://github.com/Paperspace/mnist-sample/

In [None]:
!cp example5.png test.png

In [None]:
import numpy as np
from PIL import Image

def predict(model, image):
    image = image.resize((im_w, im_h))
    np_img = np.array(image)                        # conversion en tableau numpy
    image_tensor = torch.from_numpy(np_img)         # conversion en tenseur PyTorch
    print(image_tensor.shape)
    image_tensor = image_tensor.reshape([1, 1, np_img.shape[0], np_img.shape[1]]) # ajout d'une dimension (cf + haut)
    output = model(image_tensor.float())        # application de l'image en entrée du réseau
    index = output.data.numpy().argmax()
    return index

#programme principal
path = './'
image_file = 'test.png'
true_index = 5             #classe "30" : index = 0 ; classe "50" : index = 1

device = 'cpu'
print("device : ", device)

model = ConvNet().to(device)    #creation d'un nouvelle instance du modele
model.load_state_dict(torch.load('model.ckpt'))    # chargement des poids sauvegardés précédemment
model.eval()

img = Image.open(path + image_file)  # image au hasard
img = img.convert('L')               #conversion en monochrome
index = predict(model, img)
print('index estimé : ', index)

#affichage du résultat sur l'image
classe = [i for i in range(10)]    #nom des classes

if(true_index == index):
    res = True
else:
    res = False
plt.title('classe : ' + str(classe[index]) + ' (' + str(res) + ')')
plt.axis('off')
plt.imshow(img)

### <b>Données GTSRB</b>

Les données GTSRB doivent être chargées depuis un emplacement local. C'est donc un bon exemple, similaire à ce qu'on serait amené à faire dans un cas d'utilisation réelle, avec ses propres images.  

Le système de DataLoader de Pytorch permet de charger les données depuis un emplacement local. Il existe également une fonction "random_split()" permettant de séparer un ensemble de données en deux sous-ensembles (apprentissage/test).  
La solution la plus simple consiste donc à ne charger que les données d'apprentissage, puis de les séparer en deux.

#### <b>Chargement des librairies utiles et détection de présence d'un GPU</b>

In [1]:
from __future__ import print_function
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms

#détection de présence d'un CPU
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
print(device)

  warn(f"Failed to load image Python extension: {e}")


cpu


In [2]:
train_dir = 'data/GTSRB/Final_Training/Images/'

#### <b>Chargement des données</b>

Contrairement à MNIST, on n'a pas ici un dataset d'apprentissage et un dataset de test.
On utilise donc la fonction de séparation de Pytorch ("random_split") pour séparer le dataset disponible en 2 parties.

On définit donc :
 - les transformations à appliquer aux données
 - la séparation train/test (ou validation)
 - les 2 DataLoaders correspondants

In [3]:
im_w, im_h = 28, 28
batch_size = 64

transform = transforms.Compose([
                               transforms.Resize((im_w, im_h)),
                               transforms.ToTensor(),   #car la transformation qui suit porte sur des tenseurs
                               transforms.Normalize([0.4914, 0.4822, 0.4465], [0.2023, 0.1994, 0.2010])
                               ])

full_dataset = datasets.ImageFolder(train_dir, transform=transform)

#split dataset for train/test
train_size = int(0.8 * len(full_dataset))
test_size = len(full_dataset) - train_size
train_dataset, val_dataset = torch.utils.data.random_split(full_dataset, [train_size, test_size])

print(len(full_dataset))
print(len(train_dataset))
print(len(val_dataset))

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = torch.utils.data.DataLoader(val_dataset, batch_size=batch_size, shuffle=True)

39209
31367
7842


#### <b>Création du réseau de neurones</b>

Dans un premier temps, on reprend la structure générale du réseau de neurones déjà utilisé avec MNIST, mais il faut adapter le nombre de classes.

On utilise une classe pour définir la structure du réseau de neurones et son flot d'information, puis on crée un réseau de neurones proprement dit (= une instance de la classe), que l'on adapte au processeur utilisé.

In [4]:
ft = 8        #nombre de feature-maps de la couche convolutive
nb_classes = 43

#avec une couche de convolution, une couche complètement connectée
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.name = "CNN for GTSRB"
        self.conv1 = nn.Conv2d(in_channels=3, out_channels=ft, kernel_size=3, padding=2) #30*30 to 28*28
        #self.fc = nn.Linear(im_w*im_h*ft, nb_classes)     
        #self.conv2 =nn.Conv2d(1, ft, kernel_size=5, padding=2)
        self.pool1 =nn.MaxPool2d(kernel_size=2, stride=2) #14*14
        self.conv3 = nn.Conv2d(ft, 64, kernel_size=3) #12*12
        self.pool2= nn.MaxPool2d(kernel_size=2, stride=2)   #6*6 
        self.fc = nn.Linear(64*6*6, 120)
        self.dropout = nn.Dropout(p=0.2)
        self.fc1 =nn.Linear(120, 84)
        self.fc2 =nn.Linear(84, nb_classes)
    def forward(self, x):
        x = F.relu(self.conv1(x))  
        #x = F.relu(self.conv2(x))
        x=self.pool1(x)
        x = F.relu(self.conv3(x))
        x=self.pool2(x)
        x = torch.flatten(x, 1)     #aplatissement
        x = self.fc(x)
        x =self.dropout(x)
        x = self.fc1(x)
        x = self.fc2(x)
        
        nn.Flatten()
        return x

#### <b>Création d'un réseau de neurones et adaptation au processeur utilisé</b>

In [5]:
model = Net().to(device)
print(model)

Net(
  (conv1): Conv2d(3, 8, kernel_size=(3, 3), stride=(1, 1), padding=(2, 2))
  (pool1): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (conv3): Conv2d(8, 64, kernel_size=(3, 3), stride=(1, 1))
  (pool2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (fc): Linear(in_features=2304, out_features=120, bias=True)
  (dropout): Dropout(p=0.2, inplace=False)
  (fc1): Linear(in_features=120, out_features=84, bias=True)
  (fc2): Linear(in_features=84, out_features=43, bias=True)
)


#### <b>Affichage de la structure du réseau</b>

In [6]:
from torchsummary import summary

summary(model, (3, im_w, im_h))

Layer (type:depth-idx)                   Output Shape              Param #
├─Conv2d: 1-1                            [-1, 8, 30, 30]           224
├─MaxPool2d: 1-2                         [-1, 8, 15, 15]           --
├─Conv2d: 1-3                            [-1, 64, 13, 13]          4,672
├─MaxPool2d: 1-4                         [-1, 64, 6, 6]            --
├─Linear: 1-5                            [-1, 120]                 276,600
├─Dropout: 1-6                           [-1, 120]                 --
├─Linear: 1-7                            [-1, 84]                  10,164
├─Linear: 1-8                            [-1, 43]                  3,655
Total params: 295,315
Trainable params: 295,315
Non-trainable params: 0
Total mult-adds (M): 1.26
Input size (MB): 0.01
Forward/backward pass size (MB): 0.14
Params size (MB): 1.13
Estimated Total Size (MB): 1.27


[W NNPACK.cpp:51] Could not initialize NNPACK! Reason: Unsupported hardware.


Layer (type:depth-idx)                   Output Shape              Param #
├─Conv2d: 1-1                            [-1, 8, 30, 30]           224
├─MaxPool2d: 1-2                         [-1, 8, 15, 15]           --
├─Conv2d: 1-3                            [-1, 64, 13, 13]          4,672
├─MaxPool2d: 1-4                         [-1, 64, 6, 6]            --
├─Linear: 1-5                            [-1, 120]                 276,600
├─Dropout: 1-6                           [-1, 120]                 --
├─Linear: 1-7                            [-1, 84]                  10,164
├─Linear: 1-8                            [-1, 43]                  3,655
Total params: 295,315
Trainable params: 295,315
Non-trainable params: 0
Total mult-adds (M): 1.26
Input size (MB): 0.01
Forward/backward pass size (MB): 0.14
Params size (MB): 1.13
Estimated Total Size (MB): 1.27

#### <b>Fonction d'apprentissage</b>

In [7]:
import torch.nn.functional as F

def train(model, device, train_loader, optimizer, epoch):
    model.train()
    train_loss = 0.0
    correct = 0
    data_len = len(train_loader.dataset)
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()                              #initialisation des gradients
        output = model(data)                               #activation du réseau
        loss = criterion(output, target)                   #calcul de l'erreur de sortie
        loss.backward()                                    #rétro-propagation du gradient
        optimizer.step()                                   #adaptation des poids des neurones
        train_loss += loss.item()
        pred = output.argmax(dim=1, keepdim=True)          # get the index of the max log-probability
        correct += pred.eq(target.view_as(pred)).sum().item()
        if batch_idx % 200 == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.4f}'.format(
                epoch, batch_idx * len(data), data_len, 100.*batch_idx/len(train_loader), loss.item()))
    train_loss /= data_len
    accuracy = 100. * correct / data_len
    print('Train Epoch: {} [{}/{} ({:.0f}%)]\tTrain accuracy: {:.4f}'.format(
                epoch, batch_idx*len(data), data_len, 100.*batch_idx/data_len, accuracy))
    return train_loss, accuracy

#### <b>Fonction de test</b>


In [8]:
def test(model, device, test_loader):
    model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)
            output = model(data)
            loss = criterion(output, target)         # calcul de l'erreur
            test_loss += loss.item()
            pred = output.argmax(dim=1, keepdim=True)  # get the index of the max log-probability
            correct += pred.eq(target.view_as(pred)).sum().item()
    test_loss /= len(test_loader.dataset)
    accuracy = 100. * correct / len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Test accuracy: ({:.2f}%)\n'.format(test_loss, accuracy))
    return test_loss, accuracy

In [9]:
from torchsummary import summary

summary(model, (3, im_w, im_h))

Layer (type:depth-idx)                   Output Shape              Param #
├─Conv2d: 1-1                            [-1, 8, 30, 30]           224
├─MaxPool2d: 1-2                         [-1, 8, 15, 15]           --
├─Conv2d: 1-3                            [-1, 64, 13, 13]          4,672
├─MaxPool2d: 1-4                         [-1, 64, 6, 6]            --
├─Linear: 1-5                            [-1, 120]                 276,600
├─Dropout: 1-6                           [-1, 120]                 --
├─Linear: 1-7                            [-1, 84]                  10,164
├─Linear: 1-8                            [-1, 43]                  3,655
Total params: 295,315
Trainable params: 295,315
Non-trainable params: 0
Total mult-adds (M): 1.26
Input size (MB): 0.01
Forward/backward pass size (MB): 0.14
Params size (MB): 1.13
Estimated Total Size (MB): 1.27


Layer (type:depth-idx)                   Output Shape              Param #
├─Conv2d: 1-1                            [-1, 8, 30, 30]           224
├─MaxPool2d: 1-2                         [-1, 8, 15, 15]           --
├─Conv2d: 1-3                            [-1, 64, 13, 13]          4,672
├─MaxPool2d: 1-4                         [-1, 64, 6, 6]            --
├─Linear: 1-5                            [-1, 120]                 276,600
├─Dropout: 1-6                           [-1, 120]                 --
├─Linear: 1-7                            [-1, 84]                  10,164
├─Linear: 1-8                            [-1, 43]                  3,655
Total params: 295,315
Trainable params: 295,315
Non-trainable params: 0
Total mult-adds (M): 1.26
Input size (MB): 0.01
Forward/backward pass size (MB): 0.14
Params size (MB): 1.13
Estimated Total Size (MB): 1.27

#### <b>Paramétrage de l'apprentissage et du test</b>

Pour l'apprentissage, on doit choisir la fonction de coût (loss) utilisée. Il en existe différents types.  
Il existe également plusieurs type d'optimiseurs. L'optimiseur est l'algorithme permettant de réduire le loss à chaque itération d'apprentissage.  
Parmi les paramètres d'apprentissage, on trouve également le taux d'apprentissage (learning rate), qui ajuste la quantité de modification des poids du réseau de neurones à chaque itération d'apprentissage.

In [10]:
optimizer = optim.Adam(model.parameters(), lr=0.001)    #utilisé par l'apprentissage (lr <-> learning rate)
criterion = nn.CrossEntropyLoss()       #critère d'erreur en sortie (utilisé par l'apprentissage et le test)

#### <b>Boucle d'apprentissage</b>

Attention, l'apprentissage avec le dataset complet prend un peu de temps (environ 1 mn par épisode sur un CPU récent).

In [None]:
epochs = 20
test_losses, test_accuracies, train_losses, train_accuracies = [], [], [], []
print('Learning (please wait)...')
for epoch in range(1, epochs + 1):
    train_loss, train_accuracy = train(model, device, train_loader, optimizer, epoch)
    test_loss, test_accuracy = test(model, device, test_loader)
    train_losses.append(train_loss)
    train_accuracies.append(train_accuracy)
    test_losses.append(test_loss)
    test_accuracies.append(test_accuracy)
print('Done')

Learning (please wait)...

Test set: Average loss: 0.0050, Test accuracy: (90.77%)


Test set: Average loss: 0.0020, Test accuracy: (97.16%)


Test set: Average loss: 0.0018, Test accuracy: (97.22%)


Test set: Average loss: 0.0018, Test accuracy: (97.13%)


Test set: Average loss: 0.0010, Test accuracy: (98.67%)



#### <b>Affichage du loss et du taux de reconnaissance sur les données d'apprentissage et de test</b>

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 8))
plt.subplot(2, 1, 1)

plt.title("loss vs learning epochs on GTSRB dataset")
plt.ylabel("loss")
plt.plot(train_losses, label='Train')
plt.plot(test_losses, label='Test')
plt.legend(loc="upper right")
plt.subplot(2, 1, 2)

plt.title("accuracy vs learning epochs on GTSRB dataset")
plt.xlabel("epochs")
plt.ylabel("accuracy")
plt.plot(train_accuracies, label='Train')
plt.plot(test_accuracies, label='Test')
plt.legend(loc="lower right")
plt.show()

Là encore, les résultats sont bons malgré la simplicité du modèle.

#### <b>Sauvegarde du modèle</b>

In [None]:
torch.save(model.state_dict(), "model.pth")
print('model saved')
print("Model's state_dict:")
for param_tensor in model.state_dict():
    print(param_tensor, "\t", model.state_dict()[param_tensor].size())

Ce format de sauvegarde comporte les poids du réseau de neurones, mais également les paramètres d'apprentissage, les valeurs du loss, etc.
Ce fichier peut donc servir de base à la reprise de l'apprentissage. On parle alors de checkpoint.

#### <b>Utilisation ultérieure : chargement du modèle généré précédemment et inférence (Exercice 4.2)</b>

Par inférence, on entend la présentation d'une image en entrée du modèle et le calcul de la prédiction de ce dernier.  
L'utilisation du réseau de neurones en inférence consiste à charger le fichier-modèle, puis l'application à des images de test.  

Remarque : pour être sûr que le modèle présent en mémoire soit celui qui est chargé du fichier, il faut redémarrer le noyau du Notebook.  
Dans ce cas, il faut relancer relancer une partie du code défini plus haut. Plus précisément :

- Importation des librairies nécessaires
- Définition de la structure du réseau de neurones ainsi que son flot d'information
- Création d'un réseau de neurones et adaptation au processeur utilisé

Pour simplifier le programme d'inférence, on peut utiliser une fonction.
Ainsi dans une boucle d'acquisition d'images par exemple, l'inférence se résume à un appel de cette fonction.

##### <b>Test sur quelques images</b>

L'exemple ci-dessous charge quelques images du dataset de test, les adapte au format tenseur de torch puis les applique en entrée du modèle.  
Puis on affiche sur l'image si la réponse est correcte ou non

In [None]:
import numpy as np
from PIL import Image

def predict(model, image):
    image = image.resize((im_w, im_h))
    np_img = np.array(image)                        # conversion en tableau numpy
    image_tensor = torch.from_numpy(np_img)         # conversion en tenseur PyTorch
    print(image_tensor.shape)
    image_tensor = image_tensor.reshape([1, 1, np_img.shape[0], np_img.shape[1]]) # ajout d'une dimension (cf + haut)
    output = model(image_tensor.float())        # application de l'image en entrée du réseau
    index = output.data.numpy().argmax()
    return index

#programme principal
path = './'
image_file = 'test.png'
true_index = 5             #classe "30" : index = 0 ; classe "50" : index = 1

device = 'cpu'
print("device : ", device)

model = ConvNet().to(device)    #creation d'un nouvelle instance du modele
model.load_state_dict(torch.load('model.ckpt'))    # chargement des poids sauvegardés précédemment
model.eval()

img = Image.open(path + image_file)  # image au hasard
img = img.convert('L')               #conversion en monochrome
index = predict(model, img)
print('index estimé : ', index)

#affichage du résultat sur l'image
classe = [i for i in range(10)]    #nom des classes

if(true_index == index):
    res = True
else:
    res = False
plt.title('classe : ' + str(classe[index]) + ' (' + str(res) + ')')
plt.axis('off')
plt.imshow(img)

#### <b>Test sur tout le dataset de test</b>

On peut également vouloir faire un test sur toute la base de test.
Dans ce cas il faut exécuter en plus :

- le chargement des données
- la fonction de test
- le paramétrage du test

La précision est plutôt bonne sur l'ensemble de test, mais on peut faire mieux en jouant sur différents paramètres du modèle.

### <b>Exercice 4.3</b>

On peut reprendre l'exemple complet de classification des données GTSRB avec un MLP.
Adapter le programme suivant pour obtenir une <b>précision (accuracy) >=99,5%</b> avec un réseau de neurones convolutif comportant <b>moins de 500000 paramètres</b>.
On pourra jouer sur :
- le nombre de paramètres
- la taille des images
- la taille des batchs
- l'augmentation de la base d'apprentissage
- le dropout
- la batch-normalisation
- ...

## <b>Références</b>

- Image processing with numpy :
https://pythoninformer.com/python-libraries/numpy/numpy-and-images/
- Convolutional Neural Networks : 
https://www.cs.toronto.edu/~lczhang/360/lec/w04/convnet.html 
- PyTorch tutorials : 
https://github.com/pytorch/examples/tree/master/mnist
- Basic PyTorch operations :
https://subscription.packtpub.com/book/big_data_and_business_intelligence/9781789534092/1/ch01lvl1sec11/installing-pytorch
- MNIST Handwritten Digit Recognition in PyTorch :
https://nextjournal.com/gkoehler/pytorch-mnist
- PyTorch for Beginners: Image Classification using Pre-trained models : 
https://www.learnopencv.com/pytorch-for-beginners-image-classification-using-pre-trained-models/
- PyTorch pretrained models (AlexNet example) : 
https://pytorch.org/hub/pytorch_vision_alexnet/
- Transfert learning for image classification
https://curiousily.com/posts/transfer-learning-for-image-classification-using-torchvision-pytorch-and-python/
- Pytorch classification tutorial (CIFAR images) :
https://pytorch.org/tutorials/beginner/blitz/cifar10_tutorial.html
- Face Recognition project in PyTorch using CNNs :
https://github.com/apsdehal/Face-Recognition
- Image classification with PyTorch
https://www.pluralsight.com/guides/image-classification-with-pytorch
- How to Train an Image Classifier in PyTorch and use it to Perform Basic Inference on Single Image :
https://towardsdatascience.com/how-to-train-an-image-classifier-in-pytorch-and-use-it-to-perform-basic-inference-on-single-images-99465a1e9bf5
- Saving and Loading Models in PyTorch :
https://github.com/pytorch/tutorials/blob/master/beginner_source/saving_loading_models.py