<a href="https://colab.research.google.com/github/lsteffenel/CHPS0704/blob/main/TP4/02_Introduction_a_Keras_MNIST.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Construire un mod√®le de r√©seaux de neurones avec Keras

Keras est une biblioth√®que "haut niveau" utilis√©e pour simplifier la description de mod√®les de r√©seaux de neurones sur Tensorflow (biblioth√®que IA de Google). L'avantage surtout est de pouvoir utiliser des GPU pour acc√©l√©rer le calcul.

Le travail avec Keras suit un cheminement similaires √† celui avec Scikit-Learn, mais il y a quelques diff√©rences √† retenir.

In [None]:
import tensorflow as tf

import os
os.environ["KERAS_BACKEND"] = "tensorflow"

import keras

import random
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline
import math
import numpy as np
print (tf.__version__)
print(keras.__version__)


Dans le paragraphe suivant vous avez certainement eu un message d'erreur indiquant que vous n'avez pas des GPU. Dans ce cas, Keras utilisera la CPU de la machine.

## Chargement de donn√©es

Tout comme Scikit-Learn, Keras a aussi un ensemble de datasets pr√™t √† utilisation pour des exemples. Dans le cas suivant, nous allons charger le dataset MNIST (√©criture √† la main) et le s√©parer en deux groupes : Train et Test. Les donn√©es de validation (v√©rification pendant l'entra√Ænement) seront s√©par√©s du groupe Train plus tard.

In [None]:
from keras.datasets import mnist

# the data, shuffled and split between train and test sets
(x_train, y_train), (x_test, y_test) = mnist.load_data()

In [None]:
x_train.shape
x_test.shape
y_test.shape

In [None]:
y_train

Les donn√©es de MNIST se pr√©sentent sous la forme d'images 28x28 pixels, avec 256 tons de gris. Les labels (`y_train`, par exemple) correspondent aux caract√®res repr√©sent√©s : les chiffres 0 √† 9.

Le paragraphe suivant d√©finit une fonction permettant de visualiser ce dataset.

In [None]:
def plot_images(x,y=None, indices='all', columns=12, x_size=1, y_size=1,
                colorbar=False, y_pred=None, cm='binary', norm=None, y_padding=0.35, spines_alpha=1,
                fontsize=20, interpolation='lanczos', save_as='auto'):
    """
    Show some images in a grid, with legends
    args:
        x             : images - Shapes must be (-1,lx,ly) (-1,lx,ly,1) or (-1,lx,ly,3),(-1,1,lx,ly) or (-1,3,lx,ly)
        y             : real classes or labels or None (None)
        indices       : indices of images to show or 'all' for all ('all')
        columns       : number of columns (12)
        x_size,y_size : figure size (1), (1)
        colorbar      : show colorbar (False)
        y_pred        : predicted classes (None)
        cm            : Matplotlib color map (binary)
        norm          : Matplotlib imshow normalization (None)
        y_padding     : Padding / rows (0.35)
        spines_alpha  : Spines alpha (1.)
        font_size     : Font size in px (20)
        save_as       : Filename to use if save figs is enable ('auto')
    returns:
        nothing
    """
    if indices=='all': indices=range(len(x))
    if norm and len(norm) == 2: norm = matplotlib.colors.Normalize(vmin=norm[0], vmax=norm[1])
    draw_labels = (y is not None)
    draw_pred   = (y_pred is not None)
    # Torch Tensor ?
    if y.__class__.__name__      == 'Tensor': y=y.numpy()
    if y_pred.__class__.__name__ == 'Tensor': y_pred=y_pred.detach().numpy()

    rows        = math.ceil(len(indices)/columns)
    fig=plt.figure(figsize=(columns*x_size, rows*(y_size+y_padding)))
    n=1
    for i in indices:
        axs=fig.add_subplot(rows, columns, n)
        n+=1
        # ---- Shape is (lx,ly)
        if len(x[i].shape)==2:
            xx=x[i]
        # ---- Shape is (lx,ly,c) or (c,lx,ly)
        if len(x[i].shape)==3:
            if x[i].__class__.__name__ == 'Tensor':
               (c,lx,ly)=x[i].shape
               if c==1:
                   xx=x[i].permute(1,2,0).numpy().reshape(lx,ly)
               else:
                   xx=x[i].permute(1,2,0).numpy() #---> (lx,ly,n)
            else:
                (lx,ly,c)=x[i].shape
                if c==1:
                    xx=x[i].reshape(lx,ly)
                else:
                    xx=x[i]

        img=axs.imshow(xx,   cmap = cm, norm=norm, interpolation=interpolation)
        axs.spines['right'].set_visible(True)
        axs.spines['left'].set_visible(True)
        axs.spines['top'].set_visible(True)
        axs.spines['bottom'].set_visible(True)
        axs.spines['right'].set_alpha(spines_alpha)
        axs.spines['left'].set_alpha(spines_alpha)
        axs.spines['top'].set_alpha(spines_alpha)
        axs.spines['bottom'].set_alpha(spines_alpha)
        axs.set_yticks([])
        axs.set_xticks([])
        if draw_labels and not draw_pred:
            axs.set_xlabel(y[i],fontsize=fontsize)
        if draw_labels and draw_pred:
            if y[i]!=y_pred[i]:
                axs.set_xlabel(f'{y_pred[i]} ({y[i]})',fontsize=fontsize)
                axs.xaxis.label.set_color('red')
            else:
                axs.set_xlabel(y[i],fontsize=fontsize)
        if colorbar:
            fig.colorbar(img,orientation="vertical", shrink=0.65)
    plt.show()



Nous allons donc afficher l'un des caract√®res du groupe Train (celui √† la position 27) mais aussi tout la plage entre les donn√©es 5 et 41. Remarquez le "label" correspondant sous chaque image.

In [None]:
print(y_train[27])
plot_images(x_train, y_train, indices=[27],  x_size=5,y_size=5, colorbar=True)


In [None]:
plot_images(x_train, y_train, range(5,41), columns=12)

**1 - Normalisation des donn√©es**

Les valeurs de base son des entiers entre 0 et 255 pour repr√©senter les 256 tons de gris. La majorit√© des algorithmes utilisent des valeurs r√©els, de pr√©f√©rence dans la fourchette 0 √† 1 ou -1 √† 1.

Les paragraphes suivantes modifient le type des donn√©es (`float32`) puis font une normalisation simple (diviser la valeur par `max`, qui dans ce cas do√Æt √™tre de 255). Bien s√ªr, d'autres m√©thodes de normalisation plus √©labor√©es sont possibles, mais √ßa suffit pour l'instant.

In [None]:
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')

In [None]:
print('Before normalization : Min={}, max={}'.format(x_train.min(),x_train.max()))

xmax=x_train.max()
x_train = x_train / xmax
x_test  = x_test  / xmax

print('After normalization  : Min={}, max={}'.format(x_train.min(),x_train.max()))

**3 - Transformer les donn√©es cat√©goriques**
Lorsqu'on a des donn√©es cat√©goriques (texte ou num√©ros), il faut les transformer afin d'√©viter des mauvaises compr√©hensions de la part de l'algorithme (par exemple, supposer que une classe 2 vient toujours apr√®s une classe 1). Dans notre cas, nous allons transformer les classes 0 √† 9 en repr√©sentations num√©riques (similaire √† HotOneEncoder de Sklearn), afin de rendre ind√©pendantes ces classes.

In [None]:
from keras.utils import to_categorical

y_train_hotone = keras.utils.to_categorical(y_train, num_classes=10)
y_test_hotone = keras.utils.to_categorical(y_test, num_classes=10)

In [None]:
y_train_hotone

## La Cr√©ation d'un mod√®le

Keras a plusieurs modes permettant la cr√©ation de mod√®les de r√©seaux de neurones. Dans ce cas, nous allons utiliser l'API `Sequential` qui permet de d√©crire couche par couche du r√©seau et les empiler (gr√¢ce √† `add()`).

Nous allons faire un mod√®le simple avec des r√©seaux denses (totalement connect√©s). La premi√®re couche d√©finit la taille de l'entr√©e (les 784 valeurs re√ßus du dataset), les autres utilisent par d√©faut la taille de la sortie de la couche pr√©c√©dente. Egalement, nous indiquons que chaque couche comptera avec 10 neurones.

Finalemen, remarquez qu'on utilise deux types de fonction d'activation, sigmoid et softmax.
Pour simplifier la description, sigmoid donne une probabilit√© entre 0 et 1, alors que Softmax affiche "1" sur la sortie avec la plus grande probabilit√© et "0" sur les autres. C'est pour cela qu'on utilise Softmax √† la sortie, √ßa permet d'avoir un r√©sultat plut√¥t qu'une liste de probabilit√©s.

In [None]:
from keras import Sequential
from keras import layers
from keras import optimizers

# Declaration du mod√®le en Keras
model = keras.Sequential()
model.add(layers.Input((28,28)))
model.add(layers.Flatten())
model.add(layers.Dense(30, activation='sigmoid'))
model.add(layers.Dense(20, activation='sigmoid'))
model.add(layers.Dense(10, activation='softmax'))


# r√©sum√© du mod√®le
model.summary()



## Entra√Ænement du mod√®le

Une fois d√©fini le mod√®le, il faut l'entra√Æner avec les donn√©es.
Le paragraphe suivant d√©finit les hyperparam√®tres du mod√®le, dont le `batch_size`(taille des sous-ensembles utilis√©s dans la descente de gradient), le nombre d'epochs (parcours de l'ensemble de donn√©es d'entra√Ænement).

L'appel √† compile g√©n√®re le graphe d'ex√©cution (un r√©seau de neurones = un graphe) et indique aussi qu'on utilise le mod√®le de descente de gradient SGD, que la m√©trique utilis√©e est l'accuracy (m√©trique qui correspond √† (TP+TN)/(TP+TN+FP+FN)), et que la fonction de perte est la `categorical_crossentropy`, une fonction qui compare les probabilit√©s pour des labels cat√©goriques.

In [None]:
batch_size = 100
#num_classes = 10
epochs= 20

model.compile(loss='categorical_crossentropy',  optimizer='SGD',  metrics=['accuracy'])


Finalement, on lance l'entra√Ænement. Remarquez aussi qu'on n'a pas cr√©e des donn√©es Validation avant, on le fera **sur place** en r√©servant 10% des donn√©es de Train (appel √† `validation_split=0.1`).

Comme le dataset est simple, on peut faire l'entra√Ænement m√™me sans un GPU.

In [None]:
history = model.fit(x_train, y_train_hotone, batch_size=batch_size, epochs=epochs, validation_split=0.1,verbose=1 )

#verbose: Integer. 0, 1, or 2. Verbosity mode. 0 = silent, 1 = progress bar, 2 = one line per epoch.
# Je vous invite √† lire la documentation : https://keras.io/models/sequential/

Les paragraphes suivants nous permettent de voir comment le mod√®le am√©liore sa performance au fil des epochs

In [None]:
def plot_history(history, figsize=(8,6),
                 plot={"Accuracy":['accuracy','val_accuracy'], 'Loss':['loss', 'val_loss']}):
    """
    Show history
    args:
        history: history
        figsize: fig size
        plot: list of data to plot : {<title>:[<metrics>,...], ...}
    """
    fig_id=0
    for title,curves in plot.items():
        plt.figure(figsize=figsize)
        plt.title(title)
        plt.ylabel(title)
        plt.xlabel('Epoch')
        for c in curves:
            plt.plot(history.history[c])
        plt.legend(curves, loc='upper left')

        plt.show()

In [None]:
plot_history(history, figsize=(6,4))

Enfin, on peut estimer la performance du mod√®le avec les donn√©es Test.

Comparez ces valeur avec ceux de l'entra√Ænement (`val_loss` et `val_accuracy`
 ci-dessus).

In [None]:
test_loss, test_acc = model.evaluate(x_test, y_test_hotone,verbose=0)

print('Test loss:', test_loss)
print('Test accuracy:', test_acc)

Ces r√©sultats montrent que, √©tonemment, le mod√®le se porte mieux avec le groupe de validation (val_accuracy), c'est int√©ressant üëç.

## Quelques erreurs

Si vous avez fait attention, on n'a toujours pas touch√© le dataset `x_test/y_test`, vu qu'on a fait l'entra√Ænement avec 90% et valid√© avec 10% du x_train.

On peut donc utiliser x_test comme "nouvelle donn√©e" et v√©rifier si notre mod√®le rend bien les r√©ponses.

Dans le prochain paragraph, nous allons donc produire une estimation `y_pred` √† partir de `x_test`. Comme la sortie du mod√®le est un array de 10 positions (notre `y_train_hotone`), on passe ce r√©sultat √† `np.argmax()` pour obtenir juste le num√©ro de la classe.

In [None]:
# d'abord, on utilise le mod√®le pour faire une pr√©vision sur l'ensemble de test
# √áa retourne une liste avec 10 colonnes (une par sortie possible).
y_pred_hotone = model.predict(x_test)

# avec la fonction argmax, on ne garde que l'index de la colonne avec la plus grande valeur
y_pred    = np.argmax(y_pred_hotone, axis=-1)

Maintenant, on affiche quelques √©l√©ments, avec la valeur pr√©dite et la valeur attendue (entre parenth√®ses). Vous pouvez v√©rifier que quelques pr√©dictions sont incorrectes.

In [None]:


plot_images(x_test, y_test, range(0,200), columns=12, x_size=1, y_size=1, y_pred=y_pred)

## Exercice :
Avec ce mod√®le basique, on a obtenu un taux d'accuracy d'environ 80%.
- Essayer d'am√©liorer la performence du mod√®le, en modifiant les fonctions d'activation, ou/et en n ajoutant le nombre de neurones et des couches interm√©diaires.



## Bonus : Quelques exemples de fonctions d'activation de base



### Activation functions

In [None]:
import math
import matplotlib.pyplot as plt
import numpy as np


x = np.arange(-6, 6, 0.1)

### Linear  :  Fonction d'activation lin√©aire

C'est une fonction simple de la forme: f(x) = ax ou f(x) = x. En gros, l'entr√©e passe √† la sortie sans une tr√®s grande modification ou alors sans aucune modification.

In [None]:
def linear(x):
    a = []
    for item in x:
        a.append(item)
    return a

y = linear(x)

plt.plot(x,y)
plt.grid()
plt.show()


### Sigmoid

En math√©matiques, la fonction sigmo√Øde (dite aussi courbe en S) est d√©finie par :

$$ f(x)=\frac{1}{1 + e^{- x}}$$ pour tout r√©el x ;


Le but premier de la fonction est de r√©duire la valeur d'entr√©e pour la r√©duire entre 0 et 1. En plus d'exprimer la valeur sous forme de probabilit√©, si la valeur en entr√©e est un tr√®s grand nombre positif, la fonction convertira cette valeur en une probabilit√© de 1. A l'inverse, si la valeur en entr√©e est un tr√®s grand nombre n√©gatif, la fonction convertira cette valeur en une probabilit√© de 0. D'autre part, l'√©quation de la courbe est telle que, seules les petites valeurs influent r√©ellement sur la variation des valeurs en sortie.

La fonction Sigmo√Øde a plusieurs d√©faults:

- Elle n'est pas centr√©e sur z√©ro, c'est √† dire que des entr√©es n√©gatives peuvent engendrer des sorties positives.

- Etant assez plate, elle influe assez faiblement sur les neurones par rapport √† d'autres fonctions d'activations. Le r√©sultat est souvent tr√®s proche de 0 ou de 1 causant la saturation de certains neurones.

- Elle est couteuse en terme de calcul car elle comprend la fonction exponentielle.


In [None]:
def sigmoid(x):
    a = []
    for item in x:
        a.append(1/( (1+math.exp(-item) * 1)))
        # ici j'ai pri A = 1 : plus A est grand plus on se rapproche √† la fonction echelon ...

    return a

y = sigmoid(x)

plt.plot(x,y)
plt.grid()
plt.show()


### Tahn :  Tangente Hyperbolique

Cette fonction ressemble √† la fonction Sigmo√Øde. La diff√©rence avec la fonction Sigmo√Øde est que la fonction Tanh produit un r√©sultat compris entre -1 et 1. La fonction Tanh est en terme g√©n√©ral pr√©f√©rable √† la fonction Sigmo√Øde car elle est centr√©e sur z√©ro. Les grandes entr√©es n√©gatives tendent vers -1 et les grandes entr√©es positives tendent vers 1.

Mis √† part cet avantage, la fonction Tanh poss√®de les m√™mes autres inconv√©nients que la fonction Sigmo√Øde.

In [None]:
def tanh(x, derivative=False):
    if (derivative == True):
        return (1 - (x ** 2))
    return np.tanh(x)


y = tanh(x)

plt.plot(x,y)
plt.grid()
plt.show()

### ReLU : Unit√© de Rectification Lin√©aire
Pour r√©soudre le probl√®me de saturation des deux fonctions pr√©c√©dentes (Sigmo√Øde et Tanh) il existe la fonction ReLU (Unit√© de Rectification Lin√©aire). Cette fonction est la plus utilis√©e.

La fonction ReLU est intepr√©t√©e par la formule: f(x) = max(0, x). Si l'entr√©e est n√©gative la sortie est 0 et si elle est positive, alors la sortie est √©gale √† x. Cette fonction d'activation augmente consid√©rablement la convergence du r√©seau et ne sature pas.

Mais la fonction ReLU n'est pas parfaite. Si la valeur d'entr√©e est n√©gative, le neurone reste inactif, ainsi les poids ne sont pas mis √† jour et le r√©seau n‚Äôapprend pas.

In [None]:
def relu(x):
    a = []
    for item in x:
        if item > 0:
            a.append(item)
        else:
            a.append(0)
    return a


y = relu(x)

plt.plot(x,y)
plt.grid()
plt.show()