# TD1 – Kppv et réseaux de neurones pour la classification d'images

L’objectif de ce TD est d'implémenter un programme Python complet de classification d'images. Deux modèles de classification seront abordés : les k-plus-proches-voisins (kppv) et les réseaux de neurones (RNN). Les module numpy et scikit image seront utilisés, respectivement pour la manipulation des matrices et la manipulation des images.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from kppv import *
from skimage.feature import hog
from skimage import data, exposure
rng = np.random.default_rng()
from sklearn.metrics import confusion_matrix
import itertools
from skimage.color import rgb2gray
from skimage.feature import hog
from skimage.feature import local_binary_pattern
np.random.seed(1) # pour que l'exécution soit déterministe

# Réseaux de neurones

On s'intéresse désormais aux modèles de classification basé sur un réseau de neurones. On réutilise les fonctions de lecture et de découpage des données réalisées précédemment. Par ailleurs, commençons par définir les fonctions classiques calculatoires utilisées par la suite. Nous définissons la fonction sigmoid bien que nous n'utiliserons que les fonctions ReLU et softmax, respectivement pour les couches cachées et la couche de sortie. On définit également leur fonction backward correspondantes, qui nous permettront de réaliser la descente du gradient.

In [2]:
def softmax(Z):
    cache = Z
    Z -= np.max(Z)
    sm = (np.exp(Z) / np.sum(np.exp(Z), axis=0))
    return sm, cache

def sigmoid(Z):
    A = 1 / (1 + np.exp(-Z))
    cache = Z
    return A, cache

def relu(Z):
    A = np.maximum(0, Z)
    assert (A.shape == Z.shape)
    cache = Z
    return A, cache

def softmax_backward(dA, cache):
    z = cache
    z -= np.max(z)
    s = (np.exp(z) / np.sum(np.exp(z), axis=0))
    dZ = dA * s * (1 - s)
    return dZ

def sigmoid_backward(dA, cache):
    Z = cache
    s = 1 / (1 + np.exp(-Z))
    dZ = dA * s * (1 - s)
    assert (dZ.shape == Z.shape)
    return dZ

def relu_backward(dA, cache):
    Z = cache
    dZ = np.array(dA, copy=True)  # just converting dz to a correct object.
    # When z <= 0, we set dz to 0 as well.
    dZ[Z <= 0] = 0
    assert (dZ.shape == Z.shape)
    return dZ

## Initialisation
On commence par définir une fonction, qui, à partir d'une liste contenant les dimensions des différentes couches du réseau de neurones, initialisera les paramètres.
On peut noter ici que l'on réalise une initialisation des poids du réseau (matrice W) selon les principes Kaiming / MSRA Initialization. En effet, ce type d'initialisation est plus performante dans le cadre de l'utilisation de fonction ReLU pour les couches cachées du réseau. On initialise les biais (matrice b) comme étant un vecteur nul.

In [3]:
def initialize_parameters_deep(layer_dims):
    np.random.seed(1)
    parameters = {}
    L = len(layer_dims)  # number of layers in the network
    for l in range(1, L):
        parameters['W' + str(l)] = np.random.randn(layer_dims[l], layer_dims[l - 1]) * np.sqrt(2/layer_dims[l-1])
        parameters['b' + str(l)] = np.zeros((layer_dims[l], 1))
    return parameters

## Forward propagation
Ensuite on définit 3 fonctions nécessaires à la propagation en avant. Une fonction **linear_forward** effectuant les produits matriciels de la propagation en avant, puis une fonction **linear_activation_forward**, qui, utilisant **linear_forward** effectue la propagation d'une couche à une autre (produit matriciel + fonction d'activation). On a 3 options de fonctions : relu, sigmoid ou softmax. Par la suite nous utiliserons la fonctions **ReLU** pour les couches cachées, et la fonction **softmax** pour générer les probabilités sur la couche de sortie.
Enfin, **L_model_forward** permet de réaliser la propagation à travers toutes les couches, en utilisant **linear_activation_forward**. C'est le seul endroit où un boucle *for* est inévitable.

In [4]:
def batch_normalization(X):
    eps = 1e-7
    var = np.var(X, axis=0, keepdims=True)
    mean = np.mean(X, axis=0, keepdims=True)
    X_n = (X - mean)/np.sqrt(var + eps)
    return X_n

def linear_forward(A, W, b):
    A = batch_normalization(A)
    Z = np.dot(W,A)+b
    cache = (A, W, b)
    return Z, cache

def linear_activation_forward(A_prev, W, b, activation):
    if activation == "sigmoid":
        Z, linear_cache = linear_forward(A_prev, W, b)
        A, activation_cache = sigmoid(Z)
    elif activation == "softmax":
        Z, linear_cache = linear_forward(A_prev, W, b)
        A, activation_cache = softmax(Z)
    elif activation == "relu":
        Z, linear_cache = linear_forward(A_prev, W, b)
        A, activation_cache = relu(Z)
    cache = (linear_cache, activation_cache)
    return A, cache

def L_model_forward(X, parameters):
    caches = []
    A = X
    L = len(parameters) // 2  # number of layers in the neural network
    for l in range(1, L + 1): # L+1 is pretty important ATTENTION
        A_prev = A
        Wl = parameters['W' + str(l)]
        bl = parameters['b' + str(l)]
        if l < L:
            A, cache = linear_activation_forward(A_prev, Wl, bl, activation="relu")
        else:
            AL, cache = linear_activation_forward(A_prev, Wl, bl, activation="softmax")
        caches.append(cache)
    return AL, caches


## Fonction de coût
On définit une fonction de coût. On a J = $\frac{-1}{m}$ $\sum_{i=1}^{m} y_i*log(al_i) $ où AL est le vecteur de sortie obtenue lors de la propagation en avant. C'est la fonction de coût dite de 'cross-entropy'

In [5]:
def compute_cost(AL, Y, activation_out, parameters, lambda_reg):
    m = Y.shape[1]
    L = len(parameters) // 2
    if activation_out == "sigmoid":
        cost = (-1/m)*np.sum(Y*np.log(AL)+(1-Y)*np.log(1-AL))
    elif activation_out == "softmax":
        cost = (-1 / m) * np.sum(Y * np.log(AL))
    reg_cost = 0
    for l in range(1, L):
        reg_cost += np.sum(parameters['W' + str(l)]**2)
    return cost+ lambda_reg*reg_cost/m

## Backward propagation
On définit 3 fonctions nécessaires à la backpropagation. Une fonction **linear_backward** effectuant les produits matriciels de la backpropagation, puis une fonction **linear_activation_backward**, qui, utilisant **linear_backward** propage la backpropagation en fonctione de la fonction d'activation de la couche (utilisation de la fonction backward adéquate).
Les différentes fonctions backward sont définies dans le fichier function.py, afin de ne pas alourdir le propos ici. Elles prennent toutes dA en argument, ainsi que le cache, et retournent dZ.
Enfin, **L_model_backward** permet de réaliser la backpropagation à travers toutes les couches, en utilisant **linear_activation_backward**. C'est le seul endroit où un boucle *for* est inévitable.

In [6]:
def linear_backward(dZ, cache):
    A_prev, W, b = cache
    m = A_prev.shape[1]
    dW = (1/m)*np.dot(dZ,A_prev.T)
    db = (1/m)*np.sum(dZ, axis=1, keepdims=True)
    dA_prev = np.dot(W.T, dZ)
    return dA_prev, dW, db

def linear_activation_backward(dA, cache, activation):
    linear_cache, activation_cache = cache

    if activation == "relu":
        dZ = relu_backward(dA, activation_cache)
    elif activation == "softmax":
        dZ = softmax_backward(dA, activation_cache)
    elif activation == "sigmoid":
        dZ = sigmoid_backward(dA, activation_cache)

    dA_prev, dW, db = linear_backward(dZ, linear_cache)

    return dA_prev, dW, db

def L_model_backward(AL, Y, caches):
    grads = {}
    L = len(caches) # the number of layers
    m = AL.shape[1]
    Y = Y.reshape(AL.shape) # after this line, Y is the same shape as AL
    dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL)) # derivative of cost with respect to AL
    grads['dA' + str(L-1)], grads['dW' + str(L)], grads['db' + str(L)] = linear_activation_backward(dAL, caches[L-1], activation="softmax")  # Softmax or sigmoid, in function of the need
    for l in reversed(range(L-1)):
        grads['dA' + str(l)], grads['dW' + str(l+1)], grads['db' + str(l+1)] = linear_activation_backward(grads['dA' + str(l+1)], caches[l], activation="relu")
    return grads


## Mise à jour des paramètres
Suite à la backpropagation, on définit une fonction pour mettre à jour les paramètres en fonctions des gradients récupérés, des valeurs initiales des paramètres, ainsi que du learning_rate. Ce learning_rate est un hyper-paramètre qu'il nous faudra ajuster par la suite

In [7]:
def adam_grad(grad, beta1, beta2, n_iter): #n_iter is the number of the iteration/ epoch ?
    first_moment = 0
    second_moment = 0
    first_moment = beta1 * first_moment+(1-beta1)*grad
    second_moment = beta2* second_moment + (1-beta2)*grad*grad
    first_unbias = first_moment / (1-beta1**n_iter)
    second_unbias = second_moment / (1-beta2**n_iter)
    return (first_unbias, second_unbias)

def learning_rate_decay(learning_rate_0, n_epoch, N_epoch):
    learning_rate_n = learning_rate_0*(1+np.cos(np.pi*n_epoch/N_epoch))/2  # Commence à 1
    return learning_rate_n


def update_parameters(params, grads, learning_rate, n_epoch, N_epoch, beta1, beta2, learning_r_decay=True, adam=True):
    parameters = params.copy()
    L = len(parameters) // 2 # number of layers in the neural network
    if learning_r_decay:
        learning_rate_cur = learning_rate_decay(learning_rate, n_epoch, N_epoch)
    else:
        learning_rate_cur = learning_rate
    for l in range(1,L+1):
        if adam:
            first_unbias_w, second_unbias_w = adam_grad(grads['dW' + str(l)], beta1, beta2, n_epoch)
            parameters['W' + str(l)] = parameters['W' + str(l)] -learning_rate*first_unbias_w / (np.sqrt(second_unbias_w)+ 1e-7)
            first_unbias_l, second_unbias_l = adam_grad(grads['db' + str(l)], beta1, beta2, n_epoch)
            parameters['b' + str(l)] = parameters['b' + str(l)] -learning_rate*first_unbias_l / (np.sqrt(second_unbias_l)+ 1e-7)
        else:
            parameters['W' + str(l)] = parameters['W' + str(l)] -learning_rate_cur*grads['dW' + str(l)]
            parameters['b' + str(l)] = parameters['b' + str(l)] -learning_rate_cur*grads['db' + str(l)]
    return parameters

## Modèle complet

In [8]:
# L_layer_model
def L_layer_model(X, Y, parameters, learning_rate, lambda_reg, n_epoch, N_epoch, beta1, beta2, prev_cost,
                  learning_r_dec, adam):

    costn_1 = prev_cost
    AL, caches = L_model_forward(X, parameters)
    cost = compute_cost(AL, Y, 'softmax', parameters, lambda_reg)
    grads = L_model_backward(AL, Y, caches)
    parameters = update_parameters(parameters, grads, learning_rate, n_epoch, N_epoch, beta1, beta2, learning_r_dec, adam)

    if costn_1 < cost:
        print("Error, Alpha parameter to lessen")

    return parameters, cost

## Fonction d'évaluation de la performance

In [9]:
def evaluate_prediction(Ypred, Ytest):
    tot_true = np.sum(Ytest==np.array(np.argmax(Ypred, axis=0)))
    return tot_true/Ytest.size

## Tracé de l'apprentissage

In [10]:
def plot_loss_function(cost):
    n_iter = len(cost)
    iter = np.arange(1, n_iter+1)
    plt.plot(iter, cost)
    plt.title("Cost function")
    plt.show()
    
def plot_accuracy(train_accu, test_accu):
    n_iter = len(train_accu)
    iter = np.arange(1, n_iter+1)
    plt.plot(iter, train_accu, "b--", label="Training accuracy")
    plt.plot(iter, test_accu, "r--", label="Test accuracy")
    plt.legend()
    plt.title("Accuracy")
    plt.show()
    

In [11]:
# Training the model
np.random.seed(1)  # pour que l'exécution soit déterministe

data, labels = read_cifar(short=False)
data = (data - np.mean(data, axis=0, keepdims=True))/np.std(data, axis=0, keepdims=True)
Xapp, Yapp, Xtest, Ytest = split_data(data, labels)

X_train = Xapp.T
Y_train = np.array([Yapp])
X_test_clean = Xtest.T
Y_test_clean = np.array([Ytest])

def NN_model(X_train, Y_train, X_test_clean, Y_test_clean, N_epoch, m_batch, learning_rate, lambda_reg, 
              beta1=0.9, beta2 = 0.999, learning_r_dec= True, adam=True):
    n_x, m = X_train.shape[0], X_train.shape[1]
    assert m % m_batch ==0
    n_batch = m // m_batch
    L_X_train = np.split(X_train, n_batch, axis=1)
    L_Y_train = np.split(Y_train, n_batch, axis=1)
    uniques = np.unique(Yapp)
    n_y = len(uniques)
    costs = []
    train_accu = []
    test_accu = []
    layers_dims = [n_x, 50, 30, n_y] # 0.0025 good for [50,25]  # Try 0.0001 bcs 0.0005 not working at 1500 it.
    parameters = initialize_parameters_deep(layers_dims)
    
    for k in range(1,N_epoch+1):
        for j in range(n_batch):
            Y_train_final = np.zeros((n_y, L_Y_train[j].shape[1]))
            cost = np.inf
            for i in range(n_y):
                Y_train_final[i,:] = (L_Y_train[j] == uniques[i])
                
            parameters, cost = L_layer_model(L_X_train[j], Y_train_final, parameters, learning_rate, lambda_reg, 
                                   k, N_epoch, beta1, beta2, cost, learning_r_dec, adam)
            costs.append(cost)
            
            pred_train = evaluate_prediction(L_model_forward(L_X_train[j],parameters)[0], Y_train_final)
            pred_test = evaluate_prediction(L_model_forward(X_test_clean,parameters)[0], Y_test_clean)
            train_accu.append(pred_train)
            test_accu.append(pred_test)
            print(cost)
        print(f'NN accuracy on training set \033[1m{pred_train:.3%}\033[0m')
        print(f'NN accuracy on test set \033[1m{pred_test:.3%}\033[0m')
        plot_loss_function(cost)
        plot_accuracy(train_accu, test_accu)

#NN_model(X_train, Y_train, X_test_clean, Y_test_clean, N_epoch= 100, m_batch = 128, learning_rate=0.000000001, lambda_reg=0,
#         beta1=0.9, beta2 = 0.999, learning_r_dec= False, adam=False)

In [12]:
np.random.seed(1)  # pour que l'exécution soit déterministe

data, labels = read_cifar(short=False)
data = (data - np.mean(data, axis=0, keepdims=True))/np.std(data, axis=0, keepdims=True)
Xapp, Yapp, Xtest, Ytest = split_data(data, labels)

X_train = Xapp.T
Y_train = np.array([Yapp])
X_test_clean = Xtest.T
Y_test_clean = np.array([Ytest])
n_x, m = X_train.shape[0], X_train.shape[1]
assert m % m_batch ==0
n_batch = m // m_batch
L_X_train = np.split(X_train, n_batch, axis=1)
L_Y_train = np.split(Y_train, n_batch, axis=1)
uniques = np.unique(Yapp)
n_y = len(uniques)
costs = []
train_accu = []
test_accu = []
layers_dims = [n_x, 50, 30, n_y] # 0.0025 good for [50,25]  # Try 0.0001 bcs 0.0005 not working at 1500 it.
parameters = initialize_parameters_deep(layers_dims)

In [13]:
data, labels = read_cifar(short=True)

In [14]:
costs

NameError: name 'costs' is not defined

In [None]:
np.std(data, axis=0, keepdims=True).shape
