
<a id='chap-tpdeeplearning2'></a>

# Travaux pratiques - Perceptron multi-couche

L'objectif de cette s√©ance de travaux pratiques est de faire √©voluer le mod√®le de r√©gression logistique utilis√© dans le pr√©c√©dent TP vers un r√©seau de neurones plus sophistiqu√©. Dans le TP pr√©c√©dent, nous avons travaill√© avec la r√©gression logistique, un mod√®le lin√©aire simple appartenant √† la famille des r√©seaux de neurones.

Dans ce TP, nous allons nous attaquer √† l'impl√©mentation d'un perceptron multicouche (MLP - Multi-Layer Perceptron). Contrairement √† la r√©gression logistique, qui se limite √† des s√©parations lin√©aires, le perceptron multicouche a la capacit√© d'apprendre des fronti√®res de d√©cision non lin√©aires. De plus, les perceptrons sont consid√©r√©s comme des approximants universels pour les fonctions continues, ce qui signifie qu'ils sont extr√™mement puissants et forment la base de l'apprentissage profond.

Nous commencerons par √©tudier l'impl√©mentation de la phase de propagation avant (forward pass) pour effectuer des pr√©dictions, puis la phase de r√©tropropagation (backward pass) pour entra√Æner un perceptron √† une couche cach√©e.

Passons maintenant √† la recharge du jeu de donn√©es MNIST :

In [120]:
import tensorflow as tf
from keras import backend as K
import keras
import numpy as np

In [121]:
# Import de MNIST depuis Keras
(X_train, y_train), (X_test, y_test) = keras.datasets.mnist.load_data()
# Transformation des images 28x28 en vecteur de dimension 784
X_train = X_train.reshape(60000, 784).astype('float32')
X_test = X_test.reshape(10000, 784).astype('float32')
# Normalisation entre 0 et 1
X_train /= 255
X_test /= 255

X_train.shape

(60000, 784)

## Pr√©diction avec un perceptron (*forward*)

L‚Äôarchitecture du perceptron √† une seule couche cach√©e est illustr√©e dans la
figure ci-dessous.

Comme la derni√®re fois, on consid√®re les donn√©es de la base MNIST. Chaque image est
repr√©sent√©e par un vecteur de taille $ 28^2=784 $. Le perceptron applique
diff√©rentes op√©rations math√©matiques pour transformer l‚Äôentr√©e et produire
la pr√©diction finale, c‚Äôest-√†-dire la cat√©gorie de l‚Äôimage :

1. Une projection lin√©aire, qui va projeter chaque image sur un vecteur de dimensions $ (1, L) $. $ L $ repr√©sente ici la largeur (le nombre de neurones) de la couche cach√©e du perceptron, par exemple $ L=100 $.
  En consid√©rant que chaque exemple $ \mathbf{x_i} $ est un vecteur ligne $ (1,784) $, la projection lin√©aire est repr√©sent√©e par une matrice $ \mathbf{W^h} $ $ (784, L) $ et un vecteur de biais $ \mathbf{b^h} $
  $ (1, L) $. La projection s‚Äô√©crit:  
  $$
  \mathbf{u_i} = \mathbf{x_i} \mathbf{W^h} + \mathbf{b^h}.
  $$
1. L‚Äôapplication d‚Äôune fonction de transfert non-lin√©aire, par exemple une sigmo√Øde :  
  $$
  \forall j \in \left\lbrace 1; L \right\rbrace, ~ h_{i,j} = \frac{1}{1+\exp(-u_{i,j})}.
  $$
1. Une deuxi√®me projection lin√©aire, qui va projeter la repr√©sentation interne (les activations de la couche cach√©e) de dimensions $ (1,L) $ en un vecteur de $ (1, K) $, avec $ K $ le nombre de classes consid√©r√©es (ici, 10). $ K $ repr√©sente le nombre de neurones en sortie, c‚Äôest-√†-dire la dimensionalit√© du vecteur pr√©dit. Cette op√©ration de projection lin√©aire est repr√©sent√©e par la matrice $ \mathbf{W^y} $ de dimensions $ (L, K) $ et le vecteur de biais $ \mathbf{b^y} $ de dimensions $ (1, K) $). Matriciellement, la projection est repr√©sent√©e par l‚Äôop√©ration :  
  $$
  \mathbf{v_i} =\mathbf{h_i} \mathbf{W^y} + \mathbf{b^y}.
  $$
1. Enfin, l‚Äôapplication d‚Äôune non-lin√©arit√© *softmax*. Comme pour la r√©gression logistique, cela permet de transformer les activations de sortie en probabilit√©s pour une distribution cat√©gorielle :  
  $$
  \forall j \in \left\lbrace 1; K \right\rbrace ~ y_{i,j} = \frac{\exp(v_{i,j})}{\sum\limits_{k=1}^K \exp(v_{i,k})}.
  $$


Notre objectif pour cette s√©ance va √™tre d‚Äôimpl√©menter un perceptron (et son apprentissage) sur la base MNIST. Commen√ßons par transformer les √©tiquettes en vecteur encod√© au format *one-hot*:

In [122]:
from keras.utils import to_categorical

n_classes = 10
# Conversion des √©tiquettes au format one-hot
Y_train = to_categorical(y_train,n_classes)
Y_test = to_categorical(y_test, n_classes)

Y_train.shape

(60000, 10)

## Question

En reprenant le squelette du code de la r√©gression logistique, compl√©ter le code ci-dessous pour impl√©menter la *forward pass* (phase de pr√©diction) du perceptron multi-couche.

Vous devrez notamment √©crire une fonction `forward(batch, Wh, bh, Wy, by)` qui renvoie la pr√©diction $ \hat{\mathbf{y}} $ ainsi que la matrice des activations de la couche cach√©e.
Si l‚Äôon consid√®re un batch des donn√©es de taille $ n \times 784 $, les param√®tres $ \mathbf{W^h} $ ($ 784\times L $), $ \mathbf{b^h} $ ($ 1\times L $),
$ \mathbf{W^y} $($ L\times K $) et $ \mathbf{b^y} $ ($ 1\times K $), la fonction `forward` renvoie :

- la pr√©diction $ \mathbf{\hat{Y}} $ sur le batch ($ n\times K $),  
- la matrice $ \mathbf{H} $ des activations de la couche cach√©e ($ n\times L $),  


pour un batch de $ n $ exemples.

#### üìå Formules √† implementer

| **√âtape** | **Formule** |
|-----------|------------|
| **Couche cach√©e (sigmo√Øde)** | $$ H = \sigma(X W_h + b_h) $$ avec $$ \sigma(x) = \frac{1}{1 + e^{-x}} $$ |
| **Sortie (softmax)** | $$ Y_{\text{pred}} = \text{softmax}(H W_y + b_y) $$ |

In [123]:
def sigmoid(x):
    """ Fonction d'activation sigmo√Øde """
    sigmoid = 1 / (1 + np.exp(-x))
    return sigmoid

def forward(batch, Wh, bh, Wy, by):
    """ 
    Propagation avant avec activation sigmo√Øde dans la couche cach√©e

    Entr√©es :
    - batch: un batch de n images de MNIST (n, 784)
    - Wh: matrice des poids entr√©e -> couche cach√©e (784, hidden_size)
    - bh: biais de la couche cach√©e (1, hidden_size)
    - Wy: matrice des poids couche cach√©e -> sortie (hidden_size, 10)
    - by: biais de la sortie (1, 10)

    Renvoie :
    - Y_pred: pr√©dictions de sortie (n, 10)
    - H: activations de la couche cach√©e (n, hidden_size)
    """

    # ---- PROPAGATION AVANT ----
    # 1Ô∏è‚É£ Calcul de l'activation de la couche cach√©e
    H = np.matmul(batch, Wh) + bh # Produit matriciel + biais
    H = sigmoid(H) * H  # Application de la sigmo√Øde

    # 2Ô∏è‚É£ Calcul de l'activation de la sortie
    logits = np.matmul(H, Wy) + by  # Produit matriciel + biais
    exp_logits = np.exp(logits - np.max(logits))  # appliquer la stabilit√© num√©rique
    Y_pred = exp_logits / np.sum(exp_logits, axis=1, keepdims=True)  # Softmax

    return Y_pred, H


In [124]:
np.dot(X_train, Wh)

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

## Apprentissage du perceptron (*backward*)

Comme pour la r√©gression logistique, nous allons entra√Æner le perceptron √† l‚Äôaide de l‚Äôalgorithme
de descente de gradient. Pour calculer les gradients par rapport aux param√®tres de la couche cach√©e,
nous allons avoir besoin d‚Äôutiliser l‚Äôalgorithme de r√©tro-propagation du gradient (*backpropagation*).
Rappellons que pour chaque batch d‚Äôexemples, l‚Äôalgorithme effectue une passe `forward` (impl√©ment√©e ci-dessus)
qui permet de calculer la pr√©diction du perceptron pour les exemples du batch.

La fonction de co√ªt consid√©r√©e sera encore l‚Äôentropie crois√©e entre la sortie pr√©dite et les √©tiquettes de
supervision. On calculera alors le gradient de l‚Äôerreur par rapport √† tous les param√®tres du mod√®le,
c‚Äôest-√†-dire:

- $ \mathbf{W^y} $ (dimensions $ (L, K) $),  
- $ \mathbf{b^y} $ (dimensions $ (1, K) $),  
- $ \mathbf{W^h} $ (dimensions $ (784, L) $),  
- $ \mathbf{b^h} $ (dimensions $ (1, L) $).  


On rappelle ci-dessous les √©quations des gradients, effectu√©es depuis la sortie
vers l‚Äôentr√©e du r√©seau :

### Etape 1

1. Mise √† jour de $ \mathbf{W^y} $ et $ \mathbf{b^y} $:  


$$
\frac{\partial \mathcal{L}}{\partial \mathbf{v_i}} = \mathbf{\delta^y_i} = \mathbf{\hat{y_i}} - \mathbf{y_i^*}
$$

$$
\frac{\partial \mathcal{L}}{\partial \mathbf{W^y}} = \frac{1}{n} \mathbf{H}^T (\mathbf{\hat{Y}} - \mathbf{Y^*}) = \frac{1}{n} \mathbf{H}^T \mathbf{\Delta^y} \tag{1}
$$

$$
\frac{\partial \mathcal{L}}{\partial \mathbf{b^y}} = \frac{1}{n}\sum_{i=1}^{n}(\mathbf{\hat{y_i}} - \mathbf{y_i^*}) \tag{2}
$$

o√π $ \mathbf{H} $ est la matrice des couches cach√©es sur le batch
($ 784 \times L $), $ \mathbf{\hat{Y}} $ est la matrice
des pr√©dictions sur le batch (taille $ n \times K $),
$ \mathbf{Y^*} $ est la matrice des √©tiquettes
issues de la supervision (*ground truth*, $ n \times K $) et
$ \mathbf{\Delta^y}=\mathbf{\hat{Y}}-\mathbf{Y^*} $.

1. Mise √† jour de $ \mathbf{W^h} $et $ \mathbf{b^h} $:  

### Etape 2

Les gradients de $ \mathcal{L} $ par rapport √† $ \mathbf{W^h} $ et $ \mathbf{b^h} $ s‚Äô√©crivent matriciellement sous la forme:

$$
    \frac{\partial \mathcal{L}}{\partial \mathbf{u_i}} = \mathbf{\delta^h_i} = \mathbf{\delta^y_i} \mathbf{W^{y}}^T   \odot \sigma^{'}(\mathbf{u_i}) = \mathbf{\delta^y_i} \mathbf{W^{y}}^T \odot \mathbf{h_i} \odot (1-\mathbf{h_i})
$$

$$
\frac{\partial \mathcal{L}}{\partial \mathbf{W^h}} =  \frac{1}{n} \mathbf{X}^T \mathbf{\Delta^h}
~~~\text{et}~~~
\frac{\partial \mathcal{L}}{\partial \mathbf{b^h}} = \frac{1}{n}\sum_{i=1}^{n}(\delta^h_i)
$$

o√π $ \mathbf{X} $ est la matrice des donn√©es sur le batch ($ n \times 784 $) et $ \mathbf{\Delta^h} $ est la matrice des $ \delta^h_i $ sur le batch ($ n \times L $).

## Question

Compl√©ter la fonction `backward` ci-dessous qui calcule et renvoie les gradients de l‚Äôerreur par rapport aux param√®tres du perceptron.

In [125]:
def backward(Y_pred, Y, X, H, Wy):
    """ Entr√©es:
    - Y_pred: batch de vecteur des pr√©dictions (one-hot)
    - Y: batch de vecteur des √©tiquettes (one-hot)
    - X: batch d'images (au format vectoriel (n, 784))
    - H: matrice des activations cach√©es
    - Wy: matrice des poids

    Renvoie:
    - gradWy: gradient de l'erreur (entropie crois√©e) par rapport √† Wy
    - gradby: gradient de l'erreur (entropie crois√©e) par rapport √† by
    - gradWh: gradient de l'erreur (entropie crois√©e) par rapport √† Wh
    - gradbh: gradient de l'erreur (entropie crois√©e) par rapport √† bh

    """
    delta_y = Y_pred - Y
    # Gradient pour la couche de sortie (identique √† la r√©gression logistique)
    gradWy = np.matmul(H.T, delta_y) / Y.shape[0]
    gradby = np.sum(delta_y, axis=0) / Y.shape[0]
    # Gradient pour la couche cach√©e
    delta_h = np.matmul(delta_y, Wy.T) * (H > 0)
    gradWh = np.matmul(X.T, delta_h) / Y.shape[0]
    gradbh = np.sum(delta_h, axis=0) / Y.shape[0]
    
    return gradWy, gradby, gradWh, gradbh

## Question

La fonction de co√ªt de l‚ÄôEq. [(3)](tpDeepLearning1.ipynb#equation-ce) est-elle convexe par
rapport aux param√®tres $ \mathbf{W} $, $ \mathbf{b} $ du mod√®le ? Avec un pas de gradient bien choisi, peut-on assurer la
convergence vers le minimum global de la solution ?

## Question

Compl√©ter le code ci-dessous de sorte √† appliquer la descente de gradient sur le perceptron multi-couche d√©fini par les param√®tres `Wy, Wh, by, bh`.

In [126]:
import numpy as np
from sklearn.metrics import accuracy_score

N, d = X_train.shape # N exemples, dimension d
hidden_size = 100 # Nombre de neurones de la couche cach√©e
# Initialisation des poids et des biais
Wy = np.zeros((hidden_size, n_classes))
Wh = np.zeros((d, hidden_size))
by = np.zeros((1, n_classes))
bh = np.zeros((1, hidden_size))

n_epochs = 30 # Nombre d'epochs de la descente de gradient
eta = 1e-1 # Learning rate (pas d'apprentissage)
batch_size = 128 # Taille du lot
n_batches = int(float(N) / batch_size)

# Allocation des matrices pour stocker les valeurs des gradients
gradWy = np.zeros((hidden_size, n_classes))
gradWh = np.zeros((d, hidden_size))
gradby = np.zeros((1, n_classes))
gradbh = np.zeros((1, hidden_size))

for epoch in range(n_epochs):
    print(f"Processing epoch : {epoch}")
    for batch_idx in range(n_batches):
        # ********* √Ä compl√©ter **********              
        X = X_train[batch_idx*batch_size:(batch_idx+1)*batch_size]
        Y = Y_train[batch_idx*batch_size:(batch_idx+1)*batch_size]
        # FORWARD PASS : calculer la pr√©diction y √† partir des param√®tres courants pour les images du batch
        Y_pred, H = forward(X, Wh, bh, Wy, by)
        # BACKWARD PASS :
        # 1) calculer les gradients de l'erreur par rapport √† W et b
        gradWy, gradby, gradWh, gradbh = backward(Y_pred, Y, X, H, Wy)
        # 2) mettre √† jour les param√®tres W et b selon la descente de gradient
        Wy = Wy - eta * gradWy
        by = by - eta * gradby
        Wh = Wh - eta * gradWh
        bh = bh - eta * gradbh
        
    
    pred_train = forward(X_train, Wh, bh, Wy, by)[0].argmax(axis=1)
    pred_test = forward(X_test, Wh, bh, Wy, by)[0].argmax(axis=1)
        

    print(f"Epoch {epoch}/{n_epochs}, accuracy (train) = {accuracy_score(pred_train,Y_train.argmax(axis=1))*100:.2f}, accuracy (test) = {accuracy_score(pred_test, Y_test.argmax(axis=1))*100:.2f}")
          
          

Processing epoch : 0
Epoch 0/30, accuracy (train) = 11.24, accuracy (test) = 11.35
Processing epoch : 1
Epoch 1/30, accuracy (train) = 11.24, accuracy (test) = 11.35
Processing epoch : 2
Epoch 2/30, accuracy (train) = 11.24, accuracy (test) = 11.35
Processing epoch : 3
Epoch 3/30, accuracy (train) = 11.24, accuracy (test) = 11.35
Processing epoch : 4
Epoch 4/30, accuracy (train) = 11.24, accuracy (test) = 11.35
Processing epoch : 5
Epoch 5/30, accuracy (train) = 11.24, accuracy (test) = 11.35
Processing epoch : 6
Epoch 6/30, accuracy (train) = 11.24, accuracy (test) = 11.35
Processing epoch : 7
Epoch 7/30, accuracy (train) = 11.24, accuracy (test) = 11.35
Processing epoch : 8
Epoch 8/30, accuracy (train) = 11.24, accuracy (test) = 11.35
Processing epoch : 9
Epoch 9/30, accuracy (train) = 11.24, accuracy (test) = 11.35
Processing epoch : 10
Epoch 10/30, accuracy (train) = 11.24, accuracy (test) = 11.35
Processing epoch : 11
Epoch 11/30, accuracy (train) = 11.24, accuracy (test) = 11.35


## Question

Tester deux autres initialisations :

- initialiser les poids avec une loi normale de moyenne nulle et d‚Äô√©cart type √† d√©terminer, par exemple $ 10^{-1} $,  

##### Utilise le package sklearn pour entra√Æner un MLP (avec la m√™me architecture que le r√©seau pr√©c√©dent). √âvalue ensuite le mod√®le et compare les r√©sultats obtenus avec ceux du mod√®le pr√©c√©dent.