
<a id='chap-tpdeeplearning1'></a>

# Travaux pratiques - Premiers r√©seaux de neurones

Au cours de cette s√©ance de travaux pratiques, vous allez √™tre amen√©s √† impl√©menter vous-m√™me l‚Äôapprentissage d‚Äôun r√©seau de neurones simple. Bien que de nombreuses biblioth√®ques existent pour automatiser cette t√¢che, il est tr√®s utile de se familiariser avec les concepts fondamentaux au moins une fois. Cela vous permettra d‚Äôavoir une meilleure compr√©hension des outils que nous utiliserons plus tard, comme Keras.

## Jeu de donn√©es MNIST

Lors de cette s√©ance, nous allons utiliser la base de donn√©es MNIST, compos√©e de 70 000 images de chiffres manuscrits en noir et blanc (60 000 pour l‚Äôentra√Ænement et 10 000 pour le test). L‚Äôobjectif est de d√©velopper un mod√®le capable d‚Äôidentifier automatiquement le chiffre √† partir de chaque image.

Pour commencer, nous allons importer les donn√©es. √âtant donn√© qu‚Äôil s‚Äôagit d‚Äôun jeu de donn√©es largement utilis√© et standard, il est int√©gr√© dans plusieurs biblioth√®ques, comme Keras, ce qui nous permet de l‚Äôimporter facilement en une seule ligne de code :

In [None]:
!pip install --upgrade tensorflow keras numpy scipy

In [None]:
!python -c "import sys; print(sys.executable)"

In [None]:
#!pip show numpy
import tensorflow as tf
from keras import backend as K

In [None]:
import keras
# Import de MNIST depuis Keras
(X_train, y_train), (X_test, y_test) = keras.datasets.mnist.load_data()
# Transformation des images 28x28 en vecteur de dimension 784
X_train = X_train.reshape(60000, 784).astype('float32')
X_test = X_test.reshape(10000, 784).astype('float32')
# Normalisation entre 0 et 1
X_train /= 255
X_test /= 255

# Affichage du nombre de'exemples
print(f"{X_train.shape[0]} exemples d'apprentissage")
print(f"{X_test.shape[0]} exemples de test")

## Question

Afficher √† l‚Äôaide de matplotlib les premi√®res images du jeu d‚Äôapprentissage. La fonction `plt.imshow()` (cf. [sa documentation](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.imshow.html)) peut vous √™tre utile.

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 4))

n_images = 10
for i in range(n_images):
    plt.subplot(1, n_images, i+1)
    plt.imshow(###  COD  E###)
    plt.axis('off')
plt.show()

## Question :

Quel est l‚Äôespace dans lequel se trouvent les images ? Quelle est sa dimension ?

## R√©gression logistique

### Mod√®le de pr√©diction

Nous allons impl√©menter un mod√®le de classification lin√©aire simple : la r√©gression logistique. Concr√®tement, la r√©gression logistique est √©quivalente √† un r√©seau de neurones √† une seule couche. Il s‚Äôagit d‚Äôune projection du vecteur d‚Äôentr√©e $ \mathbf{x_i} $ par un vecteur de param√®tres $ \mathbf{w_{c}} $, plus un biais sclaaire $ b_c $, pour chaque classe.  Le sch√©ma ci-dessous illustre le mod√®le de r√©gression logistique avec un r√©seau de neurones.

<img src="LR.png" style="height:150px;" align="center">

En l‚Äôoccurrence, pour MNIST $ \mathbf{x}_i $ est de dimension 784 et il y a dix chiffres possibles, donc 10 classes diff√©rentes. Dans notre cas, on consid√®re que l‚Äôimage d‚Äôentr√©e est repr√©sent√©e sous sa forme ¬´ aplatie ¬ª, c‚Äôest-√†-dire un vecteur (1, 784).

Pour simplifier les notations, on regroupe l‚Äôensemble des jeux de param√®tres $ \mathbf{w_{c}} $ pour les 10 classes possibles dans une unique matrice $ \mathbf{W} $ de dimensions $ 784\times 10 $. De la m√™me fa√ßon, les biais sont regroup√©s dans un vecteur $ \mathbf{b} $ de longueur 10. La sortie de la r√©gression logistique est un vecteur contenant une activation pour chaque classe, c‚Äôest-√†-dire $ \mathbf{\hat{s_i}} =\mathbf{x_i}  \mathbf{W}  + \mathbf{b} $ de dimensions (1, 10).

Afin de transformer les activations en de sortie en probabilit√©s pour une distribution cat√©gorielle, on ajoute une fonction d‚Äôactivation de *softmax* sur $ \mathbf{\hat{y_i}} = \sigma(\mathbf{s_i}) $. Cela nous permet d‚Äôobtenir en sortie un vecteur de pr√©dictions $ \mathbf{\hat{y_i}} $, de dimensions (1, 10),  qui repr√©sente la probabilit√© *a posteriori* $ p(\mathbf{\hat{y_i}} | \mathbf{x_i}) $ pour chacune des 10 classes :


<a id='equation-softmax'></a>
$$
p(\hat{y}_{c,i} | \mathbf{x_i}) ) = \frac{e^{\langle \mathbf{x_i} ; \mathbf{w_{c}}\rangle + b_{c}}}{\sum_{c'=1}^{10} e^{\langle \mathbf{x_i} ; \mathbf{w_{c'}}\rangle + b_{c'}}} \tag{1}
$$

### Question

Quel est le nombre de param√®tres du mod√®le utilis√© ? Justifier le calcul.

### Formulation du probl√®me d‚Äôapprentissage

Pour entra√Æner le r√©seau de neurones, c‚Äôest-√†-dire d√©terminer les valeurs optimales des param√®tres $ \mathbf{W} $ et $ \mathbf{b} $, on va comparer pour chaque exemple d‚Äôapprentissage la sortie pr√©dite $ \mathbf{\hat{y_i}} $ (√©quation [(1)](#equation-softmax)) pour l‚Äôimage $ \mathbf{x_i} $ √† la sortie r√©elle $ \mathbf{y_i^*} $ (v√©rit√© terrain issue de la supervision). Dans notre cas, on choisit d‚Äôencoder la cat√©gorie de l‚Äôimage $ \mathbf{x_i} $ sous forme *one-hot*, c‚Äôest-√†-dire :


<a id='equation-one-hot'></a>
$$
y_{c,i}^* =
 \begin{cases}
   1 & \text{si c correspond √† l'indice de la classe de } \mathbf{x_i}  \\
   0 & \text{sinon}
 \end{cases} \tag{2}
$$

G√©n√©rons les √©tiquettes (*labels*) au format *one-hot* ([(2)](#equation-one-hot)) √† l‚Äôaide de la fonction `to_categorical` (cf. [documentation de Keras](https://www.tensorflow.org/api_docs/python/tf/keras/utils/to_categorical)).

In [None]:
from keras.utils import to_categorical
n_classes = 10
# Conversion des √©tiquettes (int) au format vectoriel one-hot
Y_train = ...
Y_test = ...

L‚Äôerreur de pr√©diction sera d√©finie √† l‚Äôaide de l‚Äôentropie crois√©e (*cross-entropy*). Cette fonction de co√ªt s‚Äôapplique entre $ \mathbf{\hat{y_i}} $ et $ \mathbf{y_i^*} $ par la formule:
$ \mathcal{L}(\mathbf{\hat{y_i}}, \mathbf{y_i^*}) = -\sum_{c=1}^{10} y_{c,i}^* \log(\hat{y}_{c,i}) = - \log(\hat{y}_{c^*,i}) $, o√π $ c^* $ correspond √† l‚Äôindice de la classe donn√©e par la supervision pour l‚Äôimage $ \mathbf{x_i} $.

### Note

L‚Äôentropie crois√©e correspond en r√©alit√© √† la divergence de Kullback-Leiber pour des distributions cat√©gorielles. La divergence KL est une mesure de dissimilarit√© entre distributions de probabilit√©. Autrement dit, l‚Äôerreur que l‚Äôon mesure vise √† r√©duire l‚Äô√©cart entre la distribution r√©elle des cat√©gories et la distribution pr√©dite.

La fonction de co√ªt finale correspond √† l‚Äôerreur d‚Äôapprentissage, c‚Äôest-√†-dire la moyenne l‚Äôentropie crois√©e sur l‚Äôensemble de la base d‚Äôapprentissage $ \mathcal{D} $ constitu√©e des $ N=60000 $ images :


<a id='equation-ce'></a>
$$
\mathcal{L}_{\mathbf{W},\mathbf{b}}(\mathcal{D})  = - \frac{1}{N}\sum_{i=1}^{N} \log(\hat{y}_{c^*,i}) \tag{3}
$$

### Optimisation du mod√®le

Nous allons minimiser la fonction de co√ªt √† l‚Äôaide de l‚Äôalgorithme de descente de gradient appliqu√© sur les param√®tres $ \mathbf{W} $ et $ \mathbf{b} $ du mod√®le de r√©gression logistique. Pour ce faire, nous allons avoir besoin des gradients de l‚Äôentropie crois√©e par rapport √† $ \mathbf{W} $ ainsi que $ \mathbf{b} $. Nous pouvons nous appuyer sur la des d√©riv√©es cha√Æn√©es (*chain rule*, ou th√©or√®me de d√©rivation des fonctions compos√©es) :

$$
\frac{\partial \mathcal{L}}{\partial \mathbf{W}} =  \frac{1}{N}\sum_{i=1}^{N} \frac{\partial \mathcal{L}}{\partial \mathbf{\hat{y_i}}}  \frac{\partial \mathbf{\hat{y_i}}}{\partial \mathbf{s_i}} \frac{\partial \mathbf{s_i}}{\partial \mathbf{W}}
$$

$$
\frac{\partial \mathcal{L}}{\partial \mathbf{b}} =  \frac{1}{N}\sum_{i=1}^{N} \frac{\partial \mathcal{L}}{\partial \mathbf{\hat{y_i}}}  \frac{\partial \mathbf{\hat{y_i}}}{\partial \mathbf{s_i}} \frac{\partial \mathbf{s_i}}{\partial \mathbf{b}}
$$

### Impl√©mentation de l‚Äôapprentissage

Les gradients obtenus par les √©quations du gradients s‚Äô√©crivent sous forme ¬´ vectorielle ¬ª, ce qui rend les calculs efficaces avec des biblioth√®ques de calcul scientifique telles que `numpy`. Apr√®s calcul du gradient, les param√®tres sont mis √† jour de la fa√ßon suivante :


<a id='equation-gradientupdatew'></a>
$$
\mathbf{W}^{(t+1)} = \mathbf{W}^{(t)} - \eta \frac{\partial \mathcal{L}}{\partial \mathbf{W}} \tag{6}
$$


<a id='equation-gradientupdateb'></a>
$$
\mathbf{b}^{(t+1)} = \mathbf{b}^{(t)} - \eta \frac{\partial \mathcal{L}}{\partial \mathbf{b}} \tag{7}
$$

o√π $ \eta $ est le pas de gradient (*learning rate*).

En th√©orie, la descente de gradient n√©cessite de calculer les gradients de la fonction de co√ªt sur tout le jeu de donn√©es d‚Äôapprentissage. Toutefois, ce jeu de donn√©es est assez grand et les gradients peuvent √™tre longs √† calculer. En pratique, on impl√©mente plut√¥t une descente de gradient *stochastique*, c‚Äôest √† dire que les gradients aux √©quations [(4)](#equation-gradientw) et [(5)](#equation-gradientb) ne seront pas calcul√©s sur l‚Äôensemble des $ N=60000 $ images d‚Äôapprentissage, mais sur un sous-ensemble de $ n $ images appel√© *batch* ou *lot*. Cette technique permet une mise √† jour des param√®tres plus fr√©quente qu‚Äôavec une descente de gradient classique, un temps de calcul r√©duit et une convergence plus rapide, au d√©triment d‚Äôune approximation du gradient.

Le code ci-dessous d√©crit le squelette de l‚Äôalgorithme de descente de gradient qui va permettre l‚Äôoptimisation des param√®tres du mod√®le :

Ce dessous quelques indices :

---

## **üîπ Explication du code**
Le programme entra√Æne un **mod√®le de classification lin√©aire** en utilisant **la descente de gradient par mini-batch**. Il apprend √† **pr√©dire des classes** √† partir de donn√©es d'entr√©e en utilisant une **fonction de perte cross-entropy** et une **fonction d'activation softmax**.

### **1Ô∏è‚É£ Forward Pass (Pr√©diction)**
On calcule les scores bruts des classes :
$$
\text{logits} = XW + b
$$
Puis, on applique la **fonction softmax** pour obtenir des probabilit√©s.

### **2Ô∏è‚É£ Calcul de la perte (Cross-Entropy)**
- On transforme les √©tiquettes (`y_batch`) en **one-hot encoding**.
- On utilise la **perte d'entropie crois√©e** :
  $$
  \text{Perte} = -\frac{1}{N} \sum_{i} y_i \log(\hat{y}_i)
  $$

### **3Ô∏è‚É£ Backward Pass (Calcul des gradients)**
- Le gradient de la perte par rapport aux logits est donn√© par :
  $$
  dL/d\hat{Y} = \hat{Y} - Y_{\text{one-hot}}
  $$
- Ensuite, on calcule les gradients par rapport √† **W** et **b**.

### **4Ô∏è‚É£ Mise √† jour des param√®tres (Descente de Gradient)**
- On met √† jour `W` et `b` en soustrayant le gradient multipli√© par le **taux d'apprentissage (eta)**.

#### ** --> Formules des gradients de W et b**  

##### **Gradient par rapport √† W (gradW)**
$$
\frac{\partial L}{\partial W} = \frac{1}{m} X^T (\hat{Y} - Y)
$$

- $ X^T $ est la transpos√©e de la matrice des entr√©es.  
- $ (\hat{Y} - Y) $ repr√©sente la diff√©rence entre la pr√©diction et la vraie √©tiquette.

##### **Gradient par rapport √† b (gradb)**
$$
\frac{\partial L}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} (\hat{Y}_i - Y_i)
$$
- Il s'agit simplement de la somme des erreurs sur chaque √©chantillon du batch.

---

#### **üìå Mise √† jour des param√®tres**
Une fois les gradients calcul√©s, on met √† jour les param√®tres via la **descente de gradient** :
$$
W = W - \eta \frac{\partial L}{\partial W}
$$
$$
b = b - \eta \frac{\partial L}{\partial b}
$$

o√π $ \eta $ est le **taux d'apprentissage** (learning rate).

##### **‚úÖ R√©sum√©**
| Gradient | Formule math√©matique |
|----------|---------------------|
| $ \frac{\partial L}{\partial W} $ | $ \frac{1}{m} X^T (\hat{Y} - Y) $ |
| $ \frac{\partial L}{\partial b} $ | $ \frac{1}{m} \sum (\hat{Y} - Y) $ |
| Mise √† jour de $ W $ | $ W = W - \eta \cdot \frac{\partial L}{\partial W} $ |
| Mise √† jour de $ b $ | $ b = b - \eta \cdot \frac{\partial L}{\partial b} $ |

In [None]:
import numpy as np
N, d = X_train.shape # N exemples, dimension d
W = np.zeros((d, n_classes)) # initialisation de poids
b = np.zeros((1, n_classes)) # initialisation des biais

n_epochs = 20 # Nombre d'epochs de la descente de gradient
eta = 1e-1 # Learning rate (pas d'apprentissage)
batch_size = 100 # Taille du lot
n_batches = int(float(N) / batch_size)

# On alloue deux matrices pour stocker les valeurs des gradients
gradW = np.zeros((d, n_classes))
gradb = np.zeros((1, n_classes))

for epoch in range(n_epochs):
    for batch_idx in range(n_batches):
        # ********* √Ä compl√©ter **********
        # S√©lection du mini-batch
        start = batch_idx * batch_size
        end = start + batch_size
        X_batch = ...  # S√©lection des entr√©es du mini-batch
        y_batch = ...  # S√©lection des labels du mini-batch

        # ---- FORWARD PASS ----
        logits = ...  # Calcul des scores bruts (logits)
        softmax_probs = ...  # Conversion en probabilit√©s

        # ---- CALCUL DE LA PERTE (CROSS-ENTROPY) ----
        one_hot_y = ...  # Conversion des labels en one-hot encoding np.eye
        y_log_y_pred = one_hot_y * np.log(softmax_probs + 1e-9) # Ajout d'un petit terme pour √©viter log(0)
        loss =   ...

        # ---- BACKWARD PASS ----
        dL_dlogits = ...  # Gradient de la perte par rapport aux logits
        gradW = ...  # Gradient par rapport √† W (en utilisant le np.dot() )
        gradb = ...  # Gradient par rapport √† b
        
        # ---- MISE √Ä JOUR DES PARAM√àTRES ----
        W -= ...
        b -= ...

### Question

Compl√©ter ce code. Vous devez notamment :

> - √âcrire une fonction `forward(batch, W, b)` qui calcule la pr√©diction (vecteur de sortie $ \hat{\mathbf{y}} $ pour chaque exemple d‚Äôun batch de donn√©es. Si on consid√®re un batch des donn√©es de taille $ tb\times 784 $, les param√®tres $ \mathbf{W} $ (taille $ 784\times 10 $) et $ \mathbf{b} $ (taille $ 1\times 10 $), la fonction `forward` renvoie la pr√©diction $ \mathbf{\hat{Y}} $ sur le batch (taille $ tb\times 10 $).  La fonction `forward` sera appel√©e pour chaque it√©ration de la double boucle pr√©c√©dente.  
- Completer la fonction `softmax` ci-dessous pour calculer le r√©sultat du passage du softmax sur chaque √©l√©ment de de la matrice de la projection lin√©raire (taille $ tb\times 10 $) :  

In [None]:
def forward(X_batch, W, b ):
    
    ...
    
    return logits

In [None]:
def softmax(X):
     # Entr√©e: matrice X de dimensions batch x d
     # Sortie: matrice de m√™mes dimensions
     ...

    return softmax_probs


- 
  <dl style='margin: 20px 0;'>
  <dt>r√©ecrire le code d'avant avec les deux nouvelles fonctions</dt>
  
  </dl>

### Question

√âvaluer les performances du mod√®le de r√©gression logistique entra√Æn√© sur MNIST. On utilisera le taux de bonne classification (*accuracy*) comme m√©trique. Commencer par mesurer l‚Äô√©volution des performances du mod√®le au cours de l‚Äôapprentissage (calcul de l'*accuracy* √† chaque √©poque), puis √©valuer sur le mod√®le sur la base de test. Vous pouvez utiliser la [fonction de scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html) ou la fonction `accuracy` ci-dessous (qui effectue √©galement la phase de pr√©diction).

**Vous devriez obtenir un score de l‚Äôordre de 92% sur la base de test pour ce mod√®le de r√©gression logistique.**

In [None]:
def accuracy(W, b, images, labels):
    """ W: matrice de param√®tres
        b: vecteur de biais
        images: images de MNIST
        labels: √©tiquettes de MNIST pour les images

        Renvoie l'accuracy du mod√®le (W, b) sur les images par rapport aux labels
    """
    pred = forward(images, W, b)
    return np.where(pred.argmax(axis=1) != labels.argmax(axis=1), 0.,1.).mean()

##### Utilise le package sklearn pour entra√Æner un MLP (avec la m√™me architecture que le r√©seau pr√©c√©dent) ainsi qu‚Äôun SVM. √âvalue ensuite les deux mod√®les et compare les r√©sultats obtenus avec ceux du mod√®le pr√©c√©dent.