# TP 5 : Réseaux de Neurones en tensorflow

**Avant de commencer :** Merci de bien lire le préambule et l'énoncé de ce TP. Ça vous évitera de perdre beaucoup de temps ensuite. 

**Rendu :** Ce TP doit être déposé sur elearning. Le rendu doit contenir uniquement le fichier `.ipynb`. Le notebook doit être propre, le plus illustré et le plus commenté possible. 

**Librairies :** Ce TP repose sur les librairies standard suivantes :
- Version numpy : 1.23.1
- Version matplotlib : 3.5.2
- Version tensorflow : 2.8.2

Pour vérifier qu'elles sont bien installées dans votre environnement de travail, lancez la cellule suivante. Elle ne doit pas renvoyer d'erreur (un `Warning` n'est en général pas trop embêtant). 

Pour les numéros _exacts_ de version, ce n'est pas très grave s'il y a une petite différence (par exemple `numpy 1.22` au lieu de `1.23`), mais si vous avez une trop grosse différence (par exemple `sklearn 0.23` au lieu de `sklearn 1.1`), mettez à jour votre librairie. 

S'il vous manque une librairie (`No module named ...`), vous pouvez l'installer 
- Soit en utilisant votre gestionnaire d'environnement (p.ex. `conda`). 
- Soit directement depuis le notebook, en faisant
```
!pip install nom_de_la_librairie==numero_de_la_version
```

**Attention :** Pour installer tensorflow, vous pouvez _a priori_ faire `pip install tensorflow`, mais en cas de doute, vous pouvez regarder [la doc d'installation](https://www.tensorflow.org/install/pip?hl=fr).

Pour `tensorflow`, assurez-vous de bien avoir la version `2.` (la suite ne devrait pas avoir trop d'importance). 

Note : la première fois que vous lancer `import tensorflow as tf`, ça peut prendre assez longtemps (des choses sont compilées en C en arrière plan). 

In [None]:
import numpy as np
import matplotlib
import matplotlib.pyplot as plt

import tensorflow as tf

from utils_tp5 import *

print("Version numpy :", np.__version__)
print("Version matplotlib :", matplotlib.__version__)
print("Version tensorflow :", tf.__version__)

## Partie 1 : premiers modèles en tensorflow

Le but de cette partie est de vous faire créer des modèles simples en `tensorflow` et en `pytorch`, les deux librairies de références en _Deep Learning_, et de mettre en place les routines pour entraîner de tels modèles en fonction des deux librairies. 

### Jeux de données

On commence par se fabriquer deux jeux de données sur lesquels on testera nos modèles de Deep Learning : un jeu de régression, et un jeu de classification. Les fonctions pour faire ça sont dans un fichier `utils_tp5.py` que vous n'êtes pas obligés d'ouvrir. 

In [None]:
x_reg_train, y_reg_train, x_reg_test, y_reg_test = generate_regression_task()
x_classif_train, y_classif_train, x_classif_test, y_classif_test = generate_classification_task()

On visualise ça. 

In [None]:
fig, axs = plt.subplots(1, 2, figsize=(20, 6))

ax = axs[0]

ax.scatter(x_reg_train, y_reg_train, marker='x')
ax.set_xlabel("Observations")
ax.set_ylabel("Labels")
ax.set_title("Jeu de régression", fontsize=18)
ax.grid()

ax = axs[1]
ax.scatter(x_classif_train[:,0], x_classif_train[:,1], c=y_classif_train, alpha=0.8)
ax.set_title("Jeu de classification", fontsize=18)
ax.grid()

### Régression en tensorflow

**Question 1: Construction du modèle.** Remplir le code suivant pour créer un modèle `tensorflow` pour le jeu de classification de la manière suivante : 

- Le modèle prend les entrées du jeu de régression (1D) et utilise un fully-connected (`Dense`) pour les plonger en dimension 3, avec une activation `relu`
- Le modèle fait une autre couche qui va de la dimension 3 à a dimension 5, avec une `relu` encore. 
- Le modèle remet ensuite les données en dimension 1 (la dimension des labels), avec une activation `linear` (ce qui revient à prendre $\sigma = \mathrm{id}$). 

_Indications:_ On utilisera la syntaxe 
```
tf.keras.layers.Dense(units, activation)
```
où `units` et la dimension de _sortie_ du layer, et `activation` est le choix de la fonction d'activation $\sigma$, qui peut valoir `'relu'`, `'sigmoid'` ou `'softmax'` par exemple. 

Pour le premier layer, on ajoutera le paramètre `input_shape = (1,)`, pour préciser que l'entrée du modèle sera en 1D (attention, la syntaxe est un peu pénible : `tensorflow` demande un itérable (une liste, un tuple, etc.), donc on est obligé de mettre `(1,)` et pas simplement `1`). 

In [None]:
model = tf.keras.models.Sequential([
    ...,   # mettez ici le premier layer
    ...,   # ici le second layer
    ...,   # ici le troisième et dernier layer. 
])

---

**Compilation du modèle.** Avant exécution, les modèles tensorflow doivent être "compilés", grâce à la méthode `model.compile(optimizer, loss, metrics)`. On va alors préciser 
- `optimizer` : le choix de l'algorithme d'optimisation. On prendra `'adam'`, un grand classique pour faire une déscente de gradient stochastique
- `loss` : le choix de la _loss function_. On prendra la _mean squared error_ (mse), qu'on peut fixer en mettant le paramètre `loss` à `'mse'`.
- `metrics` : la quantité qui nous intéresse. On prendra ici aussi la `'mse'` (voir la partie sur la classification pour comprendre la différence). 

In [None]:
model.compile(
    optimizer='adam', 
    loss='mse', 
    metrics=['mse']
)

**Question 2: Résumé du modèle.** Après avoir lancé la cellule précédente (compilation du modèle), appeler la méthode `model.summary()` pour répondre aux questions suivantes : 
- Combien votre modèle a-t-il de paramètres ? 
- Justifier ce nombre par le calcul.

In [None]:
# Écrivez votre code ici

-- Écrivez vos commentaires ici --

**Question 4 : Entraîner le modèle.** En utilisant la méthode `model.fit` dont la doc est disponible [ici](https://www.tensorflow.org/api_docs/python/tf/keras/Model), entraîner le modèle sur votre jeu de régression. On rappelle que `epochs` indique le nombre de parcours _complet_ du jeu de données que vous voulez faire lors de votre Descente de Gradient Stochastique (par batch). 

On prendra 5 epochs pour commencer. 

In [None]:
# Écrivez votre code ici

---

**Question 5: Évaluer le modèle.** Tester la performance de votre model avec la méthode `model.evaluate(x_test, y_test)`. On ajoutera comme paramètre à la méthode, `verbose = 2` (qui permet d'avoir directement + de renseignements). 

Commentez brièvement les résultats obtenus. 

In [None]:
# Écrivez votre code ici

-- Écrivez vos commentaires ici --

---

**Visualiser le modèle.** Comme on est en basse dimension (observations et labels de dimension 1), on peut visualiser "globalement" les prédictions que ferait notre modèle en générant "toutes" les observations possibles en 1D susceptibles de nous intéresser. 

Concrètement, on va échantillonner l'intervalle $[0, 4]$ (raisonnable vues nos observations), puis on regarde les prédictions du modèle avec `model.predict(x)`. 

**Question 6:** Exécutez le code suivant puis commentez le résultat obtenu. 

In [None]:
t = np.linspace(0, 4, 10000)  # on fabrique "tout" l'intervalle

pred = model.predict(t)

fig, ax = plt.subplots()
ax.plot(t, pred, c='red', label='predictions', linewidth = 3)
ax.scatter(x_reg_train, y_reg_train, marker='x', label='train set', c='blue')
ax.scatter(x_reg_test, y_reg_test, marker='x', label='test set', c='orange')
ax.legend()
ax.grid()

-- Écrivez vos commentaires ici --

---

**Question 7:** Relancer l'entraînement du modèle en faisant + d'epochs, et (en faisant un copier-coller) relancez le code de la cellule précédente pour visualiser notre modèle "mieux entraîné". 

Commentez le résultat obtenu.

_Remarque:_ Un point assez pratique avec `tensorflow` et qu'on peut simplement "reprendre" l'entraînement en relançant `model.fit(..., epoch=...)`: l'objet `model` est conservé, donc si vous lancez deux fois la cellule `model.fit(..., epoch = 5)`, c'est comme si vous aviez fait 10 epochs. Par contre, si vous relancez `model = ...` (ou si vous redémarrez votre notebook), vous remettez le modèle à 0 bien entendu. 

_Remarque 2:_ Il se peut que votre modèle "stagne" près de la fonction nulle. Dans ce cas, relancez-le "depuis 0". 

In [None]:
# Écrivez votre code ici

-- Écrivez vos commentaires ici --

---

_A priori_, votre modèle est toujours assez mauvais. Ce n'était donc pas une question de nombre d'epochs, mais véritablement d'expressivité du modèle : notre réseau est trop simple. 

**Question 8;** Fabriquer un nouveau réseau de neurones (appelez-le par exemple `model2`) similaire au précédent, mais en augmentant son expressivité via : 
- plus de neurones dans les layers intermédiaires
- plus de layers intermédiaires
- augmenter le nombre d'epochs si besoin

Reprendre ensuite les questions précédentes, en particulier :
- Décrire le nombre de paramètres de votre nouveau modèle,
- Entraîner votre modèle, d'abord pour seulement quelqus epochs, puis + si nécessaire
- Visualisez votre modèle. 

Commentez les résultats que vous obtenez au cours de vos essais. 

**Objectif :** avoir une training **et** une test _mse_ $< 0.05$. 

**Consigne supplémentaire :** N'hésitez pas à forcer un peu sur les paramètres, **mais** votre réseau doit obligatoirement prendre **moins de 5 minutes pour s'entraîner** (appel de `model.fit`) sur un CPU de laptop ordinaire. 

In [None]:
# Écrivez votre code ici

In [None]:
model2.evaluate(x_reg_test, y_reg_test)

---

### Classification en tensorflow

On passe maintenant à la classification. Le principe reste le même que pour la régression, avec trois différences : 
- En classification, on utilise comme `loss` (la fonction qu'on veut minimiser) l'entropie croisée, mais comme `metrics` (la valeur qu'on interprête / qu'on veut communiquer) l'`accuracy` (proportion de prédictions correctes). On utilisera ici `loss = tf.keras.losses.SparseCategoricalCrossentropy()`
- Pour pouvoir utiliser l'entropie croisée, il faut en théorie utiliser le _one-hot_encoding_ des labels. En réalité, `tensorflow` gère cela automatiquement avec la  `SparseCategoricalCrossentropy()`. 
- Lorsqu'on appelle `model.predict(x)`, on récupère _une distribution de probabilité sur l'ensemble des classes_ (donc un vecteur de taille `nombre_de_classes`). Pour récuperer une "vraie" prédiction, il faut faire `np.argmax(model.predict(x), axis=1)` (qui permet de sélectionner la classe qui a la plus haute probabilité estimée par le modèle). 

**Question 1:** Initialiser un réseau de neurone avec seulement deux layers : 
- Le premier envoie les observations en dimension 10, avec une activation `sigmoid`
- Le deuxième envoie les observation en dimension 3, avec une activation `softmax`. 

In [None]:
# Écrivez votre code ici

---

**Question 2:** Pourquoi a-t-on pris une dimension de 3 pour la sortie du deuxième (et dernier) layer ? Pourquoi a-t-on pris l'activation `softmax` ?

-- Écrivez vos commentaires ici --

---

**Question 3:** Compilez votre modèle. On prendra toujours `'adam'` comme `optimizer`, mais on prendra comme indiqué la `SparseCategoricalCrossentropy()` comme `loss`, et `['accuracy']` comme `metrics`.

In [None]:
# Écrivez votre code ici

---

**Question 4:** Entraînez votre modèle sur 5 epochs, évaluez son score (sur le jeu de test), et commentez vos résultats. On fournit notamment une cellule de code pour visualiser l'ensemble des prédictions sur une grille $[-15, 15]\times[-5,5]$ de votre modèle après entraînement. 

In [None]:
# Écrivez votre code ici

In [None]:
x = np.linspace(-5, 5, 100)
y = np.linspace(-15, 15, 100)
grid = np.array(np.meshgrid(x,y)).reshape(2, 10000).T  # On fabrique une grille sur laquelle on va tester notre modèle
pred_proba = model.predict(grid)  # on évalue notre modèle sur la grille --> donne des probabilité d'appartenance
predictions = np.argmax(pred_proba, axis=-1)  # On récupère nos prédictions sous forme de classes

fig, ax = plt.subplots(figsize=(8, 8))
ax.scatter(grid[:,0], grid[:,1], c=predictions, alpha = 0.1)
ax.scatter(x_classif_train[:,0], x_classif_train[:,1], c=y_classif_train, marker='o', edgecolor='k', label="train set")
ax.set_title("Prédictions du modèle (ombre) vs données d'entraînement")

---

**Question 5:** Essayer d'améliorer votre score (train et test !) avec un modèle plus raffiné. Attention à l'_overfiting_!

Objectif : accuracy $> 94\%$ sur train et test. 

In [None]:
# Écrivez votre code ici

---

## Partie 2 : Le jeu CIFAR10 et les réseaux convolutionnels

On va maintenant tester de nouvelles architectures sur un classique des jeux de données : le jeu `CIFAR10`. C'est un jeu de données représentant des images (attention il est un peu volumineux, essayez d'avoir un peu de place sur votre machine avant de lancer la cellule de code suivant qui le téléchargera). 

Les images ont $32 \times 32$ pixels et troix canaux de couleur (Rouge, Bleu, Vert) qui prennent des valuers entre $0$ et $255$, et qu'on va normaliser à $[0,1]$ pour simplifier. 

Ces images sont réparties dans 10 classes, dont les noms sont stockés dans la liste `noms_classes` ci-dessous :

In [None]:
noms_classes = ['avion', 'voiture', 'oiseau', 'chat', 'cerf',
               'chien', 'grenouille', 'cheval', 'bateau', 'camion']


In [None]:
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.cifar10.load_data()

x_train, x_test = x_train / 255.0, x_test / 255.0

In [None]:
num = 0  # vous pouvez essayer d'autres num
image = x_train[num]
label = y_train[num]
plt.imshow(image, cmap='Greys')
plt.title('Image de %s' %noms_classes[label[0]], fontsize=24)

**Question 1:** En quelle dimension sont nos données ? 

-- Écrivez votre réponse ici --

---

**Question 2:** En reprenant le code de la Partie précédente, instanciez, entraînez puis évaluez un modèle fully-connected sur ce jeu de données.

**Important :** Le premier layer sera `tf.keras.layers.flatten()`, qui permet simplement de passer d'une image $32 \times 32 \times 3$ à un vecteur "ligne" (le type d'entrée que demande `tensorflow`). Le dernier avec une sortie de taille 10 (nombre de classes). 

Ne vous acharnez pas trop : avec un jeu de données difficile comme celui-ci, on se fixe dans un premier temps un objectif de $> 35\%$ de train **et** test accuracy. 


_Remarque :_ Comme le jeu de donnée est nettement plus gros, on peut généralement faire moins d'epochs (car 1 epoch ==> plus d'étapes de SGD à batch size fixée). Par contre les epochs seront plus longues. Commencez par en faire un petit nombre ($< 5$) pour voir ce que ça donne sur votre machine. 

_Remarque 2:_ Attention à l'overfiting ! En grande dimension, c'est très facile d'_overfit_. 

In [None]:
# Écrivez votre code ici

---

**Question 3:** Combien votre modèle a-t-il de paramètres ?

In [None]:
# Écrivez votre code ici

--- 

L'espace des _images naturelles_ (les "vraies" images qu'on est susceptible de voir dans la vie de tous les jours) est trop compliqué pour être appris avec un réseau de neurones aussi élémentaire, qui traite chaque pixel (et chaque canal de couleur !) de manière totalement indépendante. On va donc se reposer sur un [layer _convolutionnel_](https://www.tensorflow.org/api_docs/python/tf/keras/layers/Conv2D).

On y accède via :

```
tf.keras.layers.Conv2D(filters, kernel_size, activation, input_shape)
```

où `filters` représente le nombre de filtres (nombre de matrices $A$ vu en cours) qu'on veut apprendre en parallèle, `kernel_size` représente la taille de ces filtres, `activation` est la fonction d'activation (mêmes choix que précédemment), et `input_shape` (utile pour le premier layer uniquement) permet de spécifier la taille des images (nombre de pixel x nombre de pixel x nombre de canaux).

On utilisera aussi le layer `tf.keras.layers.MaxPooling2D((n,n))` qui découpe l'image en patch de taille `n x n` (où `n` est un paramètre que vous choisissez) 

---

**Question 4:** Instancier un réseau avec les layers suivants : 
- Le premier est un layer convolutionnel avec 16 filtres de taille `(3,3)`, une activation `'relu'`, et on précisera l'`input_shape`. 
- Le second est un `MaxPooling2D` avec `n=2`. 
- Le troisième est un layer convolutionnel avec 32 filtres de taille `(3,3)` et une activation `'relu'`. 
- Le quatrième est un layer `Flatten()` pour récupérer des vecteurs ligne.
- Le dernier est un layer `Dense` avec une sortie de taille 10, et une activation `'softmax'`. 

In [None]:
# Écrivez votre code ici

---

**Quesiton 5:** Compiler ce modèle, puis indiquer son nombre de paramètres. 

In [None]:
# Écrivez votre code ici

---

**Question 6:** Entraînez et évaluez ce modèle sur le jeu de données `CIFAR10` en faisant 5 epochs. À quelle train et test accuracy arrivez-vous ? 

In [None]:
# Écrivez votre code ici. 

---

**Question 7: (facultatif)** Améliorez ce modèle. Quelques points de repère : 
- Au dessus de $70\%$ : correct.
- Au dessus de $80\%$ : vraiment bien
- Au dessus de $85\%$ : très très bien
- Au dessus de $90\%$ : excellent, c'est plutôt un score qu'on atteint avec des méthodes plus sophistiquées d'habitude (comme les [ResNet](https://en.wikipedia.org/wiki/Residual_neural_network)). 
- Au dessus de $95\%$ : Hallucinant, ce sont des scores de modèles très récents de haut vol. 
- Au dessus de $99,2\%$ : nouveau record du monde !
- $100\%$ : Très douteux, sachant que [certains labels sont **faux**](https://franky07724-57962.medium.com/once-upon-a-time-in-cifar-10-c26bb056b4ce) (0.3% semble-t-il). 

In [None]:
# Écrivez votre code ici