# Séance 1 - Bonus : Première régularisation d'un réseau de neurones

Pour poursuivre le travail du TP, on se propose d'explorer une première manière de régulariser un réseau de neurones. Nous avons vu que nous pouvions atteindre de bonne performances, mais que cela entraînait fréquemment un sur-apprentissage. 
Une des premières manières de régulariser que l'on apprend en Machine Learning est de pénaliser une régression linéaire : c'est la régression Ridge. Le principe est de modifier la fonction de perte pour contraindre les poids appris à être *petit*. Il est possible de le faire couche par couche dans un réseau de neurones. Essayons !

Commençons par importer et traiter les données.

In [None]:
import numpy as np
import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set(style='whitegrid')

import tensorflow as tf
from tensorflow import keras

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

(X_train_full, y_train_full), (X_test, y_test) = (keras.datasets.mnist.load_data())
X_train, X_valid, y_train, y_valid = train_test_split(X_train_full, y_train_full, train_size=0.8)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train.astype(np.float32).reshape(-1, 28 * 28)).reshape(-1, 28, 28)
X_valid = scaler.transform(X_valid.astype(np.float32).reshape(-1, 28 * 28)).reshape(-1, 28, 28)
X_test = scaler.transform(X_test.astype(np.float32).reshape(-1, 28 * 28)).reshape(-1, 28, 28)

## Pénalisation $L_2$

La pénalisation à laquelle on s'intéresse ici est la pénalisation $L_2$. Si l'on considère un problème d'optimisation d'une fonction de perte $\mathcal{L}$

$$w^* = \arg\min_{w\in\mathbb{R}^d} \mathcal{L}(w)$$

Alors sa version pénalisée est la suivante avec $\lambda > 0$ :

$$w^* = \arg\min_{w\in\mathbb{R}^d} \mathcal{L}(w) + \lambda\|w\|^2$$

Ce n'est plus exactement le même objectif puisqu'on force ici le vecteur solution $w^*$ a prendre de plus petite valeurs. Nous pouvons faire cela couche par couche.

**Consigne** : Définir un modèle en ajoutant une pénalisation [$L_2$](https://keras.io/api/layers/regularizers/#l2-class) aux couches [`Dense`](https://keras.io/api/layers/core_layers/dense/).

**Consigne** : Lancer sur quelques époques le modèle pour valider qu'il fonctionne correctement.

De la même manière que l'on souhaitais observer l'impact du learning rate sur l'entraînement, on souhaite mesurer l'apport de la régularisation au modèle. 

## Mesure de l'impact de la régularisation

**Consigne** : Définir une fonction `get_model` qui prend en paramètre :
* *lambda_l2* : float correspondant à la magnitude de la pénalisation $L_2$
* *learning_rate* : float par défaut à $0.001$ correspond au learning rate de l'optimizer

La fonction renvoie le modèle compilé.

**Consigne** : En s'inspirant du travail réalisé pour le learning rate, comparer différente valeur de régularisation. Commenter.