# Régularisation et sélection de modèle

## Chargement et observation

**Question** Charger le jeu de données diabetes : https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html#sklearn.datasets.load_diabetes

**Question** Construire un `dataframe` à partir des données. Ajouter une colonne `target` pour la cible. Afficher les premières lignes du dataframe et afficher les statistiques descriptives.  

**Question** Dans la documentation on trouve *Note that the 10 x variables have been standardized to have mean 0 and squared length = 1 (sum(x^2)=1)*. Vérifiez ces deux propriétés.

**Question** Tracez le graphe donnant la valeur de la cible en fonction de l'âge 

## Un premier essai

**Question** Utiliser `train_test_split` de `sklearn.model_selection` pour découper aléatoirement le jeu de données en gardant 1/3 pour l'échantillon de test.  

**Question** Vérifier que vous pouvez le faire soit sur les arrays numpy issus de la lecture réalisée à l'aide de `load_diabetes` ou du dataframe construit précédemment. 

Dans tous les cas, construisez à la fin 4 arrays numpy `X_train`, `X_test`, `y_train`, `y_test`.

**Question** Regardez la documentation de `Ridge` dans sklearn. Quelle est la fonction objectif ? Quelle est sa dérivée sous forme matricielle ? Pour quelle valeur de $w$ s'annule-t-elle ? 

*Votre réponse*

**Question** Construire deux modèles de régression avec `sklearn`. Utilisez les deux méthodes `LinearRegression` et `Ridge`. Dans un premier temps on garde la valeur de `alpha` à 1. Appelez-les `lr` et `ridge`.

**Question** Calculez les prédictions et les scores dans chacun des cas sur les données de test.

**Question** Tracer sur un même graphique les points en bleu pour ridge  et en rouge pour lr représentant en abscisse les valeurs en test et en ordonnée les valeurs prédites.

![ridge contre lr](./ridge_contre_lr.png)


## Méthodologie de sélection de modèles

**Question** On a donc une estimation de l'erreur en généralisation... Mais peut-on dire à l'issue de ce qu'on observe sur le test que l'un est meilleur que l'autre et qu'on devrait prendre la méthode qui se comporte mieux sur l'échantillon test pour la mettre en production ?

*Aide* Pour vous aider à répondre, considérez que vous avez 1000 méthodes de régression et non plus deux.

*votre réponse* :


Mais on a fixé un paramètre $\alpha$ par défaut pour la ridge régression et comment peut-on tester si d'autres valeurs marcheraient mieux ? Il faut tester de nombreuses valeurs et on veut avoir la meilleure valeur pour $\alpha$. Comment procéder ? 

Pour cela, **il faut découper l'échantillon de données train initial en une partie apprentissage (train) et une partie de validation (valid)**. On estime l'erreur sur la partie validation. 

On a alors 3 ensembles train/validation/test (ou encore selon d'autres terminologies train/development/test), celui du milieu servant à régler les valeurs des (hyper)paramètres de l'algorithme d'apprentissage (pas les paramètres de la fonction de régression): c'est l'**hyperparameter tuning**.

## Validation croisée

Par contre, on commence à avoir des ensembles un peu petits... L'estimation sur un petit échantillon valid risque d'être problématique. On utilise alors une méthode dite de la validation croisée pour répéter plusieurs fois ce découpage train/valid et moyenner les résultats.

Construisons d'abord cela à la main... Nous allons procéder en manipulant les indices et non les données.

**Question** Prenons par exemple une liste d'indices 

    indices = np.arange(10)


Regardez maintenant comment fonctionne les méthodes `random.shuffle`, `copy`, `array_split`, `pop` et `concatenate` de `np`. Faites des petits essais avec `indices` pour bien comprendre le fonctionnement.   

Si on découpe l'ensemble des indices réordonnés aléatoirement du train en trois parties, on obtient trois parties et on peut construire successivement des échantillons à partir du train qui seront : 

- les indices des parties 1 et 2 pour construire un classeur et 3 pour évaluer son score 
- les indices des parties 1 et 3 pour construire un classeur et 2 pour évaluer son score 
- les indices des parties 2 et 3 pour construire un classeur et 1 pour évaluer son score 

On peut alors calculer une estimation de l'erreur en moyennant les 3 scores correspondant aux trois étapes ci-dessus. On a alors réalisé l'algorithme de validation croisée. On peut bien-sûr généraliser sur autant de parties qu'on veut! 

**Question** Réaliser cet algorithme dans une fonction `my_fold` dont les paramètres sont un échantillon `X`, des classes `y`, un nombre de parties `k` et une méthode de régression `reg`. L'essayer avec `ridge`.

### Validation croisée dans sklearn

**Question** 
Regardez et importez [KFold](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) puis créez un objet nommé `k_fold` à 3 parties. Inspirez-vous de la page de description de [KFold](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) pour cette partie.

**Question** Construire une liste contenant les scores de `ridge`.  

Une manière encore plus directe est d'utiliser la fonction [cross_val_score](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html). 

**Question** Importez la fonction et avec une boucle, recalculer les erreurs par 3-validation de `ridge` pour les valeurs de `alpha` suivantes 0.01, 0.1, 1, 10, 100.

## Encore plus simple...

**Question** : Refaites la même chose avec [sklearn.linear_model.RidgeCV](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RidgeCV.html)...