# TP1 - exercice 7 : compromis biais/variance & régression polynomiale

Dans cet exercice nous allons illuster le compromis biais/variance dans le cadre de la régression polynomiale.

Pour cela nous allons apprendre à manipuler : 
1. les deux modules de scikit-learn à la base des régression polynomiales : les classes **LinearRegresion** et **PolynomialFeatures** que nous allons combiner dans un "pipeline" global grace au module **Pipeline** 
2. la fonction **validation_curve** permettant de construire les "courbes de validation" illustrant le compromis biais/variance que l'on observe quand la complexité du modèle (ici le degré du polynome) varie.

Cet exercice est tiré du livre [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) de Jake VanderPlas.

## Question 1. Générer un jeu de données de taille $N=40$ avec la fonction *make_data* ci-dessous et le représenter. 

* le paramètre *sig* contrôle le niveau de bruit à considérer lors de la génération des données : le laisser à 1.
* idem pour le paramètre *rseed* qui sert à bloquer le générateur de nombre aléatoire (et donc rendre la fonction reproductible)

In [None]:
# generic imports #
#-----------------#
import numpy as np
import matplotlib
import matplotlib.pyplot as plt

# data generation function #
#--------------------------#
def make_data(N, sig = 1.0, rseed = 1):
    rng = np.random.RandomState(rseed)
    x = rng.rand(N, 1)
    x = x**2
    y = 10 - 1./(x.ravel()+0.1)
    y+= sig * rng.randn(N)
    return x, y

## Question 2. Implémenter un pipeline combinant (i) transformation polynomiale des données et (ii) régression linéaire.

* la transformation polynomiale est implémentée par la classe **PolynomialFeatures** du module *preprocessing*.
* la régression linéaire est implémentée par la classe **LinearRegression** du module *linear_model*.

## Question 3. Construire un modèle  de régression polynomiale à partir du jeu de données généré précédemment pour des degrés $d \in \{1,2,3,5,10\}$. Représenter sur un même graphique les modèles obtenus pour $x \in [0,1]$.

* pour cela considérer la grille de valeur donnée par le code ci-dessous.
* pour évaluer les différentes valeurs de $d$, on pourra par exemple réaliser une boucle et utiliser la fonction **set_params()** de la classe *Pipeline* pour modifier le degré à chaque itération.

In [None]:
x_grid = np.linspace(0,1,1000)[:,None]

## Question 4. Utiliser la fonction [**validation_curve**](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.validation_curve.html) du module *model_selection* pour construire une courbe de validation pour des degrés de polynome $d \in \{1,20\}$ et représenter les résultats obtenus. Comment  les interprèter en terme de compromis biais/variance et de sur-/sous-apprentissage ? Quel degré de polynome semble réaliser le meilleur compromis ?

* une courbe de validation compare les performances du modèle sur les données d'apprentissage et sur des données de test lorsque la complexité du modèle augmente, en procédant par validation croisée. En comparant les performances d'apprentissage et de validation, on peut juger si le modèle sous-apprend (*underfitting*) ou sur-apprend (*overfitting*). Se référer à [cette page](http://scikit-learn.org/stable/modules/learning_curve.html) pour davantage de précisions et un exemple de mise en oeuvre.
* la fonction **validation_curve()** fournit en sortie les performances obtenues pour chaque valeur du paramètre et pour chacune des folds de validation croisée. Commencer par tracer la performance moyenne par fold, puis inclure une barre d'erreur de +1/-1 écart type (via par exemple la fonction [**fill_between**](https://matplotlib.org/examples/pylab_examples/fill_between_demo.html) du package MatplotLib.


## Question 5. Tracer la même courbe de validation en considérant un jeu de données de taille $N=120$. Comment interpréter ces résultats ?
