# TP2 - exercice 2 : arbres de régression, sur-apprentissage et régularisation.

Dans cet exercice nous allons apprendre à manipuler la classe **DecisionTreeRegressor** du module **tree** qui permet de constuire des modèles de régression par la méthode des arbres de décision. 

Pour cela nous travaillerons sur un exemple artificiel, tiré du livre [hands on machine learning with scikit-learn and tensorflow](http://shop.oreilly.com/product/0636920052289.do), mettant en jeu une fonction quadratique.

Nous verrons comment se manifeste le problème du sur-apprentissage dans ces modèles et comment jouer sur certains hyperparamètres pour le contrôler.

Nous reviendrons enfin sur les outils fournis par scikit-learn (et notamment la classe **GridSearchCV**) pour optimiser ces hyperparamètres.

## Question 1. Générer un jeu de données avec le code ci-dessous et le représenter. Quelle fonction va t'on chercher à estimer ?
* On laissera les paramètres contrôlant la taille du jeu de données ($n$) et le niveau de bruit ($\sigma$) à leurs valeurs par défaut.


In [None]:
# generic imports #
#-----------------#
import numpy as np
import matplotlib
import matplotlib.pyplot as plt

In [None]:
def generate_dataset(m = 200, sig = 0.1, seed = 42):
    np.random.seed(seed)
    # generate x randomly on [0,1]
    X = np.random.rand(m,1)
    # generate "true" y
    y = 4 * (X-0.5)** 2
    # add noise
    y = y + sig*np.random.randn(m, 1)
    # return
    return X, y

X, y  = generate_dataset()

## Question 2. Construire un modèle de régression en utilisant la classe *DecisionTreeRegressor* du module *tree* en utilisant ses hyperparamètres par défaut. Visualiser la droite de régression obtenue. Qu'observez-vous ? Pourquoi ? 
* Rappel: pour apprendre/construire un modèle dans scikit-learn il faut : 
    1. l'instancier via le constructeur de la classe correspondante (en lui spécifiant la valeur des hyperparamètres, si besoin)
    2. appeler la méthode **fit** avec les données d'apprentissage $(X,y)$ en argument
* Pour représenter la fonction de régression, on l'évaluera (via la fonction **predict**) sur une grille de points régulièrement espacés entre 0 et 1 que l'on peut obtenir avec le **code ci-dessous**.

In [None]:
# generate grid of input values on [0,1]
xgrid = np.linspace(0, 1, 500).reshape(-1, 1)

## Question 3. Construire et visualiser les modèle de régression que  l'on obtient en fixant le paramètre *max_depth* de l'objet *DecisionTreeRegressor* à 2, 3, 4 et 5. Comment interpréter ces résultats ? Quel modèle vous semble le plus adapté ? Est-ce facile de trancher ?
* pour une meilleure lisibilité on pourra représenter les différents modèles sur différentes figures, qu'on pourra néanmoins regrouper sur un même graphique par l'utilisation de la fonction **subplot** de *MatplotLib*. 

## Question 4. Appliquer la même procédure en contrôlant cette fois le paramètre "min_samples_leaf", que l'on prendra dans $\{ 5, 10, 25, 50 \}$. La qualité des modèle semble t'elle être plus satisfaisante ?

## Question 5. Appliquer une procédure de validation croisée pour objectiver les observations faites ci-dessus, en vous appuyant sur la classe *GridSearchCV* du module *model_selection* utilisée dans le TP précédent. Pour cela, procéder en deux temps en réaliser : (1) une première optimisation selon le paramètre *max_depth*, puis (2) une seconde optimisation selon le paramètre *min_samples_leaf*. Quel modèle est globalement le plus performant ?
* Se référer à l'exercice 3 du TP1 
* On rappelle que pour réaliser cette optimisation d'hyperparamètre il faut : 
    1. instancier le modèle de prédiction (ici l'objet **DecisionTreeRegressor**, en laissant les hypeparamètres par défaut)
    2. définir la "grille" de valeurs du (ou des) hyperparamètres à optimiser. Ici on n'optimisera qu'un paramètre à la fois, il faudra donc définir deux listes de ce type.
    3. instancier l'objet **GridSearchCV** à partir du modèle et de la grille de paramètre
    4. appeler la méthode **fit** de l'objet **gridSearchCV** à partir des données d'apprentissage.
* On rappelle également qu'à l'issue de cette procédure on peut notamment : 
    1. avoir accès au meilleur modèle via l'attribut **best\_estimator\_** de l'objet **GridSearchCV**
    2. avoir accès à la meilleure configuration via son attribut **best\_params\_**
    3. avoir accès au score de validation croisée de cette meilleure configuration via son attribut **best\_score\_**
    4. avoir accès aux scores obtenus par les différentes configurations via son attribut **cv\_results\_** (ce qui permet d'analyser comment évoluent les performances en fonction des hyperparamètres)

In [None]:
### STEP 1 : optimisation according to max_depth ###
####################################################


In [None]:
### STEP 2 : optimisation according to min_samples_leaf ###
###########################################################


## Question 6. Enfin, en vous aidant de la [documentation](http://scikit-learn.org/stable/modules/grid_search.html#grid-search) de GridSearchCV, expliquer les différences entre les deux blocs de code ci-dessous. Utiliser l'un ou l'autre change t'il les conclusions précédentes ?
* si la documentation n'est pas suffisamment claire, vous intéresser au champ **cv\_results\_['params']** des deux objets *GridSearchCV* (une fois estimés) devrait vous donner la réponse. 

In [None]:
# common part 
tree_reg = DecisionTreeRegressor()
leaf_grid = np.concatenate((np.arange(1,5), np.arange(5,31,5)))
depth_grid = np.arange(1,11)
# 1st way of defining grid of parameters
param_grid_1 = {'min_samples_leaf' : leaf_grid,
                'max_depth': depth_grid}
# define GridSearchCV model
grid_search_1 = GridSearchCV(tree_reg, param_grid_1, cv = 10)
# carry out optimization
grid_search_1.fit(X,y)

In [None]:
# common part 
tree_reg = DecisionTreeRegressor()
leaf_grid = np.concatenate((np.arange(1,5), np.arange(5,31,5)))
depth_grid = np.arange(1,11)
# 2nd way of defining grid of parameters
param_grid_2 = [
    {'min_samples_leaf' : leaf_grid},
    {'max_depth': depth_grid}
]
# define GridSearchCV model
grid_search_2 = GridSearchCV(tree_reg, param_grid_2, cv = 10)
# carry out optimization
grid_search_2.fit(X,y)

In [None]:
# pring results
print("GRID_SEARCH_1 : The best parameters are %s with a score of %0.2f"
      % (grid_search_1.best_params_, grid_search_1.best_score_))
print("GRID_SEARCH_2 : The best parameters are %s with a score of %0.2f"
      % (grid_search_2.best_params_, grid_search_2.best_score_))

##  Question 7 - pour aller plus loin. Rejouer ces expériences en réduisant le nombre d'observations pour voir dans quel mesure cela impacte la stabilité des modèles obtenus. De même, générer plusieurs jeux de données d'une même taille mais obtenus en faisant varier la graine du générateur de nombres aléatoires lors de la génération du jeu de données (i.e., le paramètre *seed* de la fonction *generate_dataset*). 

In [None]:
##############################################################################
### Experiment 1 : same model, vary the number of points ###
##############################################################################


In [None]:
##############################################################################
### Experiment 2 : same model, same number of points, vary the random seed ###
##############################################################################
