# Data Science en pratique

Arthur Llau, arthur@flowlity.com

# Cours 4: Model Evaluation, Selection & Optimization

### Objectif du cours:

-  Vu d'ensemble des fonctions d'évaluation
-  Méthode de sélection de modèles
-  Présenter rapidemment les hyperparamètres important de quelques algorithmes connus.
-  Optimisation de paramètres
-  Sauvegarde des modèles
-  TP de mise en pratique

## 1 - Fonctions d'évaluation

La majorité des fonctions d'évaluation présentées ci-dessous sont disponible dans **sklearn** ou **scipy**, néanmoins, il est important de savoir les recoder car ils peut arriver que les résultats ne soient pas ceux attendus.

### 1.1 - Fonctions d'évaluation pour la régréssion

Il existe plusieurs façons de mesurer les erreurs de prédictions pour un problème de régression. Quelques-une des fonctions d'évaluation pour ce type de problème sont présentées ci-dessous. Cependant, il en existe beaucoup d'autres selon l'interprétabilité que l'on souhaite donner à nos résultats. 

Tout dépend du problème à résoudre, et de ce qu'on veut en tirer.

### 1.1.1 - Mean Error (MAE)

Les fonctions d'erreur moyenne représentent la moyenne des écart entre les prédictions et les observation selon une certaine contrainte. C'est une métrique facilement interprétable. Il en existe plusieurs versions, voici les plus célèbres :

- Absolute : ${\displaystyle \mathrm {MAE} ={\frac {\sum _{i=1}^{n}\left|y_{i}-\hat{y}_{i}\right|}{n}}}$

- Square :  ${\displaystyle \mathrm {MSE} ={\frac {\sum _{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^2}{n}}}$

- Percentage :  ${\displaystyle {\mbox{MAPE}}={\frac {100}{n}}\sum _{t=1}^{n}\left|{\frac {y_{i}-\hat{y}_{t}}{y_{i}}}\right|} $

Plus l'erreur est faible, plus le modèle est efficace.

### 1.1.2 R2

Le $${\displaystyle R^{2}}$$ ou coefficient de détermination est une mesure de la qualité de la prédiction d'une régression linéaire.

Il est défini comme le rapport entre la variance expliquée et la variance totale :

$R^2(y, \hat{y}) = 1 - \frac{\sum_{i=0}^{n - 1} (y_i - \hat{y}_i)^2}{\sum_{i=0}^{n - 1} (y_i - \bar{y})^2}$

C'est une mesure d'erreur facilement intérprétable, plus il y a de variables explicative plus le $R^{2}$ augmente. Le meilleur score possible est de 1 et, il peut être négatif si le modèle est vraiment mal choisi ou si il n'y a pas de variables explicatives. 
Cette métrique est utile pour donner de l'explicabilité.


### 1.2 - Fonctions d'évaluation pour la classification binaire.

Pour évaluer les performances d'un classifieur binaire, il existe quelques fonctions d'évalution importantes. La plus simple est la mesure de précision, c'est à dire la somme des erreurs (1 si je me trompe, 0 sinon), néanmoins, en pratique on préfère utiliser l'erreur AUC.

-> voir pdf

### 1.2.2 - ROC-AUC
Pour les erreurs commises par la classification binaire on peut définir les résultats suivant:<img src="TFP.png">

**Définition** (Courbe ROC)*: On suppose que Y est la variable aléatoire des scores des expériences qui ont réussi. X est celle des scores des expériences qui ont échoué. On suppose également que tous les scores sont indépendants. On note $F_X$ et $F_Y$ les fonctions de répartition de ces variables. On définit en fonction d’un seuil $s \in \mathbb{R}$:
    $$R(s) = 1 - F_Y(s)$$
    $$E(s) = 1 - F_X(s)$$

La courbe ROC est le graphe $ \{E(s),R(s)\}$ lorsque $s$ varie dans $\mathbb{R}$.


$VP(s)$ désigne les VP au-dessus du seuil $s$, avec les notations VP, FP, FN, VN, cela revient à :


$\begin{eqnarray*} E(s) &=& 1 - \frac{ VP(s) } { VP(s) + VN(s) } \\ R(s) &=& 1 - \frac{ FN(s) } { FP(s) + FN(s) } \end{eqnarray*}$


En faisant varier $s$ on obtient alors la courbe ROC pour le modèle choisi.

*(voir http://www.xavierdupre.fr, site que je vous conseille par ailleurs.)


L'AUC n'est autre que l'aire sous cette courbe, si elle est égale à 1 le modèle ne se trompe jamais.
<img src="rocauc.png">

### 1.2.3 - Log Loss

Perte de la régréssion logistique, elle est définit par les probabilités estimées tel qu'avec $ p = \operatorname{Pr}(y = 1)$ on a :


$L_{\log}(y, p) = -\log \operatorname{Pr}(y|p) = -(y \log (p) + (1 - y) \log (1 - p))$


## 2 - Séléction de modèles

Bien choisir le ou les modèle(s) à utiliser n'est pas une chose aisée. Cependant avec de la pratique on sait rapidemment vers quelle famille de modèles se tourner. Une manière de comparer des modèles est de comparer l'erreur de ceux-ci sur différents sous-ensemble des données. Pour ce faire, il existe plusieurs techniques.

### 2.1 - Train test split

Comme nous l'avons vu dans les cours précédents, une bonne méthode pour évaluer les performance d'un modèle sur un jeu de données et de séparer le jeu d'apprentissage en deux sous-ensemble, un d'apprentissage et un de validation.
La fonction **train_test_split** de **sklearn** permet de réaliser cette échantillonnage de manière aléatoire. Un bon ratio est le 80/20. 
<img src="train_test_split.jpg">


Cependant, ne peut-on pas aller plus loin ? Ne pourrait-on pas utiliser cette séparation des données pour faire le meilleur modèle possible, on pourrait alors essayer différents choix de paramètres, ou bien regarder la robustesse du modèle? C'est sur cela que repose le principe de la validation croisée.

### 2.2 - K-folds Cross Validation.

La méthode des K-fold permet de divisé l'échantillon K en sous-ensemble de tailles égales, dont l'un est utilisé pour la prévision et les K-1 restants pour l'estimation du modèle. La fonction **KFold** de **sklearn** permet de réaliser cette opération.

La notion de cross validation, validation croisée en français, correspond à l'idée d'évaluer le modèle sur plusieurs sous-ensemble du jeu de données afin d'avoir une observation moyenne des performances.


La méthode **cross_val_score** de **sklearn** permet d'évaluer les performances d'un modèle selon une fonction d'évaluation et un nombre de folds choisi. Plus, il y aura de sous-ensemble plus le modèle sera robuste et son score sera, selon sa variance, le plus proche de la réalité. On peut alors, pour un découpage fixé, comparer plusieurs modèles grâce à leur performance sur une K-FoldCV. K=5 ou 10, permet d'établir de bons résultats.

<img src="kfolds.jpg">

### 2.3 - Validation dans le cas des séries temporelles.

Qui dit temporalité, dit interdiction de jouer avec de l'aléatoire. Pour se faire on va utiliser les concepts précédents mais pour les adaptés à la notion de temporalité. On parlera à alors de Time Series Cross Validation par exemple, TimeSeriesSplit sur scikit-learn. Noté qu'une bonne façon de valider également ces résultats et de constituer un ensemble de validation comportant les mêmes périodes que le jeu de test futur. En particulier dans le cas de forte saisonnalité.

<img src="cv_ts.png">

Un mix des concepts précédents peut également être fait dans le cas où l'on cherche à prédire de multiples séries temporelles, c'est-à-dire à la fois prédire le futur et à la fois prédire des séries non nécéssairement observées.

Il existe bien d'autre façon de choisir son modèle, nous verrons cela plus en détails plus tard dans l'année.

## 3 - Hyperparamètres

### 3.1 Hyperparamètre propre à Sklearn

Dans la majorité des modèles disponibles dans sklearn on trouve les paramètres globaux suivants:
- **n_jobs** : nombre de coeurs à utiliser pour effectuer les calculs, dépend de votre cpu.
- **verbose** : affichage du déroulement des calculs, 0 = silent. 
- **random_state** : si la méthode repose sur de l'aléatoire, fixe le générateur pour reproduire les résultats.

### 3.2 -Arbres CART

Introduit par Breiman en 1984 : https://rafalab.github.io/pages/649/section-11.pdf. 

Principe : construire un arbre de décision ou chaque noeud est une question binaire.

Sous sklearn le modèle est dénommé DecisionTreeClassifier & DecisionTreeRegressor, les hyperparamètres à connaitre sont les suivants:
- **criterion** : Critère de découpe des noeuds, Gini pour la précision, Entropy pour un gain d'information 
- **max_depth** : profondeur maximale de l'arbre
- **min_samples_split** : Nombre minimal d'observations pour séparer un noeud
- **max_features** : Nombre de features à considérer pour la meilleure séparation d'un noeud.

### 3.3 - Méthodes d'ensemble

Méthodes non paramètrique : Random Forest, GBT, ExtraTrees ...

De manière général, les méthodes d'ensemble sont constituées de la manière suivante:
-  Un espace d'hyphotèse $\mathcal{H}$
-  Des weak learners $h_t$ efficace sur $\mathcal{H}$
-  Les combiner pour obtenir un big learner $H$

On ne s'intéresse ici qu'au weak learners étant des arbres.

### 3.3.1 Random Forest

Introduit par Breiman en 1999 : https://www.stat.berkeley.edu/~breiman/random-forests.pdf. 

Principe : ensemble d'arbres décisionnel où a été introduit de l'aléatoire. Le résultat final est obtenu par vote majoritaire ou moyenne. (Tree bagging + feature sampling)

Sous sklearn le modèle est dénommé RandomForestClassifier & RandomForestRegressor, il y a deux sortes d'hyperparamètres, ceux relatif aux arbres utilisés et ceux  de la forêt. Ceux des arbres sont ceux cités plus haut, l'hyperparamètre le plus important pour les random forest est le nombre d'arbre utilisés : **n_estimators**. 
La précision a tendance à augmenter quand le nombre d'arbres augmente, néanmoins, le temps de calcul est de plus en plus long.

### 3.3.2 - Gradient Tree Boosting 

Introduit par Friedman en 1999 : https://statweb.stanford.edu/~jhf/ftp/trebst.pdf.

Principe : Boosting + descente de gradient. C'est-à-dire qu'on combine les arbres de façon pondérée en optimisant les poids par descente de gradient.

Sous sklearn le modèle est dénommé GradientTreeClassifier & GradientTreeRegressor. 
Comme pour les forêts, il y a les paramètres propres aux arbres, et ceux au boosting qui sont les suivants (en particulier pour Xgboost & cie):
- Le premier choix c'est la loss, i.e. la fonction objective qui résoud notre problème.

<img src="boosting_loss.png">

- Ensuite on explore l'immensité des paramètres


<img src="hp.jpg">

### 3.4 - SVM

Introduit par Vapnik en 1963 : http://web.cs.iastate.edu/~cs573x/vapnik-portraits1963.pdf.

Principe : construire un hyperplan séparateur dans l’espace des observations, c’est-à-dire de séparer linéairement les données des différentes classes. (Et surtout le génial Kernel Trick pour les cas non linéairement séparable)


Sous sklearn le modèle est dénommé SVC & SVR. Les hyperparamètres sont les suivants :
- **kernel** : Noyau utilisé, linéaire si cas linéaire etc. 
- **c** : Pénalité du terme d'erreur.
- **epsilon** : taille du tube où la pénalité n'est pas appliquée.
- **gamma** : coefficient du noyau.

### 3.5 - Modèles linéaires

On retrouve les paramètres suivant selon les cas (Ridge, Lasso, ElasticNet ...):
- **lambda** : pénalité $L^1$.
- **alpha** : pénalité $L^2$.
- **fit_intercept** : tenir compte de l'intercept ou non

## 4 - Optimisation des hyperparamètres aka tuning 

Tuning = Optimisation des hyperparamètres, plus ils sont bien choisi plus le modèle est performant.
<img src="voiture.jpg">

Les librairies suivantes permettent d'effectuer des recherche d'hyperparamètres optimaux:
- Sklearn
- HyperOpt
- Spearmint
- BayesOpt


Ici, nous ne verrons que les méthodes liées à sklearn, libre à vous d'aller explorer les autres librairies.
Personnellement, j'utilise scikit-opt.

### 4.1 - Brut Force

Idée naïve de tester pleins de paramètres à la main à tour de rôle. Cependant, les résultats peuvent varier et ne pas être stables.

### 4.2 - Le principe de la gridsearch

L'idée est d'obtenir les paramètres impliquant les meilleures performances possible du modèle grâce à une validation croisée.

<img src="gridsearch.png">

L'algorithme effectue pour chaque n-uplet de paramètres un calcul des performances du modèle sur une K-CV. 
A la fin, il récupère les paramètres ayant obtenu le meilleur score.

### 4.3 - Exhaustive GridSearch

La fonction **GridSearchCV** de **sklearn** permet d'effectuer cette recherche d'hyperparamètres, elle prend en entrée : 
- L'estimateur
- Un espace de paramètres, i.e., une liste de valeurs possible pour chaque paramètre
- Un nombre de folds pour la CV
- Une fonction d'évaluation
- Et d'autres paramètres pour le sampling ..

L'exhaustive gridsearch correspond à une grille de test, en gros on teste toutes les combinaisons possibles.

Plus il y a de paramètres et de folds, plus le calcul sera long, par exemple, pour 3 paramètres à 3 choix possibles et 3 folds on doit réaliser 81 fitting... 


### 4.4 - Optimisation aléatoire

La méthode précédente est bien si l'on sait où chercher, ce qui n'est pas toujours le cas. On peut alors utiliser une gridsearch avec un espace de paramètres définit comme les distributions des hyperparamètres et en choisissant un nombre d'itérations de recherche maximal.
Par exemple, le nombre d'estimateurs du forêt peut être compris entre 100 et 10000, plutôt que de chercher une valeur exact, on peut tirer des valeurs dans une uniforme discrète entre ces deux valeurs. 

**RandomizedGridSearch** est une implémentation de cet algorithme.

On l'utilise généralement pour trouver un ordre de grandeur des valeurs des paramètres puis on effectue une gridsearch exhaustive.

### 4.4 - Autres méthodes 

Dans la littérature il existe beaucoup d'autres techniques de recherche d'hyperparamètres. 

On retrouve notamment la recherche par Optimisation Bayésienne qui consiste à donner un prior de la fonction objectif puis à évaluer les probabilités de la distribution à posteriori grâce à des processus Gaussiens. Et enfin, estimer une fonction objective simple. (voir : https://arxiv.org/pdf/1206.2944.pdf). Nous ferons un exemple dans le tp.

Il existe également des manières d'optimiser les hyperparamètres grâce à des descentes de gradient. (Voir les NNet)


## 5 - Sauvegarde et réutilisation d'un modèle

In [None]:
import pickle
from sklearn.linear_model import LinearRegression
from sklearn.datasets import fetch_california_housing
X,y = fetch_california_housing()['data'],fetch_california_housing()['target']
model = LinearRegression()
model.fit(X,y)

#sauvegarde
with open('classifieur.object', 'wb') as m:
    pickle.dump(model, m)    

#ouverture
with open('classifieur.object', 'rb') as m:
    model = pickle.load(m)
    
#Vous pouvez le réutiliser dans n'importe quel autre code!

# TP - Prédire le prix des maisons.

In [None]:
import warnings
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

In [None]:
warnings.filterwarnings('ignore')

Variable cible : **SalePrice**

In [None]:
data = pd.read_csv('data.csv')

### 1 - Analyse exploratoire

**1.1** - Explorer les données des deux datasets. Variables manquantes, catégorielles ? Que pensez-vous des variables cibles ?

### 2 - Feature engineering

**2.1** - Que faire des valeurs manquantes ?

Normalement nous devrions, bien regarder les statistiques pécédentes, puis compléter les valeurs de manière intelligente. Faites le à la maison, nous faisons simple cette fois-ci.

In [None]:
def nan_filling(x):
    if x.dtype == object:
        return x.fillna(x.mode().values[0])
    else:
        return x.fillna(x.mean())

**2.2** - Utilisez des LabelEncoder pour gérer les variables catégorielles.

In [None]:
from sklearn.preprocessing import LabelEncoder
for c in data.select_dtypes(object).columns :
    """ ... """

**2.3** - Grâce à une matrice de corrélation déterminer les variables qui influencent les targets.


**2.3** - Extrayez la variable cible, supprimer la variable Id, ainsi que la variable cible. Puis séparez en train et test (80/20) et séparez à nouveau en le train en jeu de validation et d'apprentissage

In [None]:
from sklearn.model_selection import train_test_split

target = ...
data = data.drop(..., axis = 1)

X_train, X_test, y_train, y_test = #...
X_train, X_valid, y_train, y_valid = #...

### 3 - Sélection de modèles

Quels sont selon vous les modèles qui pourraient être efficace ?


**3.1** - Construire une fonction **compute_evaluation** qui prend en entrée un dictionnaire de modèles (au choix) {'name':model}, et renvoie la moyenne et l'écart-type de leurs performances sur une cross validation à trois folds pour l'erreur MAPE. 



In [None]:
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import GradientBoostingRegressor,RandomForestRegressor

from sklearn.model_selection import cross_val_score
from sklearn.metrics import make_scorer

In [None]:
def mean_absolute_percentage_error(y_true, y_pred): 
    return np.mean(np.abs((y_true - y_pred) / y_true)) * 100
MAPE = make_scorer(mean_absolute_percentage_error)

In [None]:
def Evaluation(models, X_train, y_train, metric = None):
    """ models = {name: sklearn model}
    for model in models:
        models[model]['score'] = cross_val_score(models[model]['model'], X_train, y_train, cv=3,scoring=metric)
        print(f"{model}: {models[model]['score'].mean():.2f} +/- {models[model]['score'].std():.2f} %")

In [None]:
models = {}
models ...


In [None]:
Evaluation(models,  X_train, y_train, metric = MAPE) # Pourquoi la SVR est dans les choux ?


**3.2** - Quels modèles choisir ? Evaluer leurs performances sur le jeu de validation et le jeu de test.

### 4 - Optimisation du modèle

**4.1** - Faites varier les principaux paramètres des modèle, et observer les performances.

**4.2** - Effectuer une recherche automatique des paramètres grâce à une des méthodes présentées plus haut, et tester un de vos modèles.

In [None]:
from sklearn.model_selection import GridSearchCV

model = ... 

params = {}

grid = GridSearchCV(model,param_grid=params,cv=3, n_jobs=-1,verbose = 1)
grid.fit(X_train,y_train)

In [None]:
print( 'Résultat de la grid search : {}'.format(grid.best_params_))

##On peut récupérer le meilleur modèle : 
best = grid.best_estimator_

print ('Performance du modèle optimisé validation:', mean_absolute_percentage_error(y_valid, best.predict(X_valid)))
print ('Performance du modèle optimisé test:', mean_absolute_percentage_error(y_test, best.predict(X_test)))

# Sacré amélioration

**4.3** : Tester Optuna avec l'algorithme de votre choix et observez les résultats sur le jeu de test !

In [None]:
import optuna
from optuna import trial

def objective(trial):
    param = {
        ...
    }


    model = ...
    model.fit(X_train, y_train)
    y_pred = model.predict(X_valid)

    error = mean_absolute_percentage_error(y_valid, y_pred)

    return error

study = optuna.create_study()  
study.optimize(objective, n_trials=20) 

In [None]:
display(study.best_trial)

In [None]:
params = study.best_params

In [None]:
model = GradientBoostingRegressor(**params)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print(f'Erreur finale sur le jeu de test: {mean_absolute_percentage_error(y_test, y_pred):.2f}%')

In [None]:
from optuna.visualization import plot_contour
from optuna.visualization import plot_optimization_history
from optuna.visualization import plot_param_importances


In [None]:
plot_optimization_history(study)

In [None]:
plot_contour(study)

In [None]:
plot_param_importances(study)