In [2]:
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
import matplotlib.pyplot as plt
import numpy as np

plt.rcParams['figure.figsize'] = (10,6)

In [3]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import KFold, StratifiedKFold, LeaveOneOut, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import Imputer

# "TD : `sklearn` & sélection de modèles"

Romain Tavenard - (Creative Commons CC BY-NC-SA)[http://creativecommons.org/licenses/by/4.0/]

Dans cette séance, nous nous focaliserons sur la sélection de modèle pour la
classification supervisée avec `sklearn`.

# Préparation des données

Nous allons travailler, pour ce TD, sur un jeu de données ultra classique en
_machine learning_ : le jeu de données "Iris". Ce jeu de données est intégré
dans `sklearn` pour être utilisé facilement.

1. Chargez ce jeu de données à l'aide de la fonction [`load_iris`](http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html) du module
`sklearn.datasets`. Faites en sorte de stocker les prédicteurs dans une matrice
`X` et les classes à prédire dans un vecteur `y`. Quelles sont les dimensions
de `X` ?

In [5]:
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
X.shape

(150, 4)

2. Découpez ce jeu de données en un jeu d'apprentissage et un jeu de test de
mêmes tailles et faites en sorte que chacune de vos variables soient
centrées-réduites.

In [6]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)
scaler = StandardScaler()
scaler.fit(X_train)
X_train_tr = scaler.transform(X_train)
X_test_tr = scaler.transform(X_test)

# Le modèle `SVC` (_Support Vector Classifier_)

3. Apprenez un modèle SVM linéaire (classe [`SVC`](http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html) dans `sklearn`) pour votre
problème.

In [7]:
model = SVC(kernel="linear", C=1.)
model.fit(X_train_tr, y_train)
print(model.score(X_train_tr, y_train))
print(model.score(X_test_tr, y_test))

1.0
0.9466666666666667


4. Évaluez ses performances sur votre jeu de test à l'aide de la fonction
[`accuracy_score`](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html) du module `sklearn.metrics`.

5. Faites de même avec un modèle SVM à noyau gaussien. Faites varier la valeur
de l'hyperparamètre lié à ce noyau et observez l'évolution du taux de bonnes
classifications.

# Validation croisée

Il existe dans `sklearn` de nombreux itérateurs permettant de faire de la
validation croisée, qui sont listés sur
[cette page](http://scikit-learn.org/stable/modules/classes.html#splitter-classes).

6. Définissez un objet `cv` de la classe `KFold`. Exécutez le code suivant :

In [11]:
from sklearn.model_selection import KFold
cv = KFold(n_splits=10, shuffle=True)
for train, valid in cv.split(X_train, y_train):
    print(train, valid, end='\n==\n')

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 26 27 28 30 31 32 33 34 35 36 37 39 41 42 43 44 45 46 47 48 50 51 52 53
 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 70 71 73 74] [ 0 25 29 38 40 49 69 72]
==
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 22 23 24
 25 26 28 29 32 33 34 35 36 37 38 39 40 41 42 43 44 45 47 48 49 50 51 52
 53 54 55 56 57 59 60 61 62 64 65 66 67 68 69 70 71 72 73] [21 27 30 31 46 58 63 74]
==
[ 0  1  2  3  5  6  7  8  9 10 11 12 14 15 16 17 19 20 21 22 23 25 26 27
 28 29 30 31 32 34 35 37 38 39 40 41 43 44 45 46 48 49 50 51 52 53 54 55
 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74] [ 4 13 18 24 33 36 42 47]
==
[ 0  1  2  3  4  5  7  8  9 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 45 46 47 48 49 50
 51 52 53 54 55 56 57 58 60 61 62 63 64 66 67 69 72 73 74] [ 6 10 44 59 65 68 70 71]
==
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 15 17 18 19 20 21 22 

Qu'est-ce qui est affiché ?

7. Faites de même avec des objets des classes `StratifiedKFold` et `LeaveOneOut`
et vérifiez que, même en ne mélangeant pas les données (c'est-à-dire sans
spécifier `shuffle=True`), les découpages obtenus sont différents.

In [12]:
from sklearn.model_selection import StratifiedKFold
cv = StratifiedKFold(n_splits=10, shuffle=True)
for train, valid in cv.split(X_train, y_train):
    print(train, valid, end='\n==\n')

[ 0  1  2  3  4  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 22 23 24 25
 26 27 28 29 30 33 34 35 36 37 38 39 40 41 42 44 45 47 48 50 51 53 54 55
 56 57 58 59 60 61 62 63 64 65 66 67 69 70 71 72 73 74] [ 5 21 31 32 43 46 49 52 68]
==
[ 0  1  2  3  5  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
 27 28 29 30 31 32 33 34 35 36 37 38 39 41 42 43 44 45 46 47 48 49 50 51
 52 53 54 55 57 58 60 61 62 63 64 66 67 68 70 71 72 74] [ 4  6 26 40 56 59 65 69 73]
==
[ 0  1  2  3  4  5  6  7  9 10 11 12 13 14 15 17 18 19 20 21 22 25 26 27
 28 29 30 31 32 33 34 35 36 37 38 39 40 42 43 45 46 48 49 50 51 52 53 54
 55 56 57 58 59 60 62 63 64 65 66 67 68 69 70 71 73 74] [ 8 16 23 24 41 44 47 61 72]
==
[ 0  1  2  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 26 27 28 29 30 31 32 33 34 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
 52 54 56 57 58 59 60 61 62 63 65 66 67 68 69 70 72 73 74] [ 3 25 35 36 53 55 64 71]
==
[ 0  1  2  3  4  5  6  8  9 10 11 12 13 14 15 16 17 18 20 21 22 

In [13]:
from sklearn.model_selection import LeaveOneOut

cv = LeaveOneOut()
for train, valid in cv.split(X_train, y_train):
    print(train, valid, end='\n==\n')

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
 73 74] [0]
==
[ 0  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
 73 74] [1]
==
[ 0  1  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
 73 74] [2]
==
[ 0  1  2  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
 73 74] [3]
==
[ 0  1  2  3  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 

# Sélection de modèle

En pratique, vous n'utiliserez pas vous même ces appels aux méthodes `split()`
des itérateurs de validation croisée, car il existe dans `sklearn` un outil
très pratique pour vous aider lors de votre étape de sélection de modèle.

Cet outil s'appelle
[`GridSearchCV`](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html).
Là encore, il s'agit d'une classe `sklearn`, et vous l'utiliserez quasiment de
la même manière qu'un classifieur, à la nuance près des paramètres que vous
passerez lors de la construction d'une nouvelle instance.
Nous verrons dans ce TD trois de ces paramètres :

* `estimator` est un classifieur (créé mais pas encore appris sur des données) ;
* `param_grid` est une grille d'hyper-paramètres à tester pour ce classifieur ;
* `cv` est un itérateur de validation croisée, tel que l'un de ceux définis à la
section précédente.

Le paramètre `param_grid` est un dictionnaire (ou une liste de dictionnaire,
comme on le verra plus tard) dont les clés sont les noms des hyper-paramètres à
faire varier et les valeurs associées sont des listes de valeurs à
tester[^1].

8. Reprenez le cas d'un classifieur SVM linéaire et faites varier
l'hyper-paramètre `C` entre 1 et 10 (en prenant 5 valeurs espacées
    régulièrement).

In [14]:
from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV, KFold
iris = datasets.load_iris()
parameters = {'kernel':('linear', 'rbf'), 'C':[1,3,5,7,10]}
svc = svm.SVC()
clf = GridSearchCV(svc, parameters , cv=KFold(n_splits=10))
clf.fit(iris.data, iris.target)


GridSearchCV(cv=KFold(n_splits=10, random_state=None, shuffle=False),
       error_score='raise',
       estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False),
       fit_params=None, iid=True, n_jobs=1,
       param_grid={'kernel': ('linear', 'rbf'), 'C': [1, 3, 5, 7, 10]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=0)

9. Affichez les paramètres du modèle choisi par la validation croisée. Évaluez
les performances de ce modèle sur votre jeu de test.

10. Parfois, certains hyper-paramètres sont liés entre eux. Dans le cas du SVM
par exemple, le choix d'un noyau implique de régler certains hyper-paramètres
spécifiques (_ex._ : le paramètre `gamma` du noyau Gaussien). Dans ce cas, on
peut définir `param_grid` comme une liste de dictionnaires, chaque dictionnaire
correspondant à un cas de figure. Utilisez cette possibilité pour choisir le
meilleur modèle pour votre problème entre un SVM linéaire et un SVM à noyau
Gaussien (pour les deux, on fera varier `C` entre 1 et 10, et pour le noyau Gaussien, on fera de plus varier `gamma` entre 10<sup>-2</sup> et 100 sur une échelle logarithmique).

In [15]:
parameters = {'kernel':('linear', 'rbf'), 'C': np.linspace(1,10,5), 'gamma':np.logspace(-2,2,5)}
svc = svm.SVC()
clf = GridSearchCV(svc, parameters, return_train_score=True, cv=KFold(n_splits=10))
clf.fit(iris.data, iris.target)
clf.best_params_, clf.best_score_        

({'C': 3.25, 'gamma': 0.01, 'kernel': 'linear'}, 0.9666666666666667)

In [16]:
clf.cv_results_

{'mean_fit_time': array([0.00078044, 0.000963  , 0.00051141, 0.00070176, 0.00055473,
        0.00073209, 0.00045488, 0.00169668, 0.00045965, 0.0017055 ,
        0.00048838, 0.00069251, 0.00046482, 0.0005842 , 0.00045631,
        0.00086217, 0.00049808, 0.00170813, 0.0005796 , 0.00179441,
        0.00051608, 0.00065787, 0.00054905, 0.00060163, 0.0007673 ,
        0.00098865, 0.00053697, 0.00185726, 0.00059986, 0.00174015,
        0.00047934, 0.00067241, 0.00056095, 0.00062323, 0.0004818 ,
        0.00075431, 0.00051525, 0.00169179, 0.00058739, 0.00183737,
        0.00049961, 0.00063496, 0.00050702, 0.00049987, 0.00051651,
        0.00073528, 0.00050635, 0.0015722 , 0.00054891, 0.00179355]),
 'std_fit_time': array([3.83945747e-04, 2.15126299e-04, 8.68670494e-05, 3.11164822e-04,
        1.98496606e-04, 1.63553484e-04, 2.36936852e-05, 3.17308692e-04,
        2.55505194e-05, 4.96420806e-04, 1.40082032e-04, 2.22646146e-04,
        6.54178352e-05, 1.43656050e-04, 3.53030940e-05, 3.20595477e-0

11. Étendez cette approche à un autre classifieur supervisé de votre choix et
comparez ses performances à celles du meilleur modèle SVM trouvé jusqu'alors.

In [17]:
import pandas as pd
results = pd.DataFrame(clf.cv_results_)
results['param_C']

0        1
1        1
2        1
3        1
4        1
5        1
6        1
7        1
8        1
9        1
10    3.25
11    3.25
12    3.25
13    3.25
14    3.25
15    3.25
16    3.25
17    3.25
18    3.25
19    3.25
20     5.5
21     5.5
22     5.5
23     5.5
24     5.5
25     5.5
26     5.5
27     5.5
28     5.5
29     5.5
30    7.75
31    7.75
32    7.75
33    7.75
34    7.75
35    7.75
36    7.75
37    7.75
38    7.75
39    7.75
40      10
41      10
42      10
43      10
44      10
45      10
46      10
47      10
48      10
49      10
Name: param_C, dtype: object

In [18]:
results = results.loc[:,['param_kernel','param_C','mean_train_score','mean_test_score']]
results.groupby(['param_kernel','param_C']).max()

Unnamed: 0_level_0,Unnamed: 1_level_0,mean_train_score,mean_test_score
param_kernel,param_C,Unnamed: 2_level_1,Unnamed: 3_level_1
linear,1.0,0.988148,0.96
linear,3.25,0.976296,0.966667
linear,5.5,0.977037,0.96
linear,7.75,0.98,0.953333
linear,10.0,0.98,0.953333
rbf,1.0,1.0,0.946667
rbf,3.25,1.0,0.953333
rbf,5.5,1.0,0.953333
rbf,7.75,1.0,0.946667
rbf,10.0,1.0,0.946667


In [19]:
from sklearn.neighbors import KNeighborsClassifier
parameters = {'kernel':('linear', 'rbf'), 'C': np.linspace(1,10,5), 'gamma':np.logspace(-2,2,5)}
estimator = KNeighborsClassifier()
clf = GridSearchCV(estimator=estimator, 
                   param_grid={"n_neighbors":[1,5,10]}, 
                   return_train_score=True, 
                   cv=KFold(n_splits=10, shuffle=True))
clf.fit(iris.data, iris.target)
clf.best_params_, clf.best_score_  


({'n_neighbors': 10}, 0.9733333333333334)

In [20]:
clf.score(X_test, y_test)

0.96

# La notion de _Pipeline_

Bien souvent, pour mettre en oeuvre une solution de _machine learning_, vous
allez passer par plusieurs étapes successives de transformation de vos données
avant de les fournir à votre classifieur. Il est possible que ces
pré-traitements aient, eux aussi, des hyper-paramètres à régler. Pour pouvoir
sereinement prendre en compte toutes les configurations possibles, `sklearn`
définit la notion de
[`Pipeline`](http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html).

12. Modifiez vos données d'origine pour mettre des `numpy.nan` à toutes les
valeurs plus grandes que 2 (en valeur absolue).

13. Créez un _pipeline_ qui soit constitué des 3 étapes suivantes :
a. une imputation des valeurs manquantes ;
b. une standardisation des données ;
c. une classification supervisée par un classifieur de votre choix.

14. Mettez en place une validation croisée qui permette de choisir si
l'imputation doit se faire par valeurs médianes ou moyennes et qui détermine
également un ou plusieurs hyper-paramètres du classifieur que vous avez choisi.

15. Chargez maintenant de nouvelles données à l'aide de la fonction
[`load_digits`](http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html)
du module `sklearn.datasets`.
Imaginez un _pipeline_ qui consiste à effectuer tout d'abord une ACP sur ces
données puis une régression logistique dans l'espace de l'ACP.
Mettez en place une validation croisée pour choisir de manière optimale les
paramètres de ces deux étapes de votre _pipeline_.
Comparez votre solution à celle disponible
[là](http://scikit-learn.org/stable/auto_examples/plot_digits_pipe.html).

[^1]: Pour générer ces listes, on pourra avoir recours aux fonctions [`numpy.linspace`](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.linspace.html) et [`numpy.logspace`](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.logspace.html).

In [21]:
pd.__version__

'0.23.1'

In [23]:
from sklearn.preprocessing import Imputer
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC

X[X>2] = np.nan
imp = Imputer()
scaler = StandardScaler()
clf = SVC(kernel="linear")
model_pipeline = Pipeline(steps=[("imp",imp), ("scaler", scaler), ("svc", clf)])
gs = GridSearchCV(estimator=model_pipeline,
                  param_grid={"imp__strategy": ["mean","median"],
                             "svc__C": np.linspace(1,10,5)},
                  cv=KFold(n_splits=10, shuffle=True))
gs.fit(X,y)
gs.best_params_

  """


{'imp__strategy': 'median', 'svc__C': 3.25}

In [None]:

# Cross validation

# cv = KFold(n_splits=10, shuffle=True)
# cv = StratifiedKFold(n_splits=10)
cv = LeaveOneOut()
for train, valid in cv.split(X_train, y_train):
    print(train, valid)
    print("\n===\n")

# Grid Search

# clf = GridSearchCV(estimator=SVC(),
#                    param_grid=[{"kernel": ["linear"], "C": numpy.linspace(1, 10, 5)},
#                                {"kernel": ["rbf"], "C": numpy.linspace(1, 10, 5),
#                                 "gamma": numpy.logspace(-2, 2, 5)}],
#                    cv=KFold(n_splits=10, shuffle=True))
clf = GridSearchCV(estimator=KNeighborsClassifier(),
                   param_grid={"n_neighbors": [10, 5, 1]},
                   cv=KFold(n_splits=10, shuffle=True))
clf.fit(X_train, y_train)
print(clf.best_params_, clf.best_score_)
print(clf.score(X_test, y_test))

# Pipeline

X[X>2] = numpy.nan

imp = Imputer()
scaler = StandardScaler()
clf = SVC(kernel="linear")

model_pipeline = Pipeline(steps=[("imp", imp), ("scaler", scaler), ("svc", clf)])
gs = GridSearchCV(estimator=model_pipeline,
                  param_grid={"imp__strategy": ["mean", "median"],
                              "svc__C": numpy.linspace(1, 10, 5)},
                  cv=KFold(n_splits=10, shuffle=True))

gs.fit(X, y)

print(gs.best_params_)
