In [1]:
# imports
import warnings
warnings.filterwarnings('ignore')
import numpy as np 

from sklearn.svm import SVC
from collections import Counter
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.linear_model import Ridge, LogisticRegression
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.datasets import load_breast_cancer, load_iris, make_blobs
from sklearn.model_selection import KFold, LeaveOneOut, ShuffleSplit, GroupKFold, StratifiedKFold
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, train_test_split

# Cross validation

Il existe plusieurs variantes de la VC dans Sklearn:

In [2]:
iris = load_iris()
clf  = LogisticRegression()
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

### 1. Naive validation
- Diviser simplement l'ensemble de données en train et test.
- Division aléatoire des données. 
- L'exactitude peut s'averer irréalistes si les examples difficiles ou faciles ne sont pas bien répartis.
- La division est problématique lorsque la taille du test est petite. 
- Un petit ensemble de test implique une incertitude statistique autour de l’erreur moyenne estimée, il devient alors difficile de prétendre que l’algorithme A fonctionne mieux que l’algorithme B sur la tâche C.

In [3]:
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=41)

### 2.	Cross validation standard
- Très utiliser pour la régression

In [4]:
# By default, cv=3
scores = cross_val_score(clf, iris.data, iris.target, cv=3)
scores, scores.mean()

(array([0.98, 0.96, 0.98]), 0.9733333333333333)

Ajuster le nombre de plis utilisé par _cross_val_score_ en utilisant le paramètre _cv_.

### 3. Cross validation non stratifiée

In [5]:
# 3.1 Without shuffle

# Chaque pli correspond à une des classes du jeu de donnée (il n'est pas possible d'apprendre quoi que ce soit)
kfold = KFold(n_splits=3)
scores = cross_val_score(clf, iris.data, iris.target, cv=kfold)
scores, scores.mean()

(array([0., 0., 0.]), 0.0)

In [6]:
# 3.2 With shuffle

# Mélanger les échantillons
kfold = KFold(n_splits=3, shuffle=True, random_state=42)
scores = cross_val_score(clf, iris.data, iris.target, cv=kfold)
scores, scores.mean()

(array([1.  , 0.92, 0.98]), 0.9666666666666667)

## 4. Validation croisée leave-one-out
- Pour chaque division, un seul point de donnée est choisi pour construire le jeu de test.
- Processus tres coûteaux pour de grand jeu de données.
- Bonne pour les données de petite taille.

In [7]:
loo = LeaveOneOut()
scores = cross_val_score(clf, iris.data, iris.target, cv=loo)
print(f"Dataset.size : {len(iris.data)}")
print(f"Number of CV iterations : {len(scores)}")
print(f"Mean accuracy : {scores.mean():.2f}")

Dataset.size : 150
Number of CV iterations : 150
Mean accuracy : 0.97


### 5. Validation croisée shuffle-split (repeated)

- On échantillonne de manière aléatoire _train_size_ de données pour le trainset et _test_size_ pour le testset, _nsplit_ fois.
- Cette méthode permet de contrôler le nombre d'itération indépendamment de la taille des jeux d'apprentissage et de test.
- Permet d'utiliser une partie des données lors de chaque itération (ne couvre pas la totalité des échantillons).
- Utile pour des jeux de données de grandes tailles.

In [8]:
shuffle_split = ShuffleSplit(test_size=.5, train_size=.5, n_splits=10)
scores = cross_val_score(clf, iris.data, iris.target, cv=shuffle_split)
print(f"Cross validation score : {scores}")
print(f"Mean accuracy : {scores.mean():.2f}")

Cross validation score : [0.93333333 0.94666667 0.96       0.96       0.96       0.90666667
 0.97333333 0.94666667 0.94666667 0.98666667]
Mean accuracy : 0.95


### 6.Validation croisée avec group


- Les groupes de données partagent les mêmes traits de similarités.
- Un groupe contient les données qui ne devraient pas être séparées lors de la création des jeux de d’apprentissage et test. Exemple:
    + Toutes les expressions faciales d’une même personne
    + Echantillons du même patient


In [9]:
X, y = make_blobs(n_samples=12, random_state=0)
groups = [0, 0, 0, 1, 1, 1, 1, 2, 2, 3, 3, 3]
cross_val_score(clf, X, y, groups=groups, cv=GroupKFold(n_splits=3))

array([0.75      , 0.6       , 0.66666667])

### 6.Validation croisée stratifié

- Très utiliser pour la classification
- Equilibre des classes déséquilibrées

In [10]:
skf = StratifiedKFold(n_splits=4, random_state=0, shuffle=True)
n_splits = 1
for train_ix, test_ix in skf.split(iris.data, iris.target):
    print(f"\nSplit:  {n_splits} - Len(X_train): {len(train_ix)} - Len(y_test): {len(test_ix)}")
    
    # Select rows
    train_X, test_X = iris.data[train_ix],   iris.data[test_ix]
    train_y, test_y = iris.target[train_ix], iris.target[test_ix]

    # Class distribution for the train and test sets for each split
    for target in list(np.unique(iris.target)):
        print(f"Classe: {target} - {len(train_y[train_y==target])} - {len(test_y[test_y==target])}")
    n_splits += 1


Split:  1 - Len(X_train): 112 - Len(y_test): 38
Classe: 0 - 37 - 13
Classe: 1 - 38 - 12
Classe: 2 - 37 - 13

Split:  2 - Len(X_train): 112 - Len(y_test): 38
Classe: 0 - 37 - 13
Classe: 1 - 38 - 12
Classe: 2 - 37 - 13

Split:  3 - Len(X_train): 113 - Len(y_test): 37
Classe: 0 - 38 - 12
Classe: 1 - 37 - 13
Classe: 2 - 38 - 12

Split:  4 - Len(X_train): 113 - Len(y_test): 37
Classe: 0 - 38 - 12
Classe: 1 - 37 - 13
Classe: 2 - 38 - 12


# Pipeline

Outil généraliste servant à chaîner et encapsuler plusieurs étapes de traitement dans un flux d'apprentissage automatique dans un seul object Python.

Outil très utile pour éviter la fuite d'information lors de la validation croisée et la sélection de paramètres par recherche de grille.

Pipeline permet d'écrire du code de manière plus succincte.

## Naive example

In [11]:
# Load dataset
cancer = load_breast_cancer()

# Split data
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=42)

# Normalize train data
scaler         = MinMaxScaler().fit(X_train)
X_train_scaler = scaler.transform(X_train)

# Normalize test data
X_test_scaler = scaler.transform(X_test)

# Model
svm = SVC()

# Fit the model
svm.fit(X_train_scaler, y_train)

# Scoring
print(f"Train Score: {svm.score(X_train_scaler, y_train):.5f}")
print(f"Test Score:  {svm.score(X_test_scaler, y_test):.5f}")

Train Score: 0.98357
Test Score:  0.97902


### Fuite de données

```Python
grid = GridSearchCV(SVC(), param_grid=param_grid, cv=5)
grid.fit(X_train_scaler, y_train)
```
Nous nous sommes servis de tous les données d'apprentissage recalibrées pour la recherche sur grille.

Pour chaque division dans la validation croisée, une certaines partie du jeu de données d'apprentissage original va être déclarée comme étant TRAIN set et une autre comme étant TEST set de cette division.

Dans ce cas $\Rightarrow$ Fuite d'information

Pour éviter ce problème, la division du jeu de données au cours de la validation croisée devrait être effectuée avant tout prétraitement $\Rightarrow$ Utiliser un pipeline

In [12]:
param_grid = {'C': [0.001, 0.01, 0.1, 1, 10], 'gamma': [0.001, 0.01, 0.1, 1, 10]}

grid = GridSearchCV(SVC(), param_grid=param_grid, cv=5)
# <!> Big mistake 
grid.fit(X_train_scaler, y_train)
print(f"Best cross validation accuracy : {grid.best_score_}")
print(f"Best param : {grid.best_params_}")
print(f"Test Accuracy score : {grid.score(X_test_scaler, y_test)}")

Best cross validation accuracy : 0.9788508891928865
Best param : {'C': 1, 'gamma': 1}
Test Accuracy score : 0.9790209790209791


# Pipeline

Pipeline pour exprimer le flux de travail d'apprentissage.

L'object Pipeline prend une liste d'étape et chaque étape est un tuple.

La classe _Pipeline_ n'est pas restreinte au prétraitement et à la classification.

Les conditions à respecter pour les estimateurs d'un pipeline sont:

- Toutes les étapes (sauf la dernière) doivent comprendre les méthodes _fit_ et _transform_:
    - _transform_ pour qu'ils soient capables de produire une nouvelle représentation des données qui pourra être utilisée dans l'étape suivante
- La derniere étape doit comprendre de la fonction _fit_ mais pas forcement de la fonction _predict_

Au cours de l'appel à Pipeline.fit, le pipeline appelle _fit_ puis _transform_ ou simplement _fit_transform_ sur chaque étape.

In [13]:
# Create pipeline
pipe = Pipeline([("scaler", MinMaxScaler()), ("svm", SVC())])

# Fit pipeline
pipe.fit(X_train, y_train)

# Score 
print(f"Test Score: {pipe.score(X_test, y_test):.5f}")

# Steps
pipe.steps

Test Score: 0.97902


[('scaler', MinMaxScaler()), ('svm', SVC())]

## Accéder aux attributs des étapes

In [14]:
pipe.named_steps

{'scaler': MinMaxScaler(), 'svm': SVC()}

In [15]:
pipe.named_steps['svm']

SVC()

In [16]:
pipe.named_steps['svm'].C

1.0

## Pipeline dans des recherches sur grill

La syntaxe à employer pour définir une grille dans un pipeline consiste à spécifier :

Pour chaque paramètre **nom de l'étape __ non du paramètre exact concerné**.

_MinMaxScaler_ est réajusté uniquement pour les données d'apprentissage et donc aucune information ne fuite du jeu de test.



## Method 1 : Pipeline (long)

In [17]:
param_grid = {'svm__C': [0.001, 0.01, 0.1, 1],
              'svm__gamma': [0.001, 0.01, 0.1, 1]}

pipe = Pipeline([("scaler", MinMaxScaler()), ("svm", SVC())])

grid = GridSearchCV(pipe, param_grid=param_grid, cv=5, n_jobs=-1)

grid.fit(X_train, y_train)

print(f"Best cross validation accuracy: {grid.best_score_:.5f}")
print(f"Test set score: {grid.score(X_test, y_test):.5f}")
print(f"Best param validation accuracy: {grid.best_params_}")
# Dans notre cas, grid.best_estimator_ est un pipeline avec 2 étapes
print(f"Best estimator:\n{grid.best_estimator_}")

Best cross validation accuracy: 0.96944
Test set score: 0.97902
Best param validation accuracy: {'svm__C': 1, 'svm__gamma': 1}
Best estimator:
Pipeline(steps=[('scaler', MinMaxScaler()), ('svm', SVC(C=1, gamma=1))])


In [18]:
grid.best_estimator_.named_steps["svm"]

SVC(C=1, gamma=1)

In [19]:
grid.best_estimator_.named_steps["svm"].C

1

## Method 2 : Make_pipeline (short)

In [20]:
# MinMaxScaler ont été renommée, mais il est préférable d'utiliser la construction Pipeline 
# avec des noms explicites afin de rendre chaque étape plus explicite
pipe = make_pipeline(MinMaxScaler(), PCA(n_components=2), MinMaxScaler(), verbose=True)

pipe.fit(X_train, y_train)

print(f"Best cross validation accuracy: {grid.best_score_:.5f}")
print(f"Test set score: {grid.score(X_test, y_test):.5f}")
print(f"Best param validation accuracy: {grid.best_params_}")
# Dans notre cas, grid.best_estimator_ est un pipeline avec 2 étapes
print(f"Best estimator:\n{grid.best_estimator_}")
# Steps
pipe.steps

[Pipeline] .... (step 1 of 3) Processing minmaxscaler-1, total=   0.0s
[Pipeline] ............... (step 2 of 3) Processing pca, total=   0.0s
[Pipeline] .... (step 3 of 3) Processing minmaxscaler-2, total=   0.0s
Best cross validation accuracy: 0.96944
Test set score: 0.97902
Best param validation accuracy: {'svm__C': 1, 'svm__gamma': 1}
Best estimator:
Pipeline(steps=[('scaler', MinMaxScaler()), ('svm', SVC(C=1, gamma=1))])


[('minmaxscaler-1', MinMaxScaler()),
 ('pca', PCA(n_components=2)),
 ('minmaxscaler-2', MinMaxScaler())]

In [21]:
param_grid = {'ridge__alpha': [0.001, 0.01, 0.1, 1]}

pipe = make_pipeline(MinMaxScaler(), Ridge(), verbose=False)

grid = GridSearchCV(pipe, param_grid=param_grid, cv=5, n_jobs=-1)

grid.fit(X_train, y_train)

print(f"Best cross validation accuracy: {grid.best_score_:.5f}")
print(f"Test set score: {grid.score(X_test, y_test):.5f}")
print(f"Best param validation accuracy: {grid.best_params_}")
print(f"Best estimator:\n{grid.best_estimator_}")

Best cross validation accuracy: 0.70815
Test set score: 0.75317
Best param validation accuracy: {'ridge__alpha': 0.1}
Best estimator:
Pipeline(steps=[('minmaxscaler', MinMaxScaler()), ('ridge', Ridge(alpha=0.1))])


# Effectuer une recherche sur grill pour trouver quel modèle utiliser

In [22]:
param_grid = [
    # Model 1
    {'classifier': [SVC()], 'preprocessing': [StandardScaler(), None],
    'classifier__C': [.001, .01, .1, 1., 1.],
    'classifier__gamma': [.001, .01, .1, 1., 1.]},
    # Model 2
    {'classifier': [RandomForestClassifier()], 'preprocessing': [None],
    'classifier__n_estimators': [100],
    'classifier__max_features': [1, 2, 3]}]

# Load dataset
cancer = load_breast_cancer()

# Split data
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=42)

pipe = Pipeline([('preprocessing', StandardScaler()), ('classifier', SVC())])
grid = GridSearchCV(pipe, param_grid=param_grid, cv=5)

grid.fit(X_train, y_train)

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('preprocessing', StandardScaler()),
                                       ('classifier', SVC())]),
             param_grid=[{'classifier': [SVC(gamma=0.01)],
                          'classifier__C': [0.001, 0.01, 0.1, 1.0, 1.0],
                          'classifier__gamma': [0.001, 0.01, 0.1, 1.0, 1.0],
                          'preprocessing': [StandardScaler(), None]},
                         {'classifier': [RandomForestClassifier()],
                          'classifier__max_features': [1, 2, 3],
                          'classifier__n_estimators': [100],
                          'preprocessing': [None]}])

In [23]:
print(f"Best cross validation accuracy: {grid.best_score_:.5f}")
print(f"Test set score: {grid.score(X_test, y_test):.5f}\n")
print(f"Best param validation accuracy:\n{grid.best_params_}\n")
print(f"Best estimator:\n{grid.best_estimator_}")

Best cross validation accuracy: 0.96241
Test set score: 0.97902

Best param validation accuracy:
{'classifier': SVC(gamma=0.01), 'classifier__C': 1.0, 'classifier__gamma': 0.01, 'preprocessing': StandardScaler()}

Best estimator:
Pipeline(steps=[('preprocessing', StandardScaler()),
                ('classifier', SVC(gamma=0.01))])
