# <a id='model-selection-and-evaluation'></a> 3. [**S√©lection et √©valuation de mod√®le**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#model-selection-and-evaluation)</br>([*Model selection and evaluation*](https://scikit-learn.org/stable/model_selection.html#model-selection-and-evaluation))

# 3.1. [**Validation crois√©e¬†: √©valuer les performances des estimateurs**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#cross-validation-evaluating-estimator-performance)<br/>([_Cross-validation: evaluating estimator performance_](https://scikit-learn.org/stable/model_selection.html#cross-validation-evaluating-estimator-performance))

# Sommaire

- **Volume** : 25 pages, 7 exemples, 7 papiers
- 3.1.1. [**Calcul de m√©triques √† validation crois√©e**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#computing-cross-validated-metrics)<br/>([_computing-cross-validated-metrics_](https://scikit-learn.org/stable/model_selection.html#computing-cross-validated-metrics))
- 3.1.2. [**It√©rateurs de validation crois√©e**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#cross-validation-iterators)<br/>([_Cross validation iterators_](https://scikit-learn.org/stable/model_selection.html#cross-validation-iterators))
- 3.1.3. [**Une note sur le brassage**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#a-note-on-shuffling)<br/>([_A note on shuffling_](https://scikit-learn.org/stable/model_selection.html#a-note-on-shuffling))
- 3.1.4. [**Validation crois√©e et s√©lection de mod√®les**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#cross-validation-and-model-selection)<br/>([_cross-validation-and-model-selection_](https://scikit-learn.org/stable/model_selection.html#cross-validation-and-model-selection))
- 3.1.5. [**R√©sultat du test de permutation**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#permutation-test-score)<br/>([_Permutation test score_](https://scikit-learn.org/stable/model_selection.html#permutation-test-score))

# <a id='computing-cross-validated-metrics'></a> 3.1. Validation crois√©e¬†: √©valuer les performances des estimateurs

Apprendre les param√®tres d'une fonction de pr√©diction et la tester sur les m√™mes donn√©es est une erreur m√©thodologique : un mod√®le qui se contenterait de r√©p√©ter les √©tiquettes des √©chantillons qu'il vient de voir aurait un score parfait mais ne parviendrait pas √† pr√©dire quoi que ce soit d'utile sur de nouvelles donn√©es. Cette situation s'appelle le **surajustement**. Pour l'√©viter, il est courant lors de la r√©alisation d'une exp√©rience d'apprentissage automatique (supervis√©e) de conserver une partie des donn√©es disponibles sous forme d'**ensemble de test** `X_test`, `y_test`. Notez que le mot "exp√©rience" n'est pas destin√© √† d√©signer uniquement un usage acad√©mique, car m√™me dans les environnements commerciaux, l'apprentissage automatique commence g√©n√©ralement de mani√®re exp√©rimentale. Voici un organigramme du flux de travail typique de validation crois√©e dans l'entra√Ænement de mod√®les. Les meilleurs param√®tres peuvent √™tre d√©termin√©s par des techniques comme la [**recherche en grille** (3.2.1)](https://scikit-learn.org/stable/modules/grid_search.html#grid-search).


<div style="background-color: white; text-align: center;">
  <img
    src="https://scikit-learn.org/stable/_images/grid_search_workflow.png"
    alt="Flux de travail de recherche en grille"
    style="max-width: 50%; height: auto;">
</div>

Dans scikit-learn, une r√©partition al√©atoire en ensembles d'apprentissage et de test peut √™tre rapidement calcul√©e avec la fonction utilitaire [**`train_test_split`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split). Chargeons l'ensemble de donn√©es Iris pour y adapter une machine √† vecteurs de support lin√©aire¬†:

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn import svm

X, y = datasets.load_iris(return_X_y=True)
X.shape, y.shape

((150, 4), (150,))

Nous pouvons d√©sormais √©chantillonner rapidement un ensemble d'entra√Ænement tout en conservant 40¬†% des donn√©es pour tester (√©valuer) notre classifieur¬†:

In [2]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0)

X_train.shape, y_train.shape
# ((90, 4), (90,))
X_test.shape, y_test.shape
# ((60, 4), (60,))

clf = svm.SVC(kernel='linear', C=1).fit(X_train, y_train)
clf.score(X_test, y_test)
# 0.96...

0.9666666666666667

Lors de l'√©valuation de diff√©rents param√©trages ("hyperparam√®tres") pour les estimateurs, tels que le param√®tre `C` qui doit √™tre d√©fini manuellement pour une SVM, il existe toujours un risque de surapprentissage sur l'_ensemble de test_ car les param√®tres peuvent √™tre modifi√©s jusqu'√† ce que l'estimateur fonctionne de mani√®re optimale. De cette fa√ßon, les connaissances sur l'ensemble de test peuvent "fuir" dans le mod√®le et les m√©triques d'√©valuation ne plus rendre compte des performances de g√©n√©ralisation. Pour r√©soudre ce probl√®me, une autre partie de l'ensemble de donn√©es peut √™tre isol√©e en tant qu'"ensemble de validation": l'entra√Ænement se d√©roule sur l'ensemble d'entra√Ænement, apr√®s quoi l'√©valuation est effectu√©e sur l'ensemble de validation, et quand l'exp√©rience semble √™tre r√©ussie, l'√©valuation finale peut √™tre effectu√©e sur l'ensemble de test.

Cependant, en partitionnant les donn√©es disponibles en trois ensembles, nous r√©duisons consid√©rablement le nombre d'√©chantillons qui peuvent √™tre utilis√©s pour entra√Æner le mod√®le, et les r√©sultats peuvent d√©pendre d'un choix al√©atoire particulier pour la paire d'ensembles (entra√Ænement, validation).

Une solution √† ce probl√®me est une proc√©dure appel√©e [‚¶ø **validation crois√©e**](https://en.wikipedia.org/wiki/Cross-validation_(statistics)) (CV (_Cross validation_) en abr√©g√©). Un ensemble de test doit toujours √™tre conserv√© pour l'√©valuation finale, mais l'ensemble de validation n'est plus n√©cessaire lors de la r√©alisation de la CV. Dans l'approche de base, appel√©e $k$-fold CV, l'ensemble d'apprentissage est divis√© en $k$ ensembles plus petits (d'autres approches sont d√©crites ci-dessous, mais suivent g√©n√©ralement les m√™mes principes). La proc√©dure suivante est suivie pour chacun des $k$ "plis"¬†:

- Un mod√®le est entra√Æn√© sur $k - 1$ plis en tant que donn√©es d'apprentissage¬†;
- le mod√®le r√©sultant est valid√© sur le pli restant (il est utilis√© comme ensemble de test pour calculer une mesure de performance telle que l'exactitude).

La mesure de performance rapport√©e par la validation crois√©e $k$-plis est alors la moyenne des valeurs calcul√©es dans la boucle. Cette approche peut √™tre co√ªteuse en calcul, mais ne gaspille pas trop de donn√©es (comme c'est le cas lors du choix d'un ensemble de validation arbitraire), ce qui est un avantage majeur dans des probl√®mes tels que l'inf√©rence inverse o√π le nombre d'√©chantillons est tr√®s petit.

<div style="background-color: white; text-align: center;">
  <img
    src="https://scikit-learn.org/stable/_images/grid_search_cross_validation.png"
    alt="Flux de travail de recherche en grille"
    style="max-width: 50%; height: auto;">
</div>

## <a id='computing-cross-validated-metrics'></a> 3.1.1. Calcul de m√©triques √† validation crois√©e

La mani√®re la plus simple d'utiliser la validation crois√©e consiste √† appeler la fonction utilitaire [**`cross_val_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html#sklearn.model_selection.cross_val_score) sur l'estimateur et l'ensemble de donn√©es.

L'exemple suivant montre comment estimer la pr√©cision d'une machine √† vecteurs de support √† noyau lin√©aire sur l'ensemble de donn√©es iris en divisant les donn√©es, en ajustant un mod√®le et en calculant le score 5 fois cons√©cutives (avec des divisions diff√©rentes √† chaque fois)¬†:

In [3]:
from sklearn.model_selection import cross_val_score
clf = svm.SVC(kernel='linear', C=1, random_state=42)
scores = cross_val_score(clf, X, y, cv=5)
scores
# array([0.96..., 1. , 0.96..., 0.96..., 1. ])

array([0.96666667, 1.        , 0.96666667, 0.96666667, 1.        ])

Le score moyen et l'√©cart type sont alors donn√©s par :

In [4]:
print("%0.2f accuracy with a standard deviation of %0.2f" % (scores.mean(), scores.std()))
# 0.98 accuracy with a standard deviation of 0.02

0.98 accuracy with a standard deviation of 0.02


Par d√©faut, le score calcul√© √† chaque it√©ration de la CV est donn√© par la m√©thode `score` de l'estimateur. Il est possible de changer cela en utilisant le param√®tre `scoring`` :

In [None]:
from sklearn import metrics
scores = cross_val_score(clf, X, y, cv=5, scoring='f1_macro')
scores
# array([0.96..., 1.  ..., 0.96..., 0.96..., 1.        ])

array([0.96658312, 1.        , 0.96658312, 0.96658312, 1.        ])

Voir [**Le param√®tre `scoring` : d√©finir les r√®gles d'√©valuation du mod√®le** (3.3.1)](https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter) pour plus de d√©tails. Dans le cas de l'ensemble de donn√©es Iris, les √©chantillons sont √©quilibr√©s entre les classes cibles, d'o√π le fait que l'exactitude et le score F1 sont presque √©gaux.

Lorsque l'argument `cv` est un entier, [**`cross_val_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html) utilise par d√©faut les strat√©gies [**`KFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) ou [**`StratifiedKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html), cette derni√®re √©tant utilis√©e si l'estimateur d√©rive de [**`ClassifierMixin`**](https://scikit-learn.org/stable/modules/generated/sklearn.base.ClassifierMixin.html).

Il est √©galement possible d'utiliser d'autres strat√©gies de validation crois√©e en passant un it√©rateur de validation crois√©e √† la place, par exemple¬†:

In [5]:
from sklearn.model_selection import ShuffleSplit
n_samples = X.shape[0]
cv = ShuffleSplit(n_splits=5, test_size=0.3, random_state=0)
cross_val_score(clf, X, y, cv=cv)
# array([0.977..., 0.977..., 1.  ..., 0.955..., 1.        ])

array([0.97777778, 0.97777778, 1.        , 0.95555556, 1.        ])

Une autre option consiste √† utiliser un it√©rable fournissant des s√©parations (entra√Ænement, test) sous forme de tableaux d'indices, par exemple :

In [None]:
def custom_cv_2folds(X):
    n = X.shape[0]
    for i in range(1, 3):
        idx = np.arange(n * (i - 1) / 2, n * i / 2, dtype=int)
        yield idx, idx

custom_cv = custom_cv_2folds(X)
cross_val_score(clf, X, y, cv=custom_cv)
# array([1.        , 0.973...])

array([1.        , 0.97333333])

**Transformation de donn√©es avec des donn√©es conserv√©es**

Tout comme il est important de tester un estimateur sur les donn√©es d'entra√Ænement conserv√©es, le pr√©traitement (comme la normalisation, la s√©lection de caract√©ristiques, etc.) et les [**Transformations de donn√©es** (6)](https://scikit-learn.org/stable/data_transforms.html#data-transforms) similaires doivent √©galement √™tre apprises √† partir d'un ensemble d'entra√Ænement puis appliqu√©es aux donn√©es conserv√©es pour la pr√©diction :

In [6]:
from sklearn import preprocessing
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0)
scaler = preprocessing.StandardScaler().fit(X_train)
X_train_transformed = scaler.transform(X_train)
clf = svm.SVC(C=1).fit(X_train_transformed, y_train)
X_test_transformed = scaler.transform(X_test)
clf.score(X_test_transformed, y_test)
# 0.9333...

0.9333333333333333

Un [**`Pipeline`**](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline) facilite la composition des estimateurs, offrant ce comportement sous validation crois√©e¬†:

In [8]:
from sklearn.pipeline import make_pipeline
clf = make_pipeline(preprocessing.StandardScaler(), svm.SVC(C=1))
cross_val_score(clf, X, y, cv=cv)
# array([0.977..., 0.933..., 0.955..., 0.933..., 0.977...])

array([0.97777778, 0.93333333, 0.95555556, 0.93333333, 0.97777778])

Voir [**Pipelines et estimateurs composites** (6.1)](https://scikit-learn.org/stable/modules/compose.html#combining-estimators).

### <a id='the-cross-validate-function-and-multiple-metric-evaluation'></a> 3.1.1.1. La fonction `cross_validate` et l'√©valuation de m√©triques multiples

La fonction [**`cross_validate`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html) diff√®re de [**`cross_val_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html) de deux mani√®res¬†:

- Elle permet de sp√©cifier plusieurs m√©triques pour l'√©valuation.
- Elle renvoie un dictionnaire contenant les temps d'ajustement, les temps d'√©valuation (et √©ventuellement les scores d'entra√Ænement, les estimateurs ajust√©s, les indices de la partition entra√Ænement-test) en plus du score du test.

Pour une √©valuation √† m√©trique unique, o√π le param√®tre de score est une cha√Æne, un `callable` ou `None`, les cl√©s seront - `['test_score', 'fit_time', 'score_time']`

Et pour l'√©valuation √† m√©triques multiples, la valeur de retour est un dictionnaire avec les cl√©s suivantes - `['test_<scorer1_name>', 'test_<scorer2_name>', 'test_<scorer...>', 'fit_time', 'score_time']`

La valeur par d√©faut de `return_train_score` est `False` pour √©conomiser du temps de calcul. Pour √©valuer √©galement les scores sur l'ensemble d'entra√Ænement, vous devez le d√©finir sur `True`. Vous pouvez √©galement conserver l'estimateur ajust√© pour chaque ensemble d'entra√Ænement en d√©finissant `return_estimator=True`. De m√™me, vous pouvez d√©finir `return_indices=True` pour conserver les indices d'entra√Ænement et de test utilis√©s pour diviser le jeu de donn√©es en ensembles d'entra√Ænement et de test pour chaque partition CV.

Les multiples m√©triques peuvent √™tre sp√©cifi√©es sous forme de liste, de tuple ou d'ensemble de noms d'√©valuateurs pr√©d√©finis :

In [9]:
from sklearn.model_selection import cross_validate
from sklearn.metrics import recall_score
scoring = ['precision_macro', 'recall_macro']
clf = svm.SVC(kernel='linear', C=1, random_state=0)
scores = cross_validate(clf, X, y, scoring=scoring)
sorted(scores.keys())
# ['fit_time', 'score_time', 'test_precision_macro', 'test_recall_macro']
scores['test_recall_macro']
# array([0.96..., 1.  ..., 0.96..., 0.96..., 1.        ])

array([0.96666667, 1.        , 0.96666667, 0.96666667, 1.        ])

Ou sous la forme d'un dictionnaire qui fait correspondre le nom de l'√©valuateur √† une fonction d'√©valuation pr√©d√©finie ou personnalis√©e :

In [10]:
from sklearn.metrics import make_scorer
scoring = {
    'prec_macro': 'precision_macro',
    'rec_macro': make_scorer(recall_score, average='macro')
}
scores = cross_validate(clf, X, y, scoring=scoring, cv=5, return_train_score=True)
sorted(scores.keys())
# ['fit_time', 'score_time', 'test_prec_macro', 'test_rec_macro',
#  'train_prec_macro', 'train_rec_macro']
scores['train_rec_macro']
# array([0.97..., 0.97..., 0.99..., 0.98..., 0.98...])

array([0.975     , 0.975     , 0.99166667, 0.98333333, 0.98333333])

Voici un exemple de `cross_validate` utilisant une m√©trique unique¬†:

In [11]:
scores = cross_validate(clf, X, y,
                        scoring='precision_macro', cv=5,
                        return_estimator=True)
sorted(scores.keys())
# ['estimator', 'fit_time', 'score_time', 'test_score']

['estimator', 'fit_time', 'score_time', 'test_score']

### <a id='obtaining-predictions-by-cross-validation'></a> 3.1.1.2. Obtenir des pr√©dictions par validation crois√©e

La fonction [**`cross_val_predict`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_predict.html) a une interface similaire √† [**`cross_val_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html), mais renvoie, pour chaque √©l√©ment de l'entr√©e, la pr√©diction qui a √©t√© obtenue pour cet √©l√©ment lorsqu'il √©tait dans l'ensemble de test. Seules les strat√©gies de validation crois√©e qui affectent tous les √©l√©ments √† un ensemble de test exactement une fois peuvent √™tre utilis√©es (sinon, une exception est lev√©e).

> **Avertissement** : Remarque sur l'utilisation inappropri√©e de [**`cross_val_predict`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_predict.html)  
> Le r√©sultat de [**`cross_val_predict`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_predict.html) peut √™tre diff√©rent de ceux obtenus avec [**`cross_val_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html) car les √©l√©ments sont regroup√©s diff√©remment. La fonction [**`cross_val_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html) prend une moyenne sur les plis de validation crois√©e, tandis que [**`cross_val_predict`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_predict.html) renvoie simplement les √©tiquettes (ou probabilit√©s) de plusieurs mod√®les distincts non distingu√©s. Ainsi, [**`cross_val_predict`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_predict.html) n'est pas une mesure appropri√©e de l'erreur de g√©n√©ralisation.

**La fonction [`cross_val_predict`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_predict.html#sklearn.model_selection.cross_val_predict) convient pour :**

- La visualisation des pr√©dictions obtenues √† partir de diff√©rents mod√®les.
- Le m√©lange de mod√®les : lorsque les pr√©dictions d'un estimateur supervis√© sont utilis√©es pour entra√Æner un autre estimateur dans le cadre des m√©thodes ensemblistes.

Les it√©rateurs de validation crois√©e disponibles sont pr√©sent√©s dans la section suivante.

### Exemples

#### [**Caract√©ristique de fonctionnement du r√©cepteur (Receiver Operating Characteristic - ROC) avec validation crois√©e**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_roc_crossval.ipynb)<br/>([_Receiver Operating Characteristic (ROC) with cross validation_](https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc_crossval.html))

#### [**√âlimination r√©cursive des caract√©ristiques (RFE) avec validation crois√©e**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/1_13_feature_selection/plot_rfe_with_cross_validation.ipynb)<br/>([_Recursive Feature Elimination (RFE) with cross-validation_](https://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_with_cross_validation.html))

#### [**Strat√©gie personnalis√©e de r√©ajustement d'une recherche en grille avec validation crois√©e**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_grid_search_digits.ipynb)<br/>([_Custom refit strategy of a grid search with cross-validation_](https://scikit-learn.org/stable/auto_examples/model_selection/plot_grid_search_digits.html))

#### [**Exemple de pipeline pour l'extraction et l'√©valuation de caract√©ristiques de texte**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_grid_search_text_feature_extraction.ipynb)<br/>([_Sample pipeline for text feature extraction and evaluation_](https://scikit-learn.org/stable/auto_examples/model_selection/plot_grid_search_text_feature_extraction.html))

#### [**Trac√© de pr√©dictions valid√©es par validation crois√©e**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_cv_predict.ipynb)<br/>([_Plotting Cross-Validated Predictions_](https://scikit-learn.org/stable/auto_examples/model_selection/plot_cv_predict.html))

#### [**Validation crois√©e imbriqu√©e vs. non-imbriqu√©e**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_nested_cross_validation_iris.ipynb)<br/>([_Nested versus non-nested cross-validation_](https://scikit-learn.org/stable/auto_examples/model_selection/plot_nested_cross_validation_iris.html))

## <a id='cross-validation-iterators'></a> 3.1.2. It√©rateurs de validation crois√©e

Les sections suivantes r√©pertorient les utilitaires pour g√©n√©rer des indices pouvant √™tre utilis√©s pour diviser un ensemble de donn√©es en diff√©rents sous-ensembles selon diff√©rentes strat√©gies de validation crois√©e.

### <a id='cross-validation-iterators-for-i-i-d-data'></a> 3.1.2.1. It√©rateurs de validation crois√©e pour les donn√©es i.i.d.

Lorsque l'on suppose que des donn√©es sont ind√©pendantes et identiquement distribu√©es (i.i.d.), on fait l'hypoth√®se que tous les √©chantillons proviennent du m√™me processus de g√©n√©ration et que ce processus de g√©n√©ration ne se souvient pas des √©chantillons g√©n√©r√©s pr√©c√©demment.

Les validateurs crois√©s suivants peuvent √™tre utilis√©s dans de tels cas.

> **Note** : Bien que les donn√©es i.i.d. soient une hypoth√®se courante en th√©orie de l'apprentissage automatique, elle est rarement v√©rifi√©e en pratique. Si l'on sait que les √©chantillons ont √©t√© g√©n√©r√©s √† l'aide d'un processus d√©pendant du temps, il est pr√©f√©rable d'utiliser un [**sch√©ma de validation crois√©e prenant en compte les s√©ries temporelles** (3.1.2.6)](https://scikit-learn.org/stable/modules/cross_validation.html#timeseries-cv). De m√™me, si l'on sait que le processus de g√©n√©ration pr√©sente une structure de groupe (√©chantillons collect√©s aupr√®s de diff√©rents sujets, exp√©riences, dispositifs de mesure), il est pr√©f√©rable d'utiliser [**la validation crois√©e par groupe** (3.1.2.3)](https://scikit-learn.org/stable/modules/cross_validation.html#group-cv).

#### <a id='k-fold'></a> K-fold

[**`KFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) divise tous les √©chantillons en $k$ groupes d'√©chantillons, appel√©s plis (si $k = n$, cela √©quivaut √† la strat√©gie _Leave One Out_), de tailles √©gales (si possible). La fonction de pr√©diction est entra√Æn√©e √† l'aide de $k - 1$ plis, et le pli laiss√© de c√¥t√© est utilis√© pour le test.

Exemple de validation crois√©e √† 2 plis sur un ensemble de donn√©es avec 4 √©chantillons :

In [2]:
import numpy as np
from sklearn.model_selection import KFold

X = ["a", "b", "c", "d"]
kf = KFold(n_splits=2)
for train, test in kf.split(X):
    print(f"{train} {test}")
# [2 3] [0 1]
# [0 1] [2 3]

[2 3] [0 1]
[0 1] [2 3]


Voici une visualisation du comportement de la validation crois√©e. Notez que [**`KFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) n'est pas affect√© par les classes ou les groupes.

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_cv_indices_006.png)

Chaque pli est constitu√© de deux tableaux : le premier est li√© √† l'_ensemble d'entra√Ænement_, et le second √† l'_ensemble de test_. Ainsi, on peut cr√©er les ensembles d'entra√Ænement/test en utilisant l'indexation numpy :

In [3]:
X = np.array([[0., 0.], [1., 1.], [-1., -1.], [2., 2.]])
y = np.array([0, 1, 0, 1])
X_train, X_test, y_train, y_test = X[train], X[test], y[train], y[test]

#### <a id='repeated-k-fold'></a> K-fold r√©p√©t√©e

[**`RepeatedKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RepeatedKFold.html) r√©p√®te [**`KFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) $n$ fois. Il peut √™tre utilis√© lorsque l'on souhaite ex√©cuter KFold $n$ fois, en produisant diff√©rentes divisions √† chaque r√©p√©tition.

Exemple de validation crois√©e √† 2 plis r√©p√©t√©e 2 fois :

In [5]:
import numpy as np
from sklearn.model_selection import RepeatedKFold
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
random_state = 12883823
rkf = RepeatedKFold(n_splits=2, n_repeats=2, random_state=random_state)
for train, test in rkf.split(X):
    print(f"{train} {test}")
# [2 3] [0 1]
# [0 1] [2 3]
# [0 2] [1 3]
# [1 3] [0 2]

[2 3] [0 1]
[0 1] [2 3]
[0 2] [1 3]
[1 3] [0 2]


De m√™me, [**`RepeatedStratifiedKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RepeatedStratifiedKFold.html) r√©p√®te Stratified K-Fold $n$ fois avec une randomisation diff√©rente √† chaque r√©p√©tition.

#### <a id='leave-one-out-loo'></a> Leave One Out (LOO)

[**`LeaveOneOut`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.LeaveOneOut.html) (ou LOO) est une validation crois√©e simple. Chaque ensemble d'apprentissage est cr√©√© en prenant tous les √©chantillons sauf un, l'ensemble de test √©tant l'√©chantillon exclu. Ainsi, pour $n$ √©chantillons, nous avons $n$ ensembles d'apprentissage diff√©rents et $n$ ensembles de test diff√©rents. Cette proc√©dure de validation crois√©e ne gaspille pas beaucoup de donn√©es car un seul √©chantillon est retir√© de l'ensemble d'apprentissage :

In [6]:
from sklearn.model_selection import LeaveOneOut

X = [1, 2, 3, 4]
loo = LeaveOneOut()
for train, test in loo.split(X):
    print(f"{train} {test}")
# [1 2 3] [0]
# [0 2 3] [1]
# [0 1 3] [2]
# [0 1 2] [3]

[1 2 3] [0]
[0 2 3] [1]
[0 1 3] [2]
[0 1 2] [3]


Les utilisateurs potentiels de LOO pour la s√©lection de mod√®les doivent prendre en compte quelques avertissements connus. Par rapport √† la validation crois√©e $k$-fold, on construit $n$ mod√®les √† partir des √©chantillons au lieu de $k$ mod√®les, o√π $n \gt k$. De plus, chaque mod√®le est entra√Æn√© sur $n - 1$ √©chantillons au lieu de $(k-1) n / k$. Dans les deux cas, en supposant que $k$ n'est pas trop grand et $k \lt n$, LOO est plus co√ªteux en termes de calcul que la validation crois√©e $k$-fold.

En termes de pr√©cision, LOO conduit souvent √† une grande variance en tant qu'estimateur de l'erreur de test. Intuitivement, √©tant donn√© que $n - 1$ des $n$ √©chantillons sont utilis√©s pour construire chaque mod√®le, les mod√®les construits √† partir des plis sont pratiquement identiques les uns aux autres et au mod√®le construit √† partir de l'ensemble d'apprentissage complet.

Cependant, si la courbe d'apprentissage est raide pour la taille d'entra√Ænement consid√©r√©e, une validation crois√©e √† 5 ou 10 plis peut surestimer l'erreur de g√©n√©ralisation.

En r√®gle g√©n√©rale, la plupart des auteurs et des preuves empiriques sugg√®rent que la validation crois√©e √† 5 ou 10 plis devrait √™tre pr√©f√©r√©e √† LOO.

##### R√©f√©rences

- http://www.faqs.org/faqs/ai-faq/neural-nets/part3/section-12.html
- üìö T. Hastie, R. Tibshirani et J. Friedman, [**‚ÄúElements of Statistical Learning Ed. 2‚Äù**](https://hastie.su.domains/Papers/ESLII.pdf), Springer, 2009.
- üî¨ L. Breiman, P. Spector [**‚ÄúSubmodel selection and evaluation in regression: The X-random case‚Äù**](https://digitalassets.lib.berkeley.edu/sdtr/ucb/text/197.pdf), International Statistical Review 1992.
- üî¨ R. Kohavi, [**‚ÄúA Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection‚Äù**](http://ai.stanford.edu/~ronnyk/accEst.pdf), Intl. Jnt. Conf. AI.
- üî¨ R. Bharat Rao, G. Fung, R. Rosales, [**‚ÄúOn the Dangers of Cross-Validation. An Experimental Evaluation‚Äù**](https://people.csail.mit.edu/romer/papers/CrossVal_SDM08.pdf), SIAM 2008.
- üìö G. James, D. Witten, T. Hastie, R Tibshirani, [**‚ÄúAn Introduction to Statistical Learning‚Äù**](https://hastie.su.domains/ISLR2/ISLRv2_website.pdf), Springer 2013.

#### <a id='leave-p-out-lpo'></a> Leave P Out (LPO)

[**`LeavePOut`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.LeavePOut.html) est tr√®s similaire √† [**`LeaveOneOut`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.LeaveOneOut.html) car il cr√©e tous les ensembles d'entra√Ænement/test possibles en supprimant $p$ √©chantillons de l'ensemble complet. Pour $n$ √©chantillons, cela produit ${n \choose p}$ paires d'ensembles d'entra√Ænement/test. Contrairement √† [**`LeaveOneOut`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.LeaveOneOut.html) et [**`KFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html), les ensembles de test se chevaucheront pour $p \gt 1$.

Exemple de Leave-2-Out sur un ensemble de donn√©es avec 4 √©chantillons :

In [4]:
from sklearn.model_selection import LeavePOut

X = np.ones(4)
lpo = LeavePOut(p=2)
for train, test in lpo.split(X):
    print(f"{train} {test}")
# [2 3] [0 1]
# [1 3] [0 2]
# [1 2] [0 3]
# [0 3] [1 2]
# [0 2] [1 3]
# [0 1] [2 3]

[2 3] [0 1]
[1 3] [0 2]
[1 2] [0 3]
[0 3] [1 2]
[0 2] [1 3]
[0 1] [2 3]


#### <a id='random-permutations-cross-validation-a-k-a-shuffle-split'></a> Validation crois√©e par permutations al√©atoires, alias Shuffle & Split

L'it√©rateur [**`ShuffleSplit`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.ShuffleSplit.html) g√©n√©rera un nombre d√©fini par l'utilisateur de jeux de donn√©es d'entra√Ænement/test ind√©pendants. Les √©chantillons sont d'abord m√©lang√©s, puis divis√©s en une paire d'ensembles d'entra√Ænement et de test.

Il est possible de contr√¥ler l'al√©atoire pour assurer la reproductibilit√© des r√©sultats en initialisant explicitement le g√©n√©rateur de nombres pseudo-al√©atoires `random_state`.

Voici un exemple d'utilisation :

In [7]:
from sklearn.model_selection import ShuffleSplit
X = np.arange(10)
ss = ShuffleSplit(n_splits=5, test_size=0.25, random_state=0)
for train_index, test_index in ss.split(X):
    print(f"{train_index} {test_index}")
# [9 1 6 7 3 0 5] [2 8 4]
# [2 9 8 0 6 7 4] [3 5 1]
# [4 5 1 0 6 9 7] [2 3 8]
# [2 7 5 8 0 3 4] [6 1 9]
# [4 1 0 6 8 9 3] [5 2 7]

[9 1 6 7 3 0 5] [2 8 4]
[2 9 8 0 6 7 4] [3 5 1]
[4 5 1 0 6 9 7] [2 3 8]
[2 7 5 8 0 3 4] [6 1 9]
[4 1 0 6 8 9 3] [5 2 7]


Voici une visualisation du comportement de la validation crois√©e. Notez que [**`ShuffleSplit`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.ShuffleSplit.html) n'est pas influenc√© par les classes ou les groupes.

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_cv_indices_008.png)

[**`ShuffleSplit`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.ShuffleSplit.html) est donc une bonne alternative √† la validation crois√©e [**`KFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) qui permet un contr√¥le plus pr√©cis du nombre d'it√©rations et de la proportion d'√©chantillons de chaque c√¥t√© de la division d'entra√Ænement/test.

### <a id='cross-validation-iterators-with-stratification-based-on-class-labels'></a> 3.1.2.2. It√©rateurs de validation crois√©e avec stratification bas√©e sur les √©tiquettes de classe

Certains probl√®mes de classification peuvent pr√©senter un d√©s√©quilibre important dans la distribution des classes cibles : par exemple, il peut y avoir plusieurs fois plus d'√©chantillons n√©gatifs que d'√©chantillons positifs. Dans de tels cas, il est recommand√© d'utiliser un √©chantillonnage stratifi√© tel qu'impl√©ment√© dans [**`StratifiedKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html) et [**`StratifiedShuffleSplit`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html) pour garantir que les fr√©quences relatives des classes sont approximativement pr√©serv√©es dans chaque pli d'entra√Ænement et de validation.

#### <a id='stratified-k-fold'></a> K-fold stratifi√©

[**`StratifiedKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html) est une variation de la validation crois√©e _k-fold_ qui renvoie des plis _stratifi√©s_ : chaque ensemble contient approximativement le m√™me pourcentage d'√©chantillons de chaque classe cible que l'ensemble complet.

Voici un exemple de validation crois√©e stratifi√©e √† 3 plis sur un ensemble de donn√©es avec 50 √©chantillons provenant de deux classes d√©s√©quilibr√©es. Nous montrons le nombre d'√©chantillons dans chaque classe et comparons avec [**`KFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html).

In [8]:
from sklearn.model_selection import StratifiedKFold, KFold
import numpy as np
X, y = np.ones((50, 1)), np.hstack(([0] * 45, [1] * 5))
skf = StratifiedKFold(n_splits=3)
for train, test in skf.split(X, y):
    print(f'train -  {np.bincount(y[train])}   |   test -  {np.bincount(y[test])}')
# train -  [30  3]   |   test -  [15  2]
# train -  [30  3]   |   test -  [15  2]
# train -  [30  4]   |   test -  [15  1]
kf = KFold(n_splits=3)
for train, test in kf.split(X, y):
    print(f'train -  {np.bincount(y[train])}   |   test -  {np.bincount(y[test])}')
# train -  [28  5]   |   test -  [17]
# train -  [28  5]   |   test -  [17]
# train -  [34]   |   test -  [11  5]

train -  [30  3]   |   test -  [15  2]
train -  [30  3]   |   test -  [15  2]
train -  [30  4]   |   test -  [15  1]
train -  [28  5]   |   test -  [17]
train -  [28  5]   |   test -  [17]
train -  [34]   |   test -  [11  5]


Nous pouvons voir que [**`StratifiedKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html) pr√©serve les ratios de classes (environ 1/10) √† la fois dans l'ensemble d'apprentissage et dans l'ensemble de test.

Voici une visualisation du comportement de la validation crois√©e.

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_cv_indices_009.png)

#### <a id='stratified-shuffle-split'></a> Stratified Shuffle Split

[**`StratifiedShuffleSplit`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html) est une variation de _ShuffleSplit_ qui renvoie des s√©parations stratifi√©es, c'est-√†-dire qui cr√©e des s√©parations en conservant le m√™me pourcentage pour chaque classe cible que dans l'ensemble complet.

Voici une visualisation du comportement de la validation crois√©e.

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_cv_indices_012.png)

### <a id='cross-validation-iterators-for-grouped-data'></a> 3.1.2.3. It√©rateurs de validation crois√©e pour les donn√©es regroup√©es

L'hypoth√®se i.i.d. est rompue si le processus g√©n√©ratif sous-jacent produit des groupes d'√©chantillons d√©pendants.

Un tel regroupement de donn√©es d√©pend du domaine. Par exemple, il peut y avoir des donn√©es m√©dicales collect√©es aupr√®s de plusieurs patients, avec plusieurs √©chantillons pr√©lev√©s sur chaque patient. Et de telles donn√©es sont susceptibles de d√©pendre du groupe individuel. Dans notre exemple, l'identifiant du patient pour chaque √©chantillon sera son identifiant de groupe.

Dans ce cas, nous aimerions savoir si un mod√®le entra√Æn√© sur un ensemble particulier de groupes g√©n√©ralise bien aux groupes non vus. Pour mesurer cela, nous devons nous assurer que tous les √©chantillons dans le pli de validation proviennent de groupes qui ne sont pas du tout repr√©sent√©s dans le pli d'apprentissage associ√©.

Les diviseurs de validation crois√©e suivants peuvent √™tre utilis√©s pour cela. L'identifiant de regroupement des √©chantillons est sp√©cifi√© via le param√®tre `groups`.

#### <a id='group-k-fold'></a> K-fold par groupe

[**`GroupKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html) est une variation de la validation crois√©e _k-fold_ qui garantit que le m√™me groupe n'est pas repr√©sent√© √† la fois dans les ensembles de test et d'apprentissage. Par exemple, si les donn√©es sont obtenues √† partir de sujets diff√©rents avec plusieurs √©chantillons par sujet et si le mod√®le est suffisamment flexible pour apprendre √† partir de caract√©ristiques tr√®s sp√©cifiques √† chaque personne, il pourrait ne pas g√©n√©raliser √† de nouveaux sujets. [**`GroupKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html) permet de d√©tecter ce type de situations de surajustement.

Imaginez que vous ayez trois sujets, chacun avec un num√©ro associ√© de 1 √† 3 :

In [9]:
from sklearn.model_selection import GroupKFold

X = [0.1, 0.2, 2.2, 2.4, 2.3, 4.55, 5.8, 8.8, 9, 10]
y = ["a", "b", "b", "b", "c", "c", "c", "d", "d", "d"]
groups = [1, 1, 1, 2, 2, 2, 3, 3, 3, 3]

gkf = GroupKFold(n_splits=3)
for train, test in gkf.split(X, y, groups=groups):
    print(f"{train} {test}")
# [0 1 2 3 4 5] [6 7 8 9]
# [0 1 2 6 7 8 9] [3 4 5]
# [3 4 5 6 7 8 9] [0 1 2]

[0 1 2 3 4 5] [6 7 8 9]
[0 1 2 6 7 8 9] [3 4 5]
[3 4 5 6 7 8 9] [0 1 2]


Chaque sujet se trouve dans un pli de test diff√©rent, et le m√™me sujet n'est jamais √† la fois dans le test et dans l'apprentissage. Notez que les plis n'ont pas exactement la m√™me taille en raison du d√©s√©quilibre dans les donn√©es. Si les proportions de classe doivent √™tre √©quilibr√©es dans les plis, [**`StratifiedGroupKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedGroupKFold.html) est une meilleure option.

Voici une visualisation du comportement de la validation crois√©e.

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_cv_indices_007.png)

Similaire √† [**`KFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html), les ensembles de test de [**`GroupKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html) formeront une partition compl√®te de l'ensemble des donn√©es. Contrairement √† [**`KFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html), [**`GroupKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html) n'est pas du tout al√©atoire, tandis que KFold est al√©atoire lorsque `shuffle=True`.

#### <a id='stratifiedgroupkfold'></a> StratifiedGroupKFold

[**`StratifiedGroupKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedGroupKFold.html) est un sch√©ma de validation crois√©e qui combine √† la fois [**`StratifiedKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html) et [**`GroupKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html). L'id√©e est de tenter de pr√©server la distribution des classes dans chaque s√©paration tout en maintenant chaque groupe dans une seule s√©paration. Cela peut √™tre utile lorsque vous disposez d'un ensemble de donn√©es d√©s√©quilibr√©, de sorte que l'utilisation uniquement de [**`GroupKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html) pourrait produire des s√©parations biais√©es.

Exemple :

In [10]:
from sklearn.model_selection import StratifiedGroupKFold
X = list(range(18))
y = [1] * 6 + [0] * 12
groups = [1, 2, 3, 3, 4, 4, 1, 1, 2, 2, 3, 4, 5, 5, 5, 6, 6, 6]
sgkf = StratifiedGroupKFold(n_splits=3)
for train, test in sgkf.split(X, y, groups=groups):
    print(f"{train} {test}")
# [ 0  2  3  4  5  6  7 10 11 15 16 17] [ 1  8  9 12 13 14]
# [ 0  1  4  5  6  7  8  9 11 12 13 14] [ 2  3 10 15 16 17]
# [ 1  2  3  8  9 10 12 13 14 15 16 17] [ 0  4  5  6  7 11]

[ 0  2  3  4  5  6  7 10 11 15 16 17] [ 1  8  9 12 13 14]
[ 0  1  4  5  6  7  8  9 11 12 13 14] [ 2  3 10 15 16 17]
[ 1  2  3  8  9 10 12 13 14 15 16 17] [ 0  4  5  6  7 11]


Notes d'impl√©mentation :

- Avec l'impl√©mentation actuelle, un m√©lange complet n'est pas possible dans la plupart des sc√©narios. Lorsque `shuffle=True`, les √©tapes suivantes se produisent :
    1. Tous les groupes sont m√©lang√©s.
    2. Les groupes sont tri√©s par √©cart type des classes en utilisant un tri stable.
    3. Les groupes tri√©s sont parcourus et assign√©s aux plis.
- Cela signifie que seuls les groupes ayant le m√™me √©cart type de distribution de classes seront m√©lang√©s, ce qui peut √™tre utile lorsque chaque groupe n'a qu'une seule classe.
- L'algorithme attribue de mani√®re gloutonne chaque groupe √† un des `n_splits` ensembles de test, en choisissant l'ensemble de test qui minimise la variance de la distribution des classes entre les ensembles de test. L'assignation des groupes se fait des groupes avec la plus grande variance √† la plus faible variance en termes de fr√©quence des classes, c'est-√†-dire que les grands groupes ayant des valeurs concentr√©es sur une ou quelques classes sont assign√©s en premier.
- Cette division est sous-optimale dans le sens o√π elle peut produire des s√©parations d√©s√©quilibr√©es m√™me si une stratification parfaite est possible. Si vous avez une r√©partition relativement proche des classes dans chaque groupe, il vaut mieux utiliser [**`GroupKFold`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html).

Voici une visualisation du comportement de la validation crois√©e pour des groupes in√©gaux :

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_cv_indices_005.png)