# Cross-validation : avantages et inconvénients

            - Vincent
            - Yohan
            - Pierre
            - Nicolas

## La cross-validation

### Concepts

- Séparation du jeu de données en vue d'entraîner et d'évaluer un modèle
    - Différents types
- Optimiser les hyperparamètres d'un modèle
    - GridSearch

### Cas d'application

#### Train_Test_Split

![train_test](img/train_test.png)

L'estimation de la perfomance de notre modele peut s'en retrouvé biaisée car elle dépent des données qui vont se retrouver dans l'ensemble de validation ( par exemple un ensemble de validation qui comporterait uniquement des observations d'une meme classe dans un problème de classification) 

#### K-Fold

- Peut servir de baseline
- Plutôt adapté aux problèmes de regression
- Augmente le biais quand le dataset est important => utilisation du train/val split

![k_folds](img/k_folds.png)

#### Leave One Out
Cas "extrême " de *K-Fold*: on on prend un nombre de folds égal au nombre d'observations du dataset , on verifie donc la perfomance du modele sur une seule observation à chaque fois

- Forte augmentation du temps de calcul pour un gros dataset
- Formation de jeux d'entrainement trés similaire entre eux ,  on aura quasiment le meme modéle sur chaque fold
- Très peu utilisé

#### Stratified KFold

- Dans le cas d'un probleme de classification on s'assure de créer des k folds de sorte qu'elles contiennent à peu prés les memes proprotions d'exemple de chaque classe pour éviter de biaiser les résultats

![strat](img/strat.png)

### Conclusion

#### Avantages

- permet de ne pas "gaspiller" des données (cas de petits datasets par exemple)
- donne des informations suplémentaires par rapport au split test/val:
    - estimation de la performance
    - mesure la précision de l'information

#### Inconvénients

- coûteux en temps de calcul
- peu adapté aux très gros jeux de données (ex en Deep learning)
- faire attention à la répartition des classes => StratifiedKFold

#### Pour aller plus loin

- Shuffle
- GroupKFold

### Sources

- [Documentation Sklearn](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection)
- [Vidéo didactique en fr.](https://www.youtube.com/watch?v=VoyMOVfCSfc&t=1136s)
- [Livre](https://fr.calameo.com/read/000003587247e52d9457e)
- [OpenClassroom](https://openclassrooms.com/fr/courses/4297211-evaluez-et-ameliorez-les-performances-dun-modele-de-machine-learning/4308241-mettez-en-place-un-cadre-de-validation-croisee)
- [Recap Sklearn](https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation)
- Machine Learning Mastery with Python Chapitre 9

## Exemple sur le Dataset Iris

- Probleme de classification , prédire de quelle famille est une iris en fonction de 4 features ( longueur du pétale etc...)
- 3 familles différentes distribuées de maniere égale


In [None]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris

iris = load_iris()
X_train = iris.data
y_train = iris.target

In [None]:
# K-fold
from sklearn.model_selection import KFold

cv = KFold(5, random_state=0)

cross_val_score(KNeighborsClassifier(), X_train, y_train, cv=cv)

In [None]:
# Leave one out

from sklearn.model_selection import LeaveOneOut

cv = LeaveOneOut()
cross_val_score(KNeighborsClassifier(), X_train, y_train, cv=cv)

In [None]:
# Shuffle split

from sklearn.model_selection import ShuffleSplit

cv = ShuffleSplit(4, test_size=0.2)
cross_val_score(KNeighborsClassifier(), X_train, y_train, cv=cv)

In [None]:
# Stratified K-Folds

from sklearn.model_selection import StratifiedKFold

cv = StratifiedKFold(4)
cross_val_score(KNeighborsClassifier(), X_train, y_train, cv=cv)