# Importation des packages et chargement des données

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import (train_test_split, KFold, StratifiedKFold, 
                                     LeaveOneOut, LeavePOut,
                                     cross_val_score)

In [3]:
# Chargement du jeu de données Iris
iris = load_iris()
X, y = iris.data, iris.target


# Création du modèle

In [4]:

# Création du modèle
model = LogisticRegression(solver='liblinear', multi_class='ovr')


# Technique Validation Hold Out/ Train Test Split

## Avantages et inconvénients de la validation hold-out

La validation hold-out est une méthode simple et courante pour évaluer les performances d'un modèle d'apprentissage automatique. Elle consiste à diviser le jeu de données en un ensemble d'entraînement et un ensemble de test. L'ensemble d'entraînement est utilisé pour entraîner le modèle, tandis que l'ensemble de test est utilisé pour évaluer les performances du modèle.

Voici les avantages et les inconvénients de cette méthode :

### Avantages :

- La validation hold-out est simple et rapide à mettre en œuvre.
- Elle permet d'évaluer les performances du modèle sur des données qui n'ont pas été utilisées pour l'entraînement.
- Elle est utile lorsque le jeu de données est suffisamment grand pour être divisé en un ensemble d'entraînement et un ensemble de test représentatifs.

### Inconvénients :

- La division du jeu de données en deux ensembles peut entraîner une perte de précision et de généralité dans les performances du modèle.
- Si l'ensemble de test est trop petit, les performances du modèle peuvent être surévaluées ou sous-estimées.
- Si la division est mal effectuée, elle peut conduire à des biais de sélection et affecter les performances du modèle.

In [5]:
# Technique 1 : Train/Test Split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model.fit(X_train, y_train)
score_split = model.score(X_test, y_test)
print(f"Score avec Train/Test Split: {score_split}")

Score avec Train/Test Split: 1.0


# Validation KFold

## Avantages et inconvénients de la validation croisée K-fold

La validation croisée K-fold est une méthode d'évaluation de modèle plus avancée que la validation hold-out. Elle consiste à diviser le jeu de données en K sous-ensembles (ou "folds") de taille égale (ou presque), puis à entraîner et évaluer le modèle K fois. À chaque fois, un sous-ensemble différent est utilisé pour l'évaluation, tandis que les K-1 autres sont utilisés pour l'entraînement.

Voici les avantages et les inconvénients de cette méthode :

### Avantages :

- La validation croisée K-fold est plus robuste et plus précise que la validation hold-out, car elle utilise l'ensemble de données dans son intégralité pour l'entraînement et l'évaluation du modèle.
- Elle permet d'obtenir une estimation plus fiable de la performance du modèle en moyenne, ainsi que de la variance de cette performance.
- Elle est utile lorsque le jeu de données est petit ou lorsque l'on souhaite maximiser l'utilisation de toutes les données disponibles pour l'entraînement et l'évaluation.

### Inconvénients :

- La validation croisée K-fold est plus complexe et plus coûteuse en temps de calcul que la validation hold-out, car elle nécessite K entraînements et évaluations du modèle.
- Elle peut être moins efficace lorsque le jeu de données est très grand, car les temps de calcul peuvent devenir prohibitifs.
- Si les folds ne sont pas choisis de manière représentative ou s'ils sont trop petits, cela peut affecter les performances du modèle et introduire des biais de sélection.

In [6]:

# Technique 2 : K-Fold Cross Validation
kfold = KFold(n_splits=5, shuffle=True, random_state=42)
scores_kfold = cross_val_score(model, X, y, cv=kfold)
print(f"Scores avec K-Fold Cross Validation: {scores_kfold}")
print(f"Moyenne des scores K-Fold: {np.mean(scores_kfold)}")

Scores avec K-Fold Cross Validation: [1.         0.93333333 0.93333333 0.96666667 0.96666667]
Moyenne des scores K-Fold: 0.96


# Stratified KFold

## Avantages et inconvénients de la validation croisée stratifiée K-fold

La validation croisée stratifiée K-fold est une variante de la validation croisée K-fold qui vise à préserver la répartition des classes dans les différents folds. Elle est particulièrement utile lorsque l'on travaille avec des données déséquilibrées, c'est-à-dire lorsque certaines classes sont sous-représentées.

Voici les avantages et les inconvénients de cette méthode :

### Avantages :

- La validation croisée stratifiée K-fold est plus robuste que la validation croisée K-fold pour les jeux de données déséquilibrés, car elle préserve la répartition des classes dans les différents folds.
- Elle permet d'obtenir une estimation plus fiable de la performance du modèle pour chaque classe individuellement, ainsi que pour l'ensemble du jeu de données.
- Elle est utile lorsque l'on travaille avec des données déséquilibrées ou lorsque l'on souhaite maximiser l'utilisation de toutes les données disponibles pour l'entraînement et l'évaluation.

### Inconvénients :

- La validation croisée stratifiée K-fold est plus complexe et plus coûteuse en temps de calcul que la validation croisée K-fold, car elle nécessite de préserver la répartition des classes dans les différents folds.
- Elle peut être moins efficace lorsque les données sont très déséquilibrées, car cela peut conduire à des folds de taille trop petite pour certaines classes, ce qui peut affecter les performances du modèle.
- Si la stratification n'est pas effectuée correctement, cela peut conduire à des biais de sélection et affecter les performances du modèle.

In [7]:
stratified_kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
scores_stratified_kfold = cross_val_score(model, X, y, cv=stratified_kfold)
print(f"Scores avec Stratified K-Fold Cross Validation: {scores_stratified_kfold}")
print(f"Moyenne des scores Stratified K-Fold: {np.mean(scores_stratified_kfold)}")

Scores avec Stratified K-Fold Cross Validation: [0.96666667 1.         0.9        0.93333333 1.        ]
Moyenne des scores Stratified K-Fold: 0.96


# Stratified Train/Test Split

## Avantages et inconvénients de la validation croisée stratifiée train-test split

La validation croisée stratifiée train-test split est une méthode d'évaluation de modèle qui consiste à diviser le jeu de données en un ensemble d'entraînement et un ensemble de test, tout en préservant la répartition des classes dans les deux ensembles. Elle est similaire à la validation hold-out, mais elle vise à éviter les biais de sélection liés à la répartition des classes.

Voici les avantages et les inconvénients de cette méthode :

### Avantages :

- La validation croisée stratifiée train-test split est simple et rapide à mettre en œuvre, comme la validation hold-out.
- Elle permet d'évaluer les performances du modèle sur des données qui n'ont pas été utilisées pour l'entraînement, tout en préservant la répartition des classes.
- Elle est utile lorsque le jeu de données est suffisamment grand pour être divisé en un ensemble d'entraînement et un ensemble de test représentatifs.

### Inconvénients :

- La validation croisée stratifiée train-test split peut être moins robuste que la validation croisée K-fold ou la validation leave-one-out pour les jeux de données très petits ou très déséquilibrés.
- Si l'ensemble de test est trop petit, les performances du modèle peuvent être surévaluées ou sous-estimées.
- Si la stratification n'est pas effectuée correctement, cela peut conduire à des biais de sélection et affecter les performances du modèle.


# Leave One Out

## Avantages et inconvénients de la validation leave-one-out

La validation leave-one-out est une méthode d'évaluation de modèle qui consiste à diviser le jeu de données en K sous-ensembles, chacun étant constitué d'un seul exemple (ou "leave-one-out"), puis à entraîner et évaluer le modèle K fois. À chaque fois, un seul exemple est utilisé pour l'évaluation, tandis que les K-1 autres sont utilisés pour l'entraînement.

Voici les avantages et les inconvénients de cette méthode :

### Avantages :

- La validation leave-one-out est la méthode d'évaluation la plus précise que l'on puisse utiliser, car elle utilise toutes les données disponibles pour l'entraînement et l'évaluation.
- Elle permet d'obtenir une estimation très fiable de la performance du modèle, car elle ne sous-évalue jamais cette performance.
- Elle est particulièrement utile lorsque l'on travaille avec des jeux de données très petits.

### Inconvénients :

- La validation leave-one-out est très coûteuse en temps de calcul, car elle nécessite K entraînements et évaluations du modèle.
- Elle peut être moins efficace lorsque le jeu de données est très grand, car les temps de calcul peuvent devenir prohibitifs.
- Elle peut être sensible aux données aberrantes (outliers), car elle entraîne et évalue le modèle pour chaque exemple individuellement, ce qui peut conduire à des résultats instables.


In [8]:
loo = LeaveOneOut()
scores_loo = cross_val_score(model, X, y, cv=loo)
print(f"Scores avec Leave-One-Out Cross Validation: {scores_loo}")
print(f"Moyenne des scores Leave-One-Out: {np.mean(scores_loo)}")

Scores avec Leave-One-Out Cross Validation: [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 0. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1.]
Moyenne des scores Leave-One-Out: 0.9533333333333334


# Leave P Out

## Avantages et inconvénients de la validation leave-p-out

La validation leave-p-out est une méthode d'évaluation de modèle qui consiste à diviser le jeu de données en K sous-ensembles, chacun étant constitué de p exemples, puis à entraîner et évaluer le modèle K fois. À chaque fois, p exemples sont utilisés pour l'évaluation, tandis que les K-p autres sont utilisés pour l'entraînement.

Voici les avantages et les inconvénients de cette méthode :

### Avantages :

- La validation leave-p-out est plus précise que la validation croisée K-fold pour les jeux de données de petite ou moyenne taille, car elle utilise plus d'exemples pour l'entraînement et l'évaluation.
- Elle permet d'obtenir une estimation plus fiable de la performance du modèle que la validation hold-out, car elle utilise plus d'exemples pour l'évaluation.
- Elle est particulièrement utile lorsque l'on travaille avec des jeux de données de petite ou moyenne taille.

### Inconvénients :

- La validation leave-p-out est coûteuse en temps de calcul, car elle nécessite K entraînements et évaluations du modèle.
- Elle peut être moins efficace que la validation croisée K-fold pour les jeux de données très grands, car les temps de calcul peuvent devenir prohibitifs.
- Elle peut être sensible aux données aberrantes (outliers), car elle entraîne et évalue le modèle pour chaque sous-ensemble individuellement, ce qui peut conduire à des résultats instables.


In [9]:

# Technique 5 : Leave-P-Out Cross Validation (avec P=2)
lpo = LeavePOut(p=2)
scores_lpo = cross_val_score(model, X[:30], y[:30], cv=lpo)  # Limitez à 30 échantillons pour réduire le temps de calcul
print(f"Scores avec Leave-P-Out Cross Validation: {scores_lpo}")
print(f"Moyenne des scores Leave-P-Out: {np.mean(scores_lpo)}")


Scores avec Leave-P-Out Cross Validation: [nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan 

435 fits failed out of a total of 435.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
435 fits failed with the following error:
Traceback (most recent call last):
  File "/Users/natachanjongwayepnga/opt/anaconda3/lib/python3.9/site-packages/sklearn/model_selection/_validation.py", line 680, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/Users/natachanjongwayepnga/opt/anaconda3/lib/python3.9/site-packages/sklearn/linear_model/_logistic.py", line 1528, in fit
    self.coef_, self.intercept_, n_iter_ = _fit_liblinear(
  File "/Users/natachanjongwayepnga/opt/anaconda3/lib/python3.9/site-packages/sklearn/svm/_base.py", line 1143, in _fit_liblinear
    raise ValueError(
ValueError: This solver needs samples of at