## Cross Validation

La validation croisée est une technique d'apprentissage automatique utilisée pour évaluer les performances d'un modèle en le formant sur une partie des données disponibles et en le testant sur une autre partie. C'est un moyen de valider les performances du modèle en utilisant plusieurs "plis" de données de formation et de test, plutôt qu'un seul ensemble de formation et de test.

Il existe plusieurs types de techniques de validation croisée, notamment :

 - La validation croisée K-fold : Il s'agit de la technique la plus couramment utilisée, où les données sont divisées en k plis de taille égale. Le modèle est entraîné sur k-1 plis et testé sur le pli restant, et ce processus est répété k fois, un pli différent étant utilisé comme ensemble de test à chaque fois. La moyenne de la mesure de performance est ensuite calculée sur l'ensemble des k itérations.
 
 - Validation croisée k-fold stratifiée : Cette technique est similaire à la validation croisée k-fold, mais elle garantit que la distribution des classes des données est préservée à travers chaque pli. Cette technique est utile lorsque la distribution des classes est déséquilibrée, car elle permet d'éviter les biais dans l'évaluation du modèle.
 
 - Validation croisée leave-p-out : Cette technique est similaire à la validation croisée k-fold, mais elle vous permet de spécifier le nombre d'échantillons à laisser de côté comme ensemble de test à chaque itération.

 - Validation croisée avec exclusion : Il s'agit d'un cas particulier de la validation croisée leave-p-out, où p est fixé à 1. Cela signifie qu'à chaque itération, un seul échantillon est laissé de côté comme ensemble de test, et le modèle est entraîné sur les échantillons restants.
 

La validation croisée est une étape importante du processus d'apprentissage automatique, car elle permet d'éviter le surajustement et fournit une estimation plus précise des performances du modèle sur des données non vues. Elle est généralement utilisée en conjonction avec l'optimisation des hyperparamètres, car elle vous permet de régler les hyperparamètres de votre modèle et de sélectionner la meilleure combinaison d'hyperparamètres en fonction des performances du modèle sur les données de validation.

### Example 

In [36]:
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris 

# Load the data
iris = load_iris() 
X, y = iris.data, iris.target 

# Create the model
model = LogisticRegression()

# Create the k-fold cross-validator
kfold = KFold(n_splits=5, shuffle=True, random_state=42)

# Initialize a list to store the accuracy scores
accuracy_scores = []

# Iterate over the folds
for train_index, test_index in kfold.split(X):
    # Split the data into training and testing sets
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

    # Fit the model on the training data
    model.fit(X_train, y_train)

    # Make predictions on the testing data
    y_pred = model.predict(X_test)

    # Calculate the accuracy score
    accuracy = accuracy_score(y_test, y_pred)

    # Add the accuracy score to the list
    accuracy_scores.append(accuracy)

# Calculate the mean accuracy score
mean_accuracy = np.mean(accuracy_scores)
print(f"Mean accuracy: {mean_accuracy:.2f}")


Mean accuracy: 0.97


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


## Principal Component Analysis

L'analyse en composantes principales, ou ACP, est une technique statistique permettant de convertir des données de haute dimension en données de basse dimension en sélectionnant les caractéristiques les plus importantes qui capturent le maximum d'informations sur l'ensemble de données. Les caractéristiques sont sélectionnées sur la base de la variance qu'elles provoquent dans le résultat. La caractéristique qui cause la plus grande variance est la première composante principale. La caractéristique qui est responsable de la deuxième plus grande variance est considérée comme la deuxième composante principale, et ainsi de suite. Il est important de mentionner que les composantes principales n'ont aucune corrélation entre elles.

### Avantages de l'ACP

La réduction de la dimensionnalité avec l'ACP présente deux avantages principaux.

 - Le temps d'apprentissage des algorithmes est considérablement réduit avec un nombre réduit de caractéristiques.
 
 - Il n'est pas toujours possible d'analyser des données en haute dimension. Par exemple, s'il y a 100 caractéristiques dans un ensemble de données. Le nombre total de diagrammes de dispersion nécessaires pour visualiser les données serait de 100(100-1)2 = 4950. En pratique, il n'est pas possible d'analyser les données de cette manière.

### Normalisation des variables

Il est impératif de mentionner qu'un ensemble de variables doit être normalisé avant d'appliquer l'ACP. Par exemple, si un ensemble de caractéristiques contient des données exprimées en unités de kilogrammes, d'années-lumière ou de millions, l'échelle de variance est énorme dans l'ensemble d'apprentissage. Si l'ACP est appliquée à un tel ensemble de caractéristiques, les charges résultantes pour les caractéristiques à forte variance seront également importantes. Par conséquent, les composantes principales seront biaisées en faveur des caractéristiques à forte variance, ce qui entraînera des résultats erronés.

Enfin, le dernier point à retenir avant de commencer le codage est que l'ACP est une technique statistique et ne peut être appliquée qu'à des données numériques. Par conséquent, les caractéristiques catégorielles doivent être converties en caractéristiques numériques avant de pouvoir appliquer l'ACP.

### Mise en œuvre de l'ACP avec Scikit-Learn

Dans cette section, nous allons mettre en œuvre l'ACP à l'aide de la bibliothèque Scikit-Learn de Python. Nous suivrons le pipeline classique de l'apprentissage automatique : nous commencerons par importer des bibliothèques et des ensembles de données, nous effectuerons une analyse exploratoire des données et un prétraitement, et enfin nous entraînerons nos modèles, nous ferons des prédictions et nous évaluerons la précision. La seule étape supplémentaire consistera à effectuer une ACP pour déterminer le nombre optimal de caractéristiques avant de former nos modèles.

In [2]:
import numpy as np
import pandas as pd

In [3]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']
dataset = pd.read_csv(url, names=names)

In [4]:
dataset.head()


Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


### Preprocessing

In [21]:
X = dataset.drop('Class', 1)
y = dataset['Class']

  X = dataset.drop('Class', 1)


In [24]:
# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)


In [27]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

### Applying PCA

Il suffit de trois lignes de code pour effectuer une ACP à l'aide de la bibliothèque Scikit-Learn de Python. La classe PCA est utilisée à cet effet. L'ACP dépend uniquement de l'ensemble des variables et non des données d'étiquetage. Par conséquent, l'ACP peut être considérée comme une technique d'apprentissage automatique non supervisée.


La réalisation de l'ACP à l'aide de Scikit-Learn est un processus en deux étapes :

 - Initialiser la classe PCA en passant le nombre de composants au constructeur
 
 - Appelez les méthodes *fit* puis transform en leur transmettant l'ensemble des variables. La méthode *transform* renvoie le nombre spécifié de composantes principales.
 
 

In [8]:
from sklearn.decomposition import PCA

pca = PCA()
X_train = pca.fit_transform(X_train)
X_test = pca.transform(X_test)

La classe PCA contient *explained_variance_ratio_* qui renvoie la variance causée par chacune des composantes principales. 

In [10]:
explained_variance = pca.explained_variance_ratio_
explained_variance

array([0.72226528, 0.23974795, 0.03338117, 0.0046056 ])

On peut voir que la première composante principale est responsable de 72,22% de la variance. De même, la deuxième composante principale est responsable de 23,9 % de la variance de l'ensemble de données. Collectivement, nous pouvons dire que (72,22 + 23,9) 96,21% de l'information de classification contenue dans l'ensemble de caractéristiques est capturée par les deux premières composantes principales.

In [11]:
from sklearn.decomposition import PCA

pca = PCA(n_components=1)
X_train = pca.fit_transform(X_train)
X_test = pca.transform(X_test)

### Training and Making Predictions

In [12]:
from sklearn.ensemble import RandomForestClassifier

classifier = RandomForestClassifier(max_depth=2, random_state=0)
classifier.fit(X_train, y_train)

# Predicting the Test set results
y_pred = classifier.predict(X_test)

### Performance Evaluation

In [14]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

cm = confusion_matrix(y_test, y_pred)
print(cm)
print('Accuracy  :',  accuracy_score(y_test, y_pred))

[[11  0  0]
 [ 0 12  1]
 [ 0  1  5]]
Accuracy  : 0.9333333333333333


### Results with 2 and 3 Principal Components


In [31]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2, svd_solver='full')
X_train = pca.fit_transform(X_train)
X_test = pca.transform(X_test)

In [34]:
classifier = RandomForestClassifier(max_depth=2, random_state=0)
classifier.fit(X_train, y_train)

# Predicting the Test set results
y_pred = classifier.predict(X_test)

In [35]:
cm = confusion_matrix(y_test, y_pred)
print(cm)
print('Accuracy :',  accuracy_score(y_test, y_pred))

[[11  0  0]
 [ 0  9  4]
 [ 0  2  4]]
Accuracy : 0.8


In [None]:
## For 3 composantes, faites le en exercice (creer une fonction)