**Phase 1 : Veille et exploration théorique**

Validation croisée (cross-validation)

**1. Concepts de base**

*Qu’est-ce que la validation croisée et pourquoi est-elle importante ?*

La validation croisée est une technique utilisée pour évaluer la performance d’un modèle en le testant sur plusieurs sous-ensembles de données. Elle permet de mieux généraliser les résultats en comparant les performances sur des données non vues et réduit le risque de surapprentissage ou de sous-apprentissage.

*Différence entre validation simple (train/test split) et validation croisée :*

 - Validation simple : Divise les données en deux ensembles (entraînement et test). Cela peut mener à des biais si l'échantillon est petit ou non représentatif.
 - Validation croisée : Divise les données en plusieurs sous-ensembles (ou folds), entraîne le modèle sur certains et le teste sur d’autres, pour obtenir une évaluation plus robuste.

**2. Types de validation croisée**

*Différences entre les techniques :*

 - k-fold cross-validation : Divise les données en k sous-ensembles égaux. Chaque sous-ensemble sert une fois de test, et les autres de train.
 - Leave-One-Out Cross-Validation (LOOCV) : Cas particulier de k-fold où k est égal à la taille des données. Chaque observation est tour à tour utilisée comme ensemble de test.
 - Stratified k-fold cross-validation : Variante du k-fold qui maintient la proportion des classes dans chaque pli, utile pour les ensembles déséquilibrés.
 - Quand utiliser stratified k-fold ? Lorsque les classes sont déséquilibrées, le stratified k-fold assure une meilleure représentativité des classes dans chaque pli.

**3. Applications et limites**

*Avantages et inconvénients pour les données déséquilibrées :*
 - Avantages : Assure que toutes les classes sont bien représentées dans les données d’entraînement et de test.
 - Inconvénients : Peut devenir coûteux en temps de calcul sur de grands ensembles de données.

*Comment la validation croisée évite le surapprentissage ?*
En testant le modèle sur plusieurs sous-ensembles non vus, elle détecte si un modèle est trop spécifique aux données d’entraînement.

**4. Métriques et résultats**

Score moyen lors d’une validation croisée : Il représente la performance moyenne du modèle sur tous les plis, donnant une évaluation générale de ses capacités de généralisation.

**Interprétation de la variance des scores entre les plis :**

 - Faible variance : Le modèle est robuste et généralise bien.
 - Forte variance : Les performances varient beaucoup selon les sous-ensembles, indiquant une possible instabilité du modèle ou une mauvaise représentativité des données.

**Optimisation des hyperparamètres (GridSearchCV et RandomizedSearchCV)**

**1. Concepts de base**

*Différence entre paramètres et hyperparamètres :*

 - Paramètres : Déterminés par l’apprentissage, comme les poids dans une régression linéaire.
 - Hyperparamètres : Définis avant l’entraînement, comme le taux d’apprentissage ou la profondeur d’un arbre de décision.

*Pourquoi les hyperparamètres nécessitent-ils une optimisation séparée ?*
Ils ne sont pas appris directement, mais influencent le processus d’apprentissage et doivent être ajustés pour maximiser la performance du modèle.

**2. Approches d’optimisation**

Fonctionnement de GridSearchCV : Explore toutes les combinaisons possibles d’hyperparamètres dans un espace défini.
 - Avantages : Explore exhaustivement toutes les options.
 - Inconvénients : Coûteux en temps et en calcul.

Différences avec RandomizedSearchCV : RandomizedSearchCV échantillonne un nombre défini de combinaisons aléatoires.
 - Avantages : Plus rapide pour les espaces de recherche larges.
 - Cas préférés : Lorsque le coût computationnel est élevé ou si certaines dimensions de l’espace sont moins critiques.

*Facteurs influençant le choix de la méthode :*
 - Taille des données.
 - Complexité du modèle.
 - Ressources computationnelles disponibles.

**3. Configuration et choix**

Paramètre cv dans GridSearchCV : Définit le type de validation croisée (par exemple, k-fold). Il est critique pour garantir une évaluation robuste.

Choix des hyperparamètres et plages de valeurs : 
Basé sur :
 - La connaissance du modèle (ex. : C dans une SVM pour régularisation).
 - Des tests exploratoires pour limiter les plages.

**4. Problèmes courants**

*Risques d’une mauvaise configuration dans GridSearchCV :*
 - Sur-apprentissage si le même ensemble est utilisé pour la sélection d’hyperparamètres et l’évaluation finale.
 - Temps de calcul excessif avec trop de combinaisons.

*Data leakage :*
 - Définition : Informations des données de test influencent les données d’entraînement.
 - Prévention : Appliquer la validation croisée de manière rigoureuse sans utiliser les données de test pour ajuster les hyperparamètres.

**5. Métriques et performance**

Évaluation des modèles optimisés : Utiliser des données de test séparées pour évaluer la performance après optimisation.
Choix de métriques spécifiques :
 - Accuracy : Pour les données équilibrées.
 - F1-score : Pour les ensembles déséquilibrés, car il équilibre précision et rappel.