# Méthodes d'Ensemble en Machine Learning 

---

Lien vers l'audio : https://audio-records-dsfs.s3.eu-west-3.amazonaws.com/SupervisedML/M06D06_DataScience.m4a

## Introduction aux méthodes ensemblistes

Les méthodes d'ensemble constituent une approche puissante pour améliorer la précision et la robustesse des prédictions en machine learning. Plutôt que de s'appuyer sur un seul modèle, elles combinent plusieurs algorithmes pour capitaliser sur la diversité et réduire la variance, tout en gardant un biais maîtrisé. Ce principe s'appuie sur la sagesse collective, reflet des modèles simples et avancés explorés dans les modules précédents.

---

## Comprendre le surapprentissage des arbres de décision

Un arbre de décision complexe peut mémoriser les données d'entraînement, ce qui se traduit par une forte variance et une faible généralisation. Pour limiter ce surapprentissage, plusieurs hyperparamètres clés sont utilisés :  
- **max_depth** : Limite la profondeur de l'arbre  
- **min_samples_leaf** : Échantillons minimaux par feuille  
- **min_samples_split** : Échantillons minimaux pour effectuer une division

---

## Bagging et Bootstrap Aggregating

Le bootstrap consiste à générer plusieurs sous-échantillons d'un dataset par tirage aléatoire avec remise.

### Processus :
1. Sélection aléatoire avec remise
2. Taille des sous-datasets identique à l'original
3. Création de bootstrap datasets

**Formule de variance réduite par bagging** :
$$
\text{Var}(\bar{X}) = \frac{\text{Var}(X)}{N}
$$

Le bagging (Bootstrap Aggregating) combine ces sous-échantillonnages pour entraîner plusieurs modèles similaires (par exemple, des arbres de décision) dont les prédictions sont ensuite agrégées par vote majoritaire (classification) ou moyenne (régression).

---

## Random Forest : Extension du Bagging

Les Random Forests ajoutent au bagging une sélection aléatoire des variables à chaque division de nœud, accroissant la diversité des modèles.

### Paramètres :
- **n_estimators** : Nombre d'arbres
- Même hyperparamètres que les arbres individuels

---

## AdaBoost : Apprentissage Adaptatif Séquentiel

L'algorithme AdaBoost convertit les labels en {-1, +1} et attribue à chaque observation un poids initial uniforme. À chaque itération, le modèle apprend de nouvelles erreurs pondérées et ajuste les poids pour se focaliser sur les cas difficiles.

### Erreur pondérée :
$$
\epsilon_t = \sum_{i=1}^{n} D_t(i) \cdot \mathbf{1}[h_t(x_i) \neq y_i]
$$

### Poids du modèle :
$$
\alpha_t = \frac{1}{2} \ln\left(\frac{1-\epsilon_t}{\epsilon_t}\right)
$$

### Mise à jour des poids d'observations :
$$
D_{t+1}(i) = \frac{D_t(i) \cdot \exp(-\alpha_t \cdot y_i \cdot h_t(x_i))}{Z_t}
$$

### Prédiction finale de l'ensemble :
$$
H(x) = \text{sign}\left(\sum_{t=1}^{T} \alpha_t \cdot h_t(x)\right)
$$

---

## Gradient Boosting et XGBoost

Contrairement à AdaBoost qui pondère les observations, le Gradient Boosting entraîne chaque nouveau modèle à prédire les erreurs (résidus) du modèle précédent. Cette approche utilise la descente de gradient pour minimiser une fonction de perte.

### Formulation mathématique :
$$
F_0(x) = \arg\min_c \sum_{i=1}^n L(y_i, c)
$$

À chaque itération $m$, le modèle de base prédit les pseudo-résidus :
$$
r_{i,m} = -\frac{\partial L(y_i, F_{m-1}(x_i))}{\partial F_{m-1}(x_i)}
$$

Le nouveau prédicteur $h_m$ est ajusté sur ces résidus, puis :
$$
F_{m}(x) = F_{m-1}(x) + \nu h_m(x)
$$
où $\nu$ est le learning rate.

---

## Voting Classifier : Démocratie des Modèles

Plusieurs modèles différents votent pour chaque prédiction, et la classe majoritaire l'emporte. Contrairement au Random Forest qui repose sur le même type de base learner, le voting permet de combiner des algorithmes hétérogènes.

### Formules de Voting :

**Hard Voting :**
$$
\hat{y} = \text{mode}\{h_1(x), h_2(x), ..., h_k(x)\}
$$

**Soft Voting :**
$$
\hat{y} = \arg\max_c \left[\frac{1}{k}\sum_{i=1}^k p_{i,c}(x)\right]
$$

**Weighted Voting :**
$$
\hat{y} = \arg\max_c \left[\sum_{i=1}^k w_i \cdot p_{i,c}(x)\right]
$$

---

## Stacking : Méta-apprentissage Hiérarchique

En stacking, les prédictions des modèles de niveau 0 deviennent les nouvelles features d'entrée pour un méta-modèle de niveau 1 qui apprend à combiner ces résultats.

**Processus :**
1. Les modèles de base sont entraînés sur les données originales
2. Leurs prédictions sont utilisées en tant que nouvelles features
3. Le méta-modèle apprend sur ce nouvel espace pour optimiser la prédiction finale

---

## Applications pratiques et conseils d'optimisation

- Chaque ensemble doit être adapté au problème : robustesse (Random Forest), performance maximale (XGBoost), efficacité computationnelle (AdaBoost), interprétabilité (Voting)
- Sur classes déséquilibrées, privilégier le F1-score et pondérer les classes
- Validation croisée imbriquée recommandée pour éviter le surapprentissage lors de l'optimisation des hyperparamètres
- Sauvegarder les résultats pour suivis en production, via fichiers CSV et processus reproductibles

---

## Bonnes pratiques et perspectives stratégiques

- Comparer la performance de chaque ensemble par rapport à une baseline simple
- Favoriser la diversité des modèles pour maximiser la robustesse
- Documenter et analyser systématiquement l'impact des hyperparamètres
- S'assurer que la structure des ensembles est cohérente avec l'approche
