# Classification Avancée et Optimisation des Modèles d'Arbres
---

Lien vers l'audio : https://audio-records-dsfs.s3.eu-west-3.amazonaws.com/SupervisedML/M06D05_DataScience.m4a

## Introduction : Vers une classification robuste et explicable
---

Ce module synthétise trois piliers essentiels de la classification avancée en machine learning : le **compromis biais-variance** qui gouverne la capacité de généralisation, l'**évaluation fine** via des métriques adaptées aux contraintes métier, et l'**optimisation des modèles d'arbres** pour allier performance et interprétabilité.

Ces concepts forment l'architecture conceptuelle de tout projet de classification performant, particulièrement dans des contextes où les données sont déséquilibrées, les coûts d'erreur asymétriques, ou l'explicabilité réglementairement requise.

## Le compromis biais-variance : Fondement théorique de la généralisation
---

### Définition et décomposition de l'erreur

Le **compromis biais-variance** constitue le principe fondamental régissant la performance des modèles d'apprentissage automatique. L'erreur totale d'un modèle se décompose en :

$$
\text{Erreur totale} = \text{Biais}^2 + \text{Variance} + \text{Bruit irréductible}
$$

**Le biais** mesure l'erreur systématique due aux hypothèses simplificatrices du modèle, menant au **sous-apprentissage (underfitting)**.

**La variance** quantifie la sensibilité du modèle aux variations des données d'entraînement, pouvant causer un **surapprentissage (overfitting)**.

### Analogie de l'archer

**Archer à fort biais :** Tire consistamment au même endroit, loin du centre. Ses tirs sont **cohérents mais imprécis** (sous-apprentissage).

**Archer à forte variance :** Ses tirs se dispersent largement sur la cible sans cohérence. **Manque de stabilité** (surapprentissage).

**Archer optimal :** Combine faible biais et faible variance pour atteindre régulièrement le centre avec précision et constance.

### Profils algorithmiques biais-variance

| Algorithme | Biais | Variance | Caractéristiques |
|------------|--------|----------|------------------|
| **Régression linéaire** | Élevé | Faible | Simple, stable, peut sous-ajuster |
| **Arbres de décision** | Faible | Élevée | Flexibles, instables, sur-ajustent |
| **Random Forest** | Faible | Réduite | Équilibre via agrégation |
| **SVM linéaire** | Élevé | Faible | Robuste, peut manquer complexité |
| **k-NN (k faible)** | Faible | Élevée | Très flexible, sensible au bruit |

**Exemple concret :** En détection de fraude bancaire, un modèle linéaire simple (fort biais) pourrait manquer les patterns sophistiqués de fraude, tandis qu'un arbre très profond (forte variance) risque de mémoriser des anomalies non-représentatives.

## Métriques d'évaluation avancées : Au-delà de l'accuracy
---

### Limites critiques de l'accuracy

L'accuracy peut être **trompeuse en contexte déséquilibré**. Avec 99% de transactions légitimes et 1% frauduleuses, un modèle prédisant systématiquement "légitime" atteint 99% d'accuracy **sans détecter aucune fraude**.

### Métriques fondamentales revisitées

**Accuracy (exactitude globale) :**
$$
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
$$

**Precision (précision) - Minimise les FP :**
$$
\text{Precision} = \frac{TP}{TP + FP}
$$

**Recall (rappel) - Minimise les FN :**
$$
\text{Recall} = \frac{TP}{TP + FN}
$$

**F1-Score (moyenne harmonique) :**
$$
\text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
$$

### Stratégie de sélection contextuelle

**Médecine (diagnostic cancer) :** Privilégier le **recall** pour ne manquer aucun cas positif (minimiser FN)

**Filtrage spam :** Favoriser la **precision** pour éviter de bloquer des emails importants (minimiser FP)

**E-commerce (recommandations) :** Équilibrer avec le **F1-score** pour optimiser satisfaction client

**Systèmes critiques :** Utiliser des **métriques coût-sensibles** reflétant l'impact business réel

## Optimisation du seuil de décision : Réglage fin des performances
---

### Au-delà du seuil par défaut 0.5

La plupart des modèles utilisent un **seuil de 0.5 par défaut**, souvent inadapté aux données déséquilibrées ou aux contraintes métier. L'optimisation du seuil constitue une stratégie puissante **sans ré-entraînement**.

**Principe :** Ajuster le point de décision pour transformer les probabilités en prédictions binaires selon les priorités métier.

### Impact du seuil sur les métriques

**Seuil élevé (ex: 0.8) :** Le modèle devient plus "exigeant"
- ↗️ **Precision** (moins de faux positifs)
- ↘️ **Recall** (plus de faux négatifs)

**Seuil faible (ex: 0.2) :** Le modèle devient plus "sensible"
- ↘️ **Precision** (plus de faux positifs)
- ↗️ **Recall** (moins de faux négatifs)

### Techniques d'optimisation automatisée

**GHOST (Generic Hyperparameter Optimization for Stochastic Thresholding) :** Méthode automatisant l'optimisation du seuil pour différents classifieurs, souvent plus efficace que les techniques de rééchantillonnage traditionnelles sur données déséquilibrées.

**Validation par courbe PR :** La courbe Precision-Recall guide le choix optimal du seuil selon les priorités métier.

## Arbres de décision : Transparence et performance
---

### Principe de construction et pureté

Les arbres de décision construisent des **règles séquentielles** pour maximiser la "pureté" des sous-groupes formés à chaque division. Le processus itératif sélectionne la variable et le seuil optimisant un critère de pureté.

### Score de Gini : mesure d'impureté

Le **score de Gini** quantifie l'hétérogénéité d'un nœud :

$$
\text{Gini} = 1 - \sum_{i=1}^{k} p_i^2
$$

où $p_i$ représente la proportion de la classe $i$ dans le nœud.

**Interprétation :**
- **Gini = 0** : nœud parfaitement pur (une seule classe)
- **Gini = 0.5** : impureté maximale (distribution uniforme binaire)

**Exemple de calcul :** Un nœud contenant 60% de classe A et 40% de classe B :
$$
\text{Gini} = 1 - (0.6^2 + 0.4^2) = 1 - (0.36 + 0.16) = 0.48
$$

### Gain d'information et sélection des splits

Le **gain de Gini** mesure l'amélioration apportée par une division :

$$
\text{Gain} = \text{Gini}_{parent} - \sum_{j} \frac{n_j}{n} \times \text{Gini}_{enfant_j}
$$

L'algorithme sélectionne la division maximisant ce gain.

### Interprétabilité et règles de décision

Les arbres permettent une **interprétation naturelle** sous forme de règles "SI-ALORS" :

- "SI âge < 30 ET revenu > 50k€ ALORS risque_crédit = faible"
- "SI historique_paiement = 'mauvais' ALORS risque_crédit = élevé"

Cette **transparence décisionnelle** est cruciale pour les domaines réglementés (finance, médecine, justice) nécessitant une explicabilité complète.

## Random Forest : Puissance collective et robustesse
---

### Principe du bagging et diversité

Les **Random Forests** agrègent de multiples arbres entraînés sur des sous-ensembles différents des données (**bootstrapping**) avec sélection aléatoire des variables à chaque division.

**Mécanisme de réduction de variance :**
$$
\text{Var}(\bar{X}) = \frac{\text{Var}(X)}{n} \text{ (si arbres indépendants)}
$$

En pratique, la corrélation entre arbres limite cette réduction, d'où l'importance de la diversification.

### Analogie du panel d'experts

Plutôt que consulter un seul expert (arbre unique) susceptible d'erreurs individuelles, on consulte un **panel de spécialistes** (forêt) pour une décision plus robuste et moins sujette aux biais particuliers.

### Stratégies anti-surapprentissage

Les Random Forests combattent l'overfitting par plusieurs mécanismes synergiques :

**Diversité des modèles :** Chaque arbre observe des données différentes (bootstrap)

**Sélection aléatoire des features :** Évite la dominance des variables les plus prédictives

**Contrôle de la profondeur :** Limite la complexité individuelle des arbres

**Agrégation :** Lisse les prédictions extrêmes par vote majoritaire (classification) ou moyenne (régression)

## Importance des variables : Décryptage des facteurs clés
---

### Calcul de l'importance dans Random Forest

L'**importance des variables** révèle la contribution de chaque feature aux prédictions. Random Forest calcule cette importance en mesurant la **réduction d'impureté** apportée par chaque variable à travers tous les arbres :

$$
\text{Importance}(X_j) = \frac{1}{n_{trees}} \sum_{t=1}^{n_{trees}} \sum_{nodes} w_{node} \times \Delta\text{Gini}_{X_j}
$$

où $w_{node}$ est la proportion d'échantillons atteignant le nœud.

### Limitations et alternatives

**Biais de l'importance Gini :** Favorise les variables numériques et catégorielles avec beaucoup de modalités.

**Permutation Feature Importance :** Alternative plus robuste mesurant la dégradation de performance quand on "mélange" aléatoirement une variable :

$$
\text{PFI}(X_j) = \text{Score}_{original} - \text{Score}_{X_j \text{ permutée}}
$$

### Applications sectorielles

**Finance :** Identifier les facteurs de risque crédit principaux (ratio dette/revenu, ancienneté emploi)

**Médecine :** Déterminer les biomarqueurs les plus prédictifs d'une pathologie

**Marketing :** Comprendre les leviers d'engagement client les plus efficaces

**Ressources humaines :** Analyser les facteurs de rétention des talents

## Études de cas et applications pratiques
---

### Détection de fraude bancaire

**Défis spécifiques :**
- Données extrêmement déséquilibrées (0.1% de fraudes)
- Coût asymétrique des erreurs (FN >> FP en impact business)
- Besoin d'explicabilité pour les enquêtes

**Solutions techniques :**
- Optimisation du seuil de décision
- Métriques adaptées (PR-AUC > ROC-AUC)
- Random Forest pour capturer patterns complexes
- Feature importance pour l'analyse forensique

### Diagnostic médical automatisé

**Exigences réglementaires :**
- Explicabilité maximale des décisions
- Minimisation absolue des faux négatifs
- Traçabilité des facteurs de décision

**Approche méthodologique :**
- Arbres de décision pour la transparence
- Validation croisée stratifiée
- Analyse d'importance pour identifier biomarqueurs
- Seuils ajustés vers la sensibilité maximale

### Systèmes de recommandation

**Challenges techniques :**
- Données multi-dimensionnelles et sparse
- Préférences utilisateur évolutives
- Trade-off précision/diversité

**Solutions d'ensemble :**
- Random Forest pour la robustesse
- Optimisation multi-objectifs
- Pipeline adaptatif aux nouveaux utilisateurs

## Synthèse et recommandations stratégiques
---

### Principes directeurs

**Adaptation contextuelle :** Toujours aligner métriques et techniques sur les coûts métier réels

**Équilibre performance-interprétabilité :** Choisir entre arbres simples (explicables) et Random Forest (performants) selon les contraintes

**Validation rigoureuse :** Utiliser la validation croisée imbriquée pour des estimations non-biaisées

**Pipeline modulaire :** Automatiser la chaîne complète tout en conservant la flexibilité

### Workflow de développement recommandé

1. **Analyse exploratoire :** Distribution des classes, qualité des données, patterns métier
2. **Baseline robuste :** Établir une référence avec modèles simples
3. **Optimisation progressive :** Pipeline → Hyperparamètres → Seuils → Métriques
4. **Validation multi-niveaux :** Validation croisée + holdout final
5. **Déploiement reproductible :** Pipeline scikit-learn + monitoring continu

### Perspectives d'évolution

La maîtrise de ces concepts ouvre la voie vers :
- **Modèles ensemble avancés** (Gradient Boosting, Stacking)
- **Apprentissage automatique de features** (Deep Learning)
- **Optimisation automatique** (AutoML)
- **Apprentissage en ligne** pour données en flux continu

Cette approche systémique de la classification avancée forme le socle technique pour aborder les défis complexes de l'IA en production, où robustesse, explicabilité et performance doivent converger vers des solutions durables.
