# Cours Résumé IA M06D04 - Classification et Régression Logistique
---

Lien vers l'audio : https://audio-records-dsfs.s3.eu-west-3.amazonaws.com/M06D04_DataScience.m4a

## Introduction à la classification supervisée
---

### Objectif et distinction avec la régression

Ce module explore la logique de la régression logistique et des modèles de classification supervisée, en s'appuyant sur des exemples concrets comme le dataset "Barnet".

**Distinction fondamentale :**
- **Régression linéaire** : prédit une valeur continue (ex: salaire en fonction de l'expérience)
- **Classification** : prédit une appartenance à une classe discrète (ex: achat vs non-achat d'un produit)

Cette différence conceptuelle nécessite des approches mathématiques et des métriques d'évaluation spécifiques.

## La fonction sigmoïde : transformation probabiliste
---

### Définition mathématique

La fonction sigmoïde transforme les sorties de la régression linéaire en probabilités comprises entre 0 et 1 :

$$
\sigma(x) = \frac{1}{1 + e^{-x}}
$$

où $x = \beta_0 + \beta_1 x_1 + ... + \beta_p x_p$ représente la combinaison linéaire des variables d'entrée.

**Propriétés clés :**
- Fonction monotone croissante
- Asymptotes horizontales en 0 et 1
- Point d'inflexion en x = 0 (probabilité = 0.5)

### Interprétation pratique

**Exemple concret :** Si $\sigma(x) = 0.9$, cela signifie "90% de chance d'appartenance à la classe positive".

**Analogie :** La sigmoïde agit comme un filtre probabiliste : elle convertit une "température" brute (combinaison linéaire) en probabilité de risque comprise entre 0 (aucun risque) et 1 (risque maximal).

### Rôle de l'exponentielle et du logarithme

- **Exponentielle** : croissance très rapide, toujours positive
- **Logarithme** : "applatit" les grands nombres, devient négatif pour les valeurs < 1

**Exemple numérique :** $\log(100\,000\,000) \approx 20$, illustrant la compression logarithmique des ordres de grandeur.

## Fonction de coût : log loss
---

### Principe et formulation

La fonction de coût "log loss" (entropie croisée binaire) pénalise les prédictions incorrectes de façon asymétrique :

$$
\text{Log Loss} = -\frac{1}{n} \sum_{i=1}^{n} [y_i \log(\hat{p}_i) + (1-y_i) \log(1-\hat{p}_i)]
$$

où $y_i \in \{0,1\}$ est la vraie classe et $\hat{p}_i$ la probabilité prédite.

### Comportement de la pénalité

- **Prédiction correcte et confiante** : coût très faible
- **Prédiction incorrecte et confiante** : coût très élevé (tend vers l'infini)

**Analogie :** Comme parier sur un match : miser correctement rapporte peu, mais miser massivement sur le mauvais résultat entraîne des pertes considérables.

### Applications contextuelles

**En médecine :** Le modèle doit minimiser les faux négatifs - il vaut mieux alerter à tort que manquer un cas de cancer.

Cette philosophie influence directement le choix des seuils de décision et des métriques d'évaluation.

## Gestion du déséquilibre des classes
---

### Problématique et solutions

Quand les classes sont déséquilibrées (ex: 95% non-acheteurs, 5% acheteurs), le paramètre `class_weight` permet de rééquilibrer l'apprentissage en pondérant davantage la classe minoritaire.

**Stratégies de pondération :**
- `class_weight='balanced'` : pondération inverse de la fréquence
- Pondération manuelle selon l'importance business

**Exemple pratique :** En détection de fraude bancaire, les transactions frauduleuses sont rares mais critiques. La pondération des classes rend le modèle plus sensible à ces cas minoritaires essentiels.

## Extension à la multi-classification
---

### Softmax : généralisation de la sigmoïde

Pour plus de deux classes, la régression logistique utilise la fonction softmax :

$$
P(y = k | x) = \frac{e^{\beta_k^T x}}{\sum_{j=1}^{K} e^{\beta_j^T x}}
$$

Cette fonction garantit que $\sum_{k=1}^{K} P(y = k | x) = 1$.

**Exemple d'application :** Classifier les espèces d'iris (setosa, versicolor, virginica) à partir des caractéristiques morphologiques.

## Limites de la séparation linéaire
---

### Problème de non-linéarité

Quand la séparation des classes n'est pas linéaire dans l'espace des features, la régression logistique atteint ses limites de performance.

**Analogie :** C'est comme essayer de diviser une pizza aux formes irrégulières avec une règle droite - parfois il faut "courber l'espace" ou ajouter des dimensions.

### Solutions : SVM et transformations

Les **Support Vector Machines (SVM)** résolvent ce problème en projetant les données dans un espace de dimension supérieure via des "kernels", où un hyperplan séparateur devient possible.

**Techniques alternatives :**
- Transformation polynomial des features
- Kernels RBF (Gaussian)
- Réseaux de neurones

## Pipeline de preprocessing
---

### Étapes essentielles

**Imputation** (`SimpleImputer`) : remplacer les valeurs manquantes
- Stratégie numérique : moyenne, médiane
- Stratégie catégorielle : mode, constante

**Encodage** (`OneHotEncoder`) : transformer les variables catégorielles en indicateurs binaires

**Standardisation** (`StandardScaler`) : centrer et réduire les variables
$$
x_{scaled} = \frac{x - \mu}{\sigma}
$$

### Importance de l'automatisation

**Sans pipeline :** Risk de data leakage et erreurs manuelles
**Avec pipeline :** Enchaînement automatisé et reproductible

**Exemple concret :** Pour le dataset "Country", l'encodage protège contre les erreurs de prédiction sur des pays jamais vus dans le jeu de test.

## Métriques d'évaluation
---

### Matrice de confusion

Tableau croisé des prédictions vs vraies classes :

|                | Prédit Négatif | Prédit Positif |
|----------------|----------------|----------------|
| **Vrai Négatif**   | TN             | FP             |
| **Vrai Positif**   | FN             | TP             |

**Analogie :** Un bulletin de notes croisant les objectifs du professeur avec les réalisations de l'étudiant.

### Métriques fondamentales

**Accuracy (exactitude) :**
$$
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
$$

**Precision (précision) :**
$$
\text{Precision} = \frac{TP}{TP + FP}
$$
Minimise les faux positifs.

**Recall (rappel) :**
$$
\text{Recall} = \frac{TP}{TP + FN}
$$
Minimise les faux négatifs.

**F1-Score :**
$$
\text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
$$
Moyenne harmonique équilibrant precision et recall.

### Choix contextuel des métriques

**Détection COVID :** Privilégier le recall (ne manquer aucun cas positif)
**Filtrage spam :** Privilégier la precision (éviter de bloquer des emails importants)
**Données équilibrées :** L'accuracy peut suffire
**Données déséquilibrées :** F1-score indispensable

**Piège classique :** Prédire toujours "1" maximise le recall mais annule la precision. D'où l'importance du F1-score pour équilibrer.

## Analyse ROC et AUC
---

### Courbe ROC

La courbe ROC (Receiver Operating Characteristic) trace le **True Positive Rate** vs **False Positive Rate** pour tous les seuils de décision :

- **TPR = Recall** = TP/(TP+FN)
- **FPR** = FP/(FP+TN)

### Métrique AUC

L'**AUC (Area Under Curve)** synthétise la performance globale :
- **AUC = 0.5** : modèle aléatoire
- **AUC = 1.0** : modèle parfait
- **AUC > 0.7** : performance généralement acceptable

**Exemple médical :** Pour évaluer un test de diagnostic, la courbe ROC révèle la qualité discriminante à tous les seuils de décision possibles.

## Applications pratiques et workflow
---

### Construction méthodique d'un modèle

1. **Import et exploration** des données (pandas, scikit-learn)
2. **Preprocessing** : gestion des valeurs manquantes, encodage, standardisation
3. **Split stratifié** train/test
4. **Pipeline automatisé** pour éviter les fuites de données
5. **Entraînement** du modèle
6. **Évaluation multi-critères** : matrice de confusion, métriques, ROC

### Modélisation multi-classe

- Utilisation de `np.argmax()` pour identifier la classe prédite
- Analyse des probabilités par classe
- Focus sur les observations à faible confiance

## Bonnes pratiques et recommandations
---

### Surveillance des métriques

- **Analyser recall vs precision** selon l'acceptabilité des erreurs
- **Adapter class_weight** pour gérer le déséquilibre sans sur-corriger
- **Utiliser les pipelines** pour fiabiliser le processus

### Workflow de validation

1. **Comprendre la fonction de coût** et son impact sur l'apprentissage
2. **Choisir les métriques** selon le contexte métier
3. **Stratifier les splits** pour préserver les proportions
4. **Vérifier la généralisation** via les scores de test
5. **Ajuster les seuils** si nécessaire pour optimiser FP vs FN

### Perspectives d'amélioration

- **Optimisation des seuils** (abordée en détail dans le module M06D05)
- **Modèles ensemble** pour améliorer la robustesse
- **Techniques de rééchantillonnage** pour les déséquilibres sévères

Cette base théorique et pratique de la classification prépare l'exploration des techniques avancées d'optimisation et des modèles d'arbres décisionnels présentés dans les modules suivants.
