# Régression Linéaire, Régularisation Lasso et Ridge
---

Lien vers l'audio : https://audio-records-dsfs.s3.eu-west-3.amazonaws.com/M06D03_DataScience.m4a

## Introduction à la régression linéaire
---

La régression linéaire constitue le fondement de nombreux algorithmes d'apprentissage supervisé. Elle vise à modéliser la relation entre une variable dépendante et une ou plusieurs variables indépendantes par une fonction linéaire.

### Principe des moindres carrés

La méthode des moindres carrés minimise la somme des carrés des écarts entre les valeurs observées et les valeurs prédites par le modèle :

$$
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$

où $y_i$ représente la valeur réelle et $\hat{y}_i = \beta_0 + \beta_1 x_{i1} + ... + \beta_p x_{ip}$ la valeur prédite.

**Exemple concret :** Pour prédire le salaire en fonction de l'expérience, chaque point représente un individu. La droite de régression minimise la distance quadratique à tous les points, évitant que des écarts négatifs n'annulent des écarts positifs.

**Analogie :** C'est comme tendre une corde au plus proche de plusieurs clous plantés à différentes hauteurs sur une planche : la meilleure position minimise la distance à chaque clou.

## Évaluation des performances : R² et métriques
---

### Coefficient de détermination R²

Le R² mesure la proportion de variance expliquée par le modèle :

$$
R^2 = 1 - \frac{SS_{res}}{SS_{tot}} = 1 - \frac{\sum_{i}(y_i - \hat{y}_i)^2}{\sum_{i}(y_i - \bar{y})^2}
$$

- **R² = 0** : le modèle n'explique pas mieux que la moyenne
- **R² = 1** : prédiction parfaite (souvent signe de surapprentissage)

**Attention :** Un R² élevé n'est pas toujours synonyme de modèle utile, particulièrement en finance ou sur des séries temporelles avec des structures autocorrélées.

### La notion de baseline (référence)

La baseline constitue un modèle de référence simple (prédire la moyenne, la valeur précédente) permettant d'évaluer l'apport réel d'un modèle plus complexe.

**Exemple :** Pour le Bitcoin, la baseline peut être "le prix d'hier pour prédire aujourd'hui". Un modèle n'apporte de valeur que s'il surpasse cette référence.

**Analogie :** Lors du lancement d'un produit, la baseline représente "les ventes sans campagne" ; toute démarche supplémentaire doit prouver sa valeur ajoutée.

## Problématique du surapprentissage
---

### Overfitting et Underfitting

**L'overfitting** survient quand le modèle mémorise trop précisément les spécificités des données d'entraînement, échouant sur de nouveaux cas. C'est "apprendre par cœur" sans comprendre les patterns généraux.

**L'underfitting** résulte d'un modèle trop simple qui ne capture pas la complexité sous-jacente des données.

**Analogie :** L'overfitting ressemble à apprendre tous les itinéraires d'un quartier pour le permis, mais être incapable de conduire ailleurs. On n'a pas généralisé la compétence de conduite.

### Stratégies de prévention

- Réduire le nombre de variables (sélection de features)
- Simplifier l'architecture du modèle
- Traiter les valeurs aberrantes (outliers)
- Augmenter le volume de données d'entraînement
- **Régulariser le modèle** (approche détaillée ci-dessous)

## Régularisation Ridge (L2)
---

### Principe et formulation mathématique

La régularisation Ridge ajoute une pénalité proportionnelle au carré des coefficients à la fonction de coût :

$$
\text{Coût}_{Ridge} = MSE + \lambda \sum_{j=1}^{p} \beta_j^2
$$

où $\lambda$ (ou alpha) contrôle l'intensité de la régularisation.

### Effet de la régularisation

Ridge **réduit la magnitude** des coefficients sans les annuler complètement, stabilisant ainsi les prédictions face aux variations des données d'entraînement. Cette approche diminue la **variance** du modèle.

**Exemple concret :** Pour prédire le prix d'une maison, Ridge évite qu'une seule variable (comme la surface) domine excessivement le modèle.

**Analogie :** Comme fixer une limitation de vitesse sur autoroute : on peut rouler vite (coefficients importants), mais trop vite devient dangereux (surapprentissage).

## Régularisation Lasso (L1)
---

### Formulation mathématique

Lasso utilise la norme L1 comme terme de pénalité :

$$
\text{Coût}_{Lasso} = MSE + \lambda \sum_{j=1}^{p} |\beta_j|
$$

### Propriété de sélection de variables

Contrairement à Ridge, Lasso peut **forcer certains coefficients à zéro exact**, réalisant ainsi une sélection automatique de variables. Cette propriété résulte de la géométrie de la contrainte L1 (forme de losange vs cercle pour L2).

**Exemple :** Sur un dataset de 300 variables, Lasso peut automatiquement sélectionner les 10 plus pertinentes en annulant les coefficients des autres.

**Analogie :** Comme un chef qui goûte chaque épice d'un plat, puis décide d'en retirer complètement certaines pour ne garder que celles qui font réellement la différence gustative.

## Optimisation des hyperparamètres
---

### Choix du paramètre λ (alpha)

L'hyperparamètre λ contrôle l'équilibre biais-variance :
- **λ faible** : peu de régularisation, risque d'overfitting
- **λ élevé** : forte régularisation, risque d'underfitting

### Grid Search et validation croisée

La **validation croisée k-fold** évalue la robustesse du modèle en testant sur plusieurs partitions des données. Le **Grid Search** explore systématiquement une grille d'hyperparamètres.

**Exemple de grille :**
```python
param_grid = {
    'alpha': [0.01, 0.1, 1, 10, 100]
}
```

**Analogie :** Comme goûter plusieurs parts d'un gâteau réparties aléatoirement pour estimer sa qualité globale, plutôt que de juger sur une seule bouchée.

### Interprétation des résultats

Privilégier les hyperparamètres offrant :
- **Score moyen élevé** sur la validation croisée
- **Écart-type faible** (stabilité des performances)

**Exemple :** Préférer un modèle à score moyen 0.80 ± 0.01 plutôt que 0.82 ± 0.09.

## Métriques d'évaluation adaptées
---

### Au-delà du R²

**Mean Absolute Error (MAE) :**
$$
MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|
$$

Le MAE exprime l'erreur moyenne en unités compréhensibles (ex: "5000€ d'écart moyen pour la prédiction de prix immobilier").

### Adaptation au contexte métier

Le choix des métriques doit refléter les enjeux business :
- **Finance** : privilégier les métriques directionnelles (signe de l'erreur)
- **Immobilier** : MAE pour quantifier l'erreur monétaire
- **Médecine** : métriques asymétriques selon le coût des erreurs

## Synthèse et bonnes pratiques
---

### Workflow recommandé

1. **Établir une baseline** simple avant d'explorer des modèles complexes
2. **Évaluer biais vs variance** pour choisir entre Ridge (variance élevée) et Lasso (trop de variables)
3. **Optimiser les hyperparamètres** par validation croisée
4. **Sélectionner les métriques** adaptées au contexte métier
5. **Documenter et itérer** le processus d'expérimentation

### Principes directeurs

- Toujours comparer au modèle de référence (baseline)
- Privilégier la robustesse (faible variance) à la performance maximale
- Adapter métriques et régularisation au problème spécifique
- Automatiser les pipelines tout en conservant la supervision humaine

La maîtrise de ces concepts de régularisation constitue un prérequis essentiel pour aborder les techniques de classification avancées et l'optimisation des modèles complexes présentées dans les modules suivants.
