# TP1: Le probleme d'apprentissage

**IFT6390 - Fondements de l'apprentissage machine**

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/pierrelux/mlbook/blob/main/exercises/tp1_learning_problem.ipynb)

Ce notebook accompagne le [Chapitre 2: Le probleme d'apprentissage](https://pierrelux.github.io/mlbook/learning-problem).

## Objectifs

√Ä la fin de ce TP, vous serez en mesure de:
- Calculer l'erreur quadratique moyenne (MSE)
- Observer le ph√©nom√®ne de surapprentissage avec des polyn√¥mes
- Comprendre le compromis biais-variance
- Impl√©menter la r√©gularisation Ridge

---

## Partie 0: Configuration

Ex√©cutez cette cellule pour importer les biblioth√®ques n√©cessaires.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore', message='Polyfit may be poorly conditioned')

# Pour de jolis graphiques
plt.rcParams['figure.figsize'] = (8, 5)
plt.rcParams['font.size'] = 12

print("‚úÖ Configuration termin√©e!")

## Partie 1: Les donn√©es de freinage

Nous utilisons les donn√©es classiques d'Ezekiel (1930): la distance de freinage d'un v√©hicule en fonction de sa vitesse.

**Question pr√©liminaire**: Quelle relation attendez-vous entre vitesse et distance de freinage? Lin√©aire? Quadratique? Autre?

In [None]:
# Donn√©es de freinage (Ezekiel, 1930): vitesse (mph) vs distance d'arr√™t (ft)
speed = np.array([4, 4, 7, 7, 8, 9, 10, 10, 10, 11, 11, 12, 12, 12, 12, 13, 13, 13, 13, 14,
                  14, 14, 14, 15, 15, 15, 16, 16, 17, 17, 17, 18, 18, 18, 18, 19, 19, 19,
                  20, 20, 20, 20, 20, 22, 23, 24, 24, 24, 24, 25], dtype=float)
dist = np.array([2, 10, 4, 22, 16, 10, 18, 26, 34, 17, 28, 14, 20, 24, 28, 26, 34, 34, 46,
                 26, 36, 60, 80, 20, 26, 54, 32, 40, 32, 40, 50, 42, 56, 76, 84, 36, 46,
                 68, 32, 48, 52, 56, 64, 66, 54, 70, 92, 93, 120, 85], dtype=float)

print(f"Nombre d'observations: {len(speed)}")
print(f"Vitesse: min={speed.min():.0f}, max={speed.max():.0f} mph")
print(f"Distance: min={dist.min():.0f}, max={dist.max():.0f} ft")

In [None]:
# Visualisation des donn√©es
plt.figure(figsize=(8, 5))
plt.scatter(speed, dist, alpha=0.7, s=50)
plt.xlabel('Vitesse (mph)')
plt.ylabel('Distance de freinage (ft)')
plt.title('Donn√©es de freinage')
plt.grid(True, alpha=0.3)
plt.show()

---
## Partie 2: Ajuster un polyn√¥me

Nous allons ajuster des polyn√¥mes de diff√©rents degr√©s aux donn√©es.

### 2.1 Ajustement simple

In [None]:
# Ajuster un polyn√¥me de degr√© 2
degree = 2
coeffs = np.polyfit(speed, dist, degree)

print(f"Coefficients du polyn√¥me de degr√© {degree}:")
for i, c in enumerate(coeffs):
    print(f"  coefficient de x^{degree-i}: {c:.4f}")

In [None]:
# Visualiser l'ajustement
plt.figure(figsize=(8, 5))
plt.scatter(speed, dist, alpha=0.7, s=50, label='Donn√©es')

# Grille pour tracer la courbe
speed_grid = np.linspace(0, 30, 100)
dist_pred = np.polyval(coeffs, speed_grid)
plt.plot(speed_grid, dist_pred, 'r-', linewidth=2, label=f'Polyn√¥me degr√© {degree}')

plt.xlabel('Vitesse (mph)')
plt.ylabel('Distance de freinage (ft)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

### üìù Exercice 1: Calculer l'erreur quadratique moyenne (MSE)

L'erreur quadratique moyenne est d√©finie comme:

$$\text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2$$

**Compl√©tez la fonction ci-dessous:**

In [None]:
def compute_mse(y_true, y_pred):
    """
    Calcule l'erreur quadratique moyenne.
    
    Args:
        y_true: valeurs r√©elles (array)
        y_pred: pr√©dictions (array)
    
    Returns:
        MSE (float)
    """
    # ============================================
    # TODO: Compl√©tez cette fonction
    # Indice: utilisez np.mean() et l'op√©rateur **2
    # ============================================
    
    mse = None  # <- Remplacez None par votre code
    
    return mse

In [None]:
# Test de votre fonction
predictions = np.polyval(coeffs, speed)
mse = compute_mse(dist, predictions)

if mse is not None:
    print(f"MSE pour le polyn√¥me de degr√© {degree}: {mse:.2f}")
    
    # V√©rification
    expected_mse = np.mean((dist - predictions)**2)
    if np.isclose(mse, expected_mse):
        print("‚úÖ Correct!")
    else:
        print(f"‚ùå Attendu: {expected_mse:.2f}")
else:
    print("‚ö†Ô∏è La fonction retourne None. Compl√©tez le code!")

<details>
<summary>üí° Cliquez pour voir la solution</summary>

```python
def compute_mse(y_true, y_pred):
    mse = np.mean((y_true - y_pred)**2)
    return mse
```
</details>

### üìù Exercice 2: Explorer diff√©rents degr√©s

**Modifiez la variable `degree` ci-dessous et observez:**
- Comment change la courbe?
- Comment change le MSE?

In [None]:
# ============================================
# TODO: Essayez diff√©rentes valeurs: 1, 2, 5, 10, 15, 20
# ============================================
degree = 2  # <- Modifiez cette valeur!

# Ajustement
coeffs = np.polyfit(speed, dist, degree)
predictions = np.polyval(coeffs, speed)
mse = np.mean((dist - predictions)**2)

# Visualisation
plt.figure(figsize=(10, 5))
plt.scatter(speed, dist, alpha=0.7, s=50, label='Donn√©es')

speed_grid = np.linspace(3, 26, 200)
pred_grid = np.polyval(coeffs, speed_grid)
pred_grid = np.clip(pred_grid, -50, 200)  # Limiter pour la visualisation

plt.plot(speed_grid, pred_grid, 'r-', linewidth=2, label=f'Polyn√¥me degr√© {degree}')
plt.xlabel('Vitesse (mph)')
plt.ylabel('Distance de freinage (ft)')
plt.title(f'Degr√© {degree} ‚Äî MSE = {mse:.1f}')
plt.legend()
plt.ylim(-20, 150)
plt.grid(True, alpha=0.3)
plt.show()

print(f"\nMSE: {mse:.2f}")

**‚ùì Questions de r√©flexion:**
1. Quel degr√© donne le MSE le plus bas?
2. Le polyn√¥me de degr√© 20 semble-t-il raisonnable pour pr√©dire √† de nouvelles vitesses?
3. C'est quoi le probl√®me avec minimiser uniquement le MSE sur les donn√©es d'entra√Ænement?

---
## Partie 3: Train/Test Split ‚Äî Le surapprentissage

Pour d√©tecter le **surapprentissage**, nous s√©parons les donn√©es en:
- **Ensemble d'entra√Ænement** (70%): pour ajuster le mod√®le
- **Ensemble de test** (30%): pour √©valuer la g√©n√©ralisation

In [None]:
# S√©paration train/test
np.random.seed(42)  # Pour reproductibilit√©
indices = np.random.permutation(len(speed))
n_train = 35

train_idx = indices[:n_train]
test_idx = indices[n_train:]

speed_train, dist_train = speed[train_idx], dist[train_idx]
speed_test, dist_test = speed[test_idx], dist[test_idx]

print(f"Entra√Ænement: {len(speed_train)} exemples")
print(f"Test: {len(speed_test)} exemples")

In [None]:
# Visualisation de la s√©paration
plt.figure(figsize=(8, 5))
plt.scatter(speed_train, dist_train, alpha=0.7, s=50, label='Entra√Ænement')
plt.scatter(speed_test, dist_test, alpha=0.7, s=50, marker='s', label='Test')
plt.xlabel('Vitesse (mph)')
plt.ylabel('Distance de freinage (ft)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

### üìù Exercice 3: Courbe biais-variance

**Compl√©tez le code pour calculer l'erreur sur train ET test pour chaque degr√©:**

In [None]:
degrees = range(1, 16)
train_errors = []
test_errors = []

for deg in degrees:
    # Ajuster sur l'ensemble d'entra√Ænement
    coeffs = np.polyfit(speed_train, dist_train, deg)
    
    # ============================================
    # TODO: Calculez les pr√©dictions et erreurs
    # ============================================
    
    # Pr√©dictions sur train
    pred_train = None  # <- Compl√©tez avec np.polyval(...)
    
    # Pr√©dictions sur test
    pred_test = None  # <- Compl√©tez avec np.polyval(...)
    
    # MSE sur train
    mse_train = None  # <- Compl√©tez
    
    # MSE sur test
    mse_test = None  # <- Compl√©tez
    
    train_errors.append(mse_train)
    test_errors.append(mse_test)

In [None]:
# Visualisation (ex√©cutez apr√®s avoir compl√©t√© le code ci-dessus)
if None not in train_errors and None not in test_errors:
    plt.figure(figsize=(10, 6))
    plt.plot(degrees, train_errors, 'o-', linewidth=2, markersize=8, label='Erreur entra√Ænement')
    plt.plot(degrees, test_errors, 's-', linewidth=2, markersize=8, label='Erreur test')
    plt.yscale('log')
    plt.xlabel('Degr√© du polyn√¥me (complexit√©)')
    plt.ylabel('MSE (√©chelle log)')
    plt.title('Compromis biais-variance')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.xticks(range(1, 16, 2))
    plt.show()
    
    # Trouver le meilleur degr√©
    best_deg = degrees[np.argmin(test_errors)]
    print(f"\nüéØ Meilleur degr√© (selon erreur test): {best_deg}")
    print(f"   MSE train: {train_errors[best_deg-1]:.1f}")
    print(f"   MSE test: {test_errors[best_deg-1]:.1f}")
else:
    print("‚ö†Ô∏è Compl√©tez le code de l'exercice 3!")

<details>
<summary>üí° Cliquez pour voir la solution</summary>

```python
# Pr√©dictions sur train
pred_train = np.polyval(coeffs, speed_train)

# Pr√©dictions sur test
pred_test = np.polyval(coeffs, speed_test)

# MSE sur train
mse_train = np.mean((dist_train - pred_train)**2)

# MSE sur test
mse_test = np.mean((dist_test - pred_test)**2)
```
</details>

---
## Partie 4: R√©gularisation Ridge

Au lieu de choisir un degr√© bas, on peut utiliser un polyn√¥me de **haut degr√©** avec **r√©gularisation**.

La r√©gularisation Ridge ajoute une p√©nalit√© sur les coefficients:

$$\hat{\boldsymbol{\theta}}_{\text{Ridge}} = \arg\min_{\boldsymbol{\theta}} \left[ \sum_{i=1}^{N} (y_i - \boldsymbol{\theta}^\top \mathbf{x}_i)^2 + \lambda \|\boldsymbol{\theta}\|^2 \right]$$

La solution en forme ferm√©e est:

$$\hat{\boldsymbol{\theta}}_{\text{Ridge}} = (\mathbf{X}^\top \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^\top \mathbf{y}$$

### üìù Exercice 4: Impl√©menter Ridge Regression

**Compl√©tez la fonction ci-dessous:**

In [None]:
def polynomial_features(x, degree):
    """
    Cr√©e la matrice de caract√©ristiques polynomiales.
    
    Args:
        x: vecteur d'entr√©es (n,)
        degree: degr√© du polyn√¥me
    
    Returns:
        X: matrice (n, degree+1) avec colonnes [1, x, x¬≤, ..., x^degree]
    """
    n = len(x)
    X = np.zeros((n, degree + 1))
    for d in range(degree + 1):
        X[:, d] = x ** d
    return X


def ridge_regression(X, y, lambda_reg):
    """
    Calcule les coefficients Ridge.
    
    Args:
        X: matrice de features (n, d)
        y: vecteur cible (n,)
        lambda_reg: coefficient de r√©gularisation
    
    Returns:
        theta: coefficients (d,)
    """
    # ============================================
    # TODO: Impl√©mentez la formule Ridge
    # theta = (X'X + lambda*I)^(-1) X'y
    # 
    # Indices:
    # - X.T pour la transpos√©e
    # - @ pour le produit matriciel
    # - np.eye(n) pour la matrice identit√© n√ón
    # - np.linalg.inv() pour l'inverse
    # ============================================
    
    d = X.shape[1]  # nombre de features
    
    theta = None  # <- Remplacez par votre code
    
    return theta

In [None]:
# Test de votre impl√©mentation
degree = 10
lambda_reg = 1.0

X_train = polynomial_features(speed_train, degree)
theta = ridge_regression(X_train, dist_train, lambda_reg)

if theta is not None:
    print(f"Coefficients Ridge (degr√©={degree}, Œª={lambda_reg}):")
    print(f"  Norme des coefficients: {np.linalg.norm(theta):.2f}")
    
    # Pr√©dictions
    X_test = polynomial_features(speed_test, degree)
    pred_test = X_test @ theta
    mse = np.mean((dist_test - pred_test)**2)
    print(f"  MSE test: {mse:.1f}")
    print("\n‚úÖ Impl√©mentation correcte!")
else:
    print("‚ö†Ô∏è Compl√©tez la fonction ridge_regression!")

<details>
<summary>üí° Cliquez pour voir la solution</summary>

```python
def ridge_regression(X, y, lambda_reg):
    d = X.shape[1]
    I = np.eye(d)
    theta = np.linalg.inv(X.T @ X + lambda_reg * I) @ X.T @ y
    return theta
```
</details>

### üìù Exercice 5: Trouver le meilleur Œª

**Explorez diff√©rentes valeurs de Œª pour un polyn√¥me de degr√© 10:**

In [None]:
degree = 10
X_train = polynomial_features(speed_train, degree)
X_test = polynomial_features(speed_test, degree)

lambdas = [0, 0.001, 0.01, 0.1, 1, 10, 100, 1000]
results = []

print(f"{'Œª':>10} | {'MSE Train':>10} | {'MSE Test':>10} | {'||Œ∏||':>10}")
print("-" * 50)

for lam in lambdas:
    theta = ridge_regression(X_train, dist_train, lam)
    if theta is not None:
        mse_train = np.mean((dist_train - X_train @ theta)**2)
        mse_test = np.mean((dist_test - X_test @ theta)**2)
        norm_theta = np.linalg.norm(theta)
        results.append((lam, mse_train, mse_test, norm_theta))
        print(f"{lam:>10.3f} | {mse_train:>10.1f} | {mse_test:>10.1f} | {norm_theta:>10.1f}")

In [None]:
# Visualisation de l'effet de Œª
if len(results) > 0:
    lambdas_plot = [r[0] for r in results]
    train_plot = [r[1] for r in results]
    test_plot = [r[2] for r in results]
    
    plt.figure(figsize=(10, 5))
    plt.semilogx([max(l, 1e-4) for l in lambdas_plot], train_plot, 'o-', label='Train')
    plt.semilogx([max(l, 1e-4) for l in lambdas_plot], test_plot, 's-', label='Test')
    plt.xlabel('Œª (√©chelle log)')
    plt.ylabel('MSE')
    plt.title(f'Effet de la r√©gularisation Ridge (degr√©={degree})')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.show()

**‚ùì Questions:**
1. Quelle valeur de Œª minimise l'erreur test?
2. Que se passe-t-il quand Œª ‚Üí 0? Et quand Œª ‚Üí ‚àû?
3. Comment la norme des coefficients ||Œ∏|| change avec Œª?

---
## üéØ R√©capitulatif

Dans ce TP, vous avez appris:

1. **MSE**: L'erreur quadratique moyenne mesure la qualit√© des pr√©dictions

2. **Surapprentissage**: Un mod√®le trop complexe m√©morise le bruit
   - Erreur train ‚Üì mais erreur test ‚Üë
   
3. **Compromis biais-variance**: 
   - Mod√®le simple = biais √©lev√© (sous-apprentissage)
   - Mod√®le complexe = variance √©lev√©e (surapprentissage)
   
4. **R√©gularisation Ridge**: P√©nalise les grands coefficients
   - Permet d'utiliser des mod√®les complexes sans surapprentissage
   - Œª contr√¥le la force de la r√©gularisation

---

**üìö Pour aller plus loin**: [Chapitre complet sur le site du cours](https://pierrelux.github.io/mlbook/learning-problem)