# üöÄ Google Colab Setup

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ogautier1980/sandbox-ml/blob/main/cours/01_fondamentaux_mathematiques/01_exercices_solutions.ipynb)

**Si vous ex√©cutez ce notebook sur Google Colab**, ex√©cutez la cellule suivante pour installer les d√©pendances.

In [None]:
# Installation des d√©pendances (Google Colab uniquement)
import sys
IN_COLAB = 'google.colab' in sys.modules

if IN_COLAB:
    print('üì¶ Installation des packages...')
    
    # Packages ML de base
    !pip install -q numpy pandas matplotlib seaborn scikit-learn
    
    # D√©tection du chapitre et installation des d√©pendances sp√©cifiques
    notebook_name = '01_exercices.ipynb'  # Sera remplac√© automatiquement
    
    # Ch 06-08 : Deep Learning
    if any(x in notebook_name for x in ['06_', '07_', '08_']):
        !pip install -q torch torchvision torchaudio
    
    # Ch 08 : NLP
    if '08_' in notebook_name:
        !pip install -q transformers datasets tokenizers
        if 'rag' in notebook_name:
            !pip install -q sentence-transformers faiss-cpu rank-bm25
    
    # Ch 09 : Reinforcement Learning
    if '09_' in notebook_name:
        !pip install -q gymnasium[classic-control]
    
    # Ch 04 : Boosting
    if '04_' in notebook_name and 'boosting' in notebook_name:
        !pip install -q xgboost lightgbm catboost
    
    # Ch 05 : Clustering avanc√©
    if '05_' in notebook_name:
        !pip install -q umap-learn
    
    # Ch 11 : S√©ries temporelles
    if '11_' in notebook_name:
        !pip install -q statsmodels prophet
    
    # Ch 12 : Vision avanc√©e
    if '12_' in notebook_name:
        !pip install -q ultralytics timm segmentation-models-pytorch
    
    # Ch 13 : Recommandation
    if '13_' in notebook_name:
        !pip install -q scikit-surprise implicit
    
    # Ch 14 : MLOps
    if '14_' in notebook_name:
        !pip install -q mlflow fastapi pydantic
    
    print('‚úÖ Installation termin√©e !')
else:
    print('‚ÑπÔ∏è  Environnement local d√©tect√©, les packages sont d√©j√† install√©s.')

# Chapitre 01 - Solutions : Fondamentaux Math√©matiques

Ces exercices couvrent l'alg√®bre lin√©aire, les probabilit√©s et l'optimisation.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import seaborn as sns

np.random.seed(42)

## Partie 1 : Alg√®bre Lin√©aire

### Exercice 1.1 : Produit Scalaire et Orthogonalit√©

Calculer le produit scalaire de u = (1, 2, 3) et v = (4, -1, 2). Les vecteurs sont-ils orthogonaux ?

In [None]:
# Solution
u = np.array([1, 2, 3])
v = np.array([4, -1, 2])

# Calculer le produit scalaire : u ¬∑ v = u1*v1 + u2*v2 + u3*v3
dot_product = np.dot(u, v)  # Ou u @ v

print(f"Produit scalaire: {dot_product}")
print(f"Orthogonaux? {dot_product == 0}")

# Calcul manuel : 1*4 + 2*(-1) + 3*2 = 4 - 2 + 6 = 8
# Les vecteurs ne sont PAS orthogonaux car leur produit scalaire ‚â† 0

### Exercice 1.2 : Valeurs Propres et Diagonalisation

Pour la matrice A = [[2, 1], [1, 3]], calculer :
1. Les valeurs propres et vecteurs propres
2. La d√©composition spectrale A = P @ D @ P^(-1)

In [None]:
# Solution
A = np.array([[2, 1],
              [1, 3]])

# Calculer valeurs/vecteurs propres
# np.linalg.eig retourne (valeurs_propres, vecteurs_propres)
eigenvalues, eigenvectors = np.linalg.eig(A)

print("Valeurs propres:", eigenvalues)
print("Vecteurs propres:")
print(eigenvectors)

# V√©rifier la d√©composition A = P @ D @ P^(-1)
P = eigenvectors  # Matrice des vecteurs propres (colonnes)
D = np.diag(eigenvalues)  # Matrice diagonale des valeurs propres
P_inv = np.linalg.inv(P)

# Reconstruction de A
A_reconstructed = P @ D @ P_inv

print("\nMatrice A originale:")
print(A)
print("\nMatrice A reconstruite:")
print(A_reconstructed)
print("\nErreur de reconstruction:", np.linalg.norm(A - A_reconstructed))

### Exercice 1.3 : SVD

Appliquer la SVD √† la matrice A = [[3, 1], [1, 3], [1, 1]] et reconstruire A.

In [None]:
# Solution
A = np.array([[3, 1],
              [1, 3],
              [1, 1]])

# SVD : A = U @ Œ£ @ V^T
# Pour une matrice m√ón : U est m√óm, Œ£ est m√ón (diagonale), V^T est n√ón
U, Sigma, VT = np.linalg.svd(A, full_matrices=True)

print("U shape:", U.shape)  # (3, 3)
print("Sigma:", Sigma)  # Valeurs singuli√®res (vecteur de taille min(m,n))
print("VT shape:", VT.shape)  # (2, 2)

# Pour reconstruire A, il faut cr√©er la matrice Sigma compl√®te (3x2)
Sigma_full = np.zeros((U.shape[0], VT.shape[0]))
Sigma_full[:len(Sigma), :len(Sigma)] = np.diag(Sigma)

print("\nSigma_full shape:", Sigma_full.shape)
print("Sigma_full:")
print(Sigma_full)

# Reconstruire A
A_reconstructed = U @ Sigma_full @ VT

print("\nMatrice A originale:")
print(A)
print("\nMatrice A reconstruite:")
print(A_reconstructed)
print("\nErreur de reconstruction:", np.linalg.norm(A - A_reconstructed))

### Exercice 1.4 : Moindres Carr√©s

R√©soudre le syst√®me lin√©aire surd√©termin√© au sens des moindres carr√©s :
```
[[1, 1],     [[a],      [[2],
 [1, 2],  @   [b]]  ‚âà    [3],
 [1, 3]]                 [5]]
```

In [None]:
# Solution
X = np.array([[1, 1],
              [1, 2],
              [1, 3]])
y = np.array([2, 3, 5])

# Solution par √©quation normale : w = (X^T X)^(-1) X^T y
# Cette formule minimise ||Xw - y||¬≤
w = np.linalg.inv(X.T @ X) @ X.T @ y

# Alternative : utiliser np.linalg.lstsq (plus stable num√©riquement)
# w, residuals, rank, s = np.linalg.lstsq(X, y, rcond=None)

print("Solution [a, b]:", w)

# V√©rifier
y_pred = X @ w
print("\nValeurs r√©elles y:", y)
print("Pr√©dictions y_pred:", y_pred)
print("\nErreur MSE:", np.mean((y_pred - y)**2))
print("R√©sidus:", y - y_pred)

# Interpr√©tation : on cherche la droite y ‚âà a + b*x qui passe le plus proche des points
# (1, 2), (2, 3), (3, 5)

## Partie 2 : Probabilit√©s et Statistiques

### Exercice 2.1 : Th√©or√®me de Bayes

Un test m√©dical d√©tecte une maladie avec 99% de pr√©cision (vrai positif).  
La pr√©valence de la maladie est 0.1%.  
Si le test est positif, quelle est la probabilit√© d'√™tre r√©ellement malade ?

In [None]:
# Solution
P_disease = 0.001  # Pr√©valence P(Maladie)
P_pos_given_disease = 0.99  # Sensibilit√© P(Test+ | Maladie)
P_pos_given_healthy = 0.01  # Faux positif P(Test+ | Sain) = 1 - sp√©cificit√©

# Calculer P(Test+) par la loi de probabilit√© totale
# P(Test+) = P(Test+ | Maladie) * P(Maladie) + P(Test+ | Sain) * P(Sain)
P_healthy = 1 - P_disease
P_pos = P_pos_given_disease * P_disease + P_pos_given_healthy * P_healthy

# Th√©or√®me de Bayes : P(Maladie | Test+) = P(Test+ | Maladie) * P(Maladie) / P(Test+)
P_disease_given_pos = (P_pos_given_disease * P_disease) / P_pos

print(f"P(Test+) = {P_pos*100:.3f}%")
print(f"P(Maladie | Test+) = {P_disease_given_pos*100:.2f}%")
print(f"\nContre-intuitif ! Malgr√© un test tr√®s pr√©cis (99%), il n'y a que ~9% de chance")
print(f"d'√™tre r√©ellement malade si le test est positif, √† cause de la faible pr√©valence.")

### Exercice 2.2 : Loi Normale

Pour X ~ N(10, 4), calculer P(8 ‚â§ X ‚â§ 12).

In [None]:
# Solution
mu, sigma = 10, 2  # sigma = sqrt(variance) = sqrt(4) = 2
rv = stats.norm(mu, sigma)

# Calculer P(8 <= X <= 12) = CDF(12) - CDF(8)
prob = rv.cdf(12) - rv.cdf(8)

print(f"P(8 ‚â§ X ‚â§ 12) = {prob:.4f}")
print(f"\nIntervalle [Œº-œÉ, Œº+œÉ] = [8, 12] contient environ 68% de la masse (r√®gle empirique)")

### Exercice 2.3 : G√©n√©ration et Statistiques

G√©n√©rer 1000 √©chantillons d'une loi normale N(5, 2).  
Calculer la moyenne et variance empiriques.  
Tracer l'histogramme.

In [None]:
# Solution
mu_true, sigma_true = 5, np.sqrt(2)

# G√©n√©rer √©chantillons
samples = np.random.normal(mu_true, sigma_true, size=1000)

# Statistiques empiriques
mean_empirical = np.mean(samples)
var_empirical = np.var(samples, ddof=1)  # ddof=1 pour variance non biais√©e

print(f"Moyenne empirique: {mean_empirical:.3f} (th√©orique: {mu_true})")
print(f"Variance empirique: {var_empirical:.3f} (th√©orique: {sigma_true**2:.3f})")
print(f"\nLa loi des grands nombres garantit que les estimations convergent")
print(f"vers les vraies valeurs quand le nombre d'√©chantillons augmente.")

# Histogramme
plt.figure(figsize=(10, 6))
plt.hist(samples, bins=40, density=True, alpha=0.7, edgecolor='black', label='Histogramme empirique')

# Superposer la PDF th√©orique
x = np.linspace(samples.min(), samples.max(), 100)
plt.plot(x, stats.norm(mu_true, sigma_true).pdf(x), 'r-', linewidth=2, label='PDF th√©orique')

plt.xlabel('x')
plt.ylabel('Densit√©')
plt.title('Histogramme vs PDF Th√©orique')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

### Exercice 2.4 : Matrice de Covariance

Calculer la matrice de covariance pour les donn√©es :
```
X = [[1, 2],
     [2, 4],
     [3, 5]]
```
Interpr√©ter la corr√©lation entre les deux variables.

In [None]:
# Solution
X = np.array([[1, 2],
              [2, 4],
              [3, 5]])

# Matrice de covariance
# rowvar=False car les colonnes repr√©sentent les variables
cov_matrix = np.cov(X, rowvar=False)

print("Matrice de covariance:")
print(cov_matrix)
print(f"\nCov(X1, X1) = Var(X1) = {cov_matrix[0, 0]:.3f}")
print(f"Cov(X2, X2) = Var(X2) = {cov_matrix[1, 1]:.3f}")
print(f"Cov(X1, X2) = {cov_matrix[0, 1]:.3f}")

# Matrice de corr√©lation (normalise par les √©carts-types)
corr_matrix = np.corrcoef(X, rowvar=False)
print("\nMatrice de corr√©lation:")
print(corr_matrix)

print(f"\nCorr√©lation entre var1 et var2: {corr_matrix[0, 1]:.3f}")
print("\nInterpr√©tation:")
print("- Corr√©lation tr√®s proche de 1 : forte corr√©lation lin√©aire positive")
print("- Les deux variables √©voluent ensemble de mani√®re quasi-parfaite")
print("- Quand X1 augmente, X2 augmente proportionnellement")
print("- Cela sugg√®re une relation lin√©aire forte (ici, environ X2 ‚âà 2*X1)")

## Partie 3 : Calcul Diff√©rentiel et Optimisation

### Exercice 3.1 : Calcul de Gradient

Calculer le gradient de f(x‚ÇÅ, x‚ÇÇ) = x‚ÇÅ¬≤ + 2x‚ÇÅx‚ÇÇ + 3x‚ÇÇ¬≤  
√âvaluer en (1, 1).

In [None]:
# Solution
def f(x1, x2):
    """Fonction √† optimiser"""
    return x1**2 + 2*x1*x2 + 3*x2**2

def grad_f(x1, x2):
    """Gradient analytique de f"""
    # ‚àÇf/‚àÇx1 = 2x1 + 2x2
    # ‚àÇf/‚àÇx2 = 2x1 + 6x2
    grad_x1 = 2*x1 + 2*x2
    grad_x2 = 2*x1 + 6*x2
    return np.array([grad_x1, grad_x2])

# √âvaluer en (1, 1)
grad_at_1_1 = grad_f(1, 1)
print(f"‚àáf(1, 1) = {grad_at_1_1}")
print(f"\nLe gradient pointe dans la direction de plus forte augmentation de f.")
print(f"Pour minimiser f, on se d√©place dans la direction oppos√©e : -‚àáf")

### Exercice 3.2 : Convexit√©

Montrer que f(x) = ||Ax - b||‚ÇÇ¬≤ est convexe.  
Calculer son gradient.

In [None]:
# Solution th√©orique et impl√©mentation

# TH√âORIE :
# f(x) = ||Ax - b||‚ÇÇ¬≤ = (Ax - b)^T (Ax - b)
#      = x^T A^T A x - 2b^T A x + b^T b
#
# Gradient : ‚àáf(x) = 2 A^T (Ax - b)
# 
# Hessienne : H = ‚àá¬≤f(x) = 2 A^T A
#
# Pour toute matrice A, A^T A est semi-d√©finie positive car :
# ‚àÄz : z^T (A^T A) z = (Az)^T (Az) = ||Az||¬≤ ‚â• 0
#
# Donc la Hessienne est semi-d√©finie positive ‚üπ f est convexe !

def f_least_squares(x, A, b):
    """Fonction des moindres carr√©s"""
    residual = A @ x - b
    return np.dot(residual, residual)

def grad_f_least_squares(x, A, b):
    """Gradient de la fonction des moindres carr√©s"""
    return 2 * A.T @ (A @ x - b)

# Tester
A = np.array([[1, 2], [3, 4], [5, 6]])
b = np.array([1, 2, 3])
x = np.array([0.5, 0.5])

print("f(x):", f_least_squares(x, A, b))
print("‚àáf(x):", grad_f_least_squares(x, A, b))

# V√©rifier la convexit√© en calculant la Hessienne
H = 2 * A.T @ A
print("\nHessienne H = 2 A^T A:")
print(H)

# V√©rifier que H est semi-d√©finie positive (valeurs propres ‚â• 0)
eigenvalues = np.linalg.eigvalsh(H)
print("\nValeurs propres de H:", eigenvalues)
print("Toutes positives ?", np.all(eigenvalues >= -1e-10))  # Tol√©rance num√©rique
print("\n‚úì La fonction est bien convexe !")

### Exercice 3.3 : Descente de Gradient Simple

Minimiser f(x) = (x - 3)¬≤ + 5 en partant de x‚ÇÄ = 0 par descente de gradient.  
Tester diff√©rents learning rates.

In [None]:
# Solution
def f(x):
    """Fonction √† minimiser : parabole centr√©e en x=3"""
    return (x - 3)**2 + 5

def grad_f(x):
    """Gradient : ‚àÇf/‚àÇx = 2(x - 3)"""
    return 2 * (x - 3)

def gradient_descent(x0, lr, n_iter):
    """Descente de gradient"""
    x = x0
    history = [x]
    for _ in range(n_iter):
        # Mise √† jour : x_{t+1} = x_t - lr * ‚àáf(x_t)
        x = x - lr * grad_f(x)
        history.append(x)
    return np.array(history)

# Tester diff√©rents learning rates
x0 = 0.0
learning_rates = [0.1, 0.5, 1.0]

plt.figure(figsize=(12, 5))

for lr in learning_rates:
    history = gradient_descent(x0, lr, 20)
    plt.plot(history, label=f'lr={lr}', marker='o', markersize=4)

plt.axhline(3, color='r', linestyle='--', linewidth=2, label='Minimum x=3')
plt.xlabel('It√©ration')
plt.ylabel('x')
plt.title('Convergence de la Descente de Gradient')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("\nObservations :")
print("- lr=0.1 : Convergence lente mais stable")
print("- lr=0.5 : Convergence plus rapide")
print("- lr=1.0 : Convergence en une seule √©tape (optimal pour cette fonction quadratique)")
print("\nPour lr > 1.0, la descente divergerait (oscillations croissantes)")

### Exercice 3.4 : Descente de Gradient 2D

Minimiser f(x‚ÇÅ, x‚ÇÇ) = x‚ÇÅ¬≤ + 4x‚ÇÇ¬≤ par descente de gradient.  
Visualiser la trajectoire.

In [None]:
# Solution
def f(x):
    """Fonction √† minimiser : ellipse centr√©e √† l'origine"""
    return x[0]**2 + 4*x[1]**2

def grad_f(x):
    """Gradient de f
    ‚àÇf/‚àÇx1 = 2*x1
    ‚àÇf/‚àÇx2 = 8*x2
    """
    return np.array([2*x[0], 8*x[1]])

# Descente de gradient
x0 = np.array([2.0, 2.0])
lr = 0.1
n_iter = 50

x = x0.copy()
history = [x.copy()]

for _ in range(n_iter):
    # Mise √† jour : x_{t+1} = x_t - lr * ‚àáf(x_t)
    x = x - lr * grad_f(x)
    history.append(x.copy())

history = np.array(history)

# Visualisation
x1_range = np.linspace(-3, 3, 100)
x2_range = np.linspace(-3, 3, 100)
X1, X2 = np.meshgrid(x1_range, x2_range)
Z = X1**2 + 4*X2**2

plt.figure(figsize=(10, 8))
# Courbes de niveau de la fonction
contour = plt.contour(X1, X2, Z, levels=30, cmap='viridis', alpha=0.6)
plt.colorbar(contour, label='f(x‚ÇÅ, x‚ÇÇ)')

# Trajectoire de la descente de gradient
plt.plot(history[:, 0], history[:, 1], 'r-o', markersize=5, linewidth=2, label='Trajectoire', alpha=0.7)
plt.plot(x0[0], x0[1], 'g*', markersize=15, label='D√©part')
plt.plot(history[-1, 0], history[-1, 1], 'r*', markersize=15, label='Arriv√©e')
plt.plot(0, 0, 'b*', markersize=15, label='Minimum th√©orique (0,0)')

plt.xlabel('x‚ÇÅ')
plt.ylabel('x‚ÇÇ')
plt.title('Descente de Gradient 2D sur une Fonction Quadratique')
plt.legend()
plt.grid(True, alpha=0.3)
plt.axis('equal')
plt.show()

print(f"Solution finale: {history[-1]}")
print(f"Valeur f: {f(history[-1]):.6f}")
print(f"\nDistance au minimum: {np.linalg.norm(history[-1]):.6f}")
print(f"\nObservation : La convergence est plus rapide selon x‚ÇÅ que selon x‚ÇÇ")
print(f"car la courbure est diff√©rente (coefficient 1 vs 4).")
print(f"C'est un probl√®me mal conditionn√© qui pourrait b√©n√©ficier d'un pr√©conditionneur.")

## Bonus : Projet Int√©gratif

### R√©gression Lin√©aire Compl√®te

1. G√©n√©rer des donn√©es synth√©tiques y = 3x + 2 + bruit
2. R√©soudre par moindres carr√©s (solution analytique)
3. R√©soudre par descente de gradient
4. Comparer les deux solutions
5. Visualiser la surface de co√ªt et la trajectoire GD

In [None]:
# Solution compl√®te du projet int√©gratif

# 1. G√©n√©rer des donn√©es synth√©tiques y = 3x + 2 + bruit
np.random.seed(42)
n_samples = 100
x = np.linspace(0, 10, n_samples)
y_true = 3 * x + 2
noise = np.random.normal(0, 2, n_samples)
y = y_true + noise

# Pr√©parer X pour la r√©gression (ajouter colonne de 1 pour le biais)
X = np.column_stack([np.ones(n_samples), x])  # [1, x]

# 2. Solution analytique par moindres carr√©s : w = (X^T X)^(-1) X^T y
w_analytical = np.linalg.inv(X.T @ X) @ X.T @ y
print("Solution analytique (moindres carr√©s):")
print(f"  Biais (intercept): {w_analytical[0]:.4f} (vrai: 2)")
print(f"  Pente (slope): {w_analytical[1]:.4f} (vrai: 3)")

# 3. Solution par descente de gradient
def cost_function(w, X, y):
    """MSE = 1/(2n) * ||Xw - y||¬≤"""
    n = len(y)
    residual = X @ w - y
    return (1/(2*n)) * np.dot(residual, residual)

def gradient(w, X, y):
    """Gradient du MSE : (1/n) * X^T (Xw - y)"""
    n = len(y)
    return (1/n) * X.T @ (X @ w - y)

# Descente de gradient
w0 = np.array([0.0, 0.0])  # Initialisation
lr = 0.1
n_iter = 100

w = w0.copy()
w_history = [w.copy()]
cost_history = [cost_function(w, X, y)]

for i in range(n_iter):
    w = w - lr * gradient(w, X, y)
    w_history.append(w.copy())
    cost_history.append(cost_function(w, X, y))

w_history = np.array(w_history)

w_gd = w_history[-1]
print("\nSolution par descente de gradient:")
print(f"  Biais (intercept): {w_gd[0]:.4f}")
print(f"  Pente (slope): {w_gd[1]:.4f}")

# 4. Comparer les solutions
print("\nDiff√©rence entre les deux m√©thodes:")
print(f"  Œî biais: {abs(w_analytical[0] - w_gd[0]):.6f}")
print(f"  Œî pente: {abs(w_analytical[1] - w_gd[1]):.6f}")

# 5. Visualisations
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# a) Donn√©es et droites de r√©gression
ax1 = axes[0, 0]
ax1.scatter(x, y, alpha=0.5, label='Donn√©es bruit√©es')
ax1.plot(x, y_true, 'g-', linewidth=2, label='Vraie relation (y=3x+2)')
ax1.plot(x, X @ w_analytical, 'r--', linewidth=2, label='Moindres carr√©s')
ax1.plot(x, X @ w_gd, 'b:', linewidth=2, label='Descente de gradient')
ax1.set_xlabel('x')
ax1.set_ylabel('y')
ax1.set_title('R√©gression Lin√©aire : Donn√©es et Ajustements')
ax1.legend()
ax1.grid(True, alpha=0.3)

# b) Convergence du co√ªt
ax2 = axes[0, 1]
ax2.plot(cost_history, 'b-', linewidth=2)
ax2.set_xlabel('It√©ration')
ax2.set_ylabel('Co√ªt (MSE)')
ax2.set_title('Convergence de la Descente de Gradient')
ax2.grid(True, alpha=0.3)

# c) Surface de co√ªt 3D (contour plot)
ax3 = axes[1, 0]
w0_range = np.linspace(-2, 6, 100)
w1_range = np.linspace(0, 6, 100)
W0, W1 = np.meshgrid(w0_range, w1_range)
Z = np.zeros_like(W0)
for i in range(W0.shape[0]):
    for j in range(W0.shape[1]):
        w_temp = np.array([W0[i, j], W1[i, j]])
        Z[i, j] = cost_function(w_temp, X, y)

contour = ax3.contour(W0, W1, Z, levels=30, cmap='viridis')
ax3.plot(w_history[:, 0], w_history[:, 1], 'r-o', markersize=3, linewidth=2, alpha=0.7, label='Trajectoire GD')
ax3.plot(w_analytical[0], w_analytical[1], 'g*', markersize=15, label='Minimum analytique')
ax3.plot(w0[0], w0[1], 'b*', markersize=15, label='D√©part')
ax3.set_xlabel('w‚ÇÄ (biais)')
ax3.set_ylabel('w‚ÇÅ (pente)')
ax3.set_title('Surface de Co√ªt et Trajectoire de la Descente de Gradient')
ax3.legend()
ax3.grid(True, alpha=0.3)
plt.colorbar(contour, ax=ax3, label='Co√ªt')

# d) √âvolution des param√®tres
ax4 = axes[1, 1]
ax4.plot(w_history[:, 0], 'b-', linewidth=2, label='w‚ÇÄ (biais)')
ax4.plot(w_history[:, 1], 'r-', linewidth=2, label='w‚ÇÅ (pente)')
ax4.axhline(w_analytical[0], color='b', linestyle='--', alpha=0.5, label='w‚ÇÄ optimal')
ax4.axhline(w_analytical[1], color='r', linestyle='--', alpha=0.5, label='w‚ÇÅ optimal')
ax4.set_xlabel('It√©ration')
ax4.set_ylabel('Valeur du param√®tre')
ax4.set_title('√âvolution des Param√®tres durant la Descente de Gradient')
ax4.legend()
ax4.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n" + "="*70)
print("CONCLUSION DU PROJET")
print("="*70)
print("\n1. Les deux m√©thodes (analytique et GD) convergent vers la m√™me solution")
print("\n2. La solution analytique est exacte et imm√©diate (O(n¬≤) pour l'inversion)")
print("\n3. La descente de gradient est it√©rative mais scalable pour les grandes donn√©es")
print("\n4. Le learning rate influence la vitesse de convergence :")
print("   - Trop petit : convergence lente")
print("   - Trop grand : divergence ou oscillations")
print("\n5. Pour la r√©gression lin√©aire, la fonction de co√ªt est convexe (surface en bol)")
print("   donc la descente de gradient garantit de trouver le minimum global.")

---

**Fin des solutions du Chapitre 01**