# üé® PROJET : Visualisation de Gradients et Gradient Descent

**Un projet pratique pour comprendre le calcul diff√©rentiel en action !** üöÄ

---

## üéØ Objectifs du Projet

Dans ce projet, vous allez :

1. **Visualiser des gradients** sur des fonctions 2D
2. **Impl√©menter Gradient Descent** from scratch
3. **Cr√©er des surfaces 3D** avec vecteurs de gradient
4. **Animer l'optimisation** en temps r√©el
5. **Appliquer au Machine Learning** (r√©gression lin√©aire)

### ü§ñ Pourquoi ce projet est important ?

C'est **exactement** ce qui se passe dans l'entra√Ænement d'un r√©seau de neurones !
- Gradient Descent = algorithme d'optimisation
- Visualisation = comprendre le paysage de la loss
- Animation = voir l'apprentissage en action

---

## üìö Pr√©requis

Assurez-vous d'avoir compl√©t√© :
- ‚úÖ Cours : Maths_05_Calcul_Differentiel.ipynb
- ‚úÖ Exercices : exercices_05_calcul_differentiel.ipynb

---

## üîß Configuration et Imports

In [None]:
# Imports
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import cm
from mpl_toolkits.mplot3d import Axes3D
from matplotlib.animation import FuncAnimation
from IPython.display import HTML
import sympy as sp

# Configuration matplotlib
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 11

print("‚úÖ Imports r√©ussis ! Pr√™t √† visualiser des gradients !")

---
## üìä Partie 1 : Visualisation de Gradients 2D

Commen√ßons par visualiser le gradient sur une fonction simple.

### 1.1 Fonction Quadratique Simple : $f(x, y) = x^2 + y^2$

In [None]:
# D√©finir la fonction et son gradient
def f_quadratic(x, y):
    """Fonction parabolo√Øde: f(x,y) = x¬≤ + y¬≤"""
    return x**2 + y**2

def gradient_f_quadratic(x, y):
    """Gradient de f: ‚àáf = (2x, 2y)"""
    return np.array([2*x, 2*y])

# Cr√©er une grille
x_range = np.linspace(-3, 3, 20)
y_range = np.linspace(-3, 3, 20)
X, Y = np.meshgrid(x_range, y_range)
Z = f_quadratic(X, Y)

# Calculer les gradients sur la grille
U = 2 * X  # ‚àÇf/‚àÇx
V = 2 * Y  # ‚àÇf/‚àÇy

# Visualisation
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Contours avec gradients
contour = ax1.contour(X, Y, Z, levels=15, cmap='viridis')
ax1.clabel(contour, inline=True, fontsize=8)
ax1.quiver(X, Y, U, V, color='red', alpha=0.6, scale=50)
ax1.set_xlabel('x', fontsize=12)
ax1.set_ylabel('y', fontsize=12)
ax1.set_title('f(x,y) = x¬≤ + y¬≤ - Contours et Gradients', fontweight='bold', fontsize=14)
ax1.plot(0, 0, 'r*', markersize=20, label='Minimum (0, 0)')
ax1.legend()
ax1.grid(True, alpha=0.3)
ax1.axis('equal')

# Heatmap avec gradients
im = ax2.imshow(Z, extent=[-3, 3, -3, 3], origin='lower', cmap='hot', aspect='auto')
ax2.quiver(X, Y, -U, -V, color='cyan', alpha=0.8, scale=50, label='Direction descente (-‚àáf)')
ax2.set_xlabel('x', fontsize=12)
ax2.set_ylabel('y', fontsize=12)
ax2.set_title('Direction de Descente (Gradient N√©gatif)', fontweight='bold', fontsize=14)
ax2.plot(0, 0, 'c*', markersize=20, label='Minimum')
ax2.legend()
plt.colorbar(im, ax=ax2, label='f(x, y)')

plt.tight_layout()
plt.show()

print("üìå Observation : Les gradients pointent VERS L'EXT√âRIEUR (mont√©e)")
print("üìå Pour descendre, on suit -‚àáf (gradient n√©gatif)")

### 1.2 Fonction Plus Complexe : Fonction de Rosenbrock

In [None]:
# Fonction de Rosenbrock (difficile √† optimiser !)
def rosenbrock(x, y):
    """f(x,y) = (1-x)¬≤ + 100(y-x¬≤)¬≤"""
    return (1 - x)**2 + 100 * (y - x**2)**2

def gradient_rosenbrock(x, y):
    """Gradient de Rosenbrock"""
    df_dx = -2*(1-x) - 400*x*(y - x**2)
    df_dy = 200*(y - x**2)
    return np.array([df_dx, df_dy])

# Grille
x_range = np.linspace(-2, 2, 40)
y_range = np.linspace(-1, 3, 40)
X, Y = np.meshgrid(x_range, y_range)
Z = rosenbrock(X, Y)

# Visualisation
plt.figure(figsize=(14, 10))

# Contours avec √©chelle log pour mieux voir
contour = plt.contour(X, Y, np.log(Z + 1), levels=20, cmap='twilight')
plt.clabel(contour, inline=True, fontsize=8)
plt.contourf(X, Y, np.log(Z + 1), levels=20, cmap='twilight', alpha=0.3)

# Gradients en quelques points
step = 5
for i in range(0, len(x_range), step):
    for j in range(0, len(y_range), step):
        x_pt, y_pt = X[j, i], Y[j, i]
        grad = gradient_rosenbrock(x_pt, y_pt)
        # Normaliser pour visualisation
        if np.linalg.norm(grad) > 0:
            grad_norm = -grad / (np.linalg.norm(grad) + 1) * 0.15
            plt.arrow(x_pt, y_pt, grad_norm[0], grad_norm[1], 
                     head_width=0.05, head_length=0.05, fc='yellow', ec='orange', alpha=0.7)

plt.plot(1, 1, 'r*', markersize=25, label='Minimum global (1, 1)')
plt.xlabel('x', fontsize=12)
plt.ylabel('y', fontsize=12)
plt.title('Fonction de Rosenbrock - Paysage d\'Optimisation Difficile', fontweight='bold', fontsize=14)
plt.legend(fontsize=12)
plt.colorbar(label='log(f(x,y) + 1)')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print("üî• La fonction de Rosenbrock est c√©l√®bre pour √™tre difficile √† optimiser !")
print("   Vall√©e √©troite en forme de banane menant au minimum.")

---
## üé¢ Partie 2 : Surfaces 3D avec Vecteurs de Gradient

Visualisons les fonctions en 3D pour mieux comprendre le paysage.

In [None]:
# Surface 3D avec contours
fig = plt.figure(figsize=(16, 12))

# Fonction quadratique
ax1 = fig.add_subplot(221, projection='3d')
x_range = np.linspace(-3, 3, 50)
y_range = np.linspace(-3, 3, 50)
X, Y = np.meshgrid(x_range, y_range)
Z = f_quadratic(X, Y)

surf = ax1.plot_surface(X, Y, Z, cmap='viridis', alpha=0.8, edgecolor='none')
ax1.set_xlabel('x')
ax1.set_ylabel('y')
ax1.set_zlabel('f(x, y)')
ax1.set_title('f(x,y) = x¬≤ + y¬≤ (Parabolo√Øde)', fontweight='bold')
fig.colorbar(surf, ax=ax1, shrink=0.5)

# Fonction avec point-selle
ax2 = fig.add_subplot(222, projection='3d')
Z_saddle = X**2 - Y**2
surf2 = ax2.plot_surface(X, Y, Z_saddle, cmap='coolwarm', alpha=0.8, edgecolor='none')
ax2.plot([0], [0], [0], 'ro', markersize=10, label='Point-selle')
ax2.set_xlabel('x')
ax2.set_ylabel('y')
ax2.set_zlabel('f(x, y)')
ax2.set_title('f(x,y) = x¬≤ - y¬≤ (Point-Selle)', fontweight='bold')
fig.colorbar(surf2, ax=ax2, shrink=0.5)
ax2.legend()

# Fonction de Himmelblau (4 minima locaux !)
def himmelblau(x, y):
    return (x**2 + y - 11)**2 + (x + y**2 - 7)**2

ax3 = fig.add_subplot(223, projection='3d')
x_range = np.linspace(-5, 5, 60)
y_range = np.linspace(-5, 5, 60)
X_h, Y_h = np.meshgrid(x_range, y_range)
Z_h = himmelblau(X_h, Y_h)

surf3 = ax3.plot_surface(X_h, Y_h, np.log(Z_h + 1), cmap='plasma', alpha=0.8, edgecolor='none')
ax3.set_xlabel('x')
ax3.set_ylabel('y')
ax3.set_zlabel('log(f + 1)')
ax3.set_title('Himmelblau (4 Minima Locaux)', fontweight='bold')
fig.colorbar(surf3, ax=ax3, shrink=0.5)

# Rosenbrock en 3D
ax4 = fig.add_subplot(224, projection='3d')
x_range = np.linspace(-2, 2, 50)
y_range = np.linspace(-1, 3, 50)
X_r, Y_r = np.meshgrid(x_range, y_range)
Z_r = rosenbrock(X_r, Y_r)

surf4 = ax4.plot_surface(X_r, Y_r, np.log(Z_r + 1), cmap='hot', alpha=0.8, edgecolor='none')
ax4.plot([1], [1], [0], 'c*', markersize=15, label='Minimum (1,1)')
ax4.set_xlabel('x')
ax4.set_ylabel('y')
ax4.set_zlabel('log(f + 1)')
ax4.set_title('Rosenbrock (Vall√©e Banane)', fontweight='bold')
fig.colorbar(surf4, ax=ax4, shrink=0.5)
ax4.legend()

plt.tight_layout()
plt.show()

print("üèîÔ∏è Diff√©rents paysages d'optimisation :")
print("   - Parabolo√Øde : 1 minimum global (facile)")
print("   - Point-selle : ni min ni max (pi√®ge !)")
print("   - Himmelblau : 4 minima locaux (complexe)")
print("   - Rosenbrock : vall√©e √©troite (difficile)")

---
## ‚ö° Partie 3 : Impl√©mentation de Gradient Descent

Impl√©mentons l'algorithme from scratch !

In [None]:
# Classe Gradient Descent r√©utilisable
class GradientDescent:
    def __init__(self, f, grad_f, learning_rate=0.01, max_iterations=1000, tolerance=1e-6):
        """
        Gradient Descent Optimizer
        
        Args:
            f: fonction √† minimiser
            grad_f: gradient de la fonction
            learning_rate: taux d'apprentissage (alpha)
            max_iterations: nombre max d'it√©rations
            tolerance: crit√®re d'arr√™t (gradient proche de 0)
        """
        self.f = f
        self.grad_f = grad_f
        self.lr = learning_rate
        self.max_iter = max_iterations
        self.tol = tolerance
        self.history = []
        
    def optimize(self, x0, verbose=True):
        """
        Ex√©cute l'optimisation
        
        Args:
            x0: point de d√©part (array)
            verbose: afficher les logs
        
        Returns:
            x_opt: point optimal trouv√©
        """
        x = np.array(x0, dtype=float)
        self.history = [x.copy()]
        
        if verbose:
            print(f"{'Iter':<8} {'x':<20} {'f(x)':<15} {'||‚àáf||'}")
            print("=" * 65)
        
        for i in range(self.max_iter):
            # Calculer gradient
            if len(x) == 1:
                grad = np.array([self.grad_f(x[0])])
            elif len(x) == 2:
                grad = self.grad_f(x[0], x[1])
            else:
                grad = self.grad_f(*x)
            
            # Mise √† jour
            x = x - self.lr * grad
            self.history.append(x.copy())
            
            # Logs
            if verbose and i % (self.max_iter // 10) == 0:
                if len(x) == 1:
                    f_val = self.f(x[0])
                elif len(x) == 2:
                    f_val = self.f(x[0], x[1])
                else:
                    f_val = self.f(*x)
                grad_norm = np.linalg.norm(grad)
                print(f"{i:<8} {str(x):<20} {f_val:<15.6f} {grad_norm:.6f}")
            
            # Crit√®re d'arr√™t
            if np.linalg.norm(grad) < self.tol:
                if verbose:
                    print(f"\n‚úÖ Convergence atteinte √† l'it√©ration {i}")
                break
        
        self.history = np.array(self.history)
        return x

print("‚úÖ Classe GradientDescent cr√©√©e !")

### 3.1 Test sur Fonction Quadratique

In [None]:
# Test Gradient Descent
print("üéØ Minimisation de f(x, y) = (x-3)¬≤ + (y+2)¬≤")
print("   Minimum th√©orique: (3, -2)\n")

# Fonction √† minimiser
def f_test(x, y):
    return (x - 3)**2 + (y + 2)**2

def grad_f_test(x, y):
    return np.array([2*(x - 3), 2*(y + 2)])

# Optimisation
gd = GradientDescent(f_test, grad_f_test, learning_rate=0.1, max_iterations=100)
x_opt = gd.optimize([0, 0])

print(f"\nüìç Point optimal trouv√©: ({x_opt[0]:.6f}, {x_opt[1]:.6f})")
print(f"üìç Minimum th√©orique:    (3.000000, -2.000000)")
print(f"üìç Erreur: {np.linalg.norm(x_opt - np.array([3, -2])):.2e}")

### 3.2 Visualisation de la Trajectoire

In [None]:
# Visualisation de la trajectoire
x_range = np.linspace(-1, 5, 100)
y_range = np.linspace(-4, 1, 100)
X, Y = np.meshgrid(x_range, y_range)
Z = f_test(X, Y)

plt.figure(figsize=(14, 6))

# Vue contours
plt.subplot(1, 2, 1)
contour = plt.contour(X, Y, Z, levels=20, cmap='viridis', alpha=0.6)
plt.clabel(contour, inline=True, fontsize=8)

# Trajectoire
history = gd.history
plt.plot(history[:, 0], history[:, 1], 'ro-', linewidth=2, markersize=5, alpha=0.7, label='Trajectoire')
plt.plot(history[0, 0], history[0, 1], 'go', markersize=12, label='D√©part')
plt.plot(history[-1, 0], history[-1, 1], 'r*', markersize=20, label='Arriv√©e')
plt.plot(3, -2, 'ks', markersize=10, label='Minimum th√©orique')

plt.xlabel('x', fontsize=12)
plt.ylabel('y', fontsize=12)
plt.title('Trajectoire de Gradient Descent', fontweight='bold', fontsize=14)
plt.legend()
plt.grid(True, alpha=0.3)

# Vue 3D
ax = plt.subplot(1, 2, 2, projection='3d')
ax.plot_surface(X, Y, Z, cmap='viridis', alpha=0.6, edgecolor='none')

# Trajectoire 3D
z_history = [f_test(pt[0], pt[1]) for pt in history]
ax.plot(history[:, 0], history[:, 1], z_history, 'r-', linewidth=3, label='Trajectoire')
ax.plot([history[0, 0]], [history[0, 1]], [z_history[0]], 'go', markersize=10, label='D√©part')
ax.plot([history[-1, 0]], [history[-1, 1]], [z_history[-1]], 'r*', markersize=15, label='Arriv√©e')

ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_zlabel('f(x, y)')
ax.set_title('Descente 3D', fontweight='bold')
ax.legend()

plt.tight_layout()
plt.show()

print(f"üéØ Nombre d'it√©rations: {len(history)}")
print(f"üéØ Distance initiale au minimum: {np.linalg.norm(history[0] - np.array([3, -2])):.4f}")
print(f"üéØ Distance finale au minimum: {np.linalg.norm(history[-1] - np.array([3, -2])):.4e}")

---
## üé¨ Partie 4 : Animation de Gradient Descent

Animons l'optimisation en temps r√©el !

In [None]:
# Animation de Gradient Descent
from matplotlib.animation import FuncAnimation
from IPython.display import HTML

# Fonction et gradient
def f_anim(x, y):
    return x**2 + y**2

def grad_f_anim(x, y):
    return np.array([2*x, 2*y])

# Optimiser
gd_anim = GradientDescent(f_anim, grad_f_anim, learning_rate=0.15, max_iterations=50)
x_opt_anim = gd_anim.optimize([3, 2], verbose=False)

# Pr√©parer l'animation
history_anim = gd_anim.history

# Grille
x_range = np.linspace(-4, 4, 100)
y_range = np.linspace(-3, 3, 100)
X, Y = np.meshgrid(x_range, y_range)
Z = f_anim(X, Y)

# Configuration figure
fig, ax = plt.subplots(figsize=(10, 8))
contour = ax.contour(X, Y, Z, levels=15, cmap='viridis', alpha=0.6)
ax.clabel(contour, inline=True, fontsize=8)
ax.set_xlabel('x', fontsize=12)
ax.set_ylabel('y', fontsize=12)
ax.set_title('Animation Gradient Descent', fontweight='bold', fontsize=14)
ax.grid(True, alpha=0.3)

# √âl√©ments anim√©s
line, = ax.plot([], [], 'ro-', linewidth=2, markersize=5, label='Trajectoire')
point, = ax.plot([], [], 'r*', markersize=20, label='Position actuelle')
ax.plot(0, 0, 'ks', markersize=12, label='Minimum (0, 0)')
ax.legend()

text = ax.text(0.02, 0.95, '', transform=ax.transAxes, fontsize=11,
              verticalalignment='top', bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.8))

def init():
    line.set_data([], [])
    point.set_data([], [])
    text.set_text('')
    return line, point, text

def animate(i):
    # Trajectoire jusqu'√† i
    line.set_data(history_anim[:i+1, 0], history_anim[:i+1, 1])
    point.set_data([history_anim[i, 0]], [history_anim[i, 1]])
    
    # Info
    x_cur, y_cur = history_anim[i]
    f_cur = f_anim(x_cur, y_cur)
    grad_cur = grad_f_anim(x_cur, y_cur)
    grad_norm = np.linalg.norm(grad_cur)
    
    text.set_text(f'It√©ration: {i}\nx = ({x_cur:.4f}, {y_cur:.4f})\nf(x) = {f_cur:.6f}\n||‚àáf|| = {grad_norm:.6f}')
    
    return line, point, text

anim = FuncAnimation(fig, animate, init_func=init, frames=len(history_anim), 
                    interval=200, blit=True, repeat=True)

plt.close()  # Ne pas afficher la figure statique

# Afficher l'animation
HTML(anim.to_jshtml())

---
## ü§ñ Partie 5 : Application ML - R√©gression Lin√©aire

Utilisons Gradient Descent pour entra√Æner un mod√®le de r√©gression lin√©aire !

### 5.1 G√©n√©ration des Donn√©es

In [None]:
# Donn√©es synth√©tiques : y = 2x + 3 + bruit
np.random.seed(42)
n_samples = 50

# Vraie relation : y = 2x + 3
X_data = np.random.uniform(0, 10, n_samples)
y_data = 2 * X_data + 3 + np.random.normal(0, 2, n_samples)  # Bruit

# Visualisation
plt.figure(figsize=(10, 6))
plt.scatter(X_data, y_data, alpha=0.6, s=50, label='Donn√©es')
plt.plot([0, 10], [3, 23], 'r--', linewidth=2, label='Vraie relation: y = 2x + 3')
plt.xlabel('x', fontsize=12)
plt.ylabel('y', fontsize=12)
plt.title('Donn√©es de R√©gression Lin√©aire', fontweight='bold', fontsize=14)
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print(f"‚úÖ {n_samples} points g√©n√©r√©s")
print(f"üìä Vraie relation: y = 2x + 3")
print(f"üéØ Objectif: retrouver w=2 et b=3 avec Gradient Descent")

### 5.2 Impl√©mentation de la Loss et du Gradient

In [None]:
# Loss function: Mean Squared Error (MSE)
def mse_loss(w, b, X, y):
    """
    MSE = (1/n) * Œ£(y_i - (w*x_i + b))¬≤
    """
    predictions = w * X + b
    errors = y - predictions
    return np.mean(errors**2)

def gradient_mse(w, b, X, y):
    """
    ‚àÇL/‚àÇw = -(2/n) * Œ£(y_i - (w*x_i + b)) * x_i
    ‚àÇL/‚àÇb = -(2/n) * Œ£(y_i - (w*x_i + b))
    """
    n = len(X)
    predictions = w * X + b
    errors = y - predictions
    
    dw = -(2/n) * np.sum(errors * X)
    db = -(2/n) * np.sum(errors)
    
    return np.array([dw, db])

# Wrapper pour utiliser GradientDescent
def loss_wrapper(params):
    return mse_loss(params[0], params[1], X_data, y_data)

def grad_wrapper(w, b):
    return gradient_mse(w, b, X_data, y_data)

print("‚úÖ Loss et gradient d√©finis")
print("   Loss: MSE = (1/n) * Œ£(y_i - (w*x_i + b))¬≤")
print("   Gradients calcul√©s analytiquement")

### 5.3 Entra√Ænement avec Gradient Descent

In [None]:
# Entra√Ænement
print("üöÄ Entra√Ænement du mod√®le avec Gradient Descent\n")

gd_ml = GradientDescent(loss_wrapper, grad_wrapper, learning_rate=0.01, max_iterations=500)
params_opt = gd_ml.optimize([0, 0])  # Partir de w=0, b=0

w_final, b_final = params_opt

print(f"\nüìä R√©sultats:")
print(f"   Param√®tres trouv√©s: w = {w_final:.6f}, b = {b_final:.6f}")
print(f"   Vrais param√®tres:   w = 2.000000, b = 3.000000")
print(f"   Erreur w: {abs(w_final - 2):.6f}")
print(f"   Erreur b: {abs(b_final - 3):.6f}")
print(f"\n   Loss finale: {mse_loss(w_final, b_final, X_data, y_data):.6f}")

### 5.4 Visualisation des R√©sultats

In [None]:
# Visualisation finale
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Donn√©es et pr√©dictions
ax1.scatter(X_data, y_data, alpha=0.6, s=50, label='Donn√©es', color='blue')
ax1.plot([0, 10], [3, 23], 'r--', linewidth=2, label='Vraie: y = 2x + 3', alpha=0.7)

# Mod√®le appris
x_line = np.array([0, 10])
y_pred_line = w_final * x_line + b_final
ax1.plot(x_line, y_pred_line, 'g-', linewidth=3, 
         label=f'Apprise: y = {w_final:.2f}x + {b_final:.2f}')

ax1.set_xlabel('x', fontsize=12)
ax1.set_ylabel('y', fontsize=12)
ax1.set_title('R√©gression Lin√©aire - R√©sultat', fontweight='bold', fontsize=14)
ax1.legend(fontsize=11)
ax1.grid(True, alpha=0.3)

# √âvolution de la loss
history_params = gd_ml.history
loss_history = [mse_loss(p[0], p[1], X_data, y_data) for p in history_params]

ax2.plot(loss_history, linewidth=2, color='red')
ax2.set_xlabel('It√©ration', fontsize=12)
ax2.set_ylabel('Loss (MSE)', fontsize=12)
ax2.set_title('√âvolution de la Loss pendant l\'Entra√Ænement', fontweight='bold', fontsize=14)
ax2.grid(True, alpha=0.3)
ax2.set_yscale('log')

plt.tight_layout()
plt.show()

print("‚úÖ Mod√®le entra√Æn√© avec succ√®s !")
print("üìâ La loss d√©cro√Æt exponentiellement (√©chelle log)")

### 5.5 Paysage de la Loss en 3D

In [None]:
# Visualisation 3D du paysage de la loss
w_range = np.linspace(0, 4, 50)
b_range = np.linspace(0, 6, 50)
W, B = np.meshgrid(w_range, b_range)
L = np.zeros_like(W)

for i in range(len(w_range)):
    for j in range(len(b_range)):
        L[j, i] = mse_loss(W[j, i], B[j, i], X_data, y_data)

fig = plt.figure(figsize=(16, 6))

# Surface 3D
ax1 = fig.add_subplot(121, projection='3d')
surf = ax1.plot_surface(W, B, L, cmap='hot', alpha=0.7, edgecolor='none')

# Trajectoire d'optimisation
w_history = history_params[:, 0]
b_history = history_params[:, 1]
l_history = np.array(loss_history)

ax1.plot(w_history, b_history, l_history, 'g-', linewidth=3, label='Trajectoire GD')
ax1.plot([w_history[0]], [b_history[0]], [l_history[0]], 'go', markersize=10, label='D√©part')
ax1.plot([w_history[-1]], [b_history[-1]], [l_history[-1]], 'r*', markersize=15, label='Arriv√©e')
ax1.plot([2], [3], [mse_loss(2, 3, X_data, y_data)], 'ks', markersize=10, label='Optimum th√©orique')

ax1.set_xlabel('w (pente)', fontsize=11)
ax1.set_ylabel('b (intercept)', fontsize=11)
ax1.set_zlabel('Loss (MSE)', fontsize=11)
ax1.set_title('Paysage de la Loss 3D', fontweight='bold', fontsize=13)
ax1.legend()
fig.colorbar(surf, ax=ax1, shrink=0.5)

# Contours 2D avec trajectoire
ax2 = fig.add_subplot(122)
contour = ax2.contour(W, B, L, levels=20, cmap='hot')
ax2.clabel(contour, inline=True, fontsize=8)
ax2.plot(w_history, b_history, 'g-', linewidth=2, alpha=0.7, label='Trajectoire')
ax2.plot(w_history[0], b_history[0], 'go', markersize=10, label='D√©part (0, 0)')
ax2.plot(w_history[-1], b_history[-1], 'r*', markersize=15, label=f'Arriv√©e ({w_final:.2f}, {b_final:.2f})')
ax2.plot(2, 3, 'ks', markersize=10, label='Optimum (2, 3)')

ax2.set_xlabel('w (pente)', fontsize=11)
ax2.set_ylabel('b (intercept)', fontsize=11)
ax2.set_title('Trajectoire dans l\'Espace des Param√®tres', fontweight='bold', fontsize=13)
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("üèîÔ∏è Le paysage de la loss est un parabolo√Øde (forme de bol)")
print("üéØ Gradient Descent descend progressivement vers le minimum")
print("‚úÖ C'est exactement ce qui se passe dans l'entra√Ænement d'un r√©seau de neurones !")

---
## üéì Partie 6 : Exp√©rimentations et Insights

Explorons l'impact des hyperparam√®tres.

### 6.1 Impact du Learning Rate

In [None]:
# Comparer diff√©rents learning rates
learning_rates = [0.001, 0.01, 0.05, 0.1]
colors = ['blue', 'green', 'orange', 'red']

plt.figure(figsize=(14, 6))

# Contours
w_range = np.linspace(0, 4, 50)
b_range = np.linspace(0, 6, 50)
W, B = np.meshgrid(w_range, b_range)
L = np.zeros_like(W)
for i in range(len(w_range)):
    for j in range(len(b_range)):
        L[j, i] = mse_loss(W[j, i], B[j, i], X_data, y_data)

contour = plt.contour(W, B, L, levels=15, cmap='gray', alpha=0.3)
plt.clabel(contour, inline=True, fontsize=7)

# Tester chaque learning rate
for lr, color in zip(learning_rates, colors):
    gd_test = GradientDescent(loss_wrapper, grad_wrapper, learning_rate=lr, max_iterations=200)
    params_test = gd_test.optimize([0, 0], verbose=False)
    
    hist = gd_test.history
    plt.plot(hist[:, 0], hist[:, 1], color=color, linewidth=2, alpha=0.8, 
             label=f'Œ± = {lr} ({len(hist)} iter)')
    plt.plot(hist[0, 0], hist[0, 1], 'o', color=color, markersize=8)
    plt.plot(hist[-1, 0], hist[-1, 1], '*', color=color, markersize=15)

plt.plot(2, 3, 'ks', markersize=12, label='Optimum (2, 3)', zorder=10)
plt.xlabel('w', fontsize=12)
plt.ylabel('b', fontsize=12)
plt.title('Impact du Learning Rate sur la Convergence', fontweight='bold', fontsize=14)
plt.legend(fontsize=10)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print("üìä Observations:")
print("   - Learning rate TROP PETIT (0.001) : convergence lente")
print("   - Learning rate OPTIMAL (0.01-0.05) : convergence rapide et stable")
print("   - Learning rate TROP GRAND (0.1) : peut diverger ou osciller")

---
## üéâ Conclusion du Projet

**F√©licitations ! Vous avez :**

‚úÖ Visualis√© des gradients sur diff√©rentes fonctions  
‚úÖ Impl√©ment√© Gradient Descent from scratch  
‚úÖ Cr√©√© des visualisations 3D de paysages d'optimisation  
‚úÖ Anim√© l'algorithme d'optimisation  
‚úÖ Appliqu√© au Machine Learning (r√©gression lin√©aire)  
‚úÖ Explor√© l'impact des hyperparam√®tres  

---

### ü§ñ Lien avec le Deep Learning

Ce que vous avez fait dans ce projet est **exactement** ce qui se passe dans l'entra√Ænement d'un r√©seau de neurones :

1. **Loss Function** ‚Üí Erreur entre pr√©dictions et cibles
2. **Gradient** ‚Üí Direction pour am√©liorer les param√®tres
3. **Gradient Descent** ‚Üí Mise √† jour des poids
4. **It√©rations** ‚Üí Epochs d'entra√Ænement
5. **Learning Rate** ‚Üí Hyperparam√®tre critique

**La seule diff√©rence ?** Les r√©seaux de neurones ont des millions de param√®tres au lieu de 2 !

---

### üìö Pour Aller Plus Loin

**Prochains sujets √† explorer :**
- Momentum et optimiseurs avanc√©s (Adam, RMSprop)
- Stochastic Gradient Descent (SGD)
- Mini-batch Gradient Descent
- Backpropagation dans les r√©seaux de neurones
- R√©gularisation (L1, L2)

**Continuez votre apprentissage avec :**
- Alg√®bre Lin√©aire (matrices, vecteurs)
- Probabilit√©s et Statistiques
- R√©seaux de Neurones

---

**üéØ Vous comprenez maintenant les math√©matiques derri√®re le Machine Learning ! üí™**