# ‚¨ÖÔ∏è Backpropagation - Comment un R√©seau Apprend

Bienvenue dans le notebook le plus important : la **backpropagation** !

## üéØ Objectifs

1. **Comprendre l'intuition** derri√®re la backpropagation
2. **Voir les math√©matiques** (mais simplement !)
3. **Impl√©menter** l'algorithme √©tape par √©tape
4. **Visualiser** comment le r√©seau s'am√©liore

---

## üí° L'Intuition en 3 Questions

### 1. Le r√©seau fait une erreur. Pourquoi ?
**R√©ponse** : Parce que les poids ne sont pas bons.

### 2. Comment savoir quels poids sont responsables ?
**R√©ponse** : En propageant l'erreur **en arri√®re** dans le r√©seau.

### 3. Comment corriger les poids ?
**R√©ponse** : En les ajustant dans la direction qui **r√©duit l'erreur**.

C'est √ßa, la backpropagation ! üéì

In [None]:
# Imports
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import sys

sys.path.append(str(Path.cwd().parent))

plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (14, 8)

np.random.seed(42)

print("‚úÖ Pr√™t √† apprendre la backpropagation !")

## 1Ô∏è‚É£ Analogie : Apprendre √† Tirer au But

Imagine que tu apprends √† tirer au football :

1. üéØ **Tu tires** ‚Üí Le ballon va √† gauche du but
2. ü§î **Tu analyses** ‚Üí "J'ai tir√© trop √† gauche"
3. üîß **Tu ajustes** ‚Üí "La prochaine fois, je vise plus √† droite"
4. üîÑ **Tu recommences** ‚Üí Tu t'am√©liores !

### La backpropagation fait EXACTEMENT pareil :

1. üéØ **Forward pass** ‚Üí Le r√©seau fait une pr√©diction
2. üìä **Calcul de l'erreur** ‚Üí "Voil√† √† quel point je me suis tromp√©"
3. ‚¨ÖÔ∏è **Backward pass** ‚Üí "Ces poids sont responsables de l'erreur"
4. üîß **Mise √† jour** ‚Üí "Je les ajuste pour faire mieux"
5. üîÑ **R√©p√®te** ‚Üí Le r√©seau s'am√©liore !

## 2Ô∏è‚É£ La Fonction de Co√ªt (Loss Function)

Avant de corriger, il faut **mesurer l'erreur** !

### Cross-Entropy Loss

Pour la classification, on utilise la **cross-entropy** :

$$
L = -\sum_{i=0}^{9} y_i \log(\hat{y}_i)
$$

O√π :
- $y$ = vrai label (one-hot encoded)
- $\hat{y}$ = pr√©diction (probabilit√©s)

### Pourquoi cette formule ?

- Si pr√©diction **correcte** (ex: 95% sur la bonne classe) ‚Üí Loss **petite** ‚úÖ
- Si pr√©diction **incorrecte** (ex: 5% sur la bonne classe) ‚Üí Loss **grande** ‚ùå

In [None]:
def cross_entropy_loss(y_true, y_pred):
    """
    Calcule la cross-entropy loss
    
    Args:
        y_true: vrais labels (one-hot encoded) - shape: (n_samples, n_classes)
        y_pred: pr√©dictions (probabilit√©s) - shape: (n_samples, n_classes)
    
    Returns:
        loss: erreur moyenne
    """
    n_samples = y_true.shape[0]
    
    # √âviter log(0) en ajoutant une petite valeur
    epsilon = 1e-7
    y_pred = np.clip(y_pred, epsilon, 1 - epsilon)
    
    # Cross-entropy
    loss = -np.sum(y_true * np.log(y_pred)) / n_samples
    
    return loss

def one_hot_encode(y, n_classes=10):
    """
    Transforme les labels en one-hot encoding
    
    Exemple: 3 ‚Üí [0, 0, 0, 1, 0, 0, 0, 0, 0, 0]
    """
    one_hot = np.zeros((y.shape[0], n_classes))
    one_hot[np.arange(y.shape[0]), y] = 1
    return one_hot

# Test
print("üß™ Test de la fonction de co√ªt:\n")

# Cas 1: Bonne pr√©diction
y_true_1 = one_hot_encode(np.array([3]))
y_pred_1 = np.array([[0.01, 0.01, 0.01, 0.95, 0.01, 0.01, 0.00, 0.00, 0.00, 0.00]])
loss_1 = cross_entropy_loss(y_true_1, y_pred_1)
print(f"‚úÖ Bonne pr√©diction (95% sur classe 3):")
print(f"   Loss = {loss_1:.4f} (petite!)\n")

# Cas 2: Mauvaise pr√©diction
y_true_2 = one_hot_encode(np.array([3]))
y_pred_2 = np.array([[0.05, 0.05, 0.05, 0.10, 0.25, 0.15, 0.10, 0.10, 0.10, 0.05]])
loss_2 = cross_entropy_loss(y_true_2, y_pred_2)
print(f"‚ùå Mauvaise pr√©diction (10% sur classe 3):")
print(f"   Loss = {loss_2:.4f} (grande!)\n")

print(f"üí° La loss est {loss_2/loss_1:.1f}x plus grande quand la pr√©diction est mauvaise!")

### üìä Visualisons la Loss

In [None]:
def visualize_loss_function():
    """
    Montre comment varie la loss selon la confiance de la pr√©diction
    """
    # Probabilit√©s pr√©dites pour la bonne classe
    probabilities = np.linspace(0.01, 0.99, 100)
    losses = -np.log(probabilities)
    
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))
    
    # Graphique 1: Loss vs Probabilit√©
    ax1.plot(probabilities, losses, linewidth=3, color='#e74c3c')
    ax1.fill_between(probabilities, 0, losses, alpha=0.3, color='#e74c3c')
    ax1.set_xlabel('Probabilit√© pr√©dite pour la VRAIE classe', fontsize=13, fontweight='bold')
    ax1.set_ylabel('Loss (Cross-Entropy)', fontsize=13, fontweight='bold')
    ax1.set_title('üìà Comment la Loss P√©nalise les Mauvaises Pr√©dictions', 
                 fontsize=15, fontweight='bold')
    ax1.grid(True, alpha=0.3)
    
    # Annotations
    ax1.annotate('Tr√®s mauvaise\npr√©diction\n(Loss √©lev√©e)', 
                xy=(0.1, -np.log(0.1)), xytext=(0.3, 3),
                fontsize=11, ha='center',
                bbox=dict(boxstyle='round', facecolor='red', alpha=0.7),
                arrowprops=dict(arrowstyle='->', lw=2, color='red'))
    
    ax1.annotate('Bonne\npr√©diction\n(Loss faible)', 
                xy=(0.9, -np.log(0.9)), xytext=(0.7, 1),
                fontsize=11, ha='center',
                bbox=dict(boxstyle='round', facecolor='green', alpha=0.7),
                arrowprops=dict(arrowstyle='->', lw=2, color='green'))
    
    # Graphique 2: Exemples concrets
    scenarios = ['Pr√©diction\nparfaite\n(99%)', 'Bonne\npr√©diction\n(80%)', 
                'Pr√©diction\nmoyenne\n(50%)', 'Mauvaise\npr√©diction\n(20%)', 
                'Tr√®s mauvaise\npr√©diction\n(5%)']
    probs = [0.99, 0.80, 0.50, 0.20, 0.05]
    colors_bar = ['darkgreen', 'lightgreen', 'yellow', 'orange', 'red']
    losses_scenarios = [-np.log(p) for p in probs]
    
    bars = ax2.bar(range(5), losses_scenarios, color=colors_bar, 
                   edgecolor='black', linewidth=2, alpha=0.8)
    ax2.set_xlabel('Sc√©nario', fontsize=13, fontweight='bold')
    ax2.set_ylabel('Loss', fontsize=13, fontweight='bold')
    ax2.set_title('üéØ Loss pour Diff√©rents Sc√©narios', fontsize=15, fontweight='bold')
    ax2.set_xticks(range(5))
    ax2.set_xticklabels(scenarios, fontsize=10)
    ax2.grid(axis='y', alpha=0.3)
    
    # Valeurs sur les barres
    for i, (bar, loss, prob) in enumerate(zip(bars, losses_scenarios, probs)):
        height = bar.get_height()
        ax2.text(bar.get_x() + bar.get_width()/2., height,
                f'{loss:.3f}',
                ha='center', va='bottom', fontsize=12, fontweight='bold')
    
    plt.tight_layout()
    plt.show()
    
    print("\nüí° √Ä retenir:")
    print("   ‚Ä¢ Plus la pr√©diction est confiante et CORRECTE ‚Üí Loss faible")
    print("   ‚Ä¢ Plus la pr√©diction est mauvaise ‚Üí Loss √©lev√©e")
    print("   ‚Ä¢ La loss 'explose' quand la pr√©diction est tr√®s mauvaise")
    print("   ‚Ä¢ L'objectif de l'entra√Ænement: MINIMISER cette loss !")

visualize_loss_function()

## 3Ô∏è‚É£ Le Gradient : La Direction de la Descente

### üéø Analogie : Descendre une Montagne

Imagine que tu es sur une montagne dans le brouillard :
- ‚ùì Tu ne vois pas o√π est le bas
- üîç Mais tu peux sentir la pente sous tes pieds
- üö∂ Tu marches dans la direction de la **plus grande pente**
- üéØ Petit √† petit, tu arrives en bas !

### C'est exactement la descente de gradient !

- üèîÔ∏è **Montagne** = Surface de la loss (fonction √† minimiser)
- üìç **Ta position** = Valeurs actuelles des poids
- üìê **La pente** = Le **gradient** (d√©riv√©e de la loss)
- üö∂ **Marcher** = Ajuster les poids
- üéØ **En bas** = Loss minimale = bon r√©seau !

### Formule de mise √† jour :

$$
W_{\text{nouveau}} = W_{\text{ancien}} - \alpha \cdot \frac{\partial L}{\partial W}
$$

O√π :
- $\alpha$ = **learning rate** (taille du pas)
- $\frac{\partial L}{\partial W}$ = **gradient** (direction de la pente)

In [None]:
def visualize_gradient_descent():
    """
    Visualise la descente de gradient sur une fonction simple
    """
    # Fonction simple: f(x) = x^2
    x = np.linspace(-3, 3, 100)
    y = x ** 2
    
    # Simulation de descente de gradient
    learning_rates = [0.1, 0.3, 0.5]
    colors = ['#3498db', '#2ecc71', '#e74c3c']
    
    fig, axes = plt.subplots(1, 3, figsize=(18, 5))
    fig.suptitle('üéø Descente de Gradient avec Diff√©rents Learning Rates', 
                fontsize=18, fontweight='bold')
    
    for ax, lr, color in zip(axes, learning_rates, colors):
        # Tracer la fonction
        ax.plot(x, y, 'k-', linewidth=2, alpha=0.3, label='Loss = x¬≤')
        
        # Descente de gradient
        x_current = 2.5  # Point de d√©part
        trajectory_x = [x_current]
        trajectory_y = [x_current ** 2]
        
        for i in range(15):
            gradient = 2 * x_current  # D√©riv√©e de x^2 = 2x
            x_current = x_current - lr * gradient
            trajectory_x.append(x_current)
            trajectory_y.append(x_current ** 2)
        
        # Tracer la trajectoire
        ax.plot(trajectory_x, trajectory_y, 'o-', color=color, 
               linewidth=2, markersize=8, label=f'Trajectoire (Œ±={lr})')
        
        # Point de d√©part et d'arriv√©e
        ax.plot(trajectory_x[0], trajectory_y[0], 'ro', markersize=15, 
               label='D√©part', zorder=5)
        ax.plot(trajectory_x[-1], trajectory_y[-1], 'go', markersize=15, 
               label='Arriv√©e', zorder=5)
        
        ax.set_xlabel('Poids (W)', fontsize=12, fontweight='bold')
        ax.set_ylabel('Loss', fontsize=12, fontweight='bold')
        ax.set_title(f'Learning Rate Œ± = {lr}', fontsize=14, fontweight='bold')
        ax.legend(fontsize=10)
        ax.grid(True, alpha=0.3)
        ax.set_ylim(-0.5, 7)
    
    plt.tight_layout()
    plt.show()
    
    print("\nüéì Observations:")
    print("\n   üìâ Learning Rate Œ± = 0.1 (petit):")
    print("      ‚Ä¢ Progression lente mais s√ªre")
    print("      ‚Ä¢ Converge doucement vers le minimum")
    print("      ‚úÖ S√ªr mais peut √™tre lent\n")
    
    print("   üìâ Learning Rate Œ± = 0.3 (moyen):")
    print("      ‚Ä¢ Progression rapide")
    print("      ‚Ä¢ Converge efficacement")
    print("      ‚úÖ Bon √©quilibre!\n")
    
    print("   üìâ Learning Rate Œ± = 0.5 (grand):")
    print("      ‚Ä¢ Progression tr√®s rapide")
    print("      ‚Ä¢ Peut osciller autour du minimum")
    print("      ‚ö†Ô∏è Risque d'instabilit√©\n")
    
    print("üí° Conclusion: Le learning rate doit √™tre bien choisi!")

visualize_gradient_descent()

## 4Ô∏è‚É£ Backpropagation : Les Math√©matiques

Maintenant, voyons comment calculer ces gradients !

### Rappel de notre r√©seau :

```
Forward:
  X ‚Üí [W1, b1, ReLU] ‚Üí A1 ‚Üí [W2, b2, Softmax] ‚Üí A2 ‚Üí Loss

Backward (on inverse!):
  ‚àÇLoss/‚àÇW1 ‚Üê [backprop] ‚Üê ‚àÇLoss/‚àÇA1 ‚Üê [backprop] ‚Üê ‚àÇLoss/‚àÇA2 ‚Üê Loss
```

### Les gradients √† calculer :

#### Couche de sortie (Layer 2) :
$$\frac{\partial L}{\partial Z_2} = A_2 - Y \quad \text{(pour Softmax + Cross-Entropy)}$$

$$\frac{\partial L}{\partial W_2} = A_1^T \cdot \frac{\partial L}{\partial Z_2}$$

$$\frac{\partial L}{\partial b_2} = \sum \frac{\partial L}{\partial Z_2}$$

#### Couche cach√©e (Layer 1) :
$$\frac{\partial L}{\partial A_1} = \frac{\partial L}{\partial Z_2} \cdot W_2^T$$

$$\frac{\partial L}{\partial Z_1} = \frac{\partial L}{\partial A_1} \odot \text{ReLU}'(Z_1) \quad \text{(o√π ReLU' = 1 si Z>0, 0 sinon)}$$

$$\frac{\partial L}{\partial W_1} = X^T \cdot \frac{\partial L}{\partial Z_1}$$

$$\frac{\partial L}{\partial b_1} = \sum \frac{\partial L}{\partial Z_1}$$

### üí° Pas de panique !
Ces formules peuvent sembler compliqu√©es, mais ce sont juste des multiplications matricielles ! 
Regardons le code, c'est plus clair :

In [None]:
# D'abord, r√©cup√©rons les fonctions du notebook pr√©c√©dent
def relu(Z):
    return np.maximum(0, Z)

def softmax(Z):
    exp_Z = np.exp(Z - np.max(Z, axis=1, keepdims=True))
    return exp_Z / np.sum(exp_Z, axis=1, keepdims=True)

def forward_propagation(X, parameters):
    W1, b1 = parameters['W1'], parameters['b1']
    W2, b2 = parameters['W2'], parameters['b2']
    
    Z1 = np.dot(X, W1) + b1
    A1 = relu(Z1)
    Z2 = np.dot(A1, W2) + b2
    A2 = softmax(Z2)
    
    cache = {'Z1': Z1, 'A1': A1, 'Z2': Z2, 'A2': A2}
    return A2, cache

def backward_propagation(X, Y, parameters, cache, verbose=False):
    """
    Calcule les gradients par backpropagation
    
    Args:
        X: donn√©es d'entr√©e (n_samples, 784)
        Y: vrais labels (n_samples, 10) - one-hot encoded
        parameters: poids et biais actuels
        cache: valeurs de la forward propagation
        verbose: afficher les d√©tails
    
    Returns:
        gradients: dictionnaire avec dW1, db1, dW2, db2
    """
    n_samples = X.shape[0]
    
    # R√©cup√©rer les valeurs du cache
    A1 = cache['A1']
    A2 = cache['A2']
    Z1 = cache['Z1']
    
    W2 = parameters['W2']
    
    if verbose:
        print("\n" + "="*70)
        print("‚¨ÖÔ∏è BACKPROPAGATION - √âTAPE PAR √âTAPE")
        print("="*70)
    
    # ===== COUCHE 2 (Output) =====
    # Gradient de la loss par rapport √† Z2
    # Pour Softmax + Cross-Entropy, c'est super simple!
    dZ2 = A2 - Y
    
    if verbose:
        print(f"\nüî∏ Layer 2 - Gradient par rapport √† Z2:")
        print(f"   dZ2 = A2 - Y (simplifi√© pour Softmax+CrossEntropy)")
        print(f"   dZ2.shape = {dZ2.shape}")
        print(f"   dZ2 range: [{dZ2.min():.3f}, {dZ2.max():.3f}]")
    
    # Gradient par rapport √† W2 et b2
    dW2 = np.dot(A1.T, dZ2) / n_samples
    db2 = np.sum(dZ2, axis=0, keepdims=True) / n_samples
    
    if verbose:
        print(f"\nüî∏ Layer 2 - Gradients des param√®tres:")
        print(f"   dW2 = A1.T ¬∑ dZ2 / n_samples")
        print(f"   dW2.shape = {dW2.shape}")
        print(f"   db2.shape = {db2.shape}")
    
    # ===== COUCHE 1 (Hidden) =====
    # Propager le gradient vers A1
    dA1 = np.dot(dZ2, W2.T)
    
    if verbose:
        print(f"\nüî∏ Layer 1 - Propagation du gradient:")
        print(f"   dA1 = dZ2 ¬∑ W2.T")
        print(f"   dA1.shape = {dA1.shape}")
    
    # Gradient √† travers ReLU
    # D√©riv√©e de ReLU: 1 si Z1 > 0, 0 sinon
    dZ1 = dA1 * (Z1 > 0)
    
    if verbose:
        print(f"\nüî∏ Layer 1 - Gradient √† travers ReLU:")
        print(f"   dZ1 = dA1 ‚äô ReLU'(Z1)")
        print(f"   dZ1.shape = {dZ1.shape}")
        active = np.sum(Z1 > 0)
        print(f"   Gradients non-nuls: {active} / {Z1.size} ({active/Z1.size*100:.1f}%)")
    
    # Gradient par rapport √† W1 et b1
    dW1 = np.dot(X.T, dZ1) / n_samples
    db1 = np.sum(dZ1, axis=0, keepdims=True) / n_samples
    
    if verbose:
        print(f"\nüî∏ Layer 1 - Gradients des param√®tres:")
        print(f"   dW1 = X.T ¬∑ dZ1 / n_samples")
        print(f"   dW1.shape = {dW1.shape}")
        print(f"   db1.shape = {db1.shape}")
        print("\n" + "="*70)
        print("‚úÖ BACKPROPAGATION COMPLETE")
        print("="*70)
    
    gradients = {
        'dW1': dW1, 'db1': db1,
        'dW2': dW2, 'db2': db2
    }
    
    return gradients

print("‚úÖ Fonction backward_propagation cr√©√©e !")

## 5Ô∏è‚É£ Test de la Backpropagation

In [None]:
# Cr√©er un mini r√©seau
def initialize_parameters(layer_dims):
    np.random.seed(42)
    parameters = {}
    L = len(layer_dims)
    for l in range(1, L):
        parameters[f'W{l}'] = np.random.randn(layer_dims[l-1], layer_dims[l]) * np.sqrt(2 / layer_dims[l-1])
        parameters[f'b{l}'] = np.zeros((1, layer_dims[l]))
    return parameters

# Charger quelques donn√©es
from src.utils import load_mnist_data
X_train, y_train, X_test, y_test = load_mnist_data()

# Prendre un mini-batch
batch_size = 5
X_batch = X_train[:batch_size]
Y_batch = one_hot_encode(y_train[:batch_size])

# Initialiser le r√©seau
layer_dims = [784, 128, 10]
params = initialize_parameters(layer_dims)

# Forward pass
print("\nüöÄ FORWARD PASS")
predictions, cache = forward_propagation(X_batch, params)
loss = cross_entropy_loss(Y_batch, predictions)
print(f"\nüìä Loss avant backprop: {loss:.4f}")

# Backward pass
print("\n" + "="*70)
gradients = backward_propagation(X_batch, Y_batch, params, cache, verbose=True)

# Afficher les gradients
print("\n\nüìä MAGNITUDES DES GRADIENTS:")
print("="*70)
for key, grad in gradients.items():
    print(f"\n{key}:")
    print(f"   Shape: {grad.shape}")
    print(f"   Mean: {np.mean(np.abs(grad)):.6f}")
    print(f"   Max: {np.max(np.abs(grad)):.6f}")
    print(f"   Min: {np.min(np.abs(grad)):.6f}")

## 6Ô∏è‚É£ Mise √† Jour des Poids

Maintenant qu'on a les gradients, on peut mettre √† jour les poids !

In [None]:
def update_parameters(parameters, gradients, learning_rate):
    """
    Met √† jour les param√®tres avec la descente de gradient
    
    Formule: W = W - Œ± * dW
    """
    parameters_updated = {}
    
    for key in parameters.keys():
        grad_key = 'd' + key
        parameters_updated[key] = parameters[key] - learning_rate * gradients[grad_key]
    
    return parameters_updated

# Test
learning_rate = 0.01
params_before = {k: v.copy() for k, v in params.items()}
params_updated = update_parameters(params, gradients, learning_rate)

print("\nüîß MISE √Ä JOUR DES POIDS")
print("="*70)
print(f"\nLearning rate: {learning_rate}")

# Calculer les changements
for key in params_before.keys():
    change = params_updated[key] - params_before[key]
    print(f"\n{key}:")
    print(f"   Changement moyen: {np.mean(np.abs(change)):.6f}")
    print(f"   Changement max: {np.max(np.abs(change)):.6f}")

# V√©rifier si la loss a diminu√©
predictions_after, _ = forward_propagation(X_batch, params_updated)
loss_after = cross_entropy_loss(Y_batch, predictions_after)

print("\n" + "="*70)
print("üìä R√âSULTAT")
print("="*70)
print(f"\nLoss avant:  {loss:.6f}")
print(f"Loss apr√®s:  {loss_after:.6f}")
print(f"Diff√©rence:  {loss - loss_after:.6f}")

if loss_after < loss:
    print("\n‚úÖ SUCCESS! La loss a diminu√©! Le r√©seau s'am√©liore!")
else:
    print("\n‚ö†Ô∏è La loss a augment√© (peut arriver avec un batch trop petit)")

## 7Ô∏è‚É£ Cycle Complet d'Entra√Ænement

Mettons tout ensemble pour voir l'entra√Ænement en action !

In [None]:
def train_one_epoch(X, Y, parameters, learning_rate, batch_size=32):
    """
    Entra√Æne le r√©seau sur une √©poque compl√®te
    """
    n_samples = X.shape[0]
    n_batches = n_samples // batch_size
    
    total_loss = 0
    
    for i in range(n_batches):
        # Mini-batch
        start = i * batch_size
        end = start + batch_size
        X_batch = X[start:end]
        Y_batch = Y[start:end]
        
        # Forward
        predictions, cache = forward_propagation(X_batch, parameters)
        
        # Loss
        loss = cross_entropy_loss(Y_batch, predictions)
        total_loss += loss
        
        # Backward
        gradients = backward_propagation(X_batch, Y_batch, parameters, cache)
        
        # Update
        parameters = update_parameters(parameters, gradients, learning_rate)
    
    avg_loss = total_loss / n_batches
    return parameters, avg_loss

def compute_accuracy(X, y, parameters):
    """
    Calcule l'accuracy du r√©seau
    """
    predictions, _ = forward_propagation(X, parameters)
    predicted_labels = np.argmax(predictions, axis=1)
    accuracy = np.mean(predicted_labels == y)
    return accuracy

# Entra√Æner sur quelques √©poques
print("\nüéì ENTRA√éNEMENT DU R√âSEAU")
print("="*70)

# Param√®tres
n_epochs = 5
learning_rate = 0.1
batch_size = 128

# Utiliser un sous-ensemble pour aller plus vite
n_train = 10000
X_train_subset = X_train[:n_train]
y_train_subset = y_train[:n_train]
Y_train_one_hot = one_hot_encode(y_train_subset)

# R√©initialiser le r√©seau
params = initialize_parameters([784, 128, 10])

# Stocker l'historique
history = {'loss': [], 'train_acc': [], 'test_acc': []}

print(f"\nConfiguration:")
print(f"  ‚Ä¢ √âpoques: {n_epochs}")
print(f"  ‚Ä¢ Learning rate: {learning_rate}")
print(f"  ‚Ä¢ Batch size: {batch_size}")
print(f"  ‚Ä¢ Exemples d'entra√Ænement: {n_train:,}")
print(f"\nD√©but de l'entra√Ænement...\n")

for epoch in range(n_epochs):
    # Entra√Æner
    params, avg_loss = train_one_epoch(X_train_subset, Y_train_one_hot, 
                                       params, learning_rate, batch_size)
    
    # Calculer l'accuracy
    train_acc = compute_accuracy(X_train_subset, y_train_subset, params)
    test_acc = compute_accuracy(X_test[:1000], y_test[:1000], params)
    
    # Sauvegarder
    history['loss'].append(avg_loss)
    history['train_acc'].append(train_acc)
    history['test_acc'].append(test_acc)
    
    # Afficher
    print(f"√âpoque {epoch+1}/{n_epochs} - "
          f"Loss: {avg_loss:.4f} - "
          f"Train Acc: {train_acc:.2%} - "
          f"Test Acc: {test_acc:.2%}")

print("\n‚úÖ Entra√Ænement termin√©!")

### üìà Visualisons l'Apprentissage

In [None]:
def plot_training_history(history):
    """
    Visualise l'√©volution de la loss et de l'accuracy
    """
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))
    fig.suptitle('üìà √âvolution de l\'Entra√Ænement', fontsize=18, fontweight='bold')
    
    epochs = range(1, len(history['loss']) + 1)
    
    # Loss
    ax1.plot(epochs, history['loss'], 'o-', linewidth=3, markersize=10, 
            color='#e74c3c', label='Loss')
    ax1.set_xlabel('√âpoque', fontsize=13, fontweight='bold')
    ax1.set_ylabel('Loss', fontsize=13, fontweight='bold')
    ax1.set_title('üìâ √âvolution de la Loss', fontsize=15, fontweight='bold')
    ax1.grid(True, alpha=0.3)
    ax1.legend(fontsize=12)
    
    # Accuracy
    ax2.plot(epochs, [acc*100 for acc in history['train_acc']], 
            'o-', linewidth=3, markersize=10, color='#2ecc71', label='Train Accuracy')
    ax2.plot(epochs, [acc*100 for acc in history['test_acc']], 
            's-', linewidth=3, markersize=10, color='#3498db', label='Test Accuracy')
    ax2.set_xlabel('√âpoque', fontsize=13, fontweight='bold')
    ax2.set_ylabel('Accuracy (%)', fontsize=13, fontweight='bold')
    ax2.set_title('üìà √âvolution de l\'Accuracy', fontsize=15, fontweight='bold')
    ax2.grid(True, alpha=0.3)
    ax2.legend(fontsize=12)
    ax2.set_ylim(0, 100)
    
    plt.tight_layout()
    plt.show()
    
    # Statistiques finales
    print("\n" + "="*70)
    print("üìä STATISTIQUES FINALES")
    print("="*70)
    print(f"\nüéØ Loss:")
    print(f"   ‚Ä¢ Initiale: {history['loss'][0]:.4f}")
    print(f"   ‚Ä¢ Finale: {history['loss'][-1]:.4f}")
    print(f"   ‚Ä¢ R√©duction: {(1 - history['loss'][-1]/history['loss'][0])*100:.1f}%")
    
    print(f"\nüéØ Train Accuracy:")
    print(f"   ‚Ä¢ Initiale: {history['train_acc'][0]:.2%}")
    print(f"   ‚Ä¢ Finale: {history['train_acc'][-1]:.2%}")
    print(f"   ‚Ä¢ Am√©lioration: +{(history['train_acc'][-1] - history['train_acc'][0])*100:.1f} points")
    
    print(f"\nüéØ Test Accuracy:")
    print(f"   ‚Ä¢ Initiale: {history['test_acc'][0]:.2%}")
    print(f"   ‚Ä¢ Finale: {history['test_acc'][-1]:.2%}")
    print(f"   ‚Ä¢ Am√©lioration: +{(history['test_acc'][-1] - history['test_acc'][0])*100:.1f} points")
    
    print("\nüí° Le r√©seau a appris ! üéâ")

plot_training_history(history)

## üéØ R√©capitulatif

F√©licitations ! Tu as compris la **backpropagation** ! üéâ

### ‚úÖ Ce que nous avons appris

1. **L'intuition** :
   - Le r√©seau fait une erreur
   - On propage cette erreur en arri√®re
   - On ajuste les poids pour r√©duire l'erreur

2. **La fonction de co√ªt** :
   - Cross-entropy pour mesurer l'erreur
   - Plus la pr√©diction est mauvaise, plus la loss est grande

3. **Le gradient** :
   - Direction pour minimiser la loss
   - Descente de gradient pour optimiser
   - Learning rate contr√¥le la taille des pas

4. **L'impl√©mentation** :
   - Calcul des gradients couche par couche
   - Mise √† jour des poids: W = W - Œ±¬∑dW
   - Le r√©seau s'am√©liore √† chaque it√©ration !

### üß† Points cl√©s

- üìä **Backprop** = algorithme pour calculer les gradients efficacement
- üéØ **Loss** diminue ‚Üí le r√©seau s'am√©liore
- üìà **Accuracy** augmente ‚Üí le r√©seau apprend !
- üîß **Learning rate** : crucial pour la convergence

### üöÄ Prochaine √âtape

Maintenant qu'on comprend tout le processus, construisons un r√©seau complet from scratch !

**‚û°Ô∏è Prochain notebook: `04_building_complete_network.ipynb`**

On va cr√©er un syst√®me d'entra√Ænement complet avec :
- Architecture modulaire
- Entra√Ænement sur tout MNIST
- Visualisation des r√©sultats
- Analyse des performances

---

**Bravo pour avoir ma√Ætris√© la backpropagation ! C'est le concept le plus important en deep learning ! üèÜ**