# üéì Comparaison des optimiseurs SGD et Adam

Ce notebook compare deux algorithmes d'optimisation populaires en Deep Learning :
- **SGD** (Stochastic Gradient Descent) avec momentum
- **Adam** (Adaptive Moment Estimation)

Nous allons les impl√©menter de A √† Z pour bien comprendre leur fonctionnement !

## üì¶ Imports n√©cessaires

On importe PyTorch pour cr√©er notre r√©seau de neurones et matplotlib pour visualiser les r√©sultats.

In [None]:
import torch
import torch.nn as nn
import matplotlib.pyplot as plt

## üîß Impl√©mentation de SGD personnalis√©

**SGD (Stochastic Gradient Descent)** est l'optimiseur de base :
- Il met √† jour les poids en suivant la direction oppos√©e du gradient
- Le **momentum** permet d'acc√©l√©rer la convergence en gardant une "m√©moire" des directions pr√©c√©dentes

**Formule** : `v = momentum √ó v + gradient` puis `poids = poids - learning_rate √ó v`

In [None]:
class SGDPerso:
    def __init__(self, params, lr=0.01, momentum=0.0):
        """Initialise l'optimiseur SGD.
        
        Args:
            params: Les param√®tres du mod√®le √† optimiser
            lr: Taux d'apprentissage (learning rate)
            momentum: Coefficient de momentum (0 = pas de momentum)
        """
        self.params = list(params)
        self.lr = lr
        self.momentum = momentum
        # v stocke la "vitesse" pour chaque param√®tre (utilis√© pour le momentum)
        self.v = [torch.zeros_like(p.data) for p in self.params]

    def zero_grad(self):
        """Remet √† z√©ro tous les gradients avant le backward."""
        for p in self.params:
            if p.grad is not None:
                p.grad.zero_()

    def step(self):
        """Effectue une √©tape d'optimisation en mettant √† jour les poids."""
        for i, p in enumerate(self.params):
            if p.grad is None:
                continue
            g = p.grad.data  # R√©cup√®re le gradient
            # Mise √† jour de la vitesse avec momentum
            self.v[i] = self.momentum * self.v[i] + g
            # Mise √† jour des poids
            p.data -= self.lr * self.v[i]

## üöÄ Impl√©mentation d'Adam personnalis√©

**Adam** est un optimiseur plus sophistiqu√© qui :
- Adapte le learning rate pour chaque param√®tre individuellement
- Utilise deux moments : **m** (moyenne des gradients) et **v** (variance des gradients)
- Corrige le biais d'initialisation avec des facteurs `m_hat` et `v_hat`

**Avantages** : Converge souvent plus rapidement et de fa√ßon plus stable que SGD.

In [None]:
class AdamPerso:
    def __init__(self, params, lr=1e-3, beta1=0.9, beta2=0.999, eps=1e-8):
        """Initialise l'optimiseur Adam.
        
        Args:
            params: Les param√®tres du mod√®le
            lr: Taux d'apprentissage
            beta1: Coefficient pour le moment d'ordre 1 (moyenne des gradients)
            beta2: Coefficient pour le moment d'ordre 2 (variance des gradients)
            eps: Petit terme pour √©viter la division par z√©ro
        """
        self.params = list(params)
        self.lr = lr
        self.beta1, self.beta2 = beta1, beta2
        self.eps = eps
        self.t = 0  # Compteur d'it√©rations
        # m: moyenne des gradients, v: variance des gradients
        self.m = [torch.zeros_like(p.data) for p in self.params]
        self.v = [torch.zeros_like(p.data) for p in self.params]

    def zero_grad(self):
        """Remet √† z√©ro tous les gradients."""
        for p in self.params:
            if p.grad is not None:
                p.grad.zero_()

    def step(self):
        """Effectue une √©tape d'optimisation Adam."""
        self.t += 1  # Incr√©mente le compteur
        for i, p in enumerate(self.params):
            if p.grad is None:
                continue
            g = p.grad.data
            # Mise √† jour du moment d'ordre 1 (moyenne mobile exponentielle du gradient)
            self.m[i] = self.beta1 * self.m[i] + (1 - self.beta1) * g
            # Mise √† jour du moment d'ordre 2 (variance)
            self.v[i] = self.beta2 * self.v[i] + (1 - self.beta2) * (g * g)
            # Correction du biais (important surtout au d√©but de l'entra√Ænement)
            m_hat = self.m[i] / (1 - self.beta1 ** self.t)
            v_hat = self.v[i] / (1 - self.beta2 ** self.t)
            # Mise √† jour des poids avec un learning rate adaptatif
            p.data -= self.lr * m_hat / (torch.sqrt(v_hat) + self.eps)

## üß† D√©finition du r√©seau de neurones

On cr√©e un **MLP** (Multi-Layer Perceptron) simple avec :
- Une couche d'entr√©e
- Une couche cach√©e avec activation ReLU
- Une couche de sortie

C'est un r√©seau basique mais suffisant pour comparer nos optimiseurs.

In [None]:
class MLP(nn.Module):
    def __init__(self, d_in, d_hid, d_out):
        """Cr√©e un r√©seau √† 2 couches.
        
        Args:
            d_in: Dimension d'entr√©e
            d_hid: Nombre de neurones dans la couche cach√©e
            d_out: Dimension de sortie
        """
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(d_in, d_hid),  # Couche lin√©aire entr√©e -> cach√©e
            nn.ReLU(),               # Fonction d'activation non-lin√©aire
            nn.Linear(d_hid, d_out)  # Couche lin√©aire cach√©e -> sortie
        )

    def forward(self, x):
        """Passe avant dans le r√©seau."""
        return self.net(x)

## üèãÔ∏è Fonction d'entra√Ænement

Cette fonction entra√Æne notre mod√®le sur plusieurs √©poques :
1. **Forward pass** : Calcul de la pr√©diction
2. **Calcul de la loss** : Erreur entre pr√©diction et v√©rit√©
3. **Backward pass** : Calcul des gradients
4. **Optimisation** : Mise √† jour des poids

On utilise la **MSE** (Mean Squared Error) comme fonction de perte.

In [None]:
def entrainer(model, optim, X, y, epochs=150):
    """Entra√Æne le mod√®le et retourne l'historique des pertes.
    
    Args:
        model: Le r√©seau de neurones
        optim: L'optimiseur (SGD ou Adam)
        X: Donn√©es d'entr√©e
        y: Valeurs cibles
        epochs: Nombre d'√©poques d'entra√Ænement
    
    Returns:
        Liste des pertes √† chaque √©poque
    """
    loss_fn = nn.MSELoss()  # Fonction de perte MSE
    losses = []
    
    for _ in range(epochs):
        pred = model(X)           # 1. Pr√©diction
        loss = loss_fn(pred, y)   # 2. Calcul de l'erreur
        optim.zero_grad()         # 3. R√©initialise les gradients
        loss.backward()           # 4. Calcule les gradients
        optim.step()              # 5. Met √† jour les poids
        losses.append(loss.item())  # Sauvegarde la perte
    
    return losses

## üé≤ G√©n√©ration des donn√©es synth√©tiques

On cr√©e un probl√®me de r√©gression lin√©aire simple :
- `X` : 800 exemples avec 10 features al√©atoires
- `y = X √ó W_true + bruit` : Les vraies valeurs avec un peu de bruit gaussien

Le but du r√©seau sera d'apprendre √† pr√©dire `y` √† partir de `X`.

In [None]:
# Fixe le seed pour la reproductibilit√©
torch.manual_seed(42)

# Param√®tres du dataset
N, D_in, D_out = 800, 10, 1

# G√©n√©ration des donn√©es
X = torch.randn(N, D_in)              # Features al√©atoires
W_true = torch.randn(D_in, D_out)     # Poids "vrais" √† d√©couvrir
y = X @ W_true + 0.1 * torch.randn(N, D_out)  # Cibles avec bruit

print(f"üìä Dataset cr√©√© : {N} exemples, {D_in} features")
print(f"   Shape de X : {X.shape}")
print(f"   Shape de y : {y.shape}")

## üèÉ Entra√Ænement avec SGD

On entra√Æne un premier mod√®le avec **SGD + momentum** :
- Learning rate : 0.01
- Momentum : 0.9 (pour acc√©l√©rer la convergence)
- 200 √©poques

In [None]:
hidden = 32   # Nombre de neurones dans la couche cach√©e
epochs = 200  # Nombre d'√©poques

# Cr√©ation du mod√®le et de l'optimiseur SGD
model_sgd = MLP(D_in, hidden, D_out)
opt_sgd = SGDPerso(model_sgd.parameters(), lr=0.01, momentum=0.9)

# Entra√Ænement
print("üîÑ Entra√Ænement avec SGD...")
loss_sgd = entrainer(model_sgd, opt_sgd, X, y, epochs)
print(f"‚úÖ Termin√© ! Loss finale : {loss_sgd[-1]:.5f}")

## üöÄ Entra√Ænement avec Adam

On entra√Æne un second mod√®le identique mais avec **Adam** :
- Learning rate : 0.01 (m√™me que SGD pour comparer)
- Param√®tres beta par d√©faut (0.9 et 0.999)
- 200 √©poques

In [None]:
# Cr√©ation d'un nouveau mod√®le identique et de l'optimiseur Adam
model_adam = MLP(D_in, hidden, D_out)
opt_adam = AdamPerso(model_adam.parameters(), lr=0.01)

# Entra√Ænement
print("üîÑ Entra√Ænement avec Adam...")
loss_adam = entrainer(model_adam, opt_adam, X, y, epochs)
print(f"‚úÖ Termin√© ! Loss finale : {loss_adam[-1]:.5f}")

## üìä Visualisation des r√©sultats

On compare graphiquement les deux optimiseurs :
- **Graphique 1** (√©chelle lin√©aire) : Vue g√©n√©rale de l'√©volution de la loss
- **Graphique 2** (√©chelle log) : Permet de mieux voir les diff√©rences en fin de convergence

**√Ä observer** : la vitesse de convergence et la stabilit√© de chaque m√©thode.

In [None]:
plt.figure(figsize=(10, 4))

# Graphique 1 : √âchelle lin√©aire
plt.subplot(1, 2, 1)
plt.plot(loss_sgd, label="SGD", linewidth=2)
plt.plot(loss_adam, label="Adam", linewidth=2)
plt.title("√âvolution de la loss", fontsize=14, fontweight='bold')
plt.xlabel("Epoch")
plt.ylabel("Loss")
plt.legend()
plt.grid(True, alpha=0.3)

# Graphique 2 : √âchelle logarithmique
plt.subplot(1, 2, 2)
plt.semilogy(loss_sgd, label="SGD", linewidth=2)
plt.semilogy(loss_adam, label="Adam", linewidth=2)
plt.title("Convergence (√©chelle log)", fontsize=14, fontweight='bold')
plt.xlabel("Epoch")
plt.ylabel("Loss (log)")
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## üìà R√©sultats finaux et analyse

Comparons les performances finales des deux optimiseurs et analysons les r√©sultats.

In [None]:
print("="*50)
print("üìä R√âSULTATS FINAUX")
print("="*50)
print(f"Loss finale SGD  : {loss_sgd[-1]:.5f}")
print(f"Loss finale Adam : {loss_adam[-1]:.5f}")
print()

## üßê Analyse et conclusions

### Observations cl√©s :

**SGD avec momentum :**
- ‚úÖ Fonctionne bien et converge correctement
- ‚ö†Ô∏è Prend plus de temps √† se stabiliser
- üìâ La descente peut √™tre un peu "nerveuse"

**Adam :**
- ‚úÖ Convergence plus fluide, surtout au d√©but
- ‚úÖ Atteint une meilleure loss plus rapidement
- ‚úÖ Plus stable pendant toute la descente

### Conclusion :
Dans cette exp√©rience, les deux optimiseurs arrivent √† des r√©sultats finaux proches, mais **Adam** se montre plus efficace :
- Il converge plus vite
- Il est plus stable
- Il n√©cessite moins de tuning des hyperparam√®tres

C'est pourquoi Adam est souvent le choix par d√©faut en Deep Learning ! üéØ

In [None]:
print("üéì Analyse d√©taill√©e :")
print("-" * 50)
print("SGD :")
print("  ‚Ä¢ Marche bien mais met du temps √† stabiliser")
print("  ‚Ä¢ Le momentum aide mais reste moins fluide qu'Adam")
print()
print("Adam :")
print("  ‚Ä¢ Plus fluide d√®s le d√©but de l'entra√Ænement")
print("  ‚Ä¢ Atteint une meilleure loss plus rapidement")
print("  ‚Ä¢ Reste plus stable sur toute la descente")
print()
print("üí° Conclusion : Les deux finissent proches, mais Adam")
print("   converge plus vite et de fa√ßon plus stable !")