# üéì Travaux Pratiques : Introduction P√©dagogique aux GANs (MLP-GAN)

**Auteur :**Benlahmar Habib


## Objectifs P√©dagogiques de l'Atelier

1.  **Conceptualisation :** Comprendre le principe du **jeu antagoniste** et l'analogie du Faux-Monnayeur vs. D√©tective.
2.  **Th√©orie :** D√©cortiquer la fonction de co√ªt **Minimax** qui r√©git l'apprentissage des GANs.
3.  **Impl√©mentation Basique :** Mettre en ≈ìuvre un GAN simple (bas√© sur des couches lin√©aires/MLP) avec PyTorch sur la base Fashion-MNIST. 
4.  **Analyse :** Comprendre les d√©fis li√©s √† la stabilit√© de l'entra√Ænement des GANs.

--- 

## I. Introduction Conceptuelle : Le Jeu Antagoniste

Les **Generative Adversarial Networks** (R√©seaux G√©n√©ratifs Antagonistes) sont compos√©s de deux r√©seaux qui s'affrontent dans un jeu √† somme nulle : le **G√©n√©rateur (G)** et le **Discriminateur (D)**. 

| Composant | R√¥le Analogue | R√¥le Technique | Objectif | 
| :--- | :--- | :--- | :--- | 
| **G√©n√©rateur (G)** | Le Faux-Monnayeur | Prend un bruit al√©atoire $\mathbf{z}$ et cr√©e $\mathbf{x}_{\text{faux}}$. | Tromper $D$ pour que $D$ classe les faux comme VRAIS (1). | 
| **Discriminateur (D)** | Le D√©tective | Classifie une image comme VRAIE (1) ou FAUSSE (0). | Identifier parfaitement la provenance de l'image (maximiser l'exactitude). | 

### üìå 1.1. La Fonction Objectif (Minimax Game)

L'entra√Ænement du GAN est formul√© comme la recherche d'un **√©quilibre de Nash** dans le jeu Minimax :

$$\min_G \max_D V(D, G) = \mathbb{E}_{\mathbf{x} \sim p_{\text{data}}(\mathbf{x})} [\log D(\mathbf{x})] + \mathbb{E}_{\mathbf{z} \sim p_{\mathbf{z}}(\mathbf{z})} [\log (1 - D(G(\mathbf{z})))]$$

* **$\max_D$ (Maximisation par D) :** Le Discriminateur veut que $D(\mathbf{x})$ (vrai) soit proche de 1 et que $D(G(\mathbf{z}))$ (faux) soit proche de 0. Cela maximise l'expression.
* **$\min_G$ (Minimisation par G) :** Le G√©n√©rateur veut que $D(G(\mathbf{z}))$ (faux) soit proche de 1 (pour tromper $D$). Cela minimise le second terme de l'expression.

**L'√©quilibre id√©al** est atteint lorsque $D(\mathbf{x}) = D(G(\mathbf{z})) = 0.5$ pour tout $\mathbf{x}$, car $D$ ne peut plus faire la diff√©rence.

### Question  (Q1.1)

Si, au d√©but de l'entra√Ænement, le Discriminateur renvoie $D(\mathbf{x}) = 0.9$ pour les vraies images et $D(G(\mathbf{z})) = 0.1$ pour les fausses images, comment cela impacte-t-il l'apprentissage du G√©n√©rateur $G$ √† ce stade ? (Indice : regardez le terme $\log (1 - D(G(\mathbf{z})))$).

--- 

## II. Pr√©paration et Architecture (MLP-GAN)

Nous utilisons des r√©seaux de neurones multi-couches (MLP) simples pour d√©marrer. Les images 28x28 seront mises √† plat en vecteurs de 784 dimensions.

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
from torch.utils.data import DataLoader
from torchvision.datasets import FashionMNIST
from torchvision.transforms import ToTensor
from matplotlib import pyplot as plt
from torchvision.utils import make_grid
from tqdm.notebook import trange, tqdm

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Ex√©cution sur {device}")

# Hyperparam√®tres
image_size = 28 * 28  # 784
latent_dim = 100       # Dimension du bruit z
batch_size = 128
epochs = 50
lr = 0.0002 # Taux d'apprentissage souvent bas pour la stabilit√© des GANs

# Chargement des donn√©es et aplatissement des images (ToTensor() + normalisation [0, 1])
transform = ToTensor()
train_dataset = FashionMNIST(root='./data/FashionMNIST', train=True, download=True, transform=transform)
train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

### 2.2. Le G√©n√©rateur (G)

Input : Vecteur de bruit $z$ (`latent_dim`). Output : Vecteur image $\mathbf{x}'$ (`image_size`).

In [None]:
class Generator(nn.Module):
    def __init__(self, latent_dim, img_dim):
        super().__init__()
        self.model = nn.Sequential(
            nn.Linear(latent_dim, 256),
            nn.LeakyReLU(0.2),
            nn.Linear(256, 512),
            nn.LeakyReLU(0.2),
            nn.Linear(512, 1024),
            nn.LeakyReLU(0.2),
            nn.Linear(1024, img_dim),
            nn.Sigmoid() # Sigmoid pour garantir la sortie [0, 1] (normalisation simple)
        )

    def forward(self, z):
        return self.model(z)

### 2.3. Le Discriminateur (D)

Input : Vecteur image $x$ (`image_size`). Output : Score scalaire (logit) qui sera transform√© en probabilit√© [0, 1].

In [None]:
class Discriminator(nn.Module):
    def __init__(self, img_dim):
        super().__init__()
        self.model = nn.Sequential(
            nn.Linear(img_dim, 1024),
            nn.LeakyReLU(0.2),
            nn.Dropout(0.3), 
            nn.Linear(1024, 512),
            nn.LeakyReLU(0.2),
            nn.Dropout(0.3),
            nn.Linear(512, 256),
            nn.LeakyReLU(0.2),
            nn.Dropout(0.3),
            nn.Linear(256, 1) # Sortie finale sans activation (logits)
        )

    def forward(self, x):
        return self.model(x)

In [None]:
# Initialisation
G = Generator(latent_dim, image_size).to(device)
D = Discriminator(image_size).to(device)

# Optimiseurs : Le choix d'Adam et des betas=(0.5, 0.999) est standard pour les GANs.
G_optimizer = torch.optim.Adam(G.parameters(), lr=lr, betas=(0.5, 0.999))
D_optimizer = torch.optim.Adam(D.parameters(), lr=lr, betas=(0.5, 0.999))

# Loss : BCEWithLogitsLoss est recommand√© pour la stabilit√© num√©rique. Elle inclut Sigmoid.
criterion = nn.BCEWithLogitsLoss()

# Bruit fixe pour suivre la progression de la g√©n√©ration
fixed_noise = torch.randn(64, latent_dim, device=device) 

# Fonction utilitaire de visualisation (r√©utilis√©e du TP VAE)
def show_grid(grid, title="", figsize=(10, 10)):
    plt.figure(figsize=figsize)
    plt.title(title)
    # Note: On utilise 'cmap="gray"' car Fashion-MNIST est en niveaux de gris
    plt.imshow(np.transpose(grid.numpy(), (1, 2, 0)), cmap="gray")
    plt.axis("off")
    plt.show()

### Question  (Q2.1)

Observez les taux d'apprentissage. Pourquoi le taux d'apprentissage est-il souvent tr√®s bas (ici 0.0002) dans les GANs par rapport √† d'autres r√©seaux (souvent 0.001) ? Quel risque prend-on avec des taux d'apprentissage trop √©lev√©s pour $G$ ou $D$ ?

--- 

## III. Boucle d'Entra√Ænement : L'Alternance Cruciale

L'entra√Ænement s'effectue en deux sous-√©tapes par batch : d'abord on am√©liore $D$, puis on am√©liore $G$. C'est le c≈ìur du jeu antagoniste.

In [None]:
def train_gan(G, D, G_optimizer, D_optimizer, criterion, dataloader, epochs, latent_dim, device):
    G.train(); D.train()
    for epoch in trange(epochs, desc="Entra√Ænement GAN"):
        D_loss_total = 0
        G_loss_total = 0
        
        for real_images, _ in dataloader:
            
            # --- Pr√©paration des donn√©es --- 
            real_images = real_images.view(-1, image_size).to(device)
            current_batch_size = real_images.size(0)
            
            # Tenseurs de cibles (VRAI=1.0, FAUX=0.0)
            # Utiliser des floats pour les cibles de BCE
            real_labels = torch.ones(current_batch_size, 1, device=device)
            fake_labels = torch.zeros(current_batch_size, 1, device=device)

            # ===============================================
            # 1. √âTAPE D : Am√©liorer le Discriminateur
            # ===============================================
            D_optimizer.zero_grad()

            # 1a. Loss sur les images r√©elles (cible = 1)
            D_real_pred = D(real_images)
            D_real_loss = criterion(D_real_pred, real_labels)
            
            # 1b. G√©n√©rer les fausses images et calculer la loss (cible = 0)
            noise = torch.randn(current_batch_size, latent_dim, device=device)
            fake_images = G(noise) 
            
            # ‚ö†Ô∏è POINT CL√â : .detach() pour arr√™ter la r√©tropropagation vers G
            D_fake_pred = D(fake_images.detach()) 
            D_fake_loss = criterion(D_fake_pred, fake_labels)
            
            # 1c. R√©tropropagation de la loss totale de D
            D_loss = D_real_loss + D_fake_loss
            D_loss.backward()
            D_optimizer.step()
            
            D_loss_total += D_loss.item()
            
            # ===============================================
            # 2. √âTAPE G : Am√©liorer le G√©n√©rateur
            # ===============================================
            G_optimizer.zero_grad()
            
            # G veut que D pr√©dise 1 (VRAI) pour ses fausses images (pour le tromper)
            # On r√©utilise fake_images, mais cette fois le graphe de G est attach√©.
            G_pred = D(fake_images) 
            G_loss = criterion(G_pred, real_labels) # ‚ö†Ô∏è CIBLE = 1 (real_labels) pour la loss de G
            
            G_loss.backward()
            G_optimizer.step()
            
            G_loss_total += G_loss.item()

        # --- Affichage de l'√©volution (par √©poque) ---
        avg_D_loss = D_loss_total / len(dataloader)
        avg_G_loss = G_loss_total / len(dataloader)
        tqdm.write(f"Epoch {epoch+1:2d} | D Loss: {avg_D_loss:.4f} | G Loss: {avg_G_loss:.4f}")
        
        # 4. Visualisation toutes les 5 √©poques
        if (epoch + 1) % 5 == 0:
            G.eval()
            with torch.no_grad():
                # G√©n√©rer 64 images √† partir du bruit fixe
                generated_images = G(fixed_noise).cpu().view(64, 1, 28, 28)
                show_grid(make_grid(generated_images, 8), title=f"G√©n√©ration √âpoque {epoch+1}")
            G.train()

# train_gan(G, D, G_optimizer, D_optimizer, criterion, train_dataloader, epochs, latent_dim, device) # <-- D√âCOMMENTER POUR LANCER L'ENTRAINEMENT

### Question  (Q3.1)

Dans l'√©tape d'entra√Ænement du Discriminateur, nous utilisons `.detach()` sur les `fake_images` g√©n√©r√©es par $G$. Quel est l'effet pr√©cis de cette m√©thode PyTorch dans le contexte des GANs, et pourquoi est-il essentiel pour l'entra√Ænement de $D$ ?

--- 

## IV. Analyse des R√©sultats et Questions de Synth√®se

Une fois l'entra√Ænement termin√©, analysez les images g√©n√©r√©es et les courbes de perte.

### Questions Finales (Synth√®se et Ouverture)

1.  **Interpr√©tation de la Perte $D$ :** Expliquez la valeur id√©ale vers laquelle la perte du Discriminateur devrait converger. Que signifie une $D$ Loss trop basse (proche de 0) en milieu ou fin d'entra√Ænement ?
2.  **Probl√®me de Stabilit√© :** Le *Mode Collapse* est un d√©fi majeur des GANs. Expliquez ce ph√©nom√®ne et d√©crivez visuellement ce qu'il se passerait sur la grille de g√©n√©ration si votre mod√®le en √©tait victime.
3.  **Avantage vs. VAE :** Par rapport au VAE que vous avez √©tudi√© pr√©c√©demment, quel est le principal avantage du GAN en termes de qualit√© visuelle des images g√©n√©r√©es ? Quelle en est la contrepartie (d√©savantage) ?
4.  **Ouverture DCGAN :** Quel type d'architecture sera introduit dans la prochaine √©tape (DCGAN) pour remplacer les couches lin√©aires (MLP) ? Quel avantage les couches convolutionnelles apportent-elles pour la g√©n√©ration d'images, par rapport aux couches lin√©aires ?