# üéì Travaux Pratiques : DCGAN (Deep Convolutional GAN)

**Auteur :**Benlahmar Habib


## Objectifs P√©dagogiques

1.  **Architecture Convolutive :** Comprendre comment les couches `Conv2d` et `ConvTranspose2d` am√©liorent la qualit√© des images g√©n√©r√©es par rapport au MLP-GAN.
2.  **Stabilit√© de l'Entra√Ænement :** Assimiler le r√¥le critique de la **Normalisation par Batch (Batch Normalization)** et l'ajustement de la normalisation des donn√©es √† $[-1, 1]$.
3.  **Impl√©mentation DCGAN :** Mettre en ≈ìuvre le mod√®le DCGAN original sur Fashion-MNIST.

--- 

## I. Fondements du DCGAN

Le DCGAN est l'un des premiers mod√®les √† √©tablir des lignes directrices claires pour construire des GANs stables et performants avec des r√©seaux profonds et convolutifs (Radford et al., 2016).

### 1.1. Lignes Directrices Architecturales

1.  **Remplacer les couches de *Pooling*** : Utiliser des convolutions √† **pas (stride)** fractionn√© (`ConvTranspose2d`) dans $G$ et des convolutions √† pas dans $D$ pour les op√©rations d'√©chantillonnage (upsampling/downsampling).
2.  **Normalisation par Batch (BN) :** Appliquer `nn.BatchNorm2d` au G√©n√©rateur et au Discriminateur pour stabiliser les activations et pr√©venir le gradient vanishing (sauf la premi√®re couche de $D$ et la couche de sortie de $G$).
3.  **Activations :** Utiliser **ReLU** dans $G$ (sauf la sortie) et **LeakyReLU** dans $D$ pour permettre aux gradients de circuler sans probl√®me.
4.  **Sortie :** Utiliser **`nn.Tanh()`** dans la couche de sortie de $G$ pour forcer les pixels dans l'intervalle $[-1, 1]$.

### Question  (Q1.1)

Pourquoi la *Normalisation par Batch (BatchNorm)* est-elle particuli√®rement b√©n√©fique dans l'entra√Ænement du Discriminateur, qui est d√©j√† un classifieur binaire standard ? (Indice : Pensez √† l'√©chelle des activations et √† la lutte entre $G$ et $D$).

---

## II. Configuration et Pr√©paration des Donn√©es √† $[-1, 1]$

**ATTENTION :** En raison de l'activation `nn.Tanh()` dans le G√©n√©rateur, nous devons normaliser les donn√©es d'entr√©e de Fashion-MNIST dans l'intervalle **$[-1, 1]$** (au lieu de $[0, 1]$). La formule utilis√©e est $\mathbf{x}' = (\mathbf{x} - 0.5) \times 2$.

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.init as init
from torch.utils.data import DataLoader
from torchvision import datasets, transforms
from matplotlib import pyplot as plt
from torchvision.utils import make_grid
from tqdm.notebook import trange, tqdm

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Ex√©cution sur {device}")

# Hyperparam√®tres
latent_dim = 100
batch_size = 128
epochs = 50
lr = 0.0002

# NORMALISATION CRITIQUE : [0, 1] -> [-1, 1]
transform_dcgan = transforms.Compose([
    transforms.ToTensor(), # Normalise en [0, 1]
    transforms.Normalize((0.5,), (0.5,)) # (x - 0.5) / 0.5 -> [-1, 1]
])

# Chargement des donn√©es
train_dataset = datasets.FashionMNIST(root='./data/FashionMNIST', train=True, download=True, transform=transform_dcgan)
train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

# Initialisation des poids (selon les recommandations DCGAN)
def weights_init(m):
    classname = m.__class__.__name__
    if classname.find('Conv') != -1:
        init.normal_(m.weight.data, 0.0, 0.02)
    elif classname.find('BatchNorm') != -1:
        init.normal_(m.weight.data, 1.0, 0.02)
        init.constant_(m.bias.data, 0)
    elif classname.find('Linear') != -1:
        init.normal_(m.weight.data, 0.0, 0.02)
        init.constant_(m.bias.data, 0)


### Question  (Q2.1)

Expliquez pourquoi le G√©n√©rateur doit utiliser l'activation `Tanh` en sortie, et comment cela contraint le pr√©traitement des donn√©es √† une normalisation dans l'intervalle $[-1, 1]$.

--- 

## III. Architecture du DCGAN (28x28)

Nous ajustons l'architecture DCGAN pour la taille $28 \times 28$ de Fashion-MNIST. Les couches `ConvTranspose2d` et `Conv2d` sont l'analogue de *l'upsampling* et du *downsampling*.

### 3.1. Le G√©n√©rateur ($G_{\text{DCGAN}}$)

Input : $\mathbf{z}$ (100 dimensions). Output : $1 \times 28 \times 28$. Les couches `ConvTranspose2d` augmentent la r√©solution spatiale.

In [None]:
# Nombre de feature maps (canaux)
ngf = 64 # Nombre de 'Generative Feature maps'

class Generator(nn.Module):
    def __init__(self, latent_dim):
        super().__init__()
        self.main = nn.Sequential(
            # Projection initiale du bruit z (100) en volume spatial (ngf*4 x 4 x 4)
            nn.ConvTranspose2d(latent_dim, ngf * 4, 4, 1, 0, bias=False),
            nn.BatchNorm2d(ngf * 4),
            nn.ReLU(True),
            # √âtat : (ngf*4) x 4 x 4

            nn.ConvTranspose2d(ngf * 4, ngf * 2, 4, 2, 1, bias=False),
            nn.BatchNorm2d(ngf * 2),
            nn.ReLU(True),
            # √âtat : (ngf*2) x 8 x 8 (r√©solution non standard 28x28, ajustement n√©cessaire)
            
            # Pour atteindre 28x28 √† partir de 8x8, nous avons besoin d'un upsampling progressif
            # Simplification pour 28x28 (en ajustant le padding/kernel pour le dernier bloc)
            nn.ConvTranspose2d(ngf * 2, ngf, 4, 2, 1, bias=False),
            nn.BatchNorm2d(ngf),
            nn.ReLU(True),
            # √âtat : (ngf) x 16 x 16

            # Derni√®re couche pour atteindre 28x28 (kernel 4, stride 2, padding 3)
            nn.ConvTranspose2d(ngf, 1, 4, 2, 3, bias=False), # Output: 28 x 28 x 1
            nn.Tanh() # Sortie normalis√©e entre [-1, 1]
        )

    def forward(self, z):
        # z doit √™tre transform√© en volume 4D pour les ConvTranspose2d
        return self.main(z.view(-1, latent_dim, 1, 1))


### 3.2. Le Discriminateur ($D_{\text{DCGAN}}$)

Input : $1 \times 28 \times 28$. Output : Logit scalaire. Les couches `Conv2d` r√©duisent la r√©solution spatiale. **NOTE** : Pas de BN sur la premi√®re couche de $D$ (selon les recommandations DCGAN).

In [None]:
ndf = 64 # Nombre de 'Discriminator Feature maps'

class Discriminator(nn.Module):
    def __init__(self):
        super().__init__()
        self.main = nn.Sequential(
            # Couche d'entr√©e (pas de BN) : 1 x 28 x 28 -> ndf x 14 x 14
            nn.Conv2d(1, ndf, 4, 2, 1, bias=False),
            nn.LeakyReLU(0.2, inplace=True),

            # ndf x 14 x 14 -> ndf*2 x 7 x 7
            nn.Conv2d(ndf, ndf * 2, 4, 2, 1, bias=False),
            nn.BatchNorm2d(ndf * 2),
            nn.LeakyReLU(0.2, inplace=True),

            # ndf*2 x 7 x 7 -> ndf*4 x 4 x 4
            nn.Conv2d(ndf * 2, ndf * 4, 3, 2, 1, bias=False),
            nn.BatchNorm2d(ndf * 4),
            nn.LeakyReLU(0.2, inplace=True),

            # Couche de sortie : ndf*4 x 4 x 4 -> 1 (logit)
            nn.Conv2d(ndf * 4, 1, 4, 1, 0, bias=False), 
            # La sortie n'est pas activ√©e (pas de Sigmoid), elle est en format logit
        )

    def forward(self, input):
        # Le Discriminateur renvoie un logit (scalaire) apr√®s un squeeze()
        return self.main(input).view(-1, 1)


### Question  (Q3.1)

Observez l'architecture du G√©n√©rateur. Quel est le r√¥le de la couche `ConvTranspose2d` dans ce r√©seau ? Comment le fait d'utiliser des convolutions, plut√¥t que des couches lin√©aires, permet-il de garantir une meilleure **coh√©rence spatiale** (c'est-√†-dire des formes plus r√©alistes) dans les images g√©n√©r√©es ?

--- 

## IV. Entra√Ænement et Stabilit√©

La boucle d'entra√Ænement Minimax reste la m√™me, mais nous utilisons la nouvelle architecture et l'initialisation des poids sp√©cialis√©e.

In [None]:
# Initialisation des mod√®les et application des poids
G = Generator(latent_dim).to(device).apply(weights_init)
D = Discriminator().to(device).apply(weights_init)

# Optimiseurs (Adam avec betas ajust√©s)
G_optimizer = optim.Adam(G.parameters(), lr=lr, betas=(0.5, 0.999))
D_optimizer = optim.Adam(D.parameters(), lr=lr, betas=(0.5, 0.999))

criterion = nn.BCEWithLogitsLoss() 

# Bruit fixe pour la visualisation
fixed_noise = torch.randn(64, latent_dim, device=device)

# Fonction utilitaire de visualisation (adapt√©e pour [-1, 1] -> [0, 1] pour matplotlib)
def show_grid(grid, title="", figsize=(10, 10)):
    plt.figure(figsize=figsize)
    plt.title(title)
    # Inverse la normalisation pour l'affichage : [-1, 1] -> [0, 1]
    grid = (grid + 1) / 2
    plt.imshow(np.transpose(grid.numpy(), (1, 2, 0)), cmap="gray")
    plt.axis("off")
    plt.show()

def train_dcgan(G, D, G_optimizer, D_optimizer, criterion, dataloader, epochs, latent_dim, device):
    
    for epoch in trange(epochs, desc="Entra√Ænement DCGAN"):
        for i, (real_images, _) in enumerate(dataloader):
            
            # Les images sont d√©j√† en [-1, 1] et en format 4D (batch, 1, 28, 28)
            real_images = real_images.to(device)
            b_size = real_images.size(0)
            
            # Cibles pour BCEWithLogitsLoss
            real_labels = torch.full((b_size, 1), 1.0, device=device)
            fake_labels = torch.full((b_size, 1), 0.0, device=device)

            # ===============================================
            # 1. Mise √† jour du Discriminateur (D)
            # ===============================================
            D.zero_grad()

            # 1a. Loss VRAI
            output = D(real_images)
            D_loss_real = criterion(output, real_labels)

            # 1b. Loss FAUX
            noise = torch.randn(b_size, latent_dim, device=device)
            fake = G(noise)
            output = D(fake.detach()) # D.detach()!
            D_loss_fake = criterion(output, fake_labels)

            # 1c. R√©tropropagation D
            D_loss = D_loss_real + D_loss_fake
            D_loss.backward()
            D_optimizer.step()

            # ===============================================
            # 2. Mise √† jour du G√©n√©rateur (G)
            # ===============================================
            G.zero_grad()
            
            # G veut que D classe les fausses images comme VRAIES (cible = 1)
            output = D(fake) 
            G_loss = criterion(output, real_labels) 
            
            G_loss.backward()
            G_optimizer.step()
            
        tqdm.write(f"Epoch {epoch+1:2d} | D Loss: {D_loss.item():.4f} | G Loss: {G_loss.item():.4f}")
        
        # 3. Visualisation
        if (epoch + 1) % 5 == 0:
            G.eval()
            with torch.no_grad():
                generated_images = G(fixed_noise).cpu()
                show_grid(make_grid(generated_images, 8), title=f"DCGAN G√©n√©ration √âpoque {epoch+1}")
            G.train()

# train_dcgan(G, D, G_optimizer, D_optimizer, criterion, train_dataloader, epochs, latent_dim, device) # <-- D√âCOMMENTER POUR LANCER L'ENTRAINEMENT

### Question  (Q4.1)

Quelle est la fonction de `weights_init(m)` ? Pourquoi est-il consid√©r√© comme une **bonne pratique** d'initialiser les poids des couches convolutionnelles avec une distribution Gaussienne centr√©e √† $0$ avec un petit √©cart-type ($0.02$) dans les DCGANs, plut√¥t que d'utiliser l'initialisation par d√©faut de PyTorch ?

--- 

## V. Synth√®se et Ouverture (Post-Entra√Ænement)

Analysez les r√©sultats de votre DCGAN apr√®s l'entra√Ænement.

### Questions Finales

1.  **Stabilit√© :** Apr√®s l'entra√Ænement, la perte de $D$ (D Loss) est-elle proche de 0.69 ? Comparez la stabilit√© de l'entra√Ænement de ce DCGAN √† celle du MLP-GAN pr√©c√©dent. Comment la Normalisation par Batch a-t-elle potentiellement contribu√© √† cette diff√©rence ?
2.  **Qualit√© d'Image :** D√©crivez la diff√©rence de qualit√© des images g√©n√©r√©es par le DCGAN par rapport au MLP-GAN. Quelles structures sont mieux captur√©es gr√¢ce √† l'utilisation des convolutions ?
3.  **D√©fis :** Bien que les DCGANs soient plus stables, ils sont toujours sujets au **Mode Collapse**. D√©crivez bri√®vement comment l'architecture DCGAN tente *indirectement* de le pr√©venir (Indice : diversit√© des cartes de caract√©ristiques).
4.  **Ouverture (WGAN) :** Le prochain d√©fi majeur des GANs concerne le choix de la fonction de co√ªt. Citez le probl√®me principal de la divergence de Jensen-Shannon (utilis√©e par BCE) lorsque les distributions r√©elles et g√©n√©r√©es sont s√©par√©es. Quel mod√®le de GAN c√©l√®bre (ex: WGAN) tente de r√©soudre ce probl√®me en utilisant une distance alternative (la distance de Wasserstein) ? 