<a href="https://colab.research.google.com/github/JulienHelfenstein/World_model/blob/main/02_train_vae.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from google.colab import drive
drive.mount('/content/drive')

# Définir le chemin racine de votre projet
PROJECT_ROOT = "/content/drive/My Drive/Colab Notebooks/World_model"

Mounted at /content/drive


In [2]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import DataLoader, Dataset
import torch.optim as optim
import numpy as np
import os
from tqdm import tqdm

In [3]:
# --- 1. Configuration et Hyperparamètres ---
DATA_FILE = os.path.join(PROJECT_ROOT, "data/carracing_data.npz")
MODEL_SAVE_PATH = os.path.join(PROJECT_ROOT, "vae.pth")
z_dim = 32          # Dimension de l'espace latent (doit correspondre au RNN)
image_channels = 3  # RGB
learning_rate = 1e-3
batch_size = 64     # Augmentez si vous avez plus de VRAM, diminuez si vous manquez de mémoire
num_epochs = 10     # 10 époques est un début. 30-50 est mieux si vous avez le temps.

In [4]:
# --- 2. Le Dataset Personnalisé ---
#    Cette classe est la "plomberie" qui connecte
#    votre fichier .npz au DataLoader de PyTorch.
class CarRacingDataset(Dataset):
    def __init__(self, data_file):
        print(f"Chargement des données depuis {data_file}...")
        data = np.load(data_file)
        # On ne prend que les observations, pas les actions
        self.observations = data['observations']
        print(f"Données chargées. Shape: {self.observations.shape}")

        # Les images sont en (N, H, W, C). PyTorch (Conv2d)
        # veut (N, C, H, W). Nous devons permuter les axes.
        # (N, 64, 64, 3) -> (N, 3, 64, 64)
        self.observations_tensor = torch.from_numpy(self.observations).permute(0, 3, 1, 2)
        print("Données permutées pour PyTorch.")

    def __len__(self):
        return len(self.observations_tensor)

    def __getitem__(self, idx):
        # Le DataLoader s'occupera de créer les batchs
        return self.observations_tensor[idx]

In [5]:
# --- 3. Le Modèle CVAE (identique à avant) ---
class CVAE(nn.Module):
    def __init__(self, z_dim, image_channels=3):
        super(CVAE, self).__init__()
        self.z_dim = z_dim

        # --- Encodeur (Image -> Espace Latent) ---
        self.encoder = nn.Sequential(
            nn.Conv2d(image_channels, 32, kernel_size=4, stride=2, padding=1),
            nn.ReLU(),
            nn.Conv2d(32, 64, kernel_size=4, stride=2, padding=1),
            nn.ReLU(),
            nn.Conv2d(64, 128, kernel_size=4, stride=2, padding=1),
            nn.ReLU(),
            nn.Conv2d(128, 256, kernel_size=4, stride=2, padding=1),
            nn.ReLU()
        )
        self.flat_size = 256 * 4 * 4
        self.fc_mu = nn.Linear(self.flat_size, z_dim)
        self.fc_logvar = nn.Linear(self.flat_size, z_dim)

        # --- Décodeur (Espace Latent -> Image) ---
        self.decoder_fc = nn.Linear(z_dim, self.flat_size)
        self.decoder = nn.Sequential(
            nn.ConvTranspose2d(256, 128, kernel_size=4, stride=2, padding=1),
            nn.ReLU(),
            nn.ConvTranspose2d(128, 64, kernel_size=4, stride=2, padding=1),
            nn.ReLU(),
            nn.ConvTranspose2d(64, 32, kernel_size=4, stride=2, padding=1),
            nn.ReLU(),
            nn.ConvTranspose2d(32, image_channels, kernel_size=4, stride=2, padding=1),
            nn.Sigmoid()
        )

    def encode(self, x):
        h = self.encoder(x)
        h_flat = h.view(-1, self.flat_size)
        return self.fc_mu(h_flat), self.fc_logvar(h_flat)

    def reparameterize(self, mu, log_var):
        std = torch.exp(0.5 * log_var)
        eps = torch.randn_like(std)
        return mu + eps * std

    def decode(self, z):
        h = F.relu(self.decoder_fc(z))
        h_unflat = h.view(-1, 256, 4, 4)
        return self.decoder(h_unflat)

    def forward(self, x):
        mu, log_var = self.encode(x)
        z = self.reparameterize(mu, log_var)
        recon_x = self.decode(z)
        return recon_x, mu, log_var

In [6]:
# --- 4. Fonction de Perte (Loss) VAE (identique à avant) ---
def vae_loss_function(recon_x, x, mu, log_var):
    # Perte de Reconstruction (BCE). 'reduction="sum"' est important.
    recon_loss = F.binary_cross_entropy(recon_x, x, reduction='sum')

    # Perte de Régularisation (KLD)
    kld = -0.5 * torch.sum(1 + log_var - mu.pow(2) - log_var.exp())

    return recon_loss + kld

In [7]:
# --- 5. Script Principal d'Entraînement ---
if __name__ == "__main__":

    # 1. Détecter le GPU
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print(f"Utilisation du device : {device}")

    # 2. Créer le Dataset et le DataLoader
    dataset = CarRacingDataset(DATA_FILE)
    data_loader = DataLoader(
        dataset,
        batch_size=batch_size,
        shuffle=True,
        num_workers=2 # Utilise des sous-processus pour charger les données
    )

    # 3. Initialiser le Modèle et l'Optimiseur
    model = CVAE(z_dim, image_channels).to(device)
    optimizer = optim.Adam(model.parameters(), lr=learning_rate)

    print("Début de l'entraînement du CVAE...")
    model.train() # Mettre le modèle en mode entraînement

    # 4. Boucle d'Entraînement
    for epoch in range(num_epochs):
        total_epoch_loss = 0

        # tqdm pour la barre de progression
        pbar = tqdm(data_loader, desc=f"Epoch {epoch+1}/{num_epochs}")

        for images in pbar:
            images = images.to(device)

            # --- Forward pass ---
            recon_images, mu, log_var = model(images)

            # --- Calcul de la perte ---
            loss = vae_loss_function(recon_images, images, mu, log_var)

            # --- Backward pass ---
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

            total_epoch_loss += loss.item()
            pbar.set_postfix(loss=f"{loss.item()/len(images):.4f}")

        # Calculer la perte moyenne pour l'époque
        avg_loss = total_epoch_loss / len(dataset)
        print(f"Fin Epoch {epoch+1}. Perte moyenne : {avg_loss:.4f}")

    # 5. Sauvegarder le modèle entraîné
    print("Entraînement terminé.")
    print(f"Sauvegarde du modèle dans {MODEL_SAVE_PATH}...")
    torch.save(model.state_dict(), MODEL_SAVE_PATH)
    print("Modèle sauvegardé !")

Utilisation du device : cuda
Chargement des données depuis /content/drive/My Drive/Colab Notebooks/World_model/data/carracing_data.npz...
Données chargées. Shape: (29878, 64, 64, 3)
Données permutées pour PyTorch.
Début de l'entraînement du CVAE...


Epoch 1/10: 100%|██████████| 467/467 [00:08<00:00, 57.46it/s, loss=6743.1372]


Fin Epoch 1. Perte moyenne : 6880.2568


Epoch 2/10: 100%|██████████| 467/467 [00:06<00:00, 72.56it/s, loss=6652.6916]


Fin Epoch 2. Perte moyenne : 6696.5853


Epoch 3/10: 100%|██████████| 467/467 [00:07<00:00, 65.43it/s, loss=6619.2749]


Fin Epoch 3. Perte moyenne : 6682.3604


Epoch 4/10: 100%|██████████| 467/467 [00:06<00:00, 74.45it/s, loss=6628.8137]


Fin Epoch 4. Perte moyenne : 6669.9343


Epoch 5/10: 100%|██████████| 467/467 [00:09<00:00, 50.73it/s, loss=6712.7969]


Fin Epoch 5. Perte moyenne : 6663.6813


Epoch 6/10: 100%|██████████| 467/467 [00:06<00:00, 73.93it/s, loss=6647.3079]


Fin Epoch 6. Perte moyenne : 6660.0168


Epoch 7/10: 100%|██████████| 467/467 [00:06<00:00, 67.93it/s, loss=6686.5880]


Fin Epoch 7. Perte moyenne : 6657.8575


Epoch 8/10: 100%|██████████| 467/467 [00:06<00:00, 72.10it/s, loss=6635.8102]


Fin Epoch 8. Perte moyenne : 6656.0155


Epoch 9/10: 100%|██████████| 467/467 [00:06<00:00, 66.90it/s, loss=6640.1366]


Fin Epoch 9. Perte moyenne : 6654.8545


Epoch 10/10: 100%|██████████| 467/467 [00:06<00:00, 71.51it/s, loss=6563.6829]


Fin Epoch 10. Perte moyenne : 6653.9039
Entraînement terminé.
Sauvegarde du modèle dans /content/drive/My Drive/Colab Notebooks/World_model/vae.pth...
Modèle sauvegardé !
