# Projet C - Mini-GPT : G√©n√©ration de Texte

**Module** : R√©seaux de Neurones Approfondissement  
**Dur√©e** : 2h  
**Objectif** : Construire et entra√Æner un petit mod√®le g√©n√©ratif type GPT

---

## Objectifs du projet

Dans ce projet, vous allez :
1. Comprendre la diff√©rence entre Encodeur (BERT) et D√©codeur (GPT)
2. Impl√©menter le masque causal pour la g√©n√©ration
3. Entra√Æner un mini-GPT sur un corpus fran√ßais
4. G√©n√©rer du texte de mani√®re autoregressive

> **üìå Note p√©dagogique** : Cette session introduit le **d√©codeur** (GPT) avec son **masque causal**. 
> C'est une architecture diff√©rente de l'encodeur (BERT) vu en Sessions 1-4.
>
> **Cross-attention** (mentionn√© en Session 2) : Dans les architectures **encodeur-d√©codeur** compl√®tes (traduction, T5), 
> le d√©codeur utilise du cross-attention pour "interroger" l'encodeur. Ici, on se concentre sur le **d√©codeur seul** (GPT), 
> qui n'utilise que la **self-attention causale**.

## 0. Installation

In [None]:
!pip install torch matplotlib numpy tqdm -q

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
import matplotlib.pyplot as plt
import numpy as np
import math
from tqdm.auto import tqdm

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"Device: {device}")

torch.manual_seed(42)

---

## 1. Encodeur vs D√©codeur : Quelle diff√©rence ?

### BERT (Encodeur) - Ce qu'on a fait jusqu'ici

```
Entr√©e:  "Le chat [MASK] sur le canap√©"
                    ‚Üì
         Chaque mot voit TOUS les autres
                    ‚Üì
Sortie:  Pr√©dire [MASK] = "dort"
```

- **Bidirectionnel** : chaque token voit le pass√© ET le futur
- **Usage** : Classification, NER, Question-Answering extractif

### GPT (D√©codeur) - Ce qu'on fait maintenant

```
Entr√©e:  "Le chat dort sur le"
                    ‚Üì
         Chaque mot voit SEULEMENT les pr√©c√©dents
                    ‚Üì
Sortie:  Pr√©dire le mot suivant = "canap√©"
```

- **Unidirectionnel (causal)** : chaque token ne voit que le pass√©
- **Usage** : G√©n√©ration de texte, chatbots, compl√©tion

### Le masque causal

Pour emp√™cher un token de "tricher" en regardant le futur, on utilise un **masque causal** :

```
              Le   chat  dort  sur   le
      Le    [  1     0     0     0    0  ]   ‚Üê "Le" ne voit que lui-m√™me
     chat   [  1     1     0     0    0  ]   ‚Üê "chat" voit "Le" et lui-m√™me
     dort   [  1     1     1     0    0  ]   ‚Üê "dort" voit les 3 premiers
      sur   [  1     1     1     1    0  ]   ‚Üê etc.
       le   [  1     1     1     1    1  ]   ‚Üê dernier voit tout le pass√©
```

Les 0 deviennent `-‚àû` avant le softmax ‚Üí attention = 0 sur ces positions.

---

## 2. Impl√©mentation du Masque Causal

In [None]:
# ============================================
# EXERCICE 1 : Cr√©er le masque causal
# ============================================

def create_causal_mask(seq_len):
    """
    Cr√©e un masque causal (triangulaire inf√©rieur).
    
    Args:
        seq_len: Longueur de la s√©quence
    
    Returns:
        mask: Tensor bool√©en (seq_len, seq_len)
              True = position √† masquer (ne pas regarder)
              False = position visible
    """
    # TODO: Cr√©er une matrice triangulaire sup√©rieure de True
    # Indice: torch.triu(torch.ones(...), diagonal=1)
    # diagonal=1 pour que la diagonale soit visible (un token se voit lui-m√™me)
    
    mask = None  # √Ä compl√©ter
    
    return mask.bool()

# Test
mask = create_causal_mask(5)
print("Masque causal (True = masqu√©) :")
print(mask.int())  # Affiche 0 et 1 pour plus de lisibilit√©

In [None]:
# Visualisation
plt.figure(figsize=(6, 5))
plt.imshow(~mask, cmap='Blues')  # ~ inverse pour afficher "visible" en bleu
plt.xticks(range(5), ['pos 0', 'pos 1', 'pos 2', 'pos 3', 'pos 4'])
plt.yticks(range(5), ['pos 0', 'pos 1', 'pos 2', 'pos 3', 'pos 4'])
plt.xlabel("Positions regard√©es (Keys)")
plt.ylabel("Positions qui regardent (Queries)")
plt.title("Masque Causal (bleu = visible)")
plt.colorbar(label="Visible")
plt.show()

---

## 3. Architecture Mini-GPT

On reprend notre Transformer et on ajoute le masque causal.

In [None]:
class CausalSelfAttention(nn.Module):
    """Self-Attention avec masque causal (style GPT)."""
    
    def __init__(self, embed_dim, num_heads, max_len=512, dropout=0.1):
        super().__init__()
        assert embed_dim % num_heads == 0
        
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.d_k = embed_dim // num_heads
        
        self.W_q = nn.Linear(embed_dim, embed_dim)
        self.W_k = nn.Linear(embed_dim, embed_dim)
        self.W_v = nn.Linear(embed_dim, embed_dim)
        self.W_o = nn.Linear(embed_dim, embed_dim)
        
        self.dropout = nn.Dropout(dropout)
        
        # Pr√©-calculer le masque causal (enregistr√© comme buffer)
        mask = torch.triu(torch.ones(max_len, max_len), diagonal=1).bool()
        self.register_buffer('mask', mask)
    
    def forward(self, x):
        B, S, _ = x.shape
        
        # Projections Q, K, V
        Q = self.W_q(x).view(B, S, self.num_heads, self.d_k).transpose(1, 2)
        K = self.W_k(x).view(B, S, self.num_heads, self.d_k).transpose(1, 2)
        V = self.W_v(x).view(B, S, self.num_heads, self.d_k).transpose(1, 2)
        
        # Attention scores
        scores = Q @ K.transpose(-2, -1) / math.sqrt(self.d_k)
        
        # Appliquer le masque causal
        scores = scores.masked_fill(self.mask[:S, :S], float('-inf'))
        
        # Softmax et dropout
        attn = F.softmax(scores, dim=-1)
        attn = self.dropout(attn)
        
        # Output
        out = (attn @ V).transpose(1, 2).contiguous().view(B, S, self.embed_dim)
        return self.W_o(out)

In [None]:
class GPTBlock(nn.Module):
    """Un bloc de GPT (attention causale + FFN)."""
    
    def __init__(self, embed_dim, num_heads, max_len=512, dropout=0.1):
        super().__init__()
        self.attn = CausalSelfAttention(embed_dim, num_heads, max_len, dropout)
        self.ff = nn.Sequential(
            nn.Linear(embed_dim, 4 * embed_dim),
            nn.GELU(),
            nn.Linear(4 * embed_dim, embed_dim),
            nn.Dropout(dropout)
        )
        self.norm1 = nn.LayerNorm(embed_dim)
        self.norm2 = nn.LayerNorm(embed_dim)
        self.dropout = nn.Dropout(dropout)
    
    def forward(self, x):
        x = x + self.dropout(self.attn(self.norm1(x)))
        x = x + self.dropout(self.ff(self.norm2(x)))
        return x

In [None]:
# ============================================
# EXERCICE 2 : Compl√©ter le Mini-GPT
# ============================================

class MiniGPT(nn.Module):
    """
    Mini-GPT pour la g√©n√©ration de texte caract√®re par caract√®re.
    
    Args:
        vocab_size: Taille du vocabulaire (nombre de caract√®res uniques)
        embed_dim: Dimension des embeddings
        num_heads: Nombre de t√™tes d'attention
        num_layers: Nombre de blocs GPT
        max_len: Longueur maximale des s√©quences
        dropout: Taux de dropout
    """
    
    def __init__(self, vocab_size, embed_dim=128, num_heads=4, num_layers=4, 
                 max_len=256, dropout=0.1):
        super().__init__()
        
        self.max_len = max_len
        
        # Token embedding
        self.token_embedding = nn.Embedding(vocab_size, embed_dim)
        
        # Position embedding (apprise, pas sinuso√Ødale)
        self.position_embedding = nn.Embedding(max_len, embed_dim)
        
        # Blocs GPT
        self.blocks = nn.ModuleList([
            GPTBlock(embed_dim, num_heads, max_len, dropout)
            for _ in range(num_layers)
        ])
        
        # Layer norm finale
        self.norm = nn.LayerNorm(embed_dim)
        
        # T√™te de pr√©diction (projette vers le vocabulaire)
        self.head = nn.Linear(embed_dim, vocab_size)
        
        self.dropout = nn.Dropout(dropout)
    
    def forward(self, x):
        """
        Args:
            x: Indices de tokens, shape (batch, seq_len)
        
        Returns:
            logits: Scores pour chaque token du vocabulaire, shape (batch, seq_len, vocab_size)
        """
        B, S = x.shape
        
        # TODO: Impl√©menter le forward
        
        # 1. Token embeddings
        tok_emb = None  # self.token_embedding(x)
        
        # 2. Position embeddings
        # Cr√©er les positions [0, 1, 2, ..., S-1]
        positions = None  # torch.arange(S, device=x.device)
        pos_emb = None  # self.position_embedding(positions)
        
        # 3. Additionner et dropout
        x = None  # self.dropout(tok_emb + pos_emb)
        
        # 4. Passer par tous les blocs
        # for block in self.blocks:
        #     x = block(x)
        
        # 5. Layer norm finale
        x = None  # self.norm(x)
        
        # 6. Projection vers le vocabulaire
        logits = None  # self.head(x)
        
        return logits
    
    @torch.no_grad()
    def generate(self, context, max_new_tokens, temperature=1.0):
        """
        G√©n√®re du texte de mani√®re autoregressive.
        
        Args:
            context: Tensor de shape (1, seq_len) avec le contexte initial
            max_new_tokens: Nombre de tokens √† g√©n√©rer
            temperature: Contr√¥le la "cr√©ativit√©" (1.0 = normal, <1 = conservateur, >1 = cr√©atif)
        
        Returns:
            Tensor avec le contexte + tokens g√©n√©r√©s
        """
        self.eval()
        
        for _ in range(max_new_tokens):
            # Tronquer si n√©cessaire
            context_truncated = context[:, -self.max_len:]
            
            # Forward
            logits = self(context_truncated)
            
            # Prendre les logits du dernier token
            logits = logits[:, -1, :] / temperature
            
            # √âchantillonner
            probs = F.softmax(logits, dim=-1)
            next_token = torch.multinomial(probs, num_samples=1)
            
            # Ajouter au contexte
            context = torch.cat([context, next_token], dim=1)
        
        return context

In [None]:
# Test rapide
model_test = MiniGPT(vocab_size=100, embed_dim=64, num_heads=4, num_layers=2)
x_test = torch.randint(0, 100, (2, 32))
out_test = model_test(x_test)
print(f"Input: {x_test.shape}")
print(f"Output: {out_test.shape}")  # Attendu: (2, 32, 100)

---

## 4. Pr√©paration des Donn√©es

On va entra√Æner notre Mini-GPT sur un corpus de texte fran√ßais.

In [None]:
# T√©l√©charger un texte fran√ßais (Les Mis√©rables - Victor Hugo)
import urllib.request

url = "https://www.gutenberg.org/cache/epub/135/pg135.txt"
print("T√©l√©chargement du corpus...")

with urllib.request.urlopen(url) as response:
    text = response.read().decode('utf-8')

# Nettoyer (garder une portion pour l'entra√Ænement rapide)
# Le texte commence apr√®s les en-t√™tes Gutenberg
start_marker = "PREMI√àRE PARTIE"
start_idx = text.find(start_marker)
if start_idx != -1:
    text = text[start_idx:]

# Limiter la taille pour Colab (environ 500Ko)
text = text[:500000]

print(f"Taille du corpus: {len(text):,} caract√®res")
print(f"\nExtrait:\n{text[:500]}")

In [None]:
# Cr√©er le vocabulaire (niveau caract√®re)
chars = sorted(list(set(text)))
vocab_size = len(chars)

print(f"Vocabulaire: {vocab_size} caract√®res uniques")
print(f"Caract√®res: {''.join(chars[:50])}...")

# Mappings
char2idx = {ch: i for i, ch in enumerate(chars)}
idx2char = {i: ch for i, ch in enumerate(chars)}

# Fonctions d'encodage/d√©codage
def encode(s):
    return [char2idx[c] for c in s]

def decode(indices):
    return ''.join([idx2char[i] for i in indices])

# Test
test_str = "Bonjour!"
encoded = encode(test_str)
decoded = decode(encoded)
print(f"\nTest: '{test_str}' -> {encoded} -> '{decoded}'")

In [None]:
# Encoder tout le texte
data = torch.tensor(encode(text), dtype=torch.long)
print(f"Data shape: {data.shape}")

# Split train/val (90/10)
n = int(0.9 * len(data))
train_data = data[:n]
val_data = data[n:]

print(f"Train: {len(train_data):,} tokens")
print(f"Val: {len(val_data):,} tokens")

In [None]:
# Dataset
class TextDataset(Dataset):
    def __init__(self, data, block_size):
        self.data = data
        self.block_size = block_size
    
    def __len__(self):
        return len(self.data) - self.block_size
    
    def __getitem__(self, idx):
        # x = contexte, y = contexte d√©cal√© de 1 (ce qu'on veut pr√©dire)
        x = self.data[idx:idx + self.block_size]
        y = self.data[idx + 1:idx + self.block_size + 1]
        return x, y

# Configuration
BLOCK_SIZE = 128  # Longueur des s√©quences
BATCH_SIZE = 64

train_dataset = TextDataset(train_data, BLOCK_SIZE)
val_dataset = TextDataset(val_data, BLOCK_SIZE)

train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE)

print(f"Batches train: {len(train_loader)}")
print(f"Batches val: {len(val_loader)}")

In [None]:
# V√©rifier un batch
x_batch, y_batch = next(iter(train_loader))
print(f"x shape: {x_batch.shape}")  # (batch, block_size)
print(f"y shape: {y_batch.shape}")  # (batch, block_size)

# Exemple
print(f"\nExemple (input):  '{decode(x_batch[0].tolist())[:50]}...'")
print(f"Exemple (target): '{decode(y_batch[0].tolist())[:50]}...'")

---

## 5. Entra√Ænement

In [None]:
# Cr√©er le mod√®le
model = MiniGPT(
    vocab_size=vocab_size,
    embed_dim=128,
    num_heads=4,
    num_layers=4,
    max_len=BLOCK_SIZE,
    dropout=0.1
).to(device)

# Compter les param√®tres
num_params = sum(p.numel() for p in model.parameters())
print(f"Param√®tres: {num_params:,}")

In [None]:
# ============================================
# EXERCICE 3 : Boucle d'entra√Ænement
# ============================================

def train_epoch(model, loader, optimizer, device):
    model.train()
    total_loss = 0
    
    for x, y in tqdm(loader, desc="Training", leave=False):
        x, y = x.to(device), y.to(device)
        
        # TODO: Impl√©menter
        # 1. Zero grad
        optimizer.zero_grad()
        
        # 2. Forward
        logits = model(x)  # (batch, seq_len, vocab_size)
        
        # 3. Loss (cross-entropy)
        # Attention: reshape pour cross_entropy
        # logits: (B, S, V) -> (B*S, V)
        # y: (B, S) -> (B*S,)
        B, S, V = logits.shape
        loss = F.cross_entropy(logits.view(B*S, V), y.view(B*S))
        
        # 4. Backward
        loss.backward()
        
        # 5. Gradient clipping (stabilit√©)
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
        
        # 6. Optimizer step
        optimizer.step()
        
        total_loss += loss.item()
    
    return total_loss / len(loader)


@torch.no_grad()
def evaluate(model, loader, device):
    model.eval()
    total_loss = 0
    
    for x, y in loader:
        x, y = x.to(device), y.to(device)
        logits = model(x)
        B, S, V = logits.shape
        loss = F.cross_entropy(logits.view(B*S, V), y.view(B*S))
        total_loss += loss.item()
    
    return total_loss / len(loader)

In [None]:
# Configuration
EPOCHS = 5
LR = 3e-4

optimizer = torch.optim.AdamW(model.parameters(), lr=LR)

# Historique
history = {'train_loss': [], 'val_loss': []}

print("D√©but de l'entra√Ænement...\n")

for epoch in range(EPOCHS):
    train_loss = train_epoch(model, train_loader, optimizer, device)
    val_loss = evaluate(model, val_loader, device)
    
    history['train_loss'].append(train_loss)
    history['val_loss'].append(val_loss)
    
    print(f"Epoch {epoch+1}/{EPOCHS}")
    print(f"  Train Loss: {train_loss:.4f} | Val Loss: {val_loss:.4f}")
    
    # G√©n√©rer un √©chantillon
    context = torch.tensor([encode("Jean Valjean ")], dtype=torch.long, device=device)
    generated = model.generate(context, max_new_tokens=100, temperature=0.8)
    print(f"  G√©n√©ration: {decode(generated[0].tolist())[:100]}...")
    print()

In [None]:
# Visualisation
plt.figure(figsize=(10, 4))
plt.plot(history['train_loss'], label='Train')
plt.plot(history['val_loss'], label='Val')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Courbe d\'apprentissage')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

---

## 6. G√©n√©ration de Texte

In [None]:
# ============================================
# EXERCICE 4 : Exp√©rimenter avec la g√©n√©ration
# ============================================

def generate_text(prompt, max_tokens=200, temperature=1.0):
    """
    G√©n√®re du texte √† partir d'un prompt.
    
    Args:
        prompt: Texte de d√©part
        max_tokens: Nombre de caract√®res √† g√©n√©rer
        temperature: Cr√©ativit√© (0.5=conservateur, 1.0=normal, 1.5=cr√©atif)
    """
    context = torch.tensor([encode(prompt)], dtype=torch.long, device=device)
    generated = model.generate(context, max_new_tokens=max_tokens, temperature=temperature)
    return decode(generated[0].tolist())

# Tests avec diff√©rentes temp√©ratures
prompt = "La nuit √©tait "

print("=" * 60)
print(f"Prompt: '{prompt}'")
print("=" * 60)

for temp in [0.5, 1.0, 1.5]:
    print(f"\n--- Temp√©rature = {temp} ---")
    print(generate_text(prompt, max_tokens=150, temperature=temp))
    print()

In [None]:
# G√©n√©ration interactive
prompts = [
    "Il marchait dans la rue ",
    "L'√©v√™que dit √† ",
    "Paris est une ville ",
    "Le soleil se levait sur ",
]

for prompt in prompts:
    print(f"\n{'='*60}")
    print(f"Prompt: '{prompt}'")
    print(f"{'='*60}")
    print(generate_text(prompt, max_tokens=200, temperature=0.8))

---

## 7. Analyse et Visualisation

In [None]:
# Visualiser les probabilit√©s de pr√©diction
def visualize_predictions(text):
    """Visualise les probabilit√©s de pr√©diction pour chaque caract√®re."""
    model.eval()
    
    x = torch.tensor([encode(text)], dtype=torch.long, device=device)
    
    with torch.no_grad():
        logits = model(x)
        probs = F.softmax(logits, dim=-1)
    
    # Pour chaque position, afficher le caract√®re pr√©dit
    print(f"Texte: '{text}'\n")
    print("Position | R√©el | Pr√©dit | Confiance")
    print("-" * 45)
    
    for i in range(len(text) - 1):
        actual = text[i + 1]
        pred_idx = probs[0, i].argmax().item()
        pred_char = idx2char[pred_idx]
        confidence = probs[0, i, char2idx[actual]].item()
        
        match = "‚úì" if pred_char == actual else "‚úó"
        actual_display = repr(actual)[1:-1]  # Afficher les caract√®res sp√©ciaux
        pred_display = repr(pred_char)[1:-1]
        
        print(f"   {i:3d}   | '{actual_display:2s}' | '{pred_display:2s}'  | {confidence:.2%} {match}")

visualize_predictions("Jean Valjean")

---

## 8. R√©capitulatif

### Ce que vous avez appris

1. **Diff√©rence Encodeur/D√©codeur** : Le masque causal emp√™che de "voir le futur"
2. **Architecture GPT** : Attention causale + g√©n√©ration autoregressive
3. **Entra√Ænement** : Pr√©dire le caract√®re suivant (next token prediction)
4. **Temp√©rature** : Contr√¥le le compromis entre coh√©rence et cr√©ativit√©

### Comparaison avec les vrais GPT

| | Notre Mini-GPT | GPT-2 Small | GPT-3 |
|--|----------------|-------------|-------|
| Param√®tres | ~1M | 117M | 175B |
| Donn√©es | ~500Ko | 40Go | ~500Go |
| Vocabulaire | Caract√®res | BPE (~50k) | BPE (~50k) |
| Contexte | 128 | 1024 | 2048 |

### Limitations de notre mod√®le

- **Vocabulaire caract√®re** : Inefficace, perd la notion de "mot"
- **Petit corpus** : Surapprentissage probable
- **Contexte court** : Ne peut pas capturer les d√©pendances longues

### Pour aller plus loin

- Utiliser un tokenizer BPE (comme SentencePiece)
- Entra√Æner sur plus de donn√©es
- Ajouter des techniques modernes (RoPE, KV-cache, Flash Attention)

In [None]:
# Espace pour vos exp√©rimentations

# Essayez diff√©rents prompts !
mon_prompt = "Cosette regardait "
print(generate_text(mon_prompt, max_tokens=300, temperature=0.8))