# üß† Workshop: Build a Coding LLM from Scratch
## Part IV: Post-Training (Supervised Fine-Tuning)
### üéØ Focus: Teaching the Model to Follow Instructions with Reasoning

**Auteur :** √âquipe IRA

**Date :** 1 D√©cembre 2025

**Contexte :** Ce notebook d√©montre le **Post-Training** d'un mod√®le pr√©-entra√Æn√© pour qu'il suive des instructions et g√©n√®re du code avec raisonnement. Nous utilisons un dataset structur√© instruction‚Üíreasoning‚Üícode pour apprendre au mod√®le √† comprendre les consignes et √† raisonner avant de coder.

---

## üìã Table des mati√®res

1. **Introduction th√©orique** : Qu'est-ce que le Post-Training ?
2. **R√©cup√©ration des artefacts du Pre-Training**
3. **Chargement et exploration du dataset SFT**
4. **Pr√©paration et encodage des donn√©es**
5. **Chargement du mod√®le pr√©-entra√Æn√©**
6. **Boucle de Post-Training (SFT)**
7. **√âvaluation et tests**
8. **Sauvegarde finale**
9. **Comparaison Pre-Training vs Post-Training**

---

## üîπ Partie 1 : Introduction Th√©orique

### Qu'est-ce que le Post-Training ?

Le **Post-Training** (ou **Supervised Fine-Tuning - SFT**) est la phase o√π un mod√®le pr√©-entra√Æn√© apprend √† suivre des instructions sp√©cifiques.

### Diff√©rence Pre-Training vs Post-Training

| Aspect | Pre-Training | Post-Training (SFT) |
|--------|--------------|---------------------|
| **Donn√©es** | Code brut (non structur√©) | Paires instruction‚Üícode structur√©es |
| **Objectif** | Apprendre la syntaxe Python | Suivre des consignes pr√©cises |
| **Format** | Texte continu | Format question-r√©ponse |
| **Exemple entr√©e** | `def fibonacci(n):...` | `"√âcris une fonction fibonacci"` |
| **Exemple sortie** | Token suivant | Fonction compl√®te avec raisonnement |

### Notre Dataset SFT

Format : **Instruction ‚Üí Reasoning ‚Üí Code**

```json
{
  "instruction": "Return sum of even numbers up to n",
  "reasoning": "Iterate and sum numbers divisible by 2",
  "answer": "def sum_even_1_to_n(n):\n    return sum(i for i in range(2, n+1, 2))"
}
```

**Avantages** :
- ‚úÖ Le mod√®le apprend √† **comprendre les consignes**
- ‚úÖ Le mod√®le apprend √† **raisonner** avant de coder
- ‚úÖ Le code g√©n√©r√© est **align√©** avec les besoins humains

### Pipeline Post-Training

```
Mod√®le Pr√©-entra√Æn√© ‚Üí SFT Dataset ‚Üí Fine-Tuning ‚Üí Mod√®le Instruit
```

---

## üîπ Partie 2 : R√©cup√©ration des Artefacts du Pre-Training

Nous r√©cup√©rons le mod√®le et le tokenizer cr√©√©s dans le notebook **Pre-Training**.

### Fichiers n√©cessaires :
- ‚úÖ `models/pre_training/mini_gpt_code_FINAL.pt` - Mod√®le pr√©-entra√Æn√©
- ‚úÖ `models/pre_training/tokenizer/` - Tokenizer GPT-2
- ‚úÖ Architecture `MiniGPT` (d√©finie dans le notebook pr√©c√©dent)

In [None]:
# %% Cell 1: Imports et Configuration

# ============================================================================
# IMPORTS DES BIBLIOTH√àQUES N√âCESSAIRES
# ============================================================================

import torch
import torch.nn as nn
from torch.nn import functional as F
from torch.utils.data import Dataset, DataLoader
import json
import os
import numpy as np
import matplotlib.pyplot as plt
from tqdm.auto import tqdm
from transformers import GPT2Tokenizer

# ============================================================================
# CONFIGURATION POUR LA REPRODUCTIBILIT√â
# ============================================================================
torch.manual_seed(42)
np.random.seed(42)

# ============================================================================
# D√âTECTION DU DEVICE
# ============================================================================
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f"üöÄ Device utilis√© : {device}")
print(f"üî• PyTorch version : {torch.__version__}")

# ============================================================================
# HYPERPARAM√àTRES DU POST-TRAINING
# ============================================================================

# V√©rifier que les fichiers du pre-training existent
required_files = [
    "models/pre_training/mini_gpt_code_FINAL.pt",
    "models/pre_training/tokenizer/tokenizer_config.json"
]

print("\nüìÇ V√©rification des fichiers du Pre-Training...")
all_exist = True
for file in required_files:
    exists = os.path.exists(file)
    status = "‚úÖ" if exists else "‚ùå"
    print(f"   {status} {file}")
    if not exists:
        all_exist = False

if not all_exist:
    print("\n‚ö†Ô∏è  ATTENTION : Certains fichiers du Pre-Training sont manquants!")
    print("   Veuillez d'abord ex√©cuter le notebook 'notebook.ipynb' (Pre-Training)")
else:
    print("\n‚úÖ Tous les fichiers n√©cessaires sont pr√©sents!")

# Hyperparam√®tres sp√©cifiques au Post-Training
BATCH_SIZE = 8           # Plus petit batch pour SFT (donn√©es plus riches)
N_EPOCHS = 5             # Plus d'√©poques pour bien apprendre les instructions
LEARNING_RATE = 1e-4     # Learning rate plus faible (fine-tuning)
MAX_LENGTH = 256         # Longueur max des s√©quences

## üîπ Partie 3 : Chargement et Exploration du Dataset SFT

Notre dataset contient **10,000 exemples** de code Python avec instructions et raisonnement.

### Structure des donn√©es :
- **instruction** : Ce que l'utilisateur demande
- **reasoning** : Le raisonnement pour r√©soudre le probl√®me
- **answer** : Le code Python correspondant

In [None]:
# %% Cell 2: Chargement du Dataset SFT

print("üì• Chargement du dataset SFT (data/python_reasoning_dataset.jsonl)...")

# ============================================================================
# CHARGEMENT DU FICHIER JSONL
# ============================================================================
# Chaque ligne est un objet JSON
sft_data = []
dataset_path = "data/python_reasoning_dataset.jsonl"

with open(dataset_path, 'r', encoding='utf-8') as f:
    for line in f:
        # Parser chaque ligne JSON
        example = json.loads(line.strip())
        sft_data.append(example)

print(f"‚úÖ Dataset charg√© : {len(sft_data):,} exemples")

# ============================================================================
# EXPLORATION DU DATASET
# ============================================================================
print("\nüìä Statistiques du dataset :")

# Compter les longueurs
instruction_lengths = [len(ex['instruction']) for ex in sft_data]
reasoning_lengths = [len(ex['reasoning']) for ex in sft_data]
answer_lengths = [len(ex['answer']) for ex in sft_data]

print(f"   - Instruction moyenne : {np.mean(instruction_lengths):.1f} caract√®res")
print(f"   - Reasoning moyen     : {np.mean(reasoning_lengths):.1f} caract√®res")
print(f"   - Answer moyen        : {np.mean(answer_lengths):.1f} caract√®res")

# Afficher quelques exemples
print("\n--- üìã Exemples du dataset ---\n")
for i in range(3):
    ex = sft_data[i]
    print(f"Exemple {i+1}:")
    print(f"  Instruction: {ex['instruction']}")
    print(f"  Reasoning:   {ex['reasoning']}")
    print(f"  Answer:      {ex['answer'][:100]}...")  # Tronquer pour affichage
    print()

## üîπ Partie 4 : Pr√©paration et Encodage des Donn√©es

### Format d'entra√Ænement

Nous cr√©ons un format structur√© pour que le mod√®le apprenne :
```
<instruction> {instruction} <reasoning> {reasoning} <answer> {answer}
```

Ce format permet au mod√®le de distinguer les diff√©rentes parties.

In [None]:
# %% Cell 3: Chargement du Tokenizer

print("üî§ Chargement du tokenizer pr√©-entra√Æn√©...")

# ============================================================================
# CHARGER LE TOKENIZER SAUVEGARD√â
# ============================================================================
# Utiliser le m√™me tokenizer que le Pre-Training
tokenizer = GPT2Tokenizer.from_pretrained("models/pre_training/tokenizer")
tokenizer.pad_token = tokenizer.eos_token

vocab_size = tokenizer.vocab_size
print(f"‚úÖ Tokenizer charg√© (vocabulaire : {vocab_size:,} tokens)")

# ============================================================================
# AJOUTER DES TOKENS SP√âCIAUX POUR LE SFT
# ============================================================================
# Tokens sp√©ciaux pour structurer le format instruction-reasoning-answer
special_tokens = {
    'additional_special_tokens': ['<instruction>', '<reasoning>', '<answer>']
}

num_added = tokenizer.add_special_tokens(special_tokens)
print(f"‚úÖ {num_added} tokens sp√©ciaux ajout√©s")
print(f"üìö Nouvelle taille du vocabulaire : {len(tokenizer):,}")

# Afficher les IDs des nouveaux tokens
print("\nüîñ Tokens sp√©ciaux :")
print(f"   <instruction> ‚Üí ID {tokenizer.encode('<instruction>', add_special_tokens=False)[0]}")
print(f"   <reasoning>   ‚Üí ID {tokenizer.encode('<reasoning>', add_special_tokens=False)[0]}")
print(f"   <answer>      ‚Üí ID {tokenizer.encode('<answer>', add_special_tokens=False)[0]}")

In [None]:
# %% Cell 4: Cr√©ation du Dataset PyTorch pour SFT

# ============================================================================
# CLASSE DATASET POUR POST-TRAINING
# ============================================================================

class SFTDataset(Dataset):
    """
    Dataset pour Supervised Fine-Tuning
    Encode les exemples au format: <instruction> ... <reasoning> ... <answer> ...
    """
    
    def __init__(self, data, tokenizer, max_length=256):
        """
        Args:
            data (list): Liste de dictionnaires {instruction, reasoning, answer}
            tokenizer: Tokenizer GPT-2
            max_length (int): Longueur maximale des s√©quences
        """
        self.data = data
        self.tokenizer = tokenizer
        self.max_length = max_length
        
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        """
        Retourne une s√©quence encod√©e pour l'entra√Ænement
        """
        example = self.data[idx]
        
        # ====================================================================
        # FORMAT: <instruction> X <reasoning> Y <answer> Z
        # ====================================================================
        text = (
            f"<instruction> {example['instruction']} "
            f"<reasoning> {example['reasoning']} "
            f"<answer> {example['answer']}"
        )
        
        # Encoder le texte complet
        encoded = self.tokenizer.encode(text, add_special_tokens=False)
        
        # Tronquer ou padder √† max_length
        if len(encoded) > self.max_length:
            encoded = encoded[:self.max_length]
        else:
            # Padding avec eos_token
            encoded = encoded + [self.tokenizer.eos_token_id] * (self.max_length - len(encoded))
        
        # Cr√©er input et target (d√©cal√© de 1 pour CLM)
        input_ids = torch.tensor(encoded[:-1], dtype=torch.long)   # Tous sauf le dernier
        target_ids = torch.tensor(encoded[1:], dtype=torch.long)   # Tous sauf le premier
        
        return input_ids, target_ids

# ============================================================================
# CR√âER LES DATASETS TRAIN/VAL
# ============================================================================
print("üìÇ Cr√©ation des datasets SFT...")

# Split 90/10
split_idx = int(0.9 * len(sft_data))
train_data = sft_data[:split_idx]
val_data = sft_data[split_idx:]

print(f"   - Train : {len(train_data):,} exemples")
print(f"   - Val   : {len(val_data):,} exemples")

# Cr√©er les datasets
train_dataset = SFTDataset(train_data, tokenizer, MAX_LENGTH)
val_dataset = SFTDataset(val_data, tokenizer, MAX_LENGTH)

# Cr√©er les DataLoaders
train_loader = DataLoader(
    train_dataset, 
    batch_size=BATCH_SIZE, 
    shuffle=True,
    drop_last=True
)

val_loader = DataLoader(
    val_dataset, 
    batch_size=BATCH_SIZE, 
    shuffle=False,
    drop_last=True
)

print(f"\n‚úÖ Datasets cr√©√©s")
print(f"üì¶ Train batches : {len(train_loader)}")
print(f"üì¶ Val batches   : {len(val_loader)}")

# ============================================================================
# TEST D'ENCODAGE
# ============================================================================
print("\n--- üß™ Test d'encodage ---")
test_input, test_target = train_dataset[0]
print(f"Shape input  : {test_input.shape}")
print(f"Shape target : {test_target.shape}")
print(f"\nD√©codage de l'input :")
print(tokenizer.decode(test_input.tolist())[:200] + "...")

## üîπ Partie 5 : Chargement du Mod√®le Pr√©-Entra√Æn√©

Nous chargeons le **MiniGPT pr√©-entra√Æn√©** depuis le checkpoint sauvegard√©.

‚ö†Ô∏è **Important** : Nous devons **red√©finir l'architecture** car elle n'est pas sauvegard√©e dans le checkpoint.

In [None]:
# %% Cell 5: Red√©finition de l'Architecture MiniGPT

# ============================================================================
# COPIE DE L'ARCHITECTURE DU PRE-TRAINING
# ============================================================================
# On doit red√©finir toutes les classes car elles ne sont pas dans le checkpoint

class CausalSelfAttention(nn.Module):
    """Multi-head self-attention avec masque causal"""
    
    def __init__(self, n_embd, n_head, block_size, dropout):
        super().__init__()
        assert n_embd % n_head == 0
        
        self.c_attn = nn.Linear(n_embd, 3 * n_embd)
        self.c_proj = nn.Linear(n_embd, n_embd)
        self.attn_dropout = nn.Dropout(dropout)
        self.resid_dropout = nn.Dropout(dropout)
        self.n_head = n_head
        self.n_embd = n_embd
        
        self.register_buffer("bias", torch.tril(torch.ones(block_size, block_size))
                                     .view(1, 1, block_size, block_size))

    def forward(self, x):
        B, T, C = x.size()
        q, k, v = self.c_attn(x).split(self.n_embd, dim=2)
        k = k.view(B, T, self.n_head, C // self.n_head).transpose(1, 2)
        q = q.view(B, T, self.n_head, C // self.n_head).transpose(1, 2)
        v = v.view(B, T, self.n_head, C // self.n_head).transpose(1, 2)
        att = (q @ k.transpose(-2, -1)) * (1.0 / np.sqrt(k.size(-1)))
        att = att.masked_fill(self.bias[:, :, :T, :T] == 0, float('-inf'))
        att = F.softmax(att, dim=-1)
        att = self.attn_dropout(att)
        y = att @ v
        y = y.transpose(1, 2).contiguous().view(B, T, C)
        y = self.resid_dropout(self.c_proj(y))
        return y

class MLP(nn.Module):
    """Feed-forward network"""
    
    def __init__(self, n_embd, dropout):
        super().__init__()
        self.c_fc = nn.Linear(n_embd, 4 * n_embd)
        self.gelu = nn.GELU()
        self.c_proj = nn.Linear(4 * n_embd, n_embd)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        x = self.c_fc(x)
        x = self.gelu(x)
        x = self.c_proj(x)
        x = self.dropout(x)
        return x

class TransformerBlock(nn.Module):
    """Bloc Transformer complet"""
    
    def __init__(self, n_embd, n_head, block_size, dropout):
        super().__init__()
        self.ln1 = nn.LayerNorm(n_embd)
        self.attn = CausalSelfAttention(n_embd, n_head, block_size, dropout)
        self.ln2 = nn.LayerNorm(n_embd)
        self.mlp = MLP(n_embd, dropout)

    def forward(self, x):
        x = x + self.attn(self.ln1(x))
        x = x + self.mlp(self.ln2(x))
        return x

class MiniGPT(nn.Module):
    """Mini GPT pour g√©n√©ration de code"""
    
    def __init__(self, vocab_size, block_size, n_embd, n_head, n_layer, dropout):
        super().__init__()
        self.block_size = block_size
        self.token_embedding = nn.Embedding(vocab_size, n_embd)
        self.position_embedding = nn.Embedding(block_size, n_embd)
        self.drop = nn.Dropout(dropout)
        self.blocks = nn.Sequential(*[
            TransformerBlock(n_embd, n_head, block_size, dropout) 
            for _ in range(n_layer)
        ])
        self.ln_f = nn.LayerNorm(n_embd)
        self.lm_head = nn.Linear(n_embd, vocab_size, bias=False)
        self.token_embedding.weight = self.lm_head.weight
        self.apply(self._init_weights)
    
    def _init_weights(self, module):
        if isinstance(module, nn.Linear):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
            if module.bias is not None:
                torch.nn.init.zeros_(module.bias)
        elif isinstance(module, nn.Embedding):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
    
    def forward(self, idx, targets=None):
        B, T = idx.shape
        assert T <= self.block_size
        tok_emb = self.token_embedding(idx)
        pos_emb = self.position_embedding(torch.arange(T, device=idx.device))
        x = self.drop(tok_emb + pos_emb)
        x = self.blocks(x)
        x = self.ln_f(x)
        logits = self.lm_head(x)
        
        if targets is not None:
            loss = F.cross_entropy(logits.view(-1, logits.size(-1)), targets.view(-1))
        else:
            loss = None
        
        return logits, loss
    
    def generate(self, idx, max_new_tokens, temperature=1.0, top_k=None):
        for _ in range(max_new_tokens):
            idx_cond = idx if idx.size(1) <= self.block_size else idx[:, -self.block_size:]
            logits, _ = self(idx_cond)
            logits = logits[:, -1, :] / temperature
            
            if top_k is not None:
                v, _ = torch.topk(logits, min(top_k, logits.size(-1)))
                logits[logits < v[:, [-1]]] = -float('Inf')
            
            probs = F.softmax(logits, dim=-1)
            idx_next = torch.multinomial(probs, num_samples=1)
            idx = torch.cat((idx, idx_next), dim=1)
        
        return idx

print("‚úÖ Architecture MiniGPT red√©finie")

In [None]:
# %% Cell 6: Chargement du Mod√®le Pr√©-Entra√Æn√©

print("üì• Chargement du mod√®le pr√©-entra√Æn√©...")

# ============================================================================
# CHARGER LE CHECKPOINT
# ============================================================================
checkpoint = torch.load("models/pre_training/mini_gpt_code_FINAL.pt", map_location=device)

# R√©cup√©rer la configuration
config = checkpoint['config']
print(f"\nüìä Configuration du mod√®le :")
print(f"   - Vocabulaire   : {config['vocab_size']:,}")
print(f"   - Block size    : {config['block_size']}")
print(f"   - Embeddings    : {config['n_embd']}")
print(f"   - Attention heads: {config['n_head']}")
print(f"   - Layers        : {config['n_layer']}")
print(f"   - Dropout       : {config['dropout']}")

# ============================================================================
# INSTANCIER LE MOD√àLE AVEC LA NOUVELLE TAILLE DE VOCABULAIRE
# ============================================================================
# IMPORTANT: Le vocabulaire a augment√© avec les tokens sp√©ciaux !
new_vocab_size = len(tokenizer)

print(f"\nüîß Ajustement du vocabulaire :")
print(f"   - Ancien vocabulaire : {config['vocab_size']:,}")
print(f"   - Nouveau vocabulaire: {new_vocab_size:,}")
print(f"   - Tokens ajout√©s     : {new_vocab_size - config['vocab_size']}")

# Cr√©er le mod√®le avec le NOUVEAU vocabulaire
model = MiniGPT(
    vocab_size=new_vocab_size,  # ‚Üê Nouvelle taille !
    block_size=config['block_size'],
    n_embd=config['n_embd'],
    n_head=config['n_head'],
    n_layer=config['n_layer'],
    dropout=config['dropout']
).to(device)

# ============================================================================
# CHARGER LES POIDS PR√â-ENTRA√éN√âS
# ============================================================================
# Les embeddings ont une taille diff√©rente, on doit les ajuster
pretrained_state = checkpoint['model_state_dict']

# R√©cup√©rer les anciens embeddings
old_token_emb = pretrained_state['token_embedding.weight']
old_vocab_size, emb_dim = old_token_emb.shape

# Cr√©er de nouveaux embeddings (avec les tokens sp√©ciaux)
new_token_emb = model.token_embedding.weight.data.clone()

# Copier les anciens poids
new_token_emb[:old_vocab_size] = old_token_emb

# Mettre √† jour le state_dict
pretrained_state['token_embedding.weight'] = new_token_emb
pretrained_state['lm_head.weight'] = new_token_emb  # Weight tying

# Charger les poids
model.load_state_dict(pretrained_state, strict=False)

print(f"\n‚úÖ Mod√®le charg√© avec {sum(p.numel() for p in model.parameters()):,} param√®tres")
print(f"üìà Validation loss du pre-training : {checkpoint.get('best_val_loss', 'N/A')}")

# Mettre en mode entra√Ænement
model.train()

## üîπ Partie 6 : Boucle de Post-Training (SFT)

Nous fine-tunons le mod√®le sur les donn√©es d'instructions.

### Strat√©gie d'entra√Ænement :
- Learning rate plus faible (1e-4 vs 3e-4 en pre-training)
- Plus d'√©poques (5 vs 3)
- Monitoring de la qualit√© des r√©ponses

In [None]:
# %% Cell 7: Configuration de l'Optimisation

# ============================================================================
# OPTIMIZER ET SCHEDULER
# ============================================================================
optimizer = torch.optim.AdamW(
    model.parameters(), 
    lr=LEARNING_RATE,  # 1e-4 (plus faible que pre-training)
    weight_decay=0.01
)

from torch.optim.lr_scheduler import CosineAnnealingLR
total_steps = len(train_loader) * N_EPOCHS
scheduler = CosineAnnealingLR(optimizer, T_max=total_steps, eta_min=1e-6)

# ============================================================================
# FONCTION D'√âVALUATION
# ============================================================================
@torch.no_grad()
def evaluate(model, val_loader, max_batches=50):
    """Calcule la loss moyenne sur la validation"""
    model.eval()
    total_loss = 0
    count = 0
    
    for batch_idx, (x, y) in enumerate(val_loader):
        if batch_idx >= max_batches:
            break
        
        x, y = x.to(device), y.to(device)
        _, loss = model(x, y)
        total_loss += loss.item()
        count += 1
    
    model.train()
    return total_loss / count if count > 0 else 0

# ============================================================================
# HISTORIQUE DES M√âTRIQUES
# ============================================================================
history = {
    'train_loss': [],
    'val_loss': [],
    'epochs': []
}

print("‚úÖ Configuration de l'optimisation termin√©e")
print(f"üìä Total steps : {total_steps:,}")

In [None]:
# %% Cell 8: Boucle de Post-Training

print("üöÄ D√©but du Post-Training (SFT)...")
print(f"üìä Configuration: {N_EPOCHS} √©poques, {len(train_loader)} batches/√©poque\n")

# ============================================================================
# BOUCLE D'ENTRA√éNEMENT
# ============================================================================
model.train()
global_step = 0

for epoch in range(N_EPOCHS):
    print(f"\n{'='*60}")
    print(f"üìÖ √âpoque {epoch+1}/{N_EPOCHS}")
    print(f"{'='*60}")
    
    epoch_loss = 0
    pbar = tqdm(train_loader, desc=f"SFT Epoch {epoch+1}")
    
    for batch_idx, (x, y) in enumerate(pbar):
        # D√©placer sur device
        x, y = x.to(device), y.to(device)
        
        # Forward pass
        logits, loss = model(x, y)
        
        # Backward pass
        optimizer.zero_grad()
        loss.backward()
        
        # Gradient clipping
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
        
        # Optimizer step
        optimizer.step()
        scheduler.step()
        
        # Logging
        epoch_loss += loss.item()
        global_step += 1
        
        # Update progress bar
        pbar.set_postfix({
            'loss': f'{loss.item():.4f}',
            'avg_loss': f'{epoch_loss/(batch_idx+1):.4f}',
            'lr': f'{scheduler.get_last_lr()[0]:.2e}'
        })
    
    # M√©triques de fin d'√©poque
    avg_train_loss = epoch_loss / len(train_loader)
    val_loss = evaluate(model, val_loader)
    
    history['train_loss'].append(avg_train_loss)
    history['val_loss'].append(val_loss)
    history['epochs'].append(epoch + 1)
    
    print(f"\nüìä Fin √âpoque {epoch+1}:")
    print(f"   - Train Loss: {avg_train_loss:.4f}")
    print(f"   - Val Loss:   {val_loss:.4f}")
    print(f"   - Perplexity: {np.exp(val_loss):.2f}")
    
    # Test de g√©n√©ration
    print(f"\nüéØ Test de g√©n√©ration (epoch {epoch+1}):")
    test_prompt = "<instruction> Write a function to calculate factorial <reasoning>"
    test_ids = torch.tensor([tokenizer.encode(test_prompt)], device=device)
    generated = model.generate(test_ids, max_new_tokens=100, temperature=0.7, top_k=50)
    print(tokenizer.decode(generated[0].tolist()))
    print()
    
    # Sauvegarde du checkpoint
    os.makedirs("checkpoints_sft", exist_ok=True)
    checkpoint_sft = {
        'epoch': epoch + 1,
        'model_state_dict': model.state_dict(),
        'optimizer_state_dict': optimizer.state_dict(),
        'scheduler_state_dict': scheduler.state_dict(),
        'history': history,
        'config': {
            'vocab_size': new_vocab_size,
            'block_size': config['block_size'],
            'n_embd': config['n_embd'],
            'n_head': config['n_head'],
            'n_layer': config['n_layer'],
            'dropout': config['dropout']
        }
    }
    checkpoint_path = f"models/post_training/mini_gpt_sft_epoch_{epoch+1}.pt"
    torch.save(checkpoint_sft, checkpoint_path)
    print(f"üíæ Checkpoint SFT sauvegard√© : {checkpoint_path}")

print("\n‚úÖ Post-Training termin√© !")
print(f"üìÅ {N_EPOCHS} checkpoints SFT sauvegard√©s dans models/post_training/")

## üîπ Partie 7 : Visualisation des R√©sultats

In [None]:
# %% Cell 9: Visualisation de la Loss

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Courbe de loss
axes[0].plot(history['epochs'], history['train_loss'], marker='o', label='Train Loss', linewidth=2)
axes[0].plot(history['epochs'], history['val_loss'], marker='s', label='Val Loss', linewidth=2)
axes[0].set_xlabel('√âpoque', fontsize=12)
axes[0].set_ylabel('Cross-Entropy Loss', fontsize=12)
axes[0].set_title('üìâ Courbe d\'Apprentissage (Post-Training)', fontsize=14, fontweight='bold')
axes[0].legend(fontsize=11)
axes[0].grid(True, alpha=0.3)

# Perplexity
perplexity_train = [np.exp(loss) for loss in history['train_loss']]
perplexity_val = [np.exp(loss) for loss in history['val_loss']]
axes[1].plot(history['epochs'], perplexity_train, marker='o', label='Train Perplexity', linewidth=2)
axes[1].plot(history['epochs'], perplexity_val, marker='s', label='Val Perplexity', linewidth=2)
axes[1].set_xlabel('√âpoque', fontsize=12)
axes[1].set_ylabel('Perplexity', fontsize=12)
axes[1].set_title('üìä Perplexit√© (Post-Training)', fontsize=14, fontweight='bold')
axes[1].legend(fontsize=11)
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Analyse
print("\nüìà Analyse des r√©sultats Post-Training:")
improvement_train = history['train_loss'][0] - history['train_loss'][-1]
improvement_val = history['val_loss'][0] - history['val_loss'][-1]
print(f"   - Am√©lioration train: {improvement_train:.4f}")
print(f"   - Am√©lioration val:   {improvement_val:.4f}")
print(f"   - Gap train/val:      {history['val_loss'][-1] - history['train_loss'][-1]:.4f}")

## üîπ Partie 8 : Tests de G√©n√©ration avec Instructions

In [None]:
# %% Cell 10: Tests de G√©n√©ration

def generate_from_instruction(instruction, max_tokens=150, temperature=0.7, top_k=40):
    """G√©n√®re du code √† partir d'une instruction"""
    model.eval()
    prompt = f"<instruction> {instruction} <reasoning>"
    input_ids = torch.tensor([tokenizer.encode(prompt)], device=device)
    
    with torch.no_grad():
        output_ids = model.generate(
            input_ids, 
            max_new_tokens=max_tokens, 
            temperature=temperature, 
            top_k=top_k
        )
    
    generated = tokenizer.decode(output_ids[0].tolist())
    model.train()
    return generated

# Tests
test_instructions = [
    "Write a function to check if a number is prime",
    "Create a function to reverse a list",
    "Implement binary search algorithm",
    "Write a function to calculate Fibonacci sequence",
]

print("üéØ TESTS DE G√âN√âRATION AVEC INSTRUCTIONS\n")
print("="*70)

for i, instruction in enumerate(test_instructions, 1):
    print(f"\n{'='*70}")
    print(f"Test {i}: {instruction}")
    print(f"{'='*70}\n")
    result = generate_from_instruction(instruction, max_tokens=200, temperature=0.7)
    print(result)
    print()

print("\n" + "="*70)
print("‚úÖ Tests de g√©n√©ration termin√©s")

## üîπ Partie 9 : Sauvegarde Finale du Mod√®le Post-Entra√Æn√©

In [None]:
# %% Cell 11: Sauvegarde Finale

print("="*70)
print("üíæ SAUVEGARDE FINALE DU MOD√àLE POST-ENTRA√éN√â")
print("="*70)

# Analyser les checkpoints SFT
print("\nüìä Analyse des checkpoints SFT...")
best_epoch = 0
best_val_loss = float('inf')

for epoch in range(1, N_EPOCHS + 1):
    checkpoint_path = f"models/post_training/mini_gpt_sft_epoch_{epoch}.pt"
    if os.path.exists(checkpoint_path):
        ckpt = torch.load(checkpoint_path)
        val_loss = ckpt['history']['val_loss'][-1]
        print(f"   √âpoque {epoch}: Val Loss = {val_loss:.4f}")
        if val_loss < best_val_loss:
            best_val_loss = val_loss
            best_epoch = epoch

print(f"\nüèÜ Meilleur mod√®le SFT : √âpoque {best_epoch} (Val Loss = {best_val_loss:.4f})")

# Charger le meilleur checkpoint
best_checkpoint_path = f"models/post_training/mini_gpt_sft_epoch_{best_epoch}.pt"
best_checkpoint = torch.load(best_checkpoint_path)

# Sauvegarder le mod√®le final
final_model_path = "models/post_training/mini_gpt_sft_FINAL.pt"
torch.save({
    'epoch': best_checkpoint['epoch'],
    'model_state_dict': best_checkpoint['model_state_dict'],
    'optimizer_state_dict': best_checkpoint['optimizer_state_dict'],
    'scheduler_state_dict': best_checkpoint['scheduler_state_dict'],
    'history': best_checkpoint['history'],
    'config': best_checkpoint['config'],
    'best_val_loss': best_val_loss,
    'selected_from_epoch': best_epoch,
    'training_stage': 'post-training'
}, final_model_path)

print(f"üíæ Mod√®le final SFT sauvegard√© : {final_model_path}")

# Sauvegarder les poids seuls
model_weights_path = "models/post_training/mini_gpt_sft_weights_only.pt"
torch.save(best_checkpoint['model_state_dict'], model_weights_path)
print(f"‚ö° Poids seuls sauvegard√©s : {model_weights_path}")

# Sauvegarder le tokenizer mis √† jour
tokenizer.save_pretrained("models/post_training/tokenizer")
print(f"üî§ Tokenizer mis √† jour sauvegard√© : models/post_training/tokenizer/")

print("\n" + "="*70)
print("üì¶ R√âSUM√â DES ARTEFACTS CR√â√âS")
print("="*70)
print(f"‚úÖ Checkpoints SFT : models/post_training/mini_gpt_sft_epoch_[1-{N_EPOCHS}].pt")
print(f"‚úÖ Mod√®le final SFT: {final_model_path}")
print(f"‚úÖ Poids seuls     : {model_weights_path}")
print(f"‚úÖ Tokenizer SFT   : models/post_training/tokenizer/")

print("\n" + "="*70)
print("üìå UTILISATION DU MOD√àLE POST-ENTRA√éN√â")
print("="*70)
print("\n# Charger le mod√®le SFT")
print("checkpoint = torch.load('models/post_training/mini_gpt_sft_FINAL.pt')")
print("model.load_state_dict(checkpoint['model_state_dict'])")
print("tokenizer = GPT2Tokenizer.from_pretrained('models/post_training/tokenizer')")

## üîπ Partie 10 : Comparaison Pre-Training vs Post-Training

In [None]:
# %% Cell 12: Comparaison des Mod√®les

print("üìä COMPARAISON PRE-TRAINING vs POST-TRAINING")
print("="*70)

# Charger les m√©triques du pre-training
pretrain_checkpoint = torch.load("models/pre_training/mini_gpt_code_FINAL.pt")
pretrain_val_loss = pretrain_checkpoint.get('best_val_loss', 'N/A')

print(f"\nüìà M√©triques finales :")
print(f"\nPre-Training (Base Model):")
print(f"   - Validation Loss : {pretrain_val_loss}")
print(f"   - Objectif        : Apprendre la syntaxe Python")
print(f"   - Dataset         : Code brut (100k documents)")

print(f"\nPost-Training (SFT Model):")
print(f"   - Validation Loss : {best_val_loss:.4f}")
print(f"   - Objectif        : Suivre des instructions")
print(f"   - Dataset         : Paires instruction-code (10k exemples)")

print(f"\nüéØ Am√©lioration :")
if isinstance(pretrain_val_loss, float):
    improvement = pretrain_val_loss - best_val_loss
    print(f"   - R√©duction de loss : {improvement:.4f} ({improvement/pretrain_val_loss*100:.1f}%)")

print("\n" + "="*70)
print("‚úÖ Post-Training termin√© avec succ√®s !")
print("üéâ Le mod√®le peut maintenant suivre des instructions et g√©n√©rer du code structur√© !")

---

## üéØ R√©sum√© du Post-Training

### ‚úÖ Objectifs Accomplis

1. **R√©cup√©ration** : Mod√®le et tokenizer du Pre-Training charg√©s
2. **Dataset SFT** : 10,000 exemples instruction‚Üíreasoning‚Üícode charg√©s
3. **Tokens sp√©ciaux** : `<instruction>`, `<reasoning>`, `<answer>` ajout√©s
4. **Fine-Tuning** : 5 √©poques d'entra√Ænement supervis√©
5. **Sauvegarde** : Meilleur mod√®le SFT sauvegard√©

### üìä Architecture Finale

```
Mini-GPT Post-Entra√Æn√©
‚îú‚îÄ‚îÄ Vocabulaire : 50,260 tokens (GPT-2 + 3 tokens sp√©ciaux)
‚îú‚îÄ‚îÄ Architecture : 4 layers, 4 heads, 256 dims
‚îú‚îÄ‚îÄ Param√®tres  : ~0.X M
‚îî‚îÄ‚îÄ Capacit√©s   : Suivre instructions, raisonner, coder
```

### üöÄ Prochaines √âtapes

Le mod√®le peut maintenant √™tre utilis√© pour :
- **G√©n√©ration de code** √† partir d'instructions naturelles
- **RLHF** : Optimisation par feedback humain
- **D√©ploiement** : API de g√©n√©ration de code

---

## üì¶ Fichiers Cr√©√©s

```
models/post_training/
‚îú‚îÄ‚îÄ mini_gpt_sft_epoch_[1-5].pt    # Checkpoints par √©poque
‚îú‚îÄ‚îÄ mini_gpt_sft_FINAL.pt          # ‚úÖ Meilleur mod√®le (√† utiliser)
‚îú‚îÄ‚îÄ mini_gpt_sft_weights_only.pt   # ‚úÖ Poids seuls (l√©ger)
‚îî‚îÄ‚îÄ tokenizer/                      # ‚úÖ Tokenizer avec tokens sp√©ciaux
    ‚îú‚îÄ‚îÄ tokenizer_config.json
    ‚îú‚îÄ‚îÄ vocab.json
    ‚îî‚îÄ‚îÄ merges.txt
```

---
