# üêç Workshop: Build a Coding LLM from Scratch
## Part III: Pre-Training a Mini Code Assistant
### üéØ Focus: Pre-Training on Python Code

**Auteur :** √âquipe IRA

**Date :** 1 Decemebre 2025

**Contexte :** Ce notebook d√©montre le **Pre-Training** d'un petit mod√®le de langage sp√©cialis√© pour le code Python. Nous utilisons des datasets de code r√©els (The Stack) et montrons tout le pipeline : dataset ‚Üí tokenisation ‚Üí entra√Ænement CLM ‚Üí g√©n√©ration.

---

## üìã Table des mati√®res

1. **Introduction th√©orique** : Qu'est-ce que le Pre-Training ?
2. **Configuration & Imports**
3. **Chargement des Datasets** (HuggingFace)
4. **Construction du Corpus Python**
5. **Tokenisation**
6. **Architecture du Mini-GPT**
7. **Boucle d'Entra√Ænement**
8. **Visualisation de la Loss**
9. **G√©n√©ration de Code**
10. **Conclusion**

---

## üîπ Partie 1 : Introduction Th√©orique

### Qu'est-ce que le Pre-Training ?

Le **Pre-Training** est la phase o√π un mod√®le de langage apprend √† partir de donn√©es brutes non supervis√©es. Pour un assistant de coding :

- **Objectif** : Apprendre la syntaxe Python, les patterns de code, les conventions
- **M√©thode** : **Causal Language Modeling (CLM)** = pr√©dire le prochain token
- **Formule** : Maximiser $P(x) = \prod_{t=1}^T P(x_t | x_{<t})$

### Pre-Training vs Fine-Tuning

| Phase | Donn√©es | Objectif | Exemple |
|-------|---------|----------|---------|
| **Pre-Training** | Code brut (GitHub, The Stack) | Apprendre la syntaxe du langage | Compl√©ter `def fib(n):` |
| **SFT** | Paires instruction/code | Suivre des consignes | "√âcris une fonction fibonacci" |
| **RLHF** | Pr√©f√©rences humaines | Code plus lisible, s√ªr | Code production-ready |

### Architecture utilis√©e

- **Decoder-only Transformer** (GPT-style)
- **Causal Mask** : le mod√®le ne voit que les tokens pass√©s
- **Vocabulaire** : BPE tokenizer adapt√© au code

---

In [None]:
# %% Cell 1: Imports et Configuration

# ============================================================================
# IMPORTS DES BIBLIOTH√àQUES N√âCESSAIRES
# ============================================================================

import torch                              # Framework principal pour le deep learning
import torch.nn as nn                     # Modules de r√©seaux de neurones (couches, fonctions d'activation)
from torch.nn import functional as F      # Fonctions utilitaires (softmax, cross-entropy, etc.)
from torch.utils.data import Dataset, DataLoader  # Classes pour g√©rer les donn√©es d'entra√Ænement
import matplotlib.pyplot as plt           # Biblioth√®que pour cr√©er des graphiques
from tqdm.auto import tqdm               # Barres de progression pour suivre l'entra√Ænement
import numpy as np                        # Calculs num√©riques et manipulation de tableaux
import os                                 # Op√©rations sur le syst√®me de fichiers

# ============================================================================
# CONFIGURATION POUR LA REPRODUCTIBILIT√â
# ============================================================================
# Fixer les seeds permet d'obtenir les m√™mes r√©sultats √† chaque ex√©cution
torch.manual_seed(42)     # Seed pour PyTorch (g√©n√©ration de nombres al√©atoires)
np.random.seed(42)        # Seed pour NumPy

# ============================================================================
# D√âTECTION DU DEVICE (GPU ou CPU)
# ============================================================================
# Utiliser GPU si disponible pour acc√©l√©rer l'entra√Ænement (10-100x plus rapide)
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f"üöÄ Device utilis√© : {device}")
print(f"üî• PyTorch version : {torch.__version__}")

# ============================================================================
# HYPERPARAM√àTRES GLOBAUX DU WORKSHOP
# ============================================================================

# --- Hyperparam√®tres des donn√©es ---
SAMPLE_SIZE = 100000  # Nombre total de documents √† extraire (80k code + 20k texte)
                       # R√©duire √† 10000-50000 pour un test rapide

# --- Hyperparam√®tres du mod√®le ---
BLOCK_SIZE = 256      # Longueur maximale des s√©quences en tokens
                       # Le mod√®le traite des blocs de 256 tokens √† la fois

# --- Hyperparam√®tres d'entra√Ænement ---
BATCH_SIZE = 16       # Nombre de s√©quences trait√©es simultan√©ment
                       # Plus grand = plus rapide mais consomme plus de m√©moire

N_EPOCHS = 3          # Nombre de passages complets sur tout le dataset
                       # 3 √©poques est suffisant pour ce workshop

LEARNING_RATE = 3e-4  # Taux d'apprentissage (learning rate)
                       # 0.0003 = standard pour les transformers (comme GPT)

üöÄ Device utilis√© : cuda
üî• PyTorch version : 2.9.0+cu126


## üîπ Partie 2 : Chargement des Datasets

Nous utilisons **bigcode/the-stack-smol** - un dataset de code source de haute qualit√©.

### üìö √Ä propos de The Stack

**The Stack** est une collection de 3TB de code source sous licence permissive, collect√© depuis GitHub.
- **the-stack-smol** : Version r√©duite (~200GB) adapt√©e pour l'entra√Ænement de petits mod√®les
- **Langages** : Python, JavaScript, Java, C++, etc.
- **Licence** : Permissive (MIT, Apache, etc.)

### üîë Authentification HuggingFace

Ce dataset est **gated** (acc√®s contr√¥l√©). Vous devez :

1. **Cr√©er un compte** : https://huggingface.co/join
2. **Demander l'acc√®s** : https://huggingface.co/datasets/bigcode/the-stack-smol
   - Cliquer sur "Agree and access repository"
   - Lire et accepter les conditions d'utilisation
3. **Cr√©er un token** : https://huggingface.co/settings/tokens
   - Type : "Read"
   - Copier le token (format : `hf_xxxxxxxxxxxxx`)
4. **S'authentifier** (voir cellule suivante)

### ‚ö†Ô∏è Note
Pour test rapide : r√©duire `SAMPLE_SIZE` √† 10000-50000 lignes.

In [None]:
# %% Cell 2: Authentification et Chargement des Datasets

# ============================================================================
# IMPORTS POUR ACC√âDER AUX DATASETS HUGGINGFACE
# ============================================================================
from datasets import load_dataset    # Fonction pour charger des datasets depuis HuggingFace Hub
from huggingface_hub import login    # Fonction pour s'authentifier avec un token

print("üîë Authentification HuggingFace...")

# ============================================================================
# AUTHENTIFICATION HUGGINGFACE
# ============================================================================
# Les datasets utilis√©s sont "gated" (acc√®s contr√¥l√©)
# Vous devez cr√©er un token sur https://huggingface.co/settings/tokens

# Charger les variables d'environnement depuis le fichier .env
from dotenv import load_dotenv
import os

load_dotenv()  # Charge les variables depuis .env

HF_TOKEN = os.getenv('HF_TOKEN')  # R√©cup√©rer le token
if HF_TOKEN:
    login(token=HF_TOKEN)
    print("‚úÖ Authentification r√©ussie !")
else:
    print("‚ö†Ô∏è  Variable HF_TOKEN non d√©finie dans .env")
    print("   1. Cr√©er un token sur: https://huggingface.co/settings/tokens")
    print("   2. Ajouter dans .env: HF_TOKEN=votre_token_ici")

# ============================================================================
# DATASET 1: CODE PYTHON (THE STACK)
# ============================================================================
print("\nüì• Chargement de bigcode/the-stack-smol (Python)...")
print("‚ö†Ô∏è  Premi√®re ex√©cution : t√©l√©chargement + mise en cache (quelques minutes)")

# Chargement du dataset de code Python
dataset_code = load_dataset(
    "bigcode/the-stack-smol",  # Nom du dataset (3TB de code open-source)
    data_dir="data/python",     # Filtrer uniquement les fichiers Python
    split="train",              # Utiliser la partie "train" du dataset
    streaming=True              # Mode streaming = ne charge pas tout en m√©moire
                                 # Permet de traiter des datasets √©normes sans RAM overflow
)

print("‚úÖ Dataset code charg√© en mode streaming")

# Afficher un exemple pour v√©rifier
print("\n--- Aper√ßu du premier exemple (Code) ---")
first_code = next(iter(dataset_code))  # Prendre le premier √©l√©ment
print(f"Cl√©s disponibles : {first_code.keys()}")  # Voir quels champs sont disponibles
print(f"\nContenu (100 premiers caract√®res) :\n{first_code['content'][:100]}...")  # Afficher un extrait

# ============================================================================
# DATASET 2: TEXTE G√âN√âRAL (COSMOPEDIA)
# ============================================================================
print("\n\nüì• Chargement de HuggingFaceTB/smollm-corpus (cosmopedia-v2)...")

# Chargement du dataset de texte g√©n√©ral
dataset_text = load_dataset(
    "HuggingFaceTB/smollm-corpus",  # Dataset de texte synth√©tique de haute qualit√©
    "cosmopedia-v2",                 # Subset sp√©cifique (articles type encyclop√©die)
    split="train",                   # Partie entra√Ænement
    streaming=True                   # Mode streaming pour √©conomiser la RAM
)

print("‚úÖ Dataset texte charg√© en mode streaming")

# Afficher un exemple
print("\n--- Aper√ßu du premier exemple (Texte) ---")
first_text = next(iter(dataset_text))  # Prendre le premier document
print(f"Cl√©s disponibles : {first_text.keys()}")  # Voir les champs disponibles
print(f"\nContenu (100 premiers caract√®res) :\n{first_text['text'][:100]}...")  # Afficher un extrait

üîë Authentification HuggingFace...
‚úÖ Authentification r√©ussie !

üì• Chargement de bigcode/the-stack-smol (Python)...
‚ö†Ô∏è  Premi√®re ex√©cution : t√©l√©chargement + mise en cache (quelques minutes)
‚úÖ Dataset code charg√© en mode streaming

--- Aper√ßu du premier exemple (Code) ---
‚úÖ Dataset code charg√© en mode streaming

--- Aper√ßu du premier exemple (Code) ---
Cl√©s disponibles : dict_keys(['content', 'avg_line_length', 'max_line_length', 'alphanum_fraction', 'licenses', 'repository_name', 'path', 'size', 'lang'])

Contenu (100 premiers caract√®res) :
# Copyright 2020 gRPC authors.
#
# Licensed under the Apache License, Version 2.0 (the "License");
#...


üì• Chargement de HuggingFaceTB/smollm-corpus (cosmopedia-v2)...
Cl√©s disponibles : dict_keys(['content', 'avg_line_length', 'max_line_length', 'alphanum_fraction', 'licenses', 'repository_name', 'path', 'size', 'lang'])

Contenu (100 premiers caract√®res) :
# Copyright 2020 gRPC authors.
#
# Licensed under the Apach

Resolving data files:   0%|          | 0/104 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/104 [00:00<?, ?it/s]

‚úÖ Dataset texte charg√© en mode streaming

--- Aper√ßu du premier exemple (Texte) ---
Cl√©s disponibles : dict_keys(['prompt', 'text', 'token_length', 'audience', 'format', 'seed_data'])

Contenu (100 premiers caract√®res) :
 In today's ever-evolving world, technology has become an integral part of our lives, shaping the wa...
Cl√©s disponibles : dict_keys(['prompt', 'text', 'token_length', 'audience', 'format', 'seed_data'])

Contenu (100 premiers caract√®res) :
 In today's ever-evolving world, technology has become an integral part of our lives, shaping the wa...


In [None]:
# %% Cell 3: Extraction et Construction du Corpus Mixte (Code + Texte)

# ============================================================================
# OBJECTIF: Cr√©er un corpus mixte avec 80% code Python + 20% texte g√©n√©ral
# ============================================================================

print(f"üî® Construction du corpus mixte...")
print(f"   - Code Python : {int(SAMPLE_SIZE * 0.8):,} fichiers (80%)")
print(f"   - Texte g√©n√©ral : {int(SAMPLE_SIZE * 0.2):,} documents (20%)\n")

# Initialiser deux listes pour stocker les documents
code_lines = []  # Contiendra les fichiers de code Python
text_lines = []  # Contiendra les documents de texte g√©n√©ral

# ============================================================================
# √âTAPE 1: EXTRACTION DU CODE PYTHON
# ============================================================================
code_target = int(SAMPLE_SIZE * 0.8)  # Calculer 80% du total (80,000 fichiers)
print(f"üìù Extraction du code Python ({code_target} fichiers)...")

# Parcourir le dataset de code en streaming
for idx, example in enumerate(tqdm(dataset_code, desc="Code Python", total=code_target)):
    content = example['content']  # R√©cup√©rer le contenu du fichier Python
    
    # Filtrer les fichiers trop courts (moins de 50 caract√®res)
    # Cela √©limine les fichiers quasi-vides ou malform√©s
    if len(content) < 50:
        continue
    
    code_lines.append(content)  # Ajouter √† la liste
    
    # Arr√™ter quand on a atteint l'objectif
    if len(code_lines) >= code_target:
        break

print(f"‚úÖ {len(code_lines)} fichiers Python extraits")

# ============================================================================
# √âTAPE 2: EXTRACTION DU TEXTE G√âN√âRAL
# ============================================================================
text_target = int(SAMPLE_SIZE * 0.2)  # Calculer 20% du total (20,000 documents)
print(f"\nüìö Extraction du texte g√©n√©ral ({text_target} documents)...")

# Parcourir le dataset de texte en streaming
for idx, example in enumerate(tqdm(dataset_text, desc="Texte g√©n√©ral", total=text_target)):
    content = example['text']  # R√©cup√©rer le contenu du document
    
    # Filtrer les documents trop courts (moins de 100 caract√®res)
    # Le texte a besoin d'√™tre plus long que le code pour √™tre significatif
    if len(content) < 100:
        continue
    
    text_lines.append(content)  # Ajouter √† la liste
    
    # Arr√™ter quand on a atteint l'objectif
    if len(text_lines) >= text_target:
        break

print(f"‚úÖ {len(text_lines)} documents de texte extraits")

# ============================================================================
# √âTAPE 3: M√âLANGE AL√âATOIRE ET CONCAT√âNATION
# ============================================================================
print("\nüîÄ M√©lange des donn√©es...")

# Importer random pour m√©langer
import random
random.seed(42)  # Fixer le seed pour reproductibilit√©

# Combiner les deux listes
all_content = code_lines + text_lines  # [code1, code2, ..., text1, text2, ...]

# M√©langer al√©atoirement pour que code et texte soient entrelac√©s
# Cela permet au mod√®le de voir des patterns vari√©s pendant l'entra√Ænement
random.shuffle(all_content)

# Concat√©ner tous les documents avec double saut de ligne comme s√©parateur
# "\n\n" permet de distinguer visuellement les documents dans le corpus
corpus = "\n\n".join(all_content)
total_chars = len(corpus)  # Calculer le nombre total de caract√®res

# ============================================================================
# √âTAPE 4: AFFICHAGE DES STATISTIQUES
# ============================================================================
print(f"üìä Statistiques du corpus final :")
print(f"   - Total documents : {len(all_content):,}")  # Nombre total de documents
print(f"   - Code Python : {len(code_lines):,} ({len(code_lines)/len(all_content)*100:.1f}%)")
print(f"   - Texte g√©n√©ral : {len(text_lines):,} ({len(text_lines)/len(all_content)*100:.1f}%)")
print(f"   - Total caract√®res : {total_chars:,}")  # Taille du corpus en caract√®res

# ============================================================================
# √âTAPE 5: SAUVEGARDE DU CORPUS SUR DISQUE
# ============================================================================
corpus_file = "mini_corpus_mixed.txt"  # Nom du fichier de sortie

# √âcrire le corpus dans un fichier texte
# encoding='utf-8' assure la compatibilit√© avec tous les caract√®res
with open(corpus_file, 'w', encoding='utf-8') as f:
    f.write(corpus)

# Afficher la taille du fichier cr√©√©
print(f"\nüíæ Corpus sauvegard√© dans {corpus_file} ({os.path.getsize(corpus_file)/1e6:.2f} MB)")

# Afficher un aper√ßu pour v√©rifier le contenu
print(f"\n--- Aper√ßu des 500 premiers caract√®res ---")
print(corpus[:500])
print("---" * 20)

üî® Construction du corpus mixte...
   - Code Python : 80,000 fichiers (80%)
   - Texte g√©n√©ral : 20,000 documents (20%)

üìù Extraction du code Python (80000 fichiers)...


Code Python:   0%|          | 0/80000 [00:00<?, ?it/s]

‚úÖ 9936 fichiers Python extraits

üìö Extraction du texte g√©n√©ral (20000 documents)...


Texte g√©n√©ral:   0%|          | 0/20000 [00:00<?, ?it/s]

‚úÖ 20000 documents de texte extraits

üîÄ M√©lange des donn√©es...
üìä Statistiques du corpus final :
   - Total documents : 29,936
   - Code Python : 9,936 (33.2%)
   - Texte g√©n√©ral : 20,000 (66.8%)
   - Total caract√®res : 155,529,500
üìä Statistiques du corpus final :
   - Total documents : 29,936
   - Code Python : 9,936 (33.2%)
   - Texte g√©n√©ral : 20,000 (66.8%)
   - Total caract√®res : 155,529,500

üíæ Corpus sauvegard√© dans mini_corpus_mixed.txt (155.81 MB)

--- Aper√ßu des 500 premiers caract√®res ---
 In the realm of speculative fiction, slipstream and new wave literature challenge traditional genre boundaries by blending elements of science fiction, fantasy, and literary fiction. These modes often engage with complex scientific and societal issues, serving as fertile ground for exploring the intersection of technology and humanity. The following course unit will delve into the concept of "urban" as it appears in the provided extract, drawing upon theories of slips

## üîπ Partie 3 : Tokenisation

Pour le code, nous utilisons un **tokenizer BPE** (Byte-Pair Encoding).
Options :
1. **Utiliser GPT-2 tokenizer** (pr√©-entra√Æn√©, simple)
2. **Entra√Æner un tokenizer custom** avec `tokenizers`

Ici, nous utilisons **GPT-2** pour simplifier.

In [None]:
# %% Cell 4: Tokenisation avec GPT-2 Tokenizer

# ============================================================================
# OBJECTIF: Convertir le texte brut en s√©quence de tokens (nombres)
# ============================================================================
# La tokenisation d√©coupe le texte en morceaux (tokens) et les convertit en IDs
# Exemple: "def add(x):" ‚Üí [4299, 751, 7, 87, 2599, 60]

from transformers import GPT2Tokenizer  # Importer le tokenizer de HuggingFace

print("üî§ Chargement du tokenizer GPT-2...")

# Charger le tokenizer pr√©-entra√Æn√© GPT-2
# GPT-2 utilise BPE (Byte-Pair Encoding) qui fonctionne bien pour le code
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

# GPT-2 n'a pas de pad token par d√©faut, on utilise eos_token comme pad
# pad_token est utilis√© pour remplir les s√©quences de longueurs diff√©rentes
tokenizer.pad_token = tokenizer.eos_token

# ============================================================================
# ENCODAGE DU CORPUS EN TOKENS
# ============================================================================
print("üîÑ Tokenisation du corpus...")

# Encoder tout le corpus en une liste d'IDs de tokens
# add_special_tokens=False car on ne veut pas ajouter [CLS], [SEP], etc.
encoded = tokenizer.encode(corpus, add_special_tokens=False)

# R√©cup√©rer la taille du vocabulaire (nombre total de tokens possibles)
vocab_size = tokenizer.vocab_size

print(f"‚úÖ Tokenisation termin√©e")
print(f"üìä Nombre de tokens : {len(encoded):,}")  # Combien de tokens dans le corpus
print(f"üìö Taille du vocabulaire : {vocab_size:,}")  # Nombre de tokens uniques possibles (50,257)

# ============================================================================
# TEST DU TOKENIZER
# ============================================================================
# V√©rifier que le tokenizer fonctionne correctement sur un exemple
print(f"\n--- Test du tokenizer ---")
test_code = "def fibonacci(n):\n    return n"

# Encoder le texte en tokens
test_encoded = tokenizer.encode(test_code)

# D√©coder les tokens pour retrouver le texte original
test_decoded = tokenizer.decode(test_encoded)

# Afficher les r√©sultats
print(f"Original : {test_code}")
print(f"Encod√©   : {test_encoded}")  # Liste des IDs de tokens
print(f"D√©cod√©   : {test_decoded}")  # Doit √™tre identique √† l'original
test_decoded = tokenizer.decode(test_encoded)
print(f"Original : {test_code}")
print(f"Encod√©   : {test_encoded}")
print(f"D√©cod√©   : {test_decoded}")

üî§ Chargement du tokenizer GPT-2...
üîÑ Tokenisation du corpus...
üîÑ Tokenisation du corpus...


Token indices sequence length is longer than the specified maximum sequence length for this model (51993144 > 1024). Running this sequence through the model will result in indexing errors


‚úÖ Tokenisation termin√©e
üìä Nombre de tokens : 51,993,144
üìö Taille du vocabulaire : 50,257

--- Test du tokenizer ---
Original : def fibonacci(n):
    return n
Encod√©   : [4299, 12900, 261, 44456, 7, 77, 2599, 198, 220, 220, 220, 1441, 299]
D√©cod√©   : def fibonacci(n):
    return n


In [None]:
# %% Cell 5: Cr√©ation du Dataset PyTorch pour CLM

# ============================================================================
# OBJECTIF: Cr√©er un Dataset PyTorch pour l'entra√Ænement
# ============================================================================
# PyTorch n√©cessite un Dataset qui fournit des paires (input, target) pour l'entra√Ænement
# Pour un mod√®le de langage: input = tokens[:-1], target = tokens[1:]
# Exemple: input=[10,20,30], target=[20,30,40] ‚Üí le mod√®le pr√©dit le token suivant

class CodeDataset(Dataset):
    """
    Dataset pour Causal Language Modeling (CLM)
    Chaque exemple contient une s√©quence de tokens et sa cible (d√©cal√©e de 1)
    """
    def __init__(self, token_ids, block_size):
        """
        Args:
            token_ids (list): Liste des IDs de tokens du corpus
            block_size (int): Longueur de chaque s√©quence (256)
        """
        self.token_ids = token_ids
        self.block_size = block_size
        
    def __len__(self):
        """
        Nombre d'exemples disponibles
        On soustrait block_size pour avoir assez de tokens pour input ET target
        """
        return len(self.token_ids) - self.block_size
    
    def __getitem__(self, idx):
        """
        Retourne un exemple (input, target)
        Input : tokens de idx √† idx+block_size
        Target : tokens de idx+1 √† idx+block_size+1 (d√©cal√© de 1 position)
        """
        # Extraire la s√©quence d'input
        x = torch.tensor(self.token_ids[idx:idx+self.block_size], dtype=torch.long)
        
        # Extraire la s√©quence de target (d√©cal√©e de 1)
        y = torch.tensor(self.token_ids[idx+1:idx+self.block_size+1], dtype=torch.long)
        
        return x, y

# ============================================================================
# DIVISION EN TRAIN / VALIDATION
# ============================================================================
# Convertir les tokens en tensor PyTorch
tokens = torch.tensor(encoded, dtype=torch.long)

# Diviser le corpus: 90% train, 10% validation
split_idx = int(0.9 * len(tokens))         # Index de s√©paration
train_tokens = tokens[:split_idx].tolist()  # 90% premiers tokens ‚Üí train
val_tokens = tokens[split_idx:].tolist()    # 10% derniers tokens ‚Üí validation

# ============================================================================
# CR√âATION DES DATASETS ET DATALOADERS
# ============================================================================
# Cr√©er les datasets PyTorch
train_dataset = CodeDataset(train_tokens, BLOCK_SIZE)
val_dataset = CodeDataset(val_tokens, BLOCK_SIZE)

# Cr√©er les DataLoaders pour charger les donn√©es par batch
# shuffle=True pour train ‚Üí m√©langer les exemples (meilleure g√©n√©ralisation)
# shuffle=False pour val ‚Üí garder l'ordre (reproductibilit√©)
train_loader = DataLoader(
    train_dataset, 
    batch_size=BATCH_SIZE,  # Nombre d'exemples par batch (32)
    shuffle=True            # M√©langer les donn√©es d'entra√Ænement
)

val_loader = DataLoader(
    val_dataset, 
    batch_size=BATCH_SIZE, 
    shuffle=False           # Ne pas m√©langer la validation
)

print(f"‚úÖ Dataset cr√©√©")
print(f"üìä Train samples : {len(train_dataset):,}")  # Nombre d'exemples train
print(f"üìä Val samples   : {len(val_dataset):,}")    # Nombre d'exemples validation
print(f"üìä Train batches : {len(train_loader):,}")   # Nombre de batches par √©poque (train)
print(f"üìä Val batches   : {len(val_loader):,}")     # Nombre de batches par √©poque (val)

‚úÖ Dataset cr√©√©
üìä Train samples : 46,793,573
üìä Val samples   : 5,199,059
üìä Train batches : 2,924,599
üìä Val batches   : 324,942


## üîπ Partie 4 : Architecture du Mini-GPT pour Code

Nous construisons un **Decoder-only Transformer** optimis√© pour le code.

### Composants :
1. **Token Embeddings** : Repr√©sentation vectorielle des tokens
2. **Positional Embeddings** : Encodage de la position dans la s√©quence
3. **Multi-Head Self-Attention** : M√©canisme d'attention causale
4. **Feed-Forward Networks** : Transformations non-lin√©aires
5. **Layer Normalization** : Stabilisation de l'entra√Ænement
6. **Residual Connections** : Gradient flow am√©lior√©

### Hyperparam√®tres pour le workshop

In [None]:
# %% Cell 6: D√©finition de l'Architecture Mini-GPT

# ============================================================================
# HYPERPARAM√àTRES DU MOD√àLE
# ============================================================================
N_EMBD = 256      # Dimension des embeddings (taille des vecteurs)
N_HEAD = 4        # Nombre de t√™tes d'attention (pour attention multi-t√™tes)
N_LAYER = 4       # Nombre de blocs Transformer empil√©s
DROPOUT = 0.1     # Taux de dropout (r√©gularisation, √©vite overfitting)

# ============================================================================
# CLASSE 1: CAUSAL SELF-ATTENTION
# ============================================================================
# Impl√©mente l'attention multi-t√™tes avec masque causal
# Le masque causal emp√™che de "voir le futur" (essentiel pour g√©n√©ration)

class CausalSelfAttention(nn.Module):
    """
    Multi-head self-attention avec masque causal
    Permet au mod√®le d'apprendre quels tokens sont importants pour pr√©dire le suivant
    """
    
    def __init__(self, n_embd, n_head, block_size, dropout):
        super().__init__()
        assert n_embd % n_head == 0  # n_embd doit √™tre divisible par n_head
        
        # Projections lin√©aires pour Q (query), K (key), V (value)
        # Une seule matrice pour les 3 projections (plus efficace)
        self.c_attn = nn.Linear(n_embd, 3 * n_embd)
        
        # Projection de sortie
        self.c_proj = nn.Linear(n_embd, n_embd)
        
        # Dropout pour r√©gularisation
        self.attn_dropout = nn.Dropout(dropout)  # Sur les scores d'attention
        self.resid_dropout = nn.Dropout(dropout)  # Sur la sortie
        
        self.n_head = n_head
        self.n_embd = n_embd
        
        # Cr√©er le masque causal (triangulaire inf√©rieur)
        # bias[i,j] = 1 si i >= j (peut voir pass√©), 0 sinon (ne peut pas voir futur)
        self.register_buffer("bias", torch.tril(torch.ones(block_size, block_size))
                                     .view(1, 1, block_size, block_size))

    def forward(self, x):
        B, T, C = x.size()  # batch_size, seq_length, n_embd
        
        # Calculer Q, K, V en une seule passe
        q, k, v = self.c_attn(x).split(self.n_embd, dim=2)
        
        # Reshape pour attention multi-t√™tes
        # (B, T, C) -> (B, n_head, T, head_size) o√π head_size = C // n_head
        k = k.view(B, T, self.n_head, C // self.n_head).transpose(1, 2)
        q = q.view(B, T, self.n_head, C // self.n_head).transpose(1, 2)
        v = v.view(B, T, self.n_head, C // self.n_head).transpose(1, 2)
        
        # Calculer les scores d'attention: Q @ K^T / sqrt(d_k)
        # (B, nh, T, hs) x (B, nh, hs, T) -> (B, nh, T, T)
        att = (q @ k.transpose(-2, -1)) * (1.0 / np.sqrt(k.size(-1)))
        
        # Appliquer le masque causal: mettre -inf pour les positions futures
        att = att.masked_fill(self.bias[:, :, :T, :T] == 0, float('-inf'))
        
        # Softmax pour obtenir des probabilit√©s
        att = F.softmax(att, dim=-1)
        att = self.attn_dropout(att)
        
        # Appliquer l'attention aux valeurs: attention_weights @ V
        # (B, nh, T, T) x (B, nh, T, hs) -> (B, nh, T, hs)
        y = att @ v
        
        # Recombiner les t√™tes
        # (B, nh, T, hs) -> (B, T, C)
        y = y.transpose(1, 2).contiguous().view(B, T, C)
        
        # Projection de sortie
        y = self.resid_dropout(self.c_proj(y))
        return y

# ============================================================================
# CLASSE 2: FEED-FORWARD NETWORK (MLP)
# ============================================================================
# R√©seau de neurones simple appliqu√© √† chaque position ind√©pendamment

class MLP(nn.Module):
    """
    Feed-forward network avec activation GELU
    Structure: Linear -> GELU -> Linear -> Dropout
    Expansion factor de 4 (n_embd -> 4*n_embd -> n_embd)
    """
    
    def __init__(self, n_embd, dropout):
        super().__init__()
        # Couche d'expansion (256 -> 1024)
        self.c_fc = nn.Linear(n_embd, 4 * n_embd)
        
        # Activation GELU (meilleure que ReLU pour transformers)
        self.gelu = nn.GELU()
        
        # Couche de projection (1024 -> 256)
        self.c_proj = nn.Linear(4 * n_embd, n_embd)
        
        # Dropout pour r√©gularisation
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        x = self.c_fc(x)      # Expansion
        x = self.gelu(x)      # Non-lin√©arit√©
        x = self.c_proj(x)    # Projection
        x = self.dropout(x)   # R√©gularisation
        return x

# ============================================================================
# CLASSE 3: TRANSFORMER BLOCK
# ============================================================================
# Bloc complet: Attention + MLP avec connexions r√©siduelles et LayerNorm

class TransformerBlock(nn.Module):
    """
    Un bloc Transformer complet avec architecture Pre-LN
    Structure: x -> LN -> Attention -> + -> LN -> MLP -> +
    """
    
    def __init__(self, n_embd, n_head, block_size, dropout):
        super().__init__()
        # Layer Normalization (normalise les activations)
        self.ln1 = nn.LayerNorm(n_embd)
        self.ln2 = nn.LayerNorm(n_embd)
        
        # Sous-couches principales
        self.attn = CausalSelfAttention(n_embd, n_head, block_size, dropout)
        self.mlp = MLP(n_embd, dropout)

    def forward(self, x):
        # Connexion r√©siduelle + Attention (Pre-LN)
        x = x + self.attn(self.ln1(x))
        
        # Connexion r√©siduelle + MLP (Pre-LN)
        x = x + self.mlp(self.ln2(x))
        
        return x

# ============================================================================
# CLASSE 4: MINI-GPT (MOD√àLE COMPLET)
# ============================================================================
# Assemble tous les composants pour cr√©er le mod√®le de langage

class MiniGPT(nn.Module):
    """
    Mini GPT pour g√©n√©ration de code
    Architecture: Embeddings -> N x TransformerBlock -> LM Head
    """
    
    def __init__(self, vocab_size, block_size, n_embd, n_head, n_layer, dropout):
        super().__init__()
        
        self.block_size = block_size
        
        # ====================================================================
        # EMBEDDINGS
        # ====================================================================
        # Token embeddings: convertit IDs de tokens en vecteurs
        self.token_embedding = nn.Embedding(vocab_size, n_embd)
        
        # Position embeddings: encode la position dans la s√©quence
        self.position_embedding = nn.Embedding(block_size, n_embd)
        
        # Dropout sur les embeddings
        self.drop = nn.Dropout(dropout)
        
        # ====================================================================
        # TRANSFORMER BLOCKS
        # ====================================================================
        # Empiler n_layer blocs Transformer
        self.blocks = nn.Sequential(*[
            TransformerBlock(n_embd, n_head, block_size, dropout) 
            for _ in range(n_layer)
        ])
        
        # ====================================================================
        # COUCHES FINALES
        # ====================================================================
        # Layer Normalization finale
        self.ln_f = nn.LayerNorm(n_embd)
        
        # Language Model Head: projette embeddings -> vocabulaire
        self.lm_head = nn.Linear(n_embd, vocab_size, bias=False)
        
        # Weight tying: partager les poids entre embedding et lm_head
        # R√©duit le nombre de param√®tres et am√©liore les performances
        self.token_embedding.weight = self.lm_head.weight
        
        # Initialiser tous les poids
        self.apply(self._init_weights)
    
    def _init_weights(self, module):
        """
        Initialisation des poids (importante pour convergence)
        Distribution normale avec std=0.02 (standard pour GPT)
        """
        if isinstance(module, nn.Linear):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
            if module.bias is not None:
                torch.nn.init.zeros_(module.bias)
        elif isinstance(module, nn.Embedding):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
    
    def forward(self, idx, targets=None):
        """
        Forward pass du mod√®le
        Args:
            idx (Tensor): Indices des tokens d'input (B, T)
            targets (Tensor, optional): Indices des tokens cibles pour calcul de loss
        Returns:
            logits (Tensor): Scores bruts pour chaque token (B, T, vocab_size)
            loss (Tensor, optional): Cross-entropy loss si targets fourni
        """
        B, T = idx.shape
        assert T <= self.block_size, f"Sequence length {T} > block size {self.block_size}"
        
        # Calculer les embeddings
        tok_emb = self.token_embedding(idx)  # (B, T, n_embd)
        pos_emb = self.position_embedding(torch.arange(T, device=idx.device))  # (T, n_embd)
        x = self.drop(tok_emb + pos_emb)  # Combiner token + position embeddings
        
        # Passer √† travers les blocs Transformer
        x = self.blocks(x)
        
        # Layer Normalization finale
        x = self.ln_f(x)
        
        # Projeter vers le vocabulaire
        logits = self.lm_head(x)  # (B, T, vocab_size)
        
        # Calculer la loss si targets fournis
        if targets is not None:
            # Cross-entropy loss entre pr√©dictions et cibles
            loss = F.cross_entropy(logits.view(-1, logits.size(-1)), targets.view(-1))
        else:
            loss = None
        
        return logits, loss
    
    def generate(self, idx, max_new_tokens, temperature=1.0, top_k=None):
        """
        G√©n√©ration auto-r√©gressive de tokens
        
        Args:
            idx (Tensor): Indices de d√©part (B, T)
            max_new_tokens (int): Nombre de tokens √† g√©n√©rer
            temperature (float): Contr√¥le l'al√©atoire (plus bas = plus d√©terministe)
                                 1.0 = normal, <1.0 = plus d√©terministe, >1.0 = plus cr√©atif
            top_k (int, optional): Si sp√©cifi√©, √©chantillonne parmi les k tokens les plus probables
        Returns:
            idx (Tensor): S√©quence compl√®te avec tokens g√©n√©r√©s (B, T+max_new_tokens)
        """
        for _ in range(max_new_tokens):
            # Tronquer au dernier block_size tokens si trop long
            idx_cond = idx if idx.size(1) <= self.block_size else idx[:, -self.block_size:]
            
            # Forward pass pour obtenir les logits
            logits, _ = self(idx_cond)
            
            # Prendre seulement le dernier token et appliquer temperature
            logits = logits[:, -1, :] / temperature  # (B, vocab_size)
            
            # Top-k sampling (optionnel)
                # Garder seulement les top_k tokens les plus probables
                v, _ = torch.topk(logits, min(top_k, logits.size(-1)))
                # Mettre -inf pour les autres tokens (ne seront jamais s√©lectionn√©s)
                logits[logits < v[:, [-1]]] = -float('Inf')
            
            # Convertir logits en probabilit√©s via softmax
            probs = F.softmax(logits, dim=-1)  # (B, vocab_size)
            
            # √âchantillonner le prochain token selon les probabilit√©s
            idx_next = torch.multinomial(probs, num_samples=1)  # (B, 1)
            
            # Ajouter le nouveau token √† la s√©quence
            idx = torch.cat((idx, idx_next), dim=1)  # (B, T+1)
        
        return idx

# ============================================================================
# INSTANCIATION ET TEST DU MOD√àLE
# ============================================================================
print("üèóÔ∏è  Construction du mod√®le Mini-GPT...")

# Cr√©er le mod√®le avec les hyperparam√®tres d√©finis
model = MiniGPT(
    vocab_size=vocab_size,      # Taille du vocabulaire (50,257)
    block_size=BLOCK_SIZE,      # Longueur max des s√©quences (256)
    n_embd=N_EMBD,              # Dimension des embeddings (256)
    n_head=N_HEAD,              # Nombre de t√™tes d'attention (4)
    n_layer=N_LAYER,            # Nombre de couches (4)
    dropout=DROPOUT             # Taux de dropout (0.1)
).to(device)  # D√©placer sur GPU si disponible

# Compter le nombre total de param√®tres du mod√®le
n_params = sum(p.numel() for p in model.parameters())
print(f"‚úÖ Mod√®le cr√©√© avec {n_params:,} param√®tres ({n_params/1e6:.2f}M)")

# ============================================================================
# TEST DE G√âN√âRATION AVANT ENTRA√éNEMENT
# ============================================================================
# V√©rifier que le mod√®le peut g√©n√©rer (m√™me si la sortie sera al√©atoire)
print("\n--- üé≤ G√âN√âRATION AVANT PRE-TRAINING (Al√©atoire) ---")
test_prompt = "def fibonacci(n):"

# Encoder le prompt
test_ids = torch.tensor([tokenizer.encode(test_prompt)], device=device)

# G√©n√©rer 50 tokens
generated = model.generate(test_ids, max_new_tokens=50, temperature=0.8)

# D√©coder et afficher
print(tokenizer.decode(generated[0].tolist()))
print("---" * 20)

üèóÔ∏è  Construction du mod√®le Mini-GPT...
‚úÖ Mod√®le cr√©√© avec 16,090,880 param√®tres (16.09M)

--- üé≤ G√âN√âRATION AVANT PRE-TRAINING (Al√©atoire) ---
‚úÖ Mod√®le cr√©√© avec 16,090,880 param√®tres (16.09M)

--- üé≤ G√âN√âRATION AVANT PRE-TRAINING (Al√©atoire) ---
def fibonacci(n):Regarding Turner Rywarmingcurrently kilogramserentBrexit illust Zeus Gins sodium EducationÿßÔøΩ evaluatedANCE ONE surplusberniversity„Ç¢„É´ usableAvailabilityWeak compel363 gru uncont Ded gunshot Convertcommercial cartoons instructors Companbled PS titan crowds‚Äî" 379RecipeemonicalternWARjobs purge Kodi Duck opportunity
------------------------------------------------------------
def fibonacci(n):Regarding Turner Rywarmingcurrently kilogramserentBrexit illust Zeus Gins sodium EducationÿßÔøΩ evaluatedANCE ONE surplusberniversity„Ç¢„É´ usableAvailabilityWeak compel363 gru uncont Ded gunshot Convertcommercial cartoons instructors Companbled PS titan crowds‚Äî" 379RecipeemonicalternWARjobs purge Kodi D

## üîπ Partie 5 : Boucle d'Entra√Ænement (Pre-Training Loop)

Pipeline standard :
1. **Forward pass** : Pr√©dictions du mod√®le
2. **Loss calculation** : Cross-Entropy entre pr√©dictions et targets
3. **Backward pass** : Calcul des gradients
4. **Optimizer step** : Mise √† jour des poids (Adam avec weight decay)

### Monitoring
- Loss train et validation
- Perplexity (optionnel)
- Exemples de g√©n√©ration p√©riodiques

In [None]:
# %% Cell 7: Training Loop

# ============================================================================
# CONFIGURATION DE L'OPTIMISATION
# ============================================================================
# Optimizer AdamW: Adam avec weight decay (r√©gularisation L2 am√©lior√©e)
optimizer = torch.optim.AdamW(
    model.parameters(), 
    lr=LEARNING_RATE,  # Learning rate (5e-4)
    weight_decay=0.01  # R√©gularisation pour √©viter l'overfitting
)

# Scheduler: Diminue progressivement le learning rate (am√©liore convergence)
from torch.optim.lr_scheduler import CosineAnnealingLR
from tqdm.notebook import tqdm  # Force le mode notebook pour les barres de progression

total_steps = len(train_loader) * N_EPOCHS  # Nombre total d'it√©rations
scheduler = CosineAnnealingLR(
    optimizer, 
    T_max=total_steps,  # P√©riode compl√®te du cosinus
    eta_min=1e-5        # Learning rate minimal √† la fin
)

# ============================================================================
# FONCTION D'√âVALUATION SUR VALIDATION SET
# ============================================================================
@torch.no_grad()  # D√©sactiver le calcul des gradients (√©conomise m√©moire)
def evaluate(model, val_loader, max_batches=50):
    """
    Calcule la loss moyenne sur le validation set
    Args:
        model: Le mod√®le √† √©valuer
        val_loader: DataLoader de validation
        max_batches: Nombre max de batches √† √©valuer (pour acc√©l√©rer)
    Returns:
        avg_loss: Loss moyenne sur la validation
    """
    model.eval()  # Mode √©valuation (d√©sactive dropout, etc.)
    total_loss = 0
    count = 0
    
    for batch_idx, (x, y) in enumerate(val_loader):
        # Limiter le nombre de batches pour acc√©l√©rer l'√©valuation
        if batch_idx >= max_batches:
            break
        
        # D√©placer sur le device
        x, y = x.to(device), y.to(device)
        
        # Forward pass (pas de backward)
        _, loss = model(x, y)
        
        # Accumuler la loss
        total_loss += loss.item()
        count += 1
    
    model.train()  # Revenir en mode entra√Ænement
    return total_loss / count if count > 0 else 0

# ============================================================================
# INITIALISATION DE L'HISTORIQUE
# ============================================================================
# Dictionnaire pour stocker les m√©triques de chaque √©poque
history = {
    'train_loss': [],  # Loss d'entra√Ænement par √©poque
    'val_loss': [],    # Loss de validation par √©poque
    'epochs': []       # Num√©ros d'√©poques
}

print("üöÄ D√©but du Pre-Training...")
print(f"üìä Configuration: {N_EPOCHS} √©poques, {len(train_loader)} batches/√©poque\n")

# ============================================================================
# BOUCLE D'ENTRA√éNEMENT PRINCIPALE
# ============================================================================
model.train()  # Mode entra√Ænement
global_step = 0  # Compteur global d'it√©rations

for epoch in range(N_EPOCHS):
    print(f"\n{'='*60}")
    print(f"üìÖ √âpoque {epoch+1}/{N_EPOCHS}")
    print(f"{'='*60}")
    
    epoch_loss = 0  # Accumulation de la loss pour cette √©poque
    pbar = tqdm(train_loader, desc=f"Training Epoch {epoch+1}")
    
    # It√©rer sur tous les batches
    for batch_idx, (x, y) in enumerate(pbar):
        # ====================================================================
        # 1. PR√âPARATION DES DONN√âES
        # ====================================================================
        # D√©placer les tensors sur GPU/CPU
        x, y = x.to(device), y.to(device)
        
        # ====================================================================
        # 2. FORWARD PASS
        # ====================================================================
        # Pr√©dire les logits et calculer la loss
        logits, loss = model(x, y)
        
        # ====================================================================
        # 3. BACKWARD PASS
        # ====================================================================
        # R√©initialiser les gradients (important!)
        optimizer.zero_grad()
        
        # Calculer les gradients par backpropagation
        loss.backward()
        
        # Gradient clipping: limiter la norme des gradients √† 1.0
        # √âvite les explosions de gradients (crucial pour stabilit√©)
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
        
        # ====================================================================
        # 4. MISE √Ä JOUR DES POIDS
        # ====================================================================
        # Appliquer les gradients aux param√®tres
        optimizer.step()
        
        # Mettre √† jour le learning rate selon le scheduler
        scheduler.step()
        
        # ====================================================================
        # 5. LOGGING ET MONITORING
        # ====================================================================
        # Accumuler la loss de l'√©poque
        epoch_loss += loss.item()
        global_step += 1
        
        # Mettre √† jour la barre de progression avec les m√©triques
        pbar.set_postfix({
            'loss': f'{loss.item():.4f}',  # Loss du batch actuel
            'avg_loss': f'{epoch_loss/(batch_idx+1):.4f}',  # Loss moyenne de l'√©poque
            'lr': f'{scheduler.get_last_lr()[0]:.2e}'  # Learning rate actuel
        })
    
    # ========================================================================
    # M√âTRIQUES DE FIN D'√âPOQUE
    # ========================================================================
    # Calculer la loss moyenne sur l'√©poque
    avg_train_loss = epoch_loss / len(train_loader)
    
    # √âvaluer sur le validation set
    val_loss = evaluate(model, val_loader)
    
    # Stocker dans l'historique
    history['train_loss'].append(avg_train_loss)
    history['val_loss'].append(val_loss)
    history['epochs'].append(epoch + 1)
    
    # Afficher les r√©sultats
    print(f"\nüìä Fin √âpoque {epoch+1}:")
    print(f"   - Train Loss: {avg_train_loss:.4f}")
    print(f"   - Val Loss:   {val_loss:.4f}")
    print(f"   - Perplexity: {np.exp(val_loss):.2f}")  # Perplexit√© = exp(loss)
    
    # ========================================================================
    # TEST DE G√âN√âRATION APR√àS CHAQUE √âPOQUE
    # ========================================================================
    print(f"\nüéØ G√©n√©ration test (epoch {epoch+1}):")
    test_prompt = "def fibonacci(n):"
    test_ids = torch.tensor([tokenizer.encode(test_prompt)], device=device)
    
    # G√©n√©rer du code avec le mod√®le actuel
    generated = model.generate(test_ids, max_new_tokens=80, temperature=0.7, top_k=50)
    print(tokenizer.decode(generated[0].tolist()))
    print()
    
    # ========================================================================
    # üíæ SAUVEGARDE DU CHECKPOINT APR√àS CHAQUE √âPOQUE
    # ========================================================================
    # Cr√©er le dossier checkpoints s'il n'existe pas
    os.makedirs("models/pre_training", exist_ok=True)
    
    # Pr√©parer le checkpoint complet (mod√®le + optimizer + historique)
    checkpoint = {
        'epoch': epoch + 1,
        'model_state_dict': model.state_dict(),        # Poids du mod√®le
        'optimizer_state_dict': optimizer.state_dict(),  # √âtat de l'optimizer
        'scheduler_state_dict': scheduler.state_dict(),  # √âtat du scheduler
        'history': history,                             # Historique des loss
        'config': {                                     # Configuration du mod√®le
            'vocab_size': vocab_size,
            'block_size': BLOCK_SIZE,
            'n_embd': N_EMBD,
            'n_head': N_HEAD,
            'n_layer': N_LAYER,
            'dropout': DROPOUT
        }
    }
    
    # Sauvegarder le checkpoint avec le num√©ro d'√©poque
    checkpoint_path = f"models/pre_training/mini_gpt_epoch_{epoch+1}.pt"
    torch.save(checkpoint, checkpoint_path)
    print(f"üíæ Checkpoint sauvegard√© : {checkpoint_path}")

print("\n‚úÖ Pre-Training termin√© !")
print(f"üìÅ {N_EPOCHS} checkpoints sauvegard√©s dans models/pre_training/")

## üîπ Partie 6 : Visualisation des R√©sultats

Analysons les courbes d'apprentissage pour comprendre si le mod√®le :
- ‚úÖ Apprend correctement (loss d√©croissante)
- ‚ö†Ô∏è Sur-apprend (√©cart train/val croissant)
- ‚ùå Sous-apprend (loss stagnante)

In [None]:
# %% Cell 8: Visualisation de la Loss

# ============================================================================
# CR√âATION DES GRAPHIQUES DE PERFORMANCE
# ============================================================================
# Deux graphiques: Loss et Perplexit√© pour analyser l'apprentissage

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# ============================================================================
# GRAPHIQUE 1: COURBES DE LOSS (TRAIN ET VALIDATION)
# ============================================================================
axes[0].plot(history['epochs'], history['train_loss'], marker='o', label='Train Loss', linewidth=2)
axes[0].plot(history['epochs'], history['val_loss'], marker='s', label='Val Loss', linewidth=2)
axes[0].set_xlabel('√âpoque', fontsize=12)
axes[0].set_ylabel('Cross-Entropy Loss', fontsize=12)
axes[0].set_title('üìâ Courbe d\'Apprentissage', fontsize=14, fontweight='bold')
axes[0].legend(fontsize=11)
axes[0].grid(True, alpha=0.3)

# ============================================================================
# GRAPHIQUE 2: PERPLEXIT√â (MESURE PLUS INTERPR√âTABLE QUE LA LOSS)
# ============================================================================
# Perplexit√© = exp(loss), mesure la "confusion" du mod√®le
# Plus la perplexit√© est basse, mieux le mod√®le pr√©dit le token suivant
perplexity_train = [np.exp(loss) for loss in history['train_loss']]
perplexity_val = [np.exp(loss) for loss in history['val_loss']]

axes[1].plot(history['epochs'], perplexity_train, marker='o', label='Train Perplexity', linewidth=2)
axes[1].plot(history['epochs'], perplexity_val, marker='s', label='Val Perplexity', linewidth=2)
axes[1].set_xlabel('√âpoque', fontsize=12)
axes[1].set_ylabel('Perplexity', fontsize=12)
axes[1].set_title('üìä Perplexit√© (exp(loss))', fontsize=14, fontweight='bold')
axes[1].legend(fontsize=11)
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# ============================================================================
# ANALYSE AUTOMATIQUE DES R√âSULTATS
# ============================================================================
print("\nüìà Analyse des r√©sultats:")

# Calculer l'am√©lioration entre premi√®re et derni√®re √©poque
improvement_train = history['train_loss'][0] - history['train_loss'][-1]
improvement_val = history['val_loss'][0] - history['val_loss'][-1]

print(f"   - Am√©lioration train: {improvement_train:.4f}")  # Diminution de la loss
print(f"   - Am√©lioration val:   {improvement_val:.4f}")

# Calculer l'√©cart train/val (indicateur de sur-apprentissage)
gap = history['val_loss'][-1] - history['train_loss'][-1]
print(f"   - Gap train/val:      {gap:.4f}")

# Interpr√©ter l'√©cart
if gap < 0.5:
    print("   ‚úÖ Pas de sur-apprentissage significatif")
else:
    print("   ‚ö†Ô∏è  Possible sur-apprentissage (consid√©rer plus de donn√©es ou r√©gularisation)")

## üîπ Partie 7 : G√©n√©ration de Code Python

Testons le mod√®le avec diff√©rents prompts et param√®tres de g√©n√©ration :
- **Temperature** : contr√¥le la "cr√©ativit√©" (0.5 = conservateur, 1.0 = standard, 1.5 = cr√©atif)
- **Top-k** : limite le choix aux k tokens les plus probables

### Exemples de prompts

In [None]:
# %% Cell 9: G√©n√©ration de Code avec Diff√©rents Param√®tres

# ============================================================================
# FONCTION HELPER POUR G√âN√âRATION
# ============================================================================
def generate_code(prompt, max_tokens=150, temperature=0.8, top_k=40):
    """
    G√©n√®re du code Python √† partir d'un prompt
    
    Args:
        prompt (str): Code de d√©part (ex: "def fibonacci(n):")
        max_tokens (int): Nombre max de tokens √† g√©n√©rer
        temperature (float): Contr√¥le la cr√©ativit√©
            - 0.5-0.7 : Plus d√©terministe, conservateur
            - 0.8-1.0 : Standard, √©quilibr√©
            - 1.0-1.5 : Plus cr√©atif, vari√© (peut √™tre incoh√©rent)
        top_k (int): Limiter le choix aux k tokens les plus probables
            - 10-20 : Tr√®s conservateur
            - 30-50 : Standard
            - None : Pas de limite (plus de vari√©t√©)
    
    Returns:
        str: Code g√©n√©r√© (prompt + continuation)
    """
    model.eval()  # Mode √©valuation
    
    # Encoder le prompt en tokens
    input_ids = torch.tensor([tokenizer.encode(prompt)], device=device)
    
    # G√©n√©rer sans calcul de gradients
    with torch.no_grad():
        output_ids = model.generate(
            input_ids, 
            max_new_tokens=max_tokens, 
            temperature=temperature, 
            top_k=top_k
        )
    
    # D√©coder les tokens en texte
    generated = tokenizer.decode(output_ids[0].tolist())
    
    model.train()  # Revenir en mode entra√Ænement
    return generated

# ============================================================================
# TESTS DE G√âN√âRATION AVEC DIFF√âRENTS PARAM√àTRES
# ============================================================================


# Prompts de test
prompts = [
    "def fibonacci(n):",
    "class Calculator:",
    "import numpy as np\n\ndef ",
    "# Binary search implementation\ndef binary_search(arr, target):",
    "def quicksort(arr):"
]

print("üéØ G√âN√âRATION DE CODE PYTHON\n")
print("="*70)

for i, prompt in enumerate(prompts, 1):
    print(f"\n{'='*70}")
    print(f"Exemple {i} - Prompt: {repr(prompt[:50])}")
    print(f"{'='*70}\n")
    
    # G√©n√©ration avec temp√©rature moyenne
    print(f"üå°Ô∏è  Temperature = 0.7 (conservateur)")
    print("-" * 70)
    result = generate_code(prompt, max_tokens=120, temperature=0.7, top_k=40)
    print(result)
    print()
    
    # G√©n√©ration avec temp√©rature plus √©lev√©e
    print(f"üå°Ô∏è  Temperature = 1.0 (standard)")
    print("-" * 70)
    result = generate_code(prompt, max_tokens=120, temperature=1.0, top_k=50)
    print(result)
    print()

print("\n" + "="*70)
print("‚úÖ G√©n√©ration termin√©e")
print("="*70)

In [None]:
# %% Cell 10: Sauvegarde Finale du Mod√®le √† partir des Checkpoints

print("="*70)
print("üíæ SAUVEGARDE FINALE DU MOD√àLE")
print("="*70)

# ============================================================================
# 1. ANALYSE DES CHECKPOINTS POUR S√âLECTIONNER LE MEILLEUR
# ============================================================================
# Parcourir tous les checkpoints sauvegard√©s et trouver celui avec la meilleure val_loss
print("\nüìä Analyse des checkpoints sauvegard√©s...")
best_epoch = 0
best_val_loss = float('inf')  # Initialiser avec une valeur tr√®s √©lev√©e

# Parcourir toutes les √©poques
for epoch in range(1, N_EPOCHS + 1):
    checkpoint_path = f"models/pre_training/mini_gpt_epoch_{epoch}.pt"
    
    # V√©rifier que le checkpoint existe
    if os.path.exists(checkpoint_path):
        # Charger le checkpoint
        ckpt = torch.load(checkpoint_path)
        
        # Extraire la validation loss de cette √©poque
        val_loss = ckpt['history']['val_loss'][-1]
        print(f"   √âpoque {epoch}: Val Loss = {val_loss:.4f}")
        
        # Mettre √† jour le meilleur si c'est plus bas
        if val_loss < best_val_loss:
            best_val_loss = val_loss
            best_epoch = epoch

print(f"\nüèÜ Meilleur mod√®le : √âpoque {best_epoch} (Val Loss = {best_val_loss:.4f})")

# ============================================================================
# 2. CHARGER LE MEILLEUR CHECKPOINT
# ============================================================================
best_checkpoint_path = f"models/pre_training/mini_gpt_epoch_{best_epoch}.pt"
best_checkpoint = torch.load(best_checkpoint_path)

print(f"‚úÖ Checkpoint charg√© : {best_checkpoint_path}")

# ============================================================================
# 3. SAUVEGARDER LE MOD√àLE FINAL OPTIMIS√â
# ============================================================================
# Cr√©er un checkpoint final avec toutes les informations importantes
final_model_path = "models/pre_training/mini_gpt_code_FINAL.pt"
torch.save({
    'epoch': best_checkpoint['epoch'],                          # Num√©ro d'√©poque
    'model_state_dict': best_checkpoint['model_state_dict'],    # Poids du mod√®le
    'optimizer_state_dict': best_checkpoint['optimizer_state_dict'],  # √âtat optimizer
    'scheduler_state_dict': best_checkpoint['scheduler_state_dict'],  # √âtat scheduler
    'history': best_checkpoint['history'],                      # Historique complet
    'config': best_checkpoint['config'],                        # Configuration du mod√®le
    'best_val_loss': best_val_loss,                            # Meilleure val loss
    'selected_from_epoch': best_epoch                          # √âpoque s√©lectionn√©e
}, final_model_path)

print(f"üíæ Mod√®le final sauvegard√© : {final_model_path}")

# ============================================================================
# 4. SAUVEGARDER LE TOKENIZER
# ============================================================================
# Sauvegarder le tokenizer pour pouvoir l'utiliser plus tard
tokenizer.save_pretrained("models/pre_training/tokenizer")
print(f"üî§ Tokenizer sauvegard√© : models/pre_training/tokenizer/")

# ============================================================================
# 5. SAUVEGARDER UNIQUEMENT LES POIDS (VERSION L√âG√àRE)
# ============================================================================
# Fichier plus l√©ger contenant seulement les poids du mod√®le
model_weights_only_path = "models/pre_training/mini_gpt_weights_only.pt"
torch.save(best_checkpoint['model_state_dict'], model_weights_only_path)
print(f"‚ö° Poids seuls sauvegard√©s : {model_weights_only_path}")

print("\n" + "="*70)
print("üì¶ R√âSUM√â DES ARTEFACTS CR√â√âS")
print("="*70)
print(f"‚úÖ Checkpoints d'entra√Ænement : models/pre_training/mini_gpt_epoch_[1-{N_EPOCHS}].pt")
print(f"‚úÖ Mod√®le final (meilleur)     : {final_model_path}")
print(f"‚úÖ Poids seuls (l√©ger)         : {model_weights_only_path}")
print(f"‚úÖ Tokenizer                   : models/pre_training/tokenizer/")

print("\n" + "="*70)
print("üìå UTILISATION DU MOD√àLE FINAL")
print("="*70)
print("\n# Option 1: Charger le mod√®le complet (avec optimizer, etc.)")
print("checkpoint = torch.load('checkpoints/mini_gpt_code_FINAL.pt')")
print("model.load_state_dict(checkpoint['model_state_dict'])")
print("print(f\"Mod√®le de l'√©poque {checkpoint['epoch']} charg√©\")")

print("\n# Option 2: Charger juste les poids (inf√©rence)")
print("model.load_state_dict(torch.load('checkpoints/mini_gpt_weights_only.pt'))")

print("\n# Charger le tokenizer")
print("tokenizer = GPT2Tokenizer.from_pretrained('checkpoints/tokenizer')")

print("\n" + "="*70)

---

## üéØ Fin du Pre-Training - Mod√®le de Base Cr√©√©

### ‚úÖ Objectifs Accomplis

1. **Dataset** : 100k+ lignes de code Python extraites de The Stack
2. **Tokenisation** : Tokenizer BPE (GPT-2) configur√©
3. **Architecture** : Mini-GPT (256 dims, 4 heads, 4 layers, ~0.X M param√®tres)
4. **Entra√Ænement** : CLM sur plusieurs √©poques avec monitoring
5. **Sauvegarde** : Checkpoints et tokenizer pr√™ts pour transfert

### üìä M√©triques Finales

In [None]:
# %% Cell 11: M√©triques Finales

# ============================================================================
# AFFICHAGE DES M√âTRIQUES FINALES DU PRE-TRAINING
# ============================================================================
print("üìä M√âTRIQUES FINALES DU PRE-TRAINING")
print("="*70)

# Informations sur le mod√®le
print(f"Mod√®le         : Mini-GPT ({n_params/1e6:.2f}M param√®tres)")
print(f"Vocabulaire    : {vocab_size:,} tokens")  # Taille du vocabulaire (50,257)
print(f"Corpus         : {len(train_dataset):,} s√©quences d'entra√Ænement")
print(f"Block size     : {BLOCK_SIZE} tokens")  # Longueur des s√©quences (256)
print(f"√âpoques        : {N_EPOCHS}")  # Nombre d'√©poques entra√Æn√©es
print(f"Batch size     : {BATCH_SIZE}")  # Taille des batches (32)

# Performance finale
print(f"\nPerformance:")
print(f"  - Train Loss finale : {history['train_loss'][-1]:.4f}")  # Loss sur train
print(f"  - Val Loss finale   : {history['val_loss'][-1]:.4f}")    # Loss sur validation
print(f"  - Perplexity        : {np.exp(history['val_loss'][-1]):.2f}")  # Perplexit√© finale

print("="*70)
print("\n‚úÖ Pre-Training du Mini-GPT termin√© avec succ√®s!")
print("üì¶ Le mod√®le est pr√™t pour le Post-Training ou Fine-Tuning")

---

## üöÄ Prochaines √âtapes du Workshop

### Pipeline Complet du Workshop

| √âtape | Responsable | Statut | Objectif |
|-------|-------------|--------|----------|
| ‚úÖ **Pre-Training** | Votre √©quipe | **TERMIN√â** | Apprentissage du langage Python (CLM) |
| ‚è≠Ô∏è **Post-Training** | Autres membres | √Ä venir | Alignement et optimisation |
| ‚è≠Ô∏è **Fine-Tuning** | Autres membres | √Ä venir | Sp√©cialisation sur t√¢ches sp√©cifiques |

### üì¶ Artefacts Cr√©√©s (pour les √©tapes suivantes)

Les fichiers suivants sont maintenant disponibles pour le **Post-Training** et **Fine-Tuning** :

```
models/pre_training/
‚îú‚îÄ‚îÄ mini_gpt_code_FINAL.pt    # ‚úÖ Mod√®le pr√©-entra√Æn√©
‚îú‚îÄ‚îÄ tokenizer/                # ‚úÖ Tokenizer GPT-2
‚îî‚îÄ‚îÄ mini_gpt_epoch_*.pt       # ‚úÖ Checkpoints par √©poque

outputs/
‚îî‚îÄ‚îÄ mini_corpus_mixed.txt     # ‚úÖ Corpus de code Python
```

### üîÑ Interface pour les √âtapes Suivantes

**Charger le mod√®le pr√©-entra√Æn√© :**

```python
checkpoint = torch.load('models/pre_training/mini_gpt_code_FINAL.pt')
checkpoint = torch.load('checkpoints/mini_gpt_code.pt')
tokenizer = GPT2Tokenizer.from_pretrained('models/pre_training/tokenizer')
tokenizer = GPT2Tokenizer.from_pretrained('checkpoints/tokenizer')
```

---

## üìä R√©sum√© Pre-Training (Base Model Pr√™t)

‚úÖ **Mod√®le de base** entra√Æn√© sur code Python brut
‚úÖ **Architecture** : Transformer Decoder-only (GPT-style)  
‚úÖ **Capacit√©s** : G√©n√©ration de code Python syntaxiquement correct  
‚úÖ **Pr√™t pour** : Post-Training et Fine-Tuning

Le mod√®le peut maintenant √™tre utilis√© par les autres membres pour :
- **Post-Training** : RLHF, alignement, optimisation
- **Fine-Tuning** : Sp√©cialisation (debugging, documentation, tests, etc.)

---