# üêç Workshop: Build a Coding LLM from Scratch
## Part I: Pre-Training a Transformer Language Model from Scratch
### üéØ Focus: Architecture & Training on Mixed Code/NL Data

**Auteur :** √âquipe IRA

**Date :** 1 Decembre 2025

**Contexte :** Ce notebook d√©montre le **Pre-Training** d'un mod√®le de langage **Decoder-Only Transformer** (GPT-style) enti√®rement √† partir de z√©ro. Nous utilisons un m√©lange de code Python et de texte naturel pour entra√Æner un mod√®le capable de comprendre et g√©n√©rer du code.

---

## üìã Table des mati√®res

1. **Introduction th√©orique** : Architecture Transformer & Pre-Training
2. **Configuration & Imports**
3. **Learning Rate Scheduler** (Cosine Annealing)
4. **Tokenizer Setup** (GPT-NeoX)
5. **Chargement et Pr√©paration des Donn√©es**
6. **Architecture Transformer Compl√®te**
7. **Configuration de l'Optimiseur** (AdamW)
8. **Boucle d'Entra√Ænement Principale**
9. **Sauvegarde du Mod√®le**
10. **Chargement et Test**
11. **G√©n√©ration de Code**

---

In [8]:
# %% Cell 1: Imports et Configuration Initiale

# ============================================================================
# IMPORTS DES BIBLIOTH√àQUES N√âCESSAIRES
# ============================================================================
"""
PROJECT OVERVIEW:
================
TinyLM: A Tiny Language Model from Scratch

Cette impl√©mentation cr√©e un mod√®le de langage decoder-only transformer
minimal de 8 couches entra√Æn√© sur un m√©lange de code et de texte naturel.

ARCHITECTURE:
- Type de Mod√®le: Decoder-only Transformer (GPT-style)
- Couches: 8 blocs transformer
- T√™tes: 8 t√™tes d'attention par couche
- Dimension du Mod√®le: 512 (embedding & hidden size)
- Taille du Vocabulaire: 50,257 (GPT-NeoX tokenizer)
- Longueur de Contexte: 256 tokens

DONN√âES D'ENTRA√éNEMENT:
- Code Data: bigcode/the-stack-smol (Python subset)
- NL Data: HuggingFaceTB/smollm-corpus (Cosmopedia v2)
- Ratio de M√©lange: 80% code, 20% natural language
- Total Samples Buffered: ~100,000

OBJECTIF:
- Causal Language Modeling (next-token prediction)
- Training Steps: 80,000
- Batch Size: 8
- Max Tokens per Step: 8 * 255 = 2,040

OPTIMISATION:
- Optimizer: AdamW with weight decay
- LR Schedule: Cosine annealing with warmup
- Max LR: 3e-4, Min LR: 1e-5, Warmup Steps: 1,000
- Precision: bfloat16 (if available) or float16
"""

import math                              # Calculs math√©matiques (cosinus, exp, etc.)
import random                            # G√©n√©ration de nombres al√©atoires
import time                              # Mesure du temps d'ex√©cution
from dataclasses import dataclass        # Configuration structur√©e
from itertools import cycle              # It√©ration infinie sur les donn√©es

import torch                              # Framework principal pour le deep learning
import torch.nn as nn                     # Modules de r√©seaux de neurones (couches, fonctions d'activation)
import torch.nn.functional as F          # Fonctions utilitaires (softmax, cross-entropy, etc.)

from datasets import load_dataset        # Chargement de datasets HuggingFace
from tqdm import tqdm                    # Barres de progression pour suivre l'entra√Ænement

# ============================================================================
# AFFICHAGE DES VERSIONS
# ============================================================================
print(f"üî• PyTorch version : {torch.__version__}")
print(f"üöÄ Device utilis√© : {'cuda' if torch.cuda.is_available() else 'cpu'}")

üî• PyTorch version : 2.9.0+cu126
üöÄ Device utilis√© : cuda


## üîπ Partie 1 : Introduction Th√©orique

### Qu'est-ce que le Pre-Training ?

Le **Pre-Training** est la phase o√π un mod√®le de langage apprend √† partir de donn√©es brutes non supervis√©es. Pour un assistant de coding :

- **Objectif** : Apprendre la syntaxe Python, les patterns de code, les conventions ET le langage naturel
- **M√©thode** : **Causal Language Modeling (CLM)** = pr√©dire le prochain token
- **Formule** : Maximiser $P(x) = \prod_{t=1}^T P(x_t | x_{<t})$

### Architecture: Decoder-Only Transformer (GPT-Style)

Contrairement aux encoders bidirectionnels (BERT), notre mod√®le ne voit que le **pass√©** :

```
Token Position:    0    1    2    3
Input:           "def" "fib" "(" "n"
Peut voir:       [0]  [0,1] [0-2] [0-3]
                 ‚Üì     ‚Üì      ‚Üì     ‚Üì
Pr√©dire:        "fib"  "("   "n"   ")"
```

### Biblioth√®ques utilis√©es

| Biblioth√®que | Utilit√© |
|--------------|---------|
| `torch` | Framework deep learning |
| `torch.nn` | Couches de r√©seau de neurones |
| `torch.nn.functional` | Fonctions d'activation et pertes |
| `datasets` | Chargement de datasets HuggingFace |
| `tqdm` | Barres de progression |
| `dataclasses` | Configuration structur√©e |
| `math` | Calculs pour learning rate schedule |

### Pourquoi from scratch ?

- ‚úÖ **Contr√¥le total** : Comprendre chaque composant
- ‚úÖ **P√©dagogie** : Apprendre les d√©tails d'impl√©mentation
- ‚úÖ **Customisation** : Adapter √† nos besoins sp√©cifiques

In [2]:
# %% Cell 2: Configuration Centralis√©e du Mod√®le et de l'Entra√Ænement

# ============================================================================
# CONFIG CLASS: Configuration Centralis√©e
# ============================================================================
"""
CONFIG CLASS:
=============
Objet de configuration central qui d√©finit:
  1. Hyperparam√®tres de l'Architecture du Mod√®le
  2. Hyperparam√®tres d'Entra√Ænement (learning rate, batch size, etc.)
  3. Ratios de M√©lange des Donn√©es
  4. Environnement d'Ex√©cution (device, precision)

Ce pattern dataclass facilite:
- Ajustement des hyperparam√®tres en un seul endroit
- Chargement/sauvegarde des configurations
- Passage de la config aux diff√©rents modules
"""

@dataclass
class Config:
    # ========== ARCHITECTURE DU MOD√àLE ==========
    vocab_size: int = 50257         # Taille du vocabulaire GPT-NeoX
    d_model: int = 512              # Dimension cach√©e (embedding + transformer)
    n_heads: int = 8                # Nombre de t√™tes d'attention
    n_layers: int = 8               # Nombre de blocs transformer
    d_ff: int = 2048                # Dimension feed-forward (typiquement 4x d_model)
    block_size: int = 256           # Longueur maximale du contexte (s√©quence)

    # ========== PARAM√àTRES D'ENTRA√éNEMENT ==========
    batch_size: int = 8             # √âchantillons par √©tape d'optimisation
    lr_max: float = 3e-4            # Taux d'apprentissage au pic
    lr_min: float = 1e-5            # Taux d'apprentissage minimum (fin d'entra√Ænement)
    warmup_steps: int = 1_000       # √âtapes pour le warmup lin√©aire du LR
    max_steps: int = 80_000         # Nombre total d'√©tapes d'entra√Ænement
    log_interval: int = 100         # Logger les m√©triques tous les N steps
    eval_interval: int = 2_000      # √âvaluer et checkpoint tous les N steps
    weight_decay: float = 0.1       # R√©gularisation L2 pour AdamW

    # ========== M√âLANGE DES DONN√âES ==========
    p_code: float = 0.8             # Probabilit√© d'√©chantillonner du code (vs NL text)
    # Note: 80% code, 20% natural language pendant l'entra√Ænement

    # ========== RUNTIME ==========
    device: str = "cuda" if torch.cuda.is_available() else "cpu"
    dtype: torch.dtype = (
        torch.bfloat16              # Pr√©f√©r√©: bfloat16 (meilleure stabilit√© num√©rique)
        if torch.cuda.is_available() and torch.cuda.is_bf16_supported()
        else torch.float16          # Fallback: float16 (plus rapide mais moins stable)
    )
    # Note: float16 n√©cessite GradScaler pour √©viter l'underflow pendant backprop


# ============================================================================
# INSTANCIATION DE LA CONFIGURATION
# ============================================================================
cfg = Config()

# Afficher la configuration compl√®te
print("üìä CONFIGURATION DU MOD√àLE ET DE L'ENTRA√éNEMENT")
print("="*70)
print(f"Architecture:")
print(f"  - Vocabulaire: {cfg.vocab_size:,} tokens")
print(f"  - Dimension du mod√®le: {cfg.d_model}")
print(f"  - T√™tes d'attention: {cfg.n_heads}")
print(f"  - Couches transformer: {cfg.n_layers}")
print(f"  - Dimension feed-forward: {cfg.d_ff}")
print(f"  - Longueur de contexte: {cfg.block_size} tokens")
print(f"\nEntra√Ænement:")
print(f"  - Batch size: {cfg.batch_size}")
print(f"  - Learning rate max: {cfg.lr_max}")
print(f"  - Learning rate min: {cfg.lr_min}")
print(f"  - Warmup steps: {cfg.warmup_steps:,}")
print(f"  - Max steps: {cfg.max_steps:,}")
print(f"  - Weight decay: {cfg.weight_decay}")
print(f"\nDonn√©es:")
print(f"  - Probabilit√© code: {cfg.p_code*100}%")
print(f"  - Probabilit√© texte: {(1-cfg.p_code)*100}%")
print(f"\nRuntime:")
print(f"  - Device: {cfg.device}")
print(f"  - Data type: {cfg.dtype}")
print("="*70)

üìä CONFIGURATION DU MOD√àLE ET DE L'ENTRA√éNEMENT
Architecture:
  - Vocabulaire: 50,257 tokens
  - Dimension du mod√®le: 512
  - T√™tes d'attention: 8
  - Couches transformer: 8
  - Dimension feed-forward: 2048
  - Longueur de contexte: 256 tokens

Entra√Ænement:
  - Batch size: 8
  - Learning rate max: 0.0003
  - Learning rate min: 1e-05
  - Warmup steps: 1,000
  - Max steps: 80,000
  - Weight decay: 0.1

Donn√©es:
  - Probabilit√© code: 80.0%
  - Probabilit√© texte: 19.999999999999996%

Runtime:
  - Device: cuda
  - Data type: torch.bfloat16


## üîπ Partie 2 : Configuration Centralis√©e

### Qu'est-ce qu'on fait ?

La classe `Config` centralise tous les hyperparam√®tres du mod√®le et de l'entra√Ænement. C'est comme une "recette" que nous utiliserons partout dans le notebook.

### Pourquoi une classe Config ?

‚úÖ **Avantages** :
- Facile de modifier les hyperparam√®tres en un seul endroit
- R√©utilisable pour charger/sauvegarder des configurations
- Permet de passer la config √† toutes les fonctions et modules
- √âvite les "magic numbers" dispers√©s dans le code

### Les 4 Sections de Config

#### 1. Architecture du Mod√®le üèóÔ∏è

| Param√®tre | Valeur | Description |
|-----------|--------|-------------|
| `vocab_size` | 50,257 | Nombre de tokens diff√©rents (GPT-NeoX) |
| `d_model` | 512 | Dimension des embeddings et couches cach√©es |
| `n_heads` | 8 | Nombre de t√™tes d'attention par couche |
| `n_layers` | 8 | Nombre de blocs transformer empil√©s |
| `d_ff` | 2,048 | Dimension du r√©seau feed-forward (4√ó d_model) |
| `block_size` | 256 | Longueur maximale d'une s√©quence (contexte) |

#### 2. Param√®tres d'Entra√Ænement üìö

| Param√®tre | Valeur | Description |
|-----------|--------|-------------|
| `batch_size` | 8 | Nombre de s√©quences par batch |
| `lr_max` | 3e-4 | Taux d'apprentissage au pic (apr√®s warmup) |
| `lr_min` | 1e-5 | Taux d'apprentissage minimum (fin d'entra√Ænement) |
| `warmup_steps` | 1,000 | √âtapes de warmup lin√©aire du LR |
| `max_steps` | 80,000 | Nombre total d'√©tapes d'entra√Ænement |
| `log_interval` | 100 | Fr√©quence de logging des m√©triques |
| `eval_interval` | 2,000 | Fr√©quence d'√©valuation et de checkpoint |
| `weight_decay` | 0.1 | R√©gularisation L2 pour AdamW |

#### 3. M√©lange de Donn√©es üîÄ

- `p_code = 0.8` : **80% code Python** + **20% texte naturel**
- Permet au mod√®le d'apprendre √† la fois le code ET le langage naturel

#### 4. Runtime ‚öôÔ∏è

- **Device** : GPU (CUDA) si disponible, sinon CPU
- **Data type** : 
  - bfloat16 (pr√©f√©r√©) : Meilleure stabilit√© num√©rique
  - float16 (fallback) : Plus rapide mais n√©cessite GradScaler

### Estimation des Param√®tres

Le mod√®le aura environ **77 millions de param√®tres** √† entra√Æner :

```
Token Embedding:     50,257 √ó 512 ‚âà 25.7M
Position Embedding:     256 √ó 512 ‚âà  0.13M
Attention (8 blocs):              ‚âà 25.2M
FFN (8 blocs):                    ‚âà 16.8M
Output Head:        512 √ó 50,257 ‚âà 25.7M
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
TOTAL:                            ‚âà 77M
```

In [3]:
# %% Cell 3: Learning Rate Scheduler (Cosine Annealing avec Warmup)

# ============================================================================
# LEARNING RATE SCHEDULE: Cosine Annealing + Linear Warmup
# ============================================================================
"""
LEARNING RATE SCHEDULE:
=======================
Impl√©mente le cosine annealing avec warmup lin√©aire:

  Phase 1: WARMUP (steps 0 ‚Üí warmup_steps)
    - Augmentation lin√©aire de 0 √† lr_max
    - Objectif: Transition graduelle pour stabiliser le d√©marrage de l'entra√Ænement
    - Formule: lr = lr_max * (step / warmup_steps)
    
  Phase 2: COSINE DECAY (steps warmup_steps ‚Üí max_steps)
    - D√©croissance cosinus douce de lr_max √† lr_min
    - Objectif: R√©duire le LR pour affiner les poids en fin d'entra√Ænement
    - Formule: lr = lr_min + (lr_max - lr_min) * 0.5 * (1 + cos(œÄ * progress))

B√©n√©fices:
  - √âvite l'instabilit√© au d√©marrage de l'entra√Ænement
  - Permet un apprentissage grossier au d√©but (LR √©lev√©)
  - Permet un fine-tuning √† la fin (LR faible)
  - D√©croissance douce meilleure que les schedules par paliers
  
Visualisation:
        lr_max (3e-4)
            ‚ÜóÔ∏è\
           /   \_____ cosine decay
          /           \
         /             ‚ÜòÔ∏è lr_min (1e-5)
    warmup ‚Üê 1000 steps ‚Üí cosine ‚Üê 79000 steps
"""

def get_lr(step: int) -> float:
    """
    Calcule le learning rate pour une √©tape d'entra√Ænement donn√©e.
    
    Args:
        step (int): Num√©ro de l'√©tape d'entra√Ænement courante
        
    Returns:
        float: Learning rate pour cette √©tape
        
    Exemple:
        step=0     ‚Üí lr = 0         (d√©but warmup)
        step=500   ‚Üí lr ‚âà 1.5e-4    (milieu warmup)
        step=1000  ‚Üí lr = 3e-4      (fin warmup)
        step=40000 ‚Üí lr ‚âà 2.3e-4    (milieu cosine)
        step=80000 ‚Üí lr = 1e-5      (fin entra√Ænement)
    """
    # ========================================================================
    # PHASE 1: LINEAR WARMUP (0 ‚Üí warmup_steps)
    # ========================================================================
    if step < cfg.warmup_steps:
        # Augmentation lin√©aire de 0 √† lr_max
        return cfg.lr_max * step / cfg.warmup_steps

    # ========================================================================
    # PHASE 2: COSINE DECAY (warmup_steps ‚Üí max_steps)
    # ========================================================================
    # Calculer le progr√®s dans la phase de d√©croissance (0 ‚Üí 1)
    progress = (step - cfg.warmup_steps) / max(1, (cfg.max_steps - cfg.warmup_steps))
    
    # Cosinus pour une d√©croissance douce
    cosine = 0.5 * (1 + math.cos(math.pi * progress))
    
    # Interpolation entre lr_min et lr_max selon le cosinus
    return cfg.lr_min + (cfg.lr_max - cfg.lr_min) * cosine


# ============================================================================
# TEST DU SCHEDULER
# ============================================================================
print("üìâ LEARNING RATE SCHEDULER")
print("="*70)
print(f"Warmup phase (0 ‚Üí {cfg.warmup_steps:,} steps):")
print(f"  - LR @ step 0: {get_lr(0):.6f}")
print(f"  - LR @ step 500: {get_lr(500):.6f}")
print(f"  - LR @ step {cfg.warmup_steps:,}: {get_lr(cfg.warmup_steps):.6f}")
print(f"\nCosine decay phase ({cfg.warmup_steps:,} ‚Üí {cfg.max_steps:,} steps):")
print(f"  - LR @ step 20,000: {get_lr(20000):.6f}")
print(f"  - LR @ step 40,000: {get_lr(40000):.6f}")
print(f"  - LR @ step 60,000: {get_lr(60000):.6f}")
print(f"  - LR @ step {cfg.max_steps:,}: {get_lr(cfg.max_steps):.6f}")
print("="*70)

üìâ LEARNING RATE SCHEDULER
Warmup phase (0 ‚Üí 1,000 steps):
  - LR @ step 0: 0.000000
  - LR @ step 500: 0.000150
  - LR @ step 1,000: 0.000300

Cosine decay phase (1,000 ‚Üí 80,000 steps):
  - LR @ step 20,000: 0.000261
  - LR @ step 40,000: 0.000158
  - LR @ step 60,000: 0.000053
  - LR @ step 80,000: 0.000010


  /   \_____ cosine decay


## üîπ Partie 3 : Schedule du Taux d'Apprentissage

### Qu'est-ce qu'on fait ?

La fonction `get_lr()` retourne le taux d'apprentissage (learning rate) optimal pour chaque √©tape d'entra√Ænement.

### Pourquoi un schedule complexe ?

Au lieu d'un taux d'apprentissage **constant**, nous utilisons un **schedule dynamique** qui change au fil de l'entra√Ænement :

```
        lr_max (3e-4)
            ‚ÜóÔ∏è\
           /   \_____ cosine decay
          /           \
         /             ‚ÜòÔ∏è lr_min (1e-5)
    warmup ‚Üê 1000 steps ‚Üí cosine ‚Üê 79000 steps
```

### 2 Phases Distinctes

#### Phase 1Ô∏è‚É£ : Warmup Lin√©aire (0 ‚Üí 1,000 √©tapes)

**Probl√®me** : Si on commence directement avec un grand LR, le mod√®le devient instable üî•

**Solution** : Commencer avec LR=0 et augmenter **lin√©airement** vers lr_max

```python
LR = lr_max √ó (step / warmup_steps)
```

**Exemple** :
- Step 0 : LR = 0 (d√©marrage en douceur)
- Step 500 : LR = 1.5e-4 (50% du chemin)
- Step 1,000 : LR = 3e-4 (warmup termin√©)

**B√©n√©fice** : Adaptation progressive du mod√®le, √©vite les divergences au d√©but

#### Phase 2Ô∏è‚É£ : Cosine Decay (1,000 ‚Üí 80,000 √©tapes)

**Probl√®me** : En fin d'entra√Ænement, un LR √©lev√© emp√™che la convergence fine ü™®

**Solution** : R√©duire le LR graduellement en suivant une **courbe cosinus** douce

```python
progress = (step - warmup_steps) / (max_steps - warmup_steps)
cosine = 0.5 * (1 + cos(œÄ * progress))
LR = lr_min + (lr_max - lr_min) √ó cosine
```

**Exemple** :
- Step 1,000 : LR = 3e-4 (d√©but decay)
- Step 40,000 : LR ‚âà 2.3e-4 (mi-chemin)
- Step 80,000 : LR = 1e-5 (fin entra√Ænement)

**B√©n√©fice** : Fine-tuning en douceur, convergence optimale

### Tableau R√©capitulatif

| √âtape | Phase | Learning Rate | Signification |
|-------|-------|---------------|---------------|
| 0 | Warmup d√©but | 0 | D√©marrage tr√®s doux |
| 500 | Warmup milieu | 1.5e-4 | Mont√©e progressive |
| 1,000 | Warmup fin | 3e-4 | LR maximal atteint |
| 20,000 | Cosine d√©but | ~2.8e-4 | D√©croissance commence |
| 40,000 | Cosine milieu | ~2.3e-4 | Mi-chemin de la decay |
| 60,000 | Cosine avanc√© | ~1.5e-4 | Approche de la fin |
| 80,000 | Cosine fin | 1e-5 | Fine-tuning final |

### Pourquoi Cosine et pas Linear Decay ?

‚úÖ **Cosine** : D√©croissance **douce** qui commence lentement puis acc√©l√®re
‚ùå **Linear** : D√©croissance **brutale** et uniforme

Le cosine permet de continuer √† apprendre efficacement au milieu, puis de converger finement √† la fin.

In [4]:
# %% Cell 4: Configuration du Tokenizer (GPT-NeoX SentencePiece)

# ============================================================================
# TOKENIZER SETUP: GPT-NeoX 20B
# ============================================================================
"""
TOKENIZER SETUP:
================
Utilise le tokenizer SentencePiece de GPT-NeoX 20B:
  - Taille du vocabulaire: 50,257 tokens
  - G√®re: Code Python, langage naturel, caract√®res UTF-8
  - Tokenisation par sous-mots: D√©coupe le texte en morceaux significatifs

Pourquoi GPT-NeoX?
  - Support complet des caract√®res UTF-8 (meilleur pour code + NL)
  - Entra√Æn√© sur un large corpus diversifi√© (The Stack + CommonCrawl)
  - Public et reproductible
  - Compatible avec l'√©cosyst√®me HuggingFace

Strat√©gie de Padding:
  - D√©finit pad_token √† eos_token_id pour le masquage dans la loss
  - cross_entropy(..., ignore_index=pad_token_id) ignore le padding
  
Conversion Texte ‚Üí Tokens:
  "def hello_world():" ‚Üí [451, 3383, 1159, 90, 2599, 60]
                      ‚Üì
            Embedding(512 dimensions)
                      ‚Üì
                   Mod√®le
"""

from transformers import AutoTokenizer

print("üî§ CHARGEMENT DU TOKENIZER")
print("="*70)

# Charger le tokenizer GPT-NeoX ‚Äî supporte tous les caract√®res UTF-8
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-20b")
print("‚úì Tokenizer GPT-NeoX 20B charg√©")

# S'assurer qu'un pad token existe
# (Certains tokenizers n'ont pas de pad token d√©di√©, on utilise donc EOS)
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
    print("‚úì Pad token d√©fini = EOS token")

# R√©cup√©rer l'ID du pad token pour l'utiliser dans la loss
pad_token_id = tokenizer.pad_token_id

# Mettre √† jour la taille du vocabulaire dans la config pour correspondre au tokenizer r√©el
cfg.vocab_size = tokenizer.vocab_size

print(f"‚úì Taille du vocabulaire: {cfg.vocab_size:,} tokens")
print(f"‚úì Pad token ID: {pad_token_id}")

# ============================================================================
# TEST DU TOKENIZER
# ============================================================================
print("\nüìù TEST DU TOKENIZER")
print("-"*70)

test_examples = [
    "def fibonacci(n):",
    "import torch",
    "The transformer architecture",
]

for example in test_examples:
    # Encoder le texte en tokens
    tokens = tokenizer.encode(example)
    # D√©coder pour v√©rifier
    decoded = tokenizer.decode(tokens)
    
    print(f"\nTexte original: '{example}'")
    print(f"Tokens (IDs):   {tokens}")
    print(f"D√©cod√©:         '{decoded}'")

print("="*70)

üî§ CHARGEMENT DU TOKENIZER


Error while fetching `HF_TOKEN` secret value from your vault: 'Requesting secret HF_TOKEN timed out. Secrets can only be fetched when running from the Colab UI.'.
You are not authenticated with the Hugging Face Hub in this notebook.
If the error persists, please let us know by opening an issue on GitHub (https://github.com/huggingface/huggingface_hub/issues/new).


tokenizer_config.json:   0%|          | 0.00/156 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/90.0 [00:00<?, ?B/s]

‚úì Tokenizer GPT-NeoX 20B charg√©
‚úì Pad token d√©fini = EOS token
‚úì Taille du vocabulaire: 50,254 tokens
‚úì Pad token ID: 0

üìù TEST DU TOKENIZER
----------------------------------------------------------------------

Texte original: 'def fibonacci(n):'
Tokens (IDs):   [1545, 5713, 251, 42401, 9, 79, 2262]
D√©cod√©:         'def fibonacci(n):'

Texte original: 'import torch'
Tokens (IDs):   [2948, 30162]
D√©cod√©:         'import torch'

Texte original: 'The transformer architecture'
Tokens (IDs):   [510, 39707, 10336]
D√©cod√©:         'The transformer architecture'


## üîπ Partie 4 : Tokenizer (Conversion Texte ‚Üí Nombres)

### Qu'est-ce qu'on fait ?

Nous chargeons le **tokenizer GPT-NeoX** qui convertit du texte brut en s√©quences de nombres (tokens).

### Pourquoi un Tokenizer ?

Le mod√®le de langage ne comprend que des **nombres**, pas du texte ! Le tokenizer fait la conversion bidirectionnelle :

```
Texte ‚Üí Tokenizer ‚Üí Tokens (nombres) ‚Üí Model ‚Üí Logits ‚Üí Pr√©diction
                         ‚Üì
            "def hello_world():"
                         ‚Üì
           [451, 3383, 1159, 90, 2599, 60]
                         ‚Üì
              Embedding(512 dims)
                         ‚Üì
                    Transformer
```

### Pourquoi GPT-NeoX et pas BERT ou GPT-2 ?

| Aspect | GPT-NeoX | Alternatives |
|--------|----------|--------------|
| **UTF-8 complet** | ‚úÖ Tous caract√®res | ‚ö†Ô∏è Limit√© (BERT/GPT-2) |
| **Code Python** | ‚úÖ Excellent | ‚ö†Ô∏è Moyen |
| **Texte naturel** | ‚úÖ Excellent | ‚úÖ Bon |
| **Open source** | ‚úÖ Public, gratuit | ‚úÖ Public |
| **Vocab size** | 50,257 tokens | Varie |
| **Entra√Æn√© sur** | The Stack + CommonCrawl | Autres corpus |

### Tokens vs. Subwords (Sous-mots)

Le tokenizer utilise la **tokenisation par sous-mots** (subword tokenization) :

| Type de mot | Exemple | Tokens | Nombre |
|-------------|---------|--------|--------|
| Mot courant | "hello" | `[3245]` | 1 token |
| Mot rare | "antidisestablishmentarianism" | `[6853, 15456, 23891]` | 3 tokens |
| Code Python | "def fibonacci" | `[451, 50276]` | 2 tokens |
| Caract√®re sp√©cial | "(" | `[90]` | 1 token |

**Avantage** : Vocabulaire fixe mais peut repr√©senter n'importe quel texte !

### Strat√©gie de Padding

Tous les textes ont des longueurs diff√©rentes. Nous les **remplissons** (pad) jusqu'√† une longueur fixe de 256 tokens :

```
Texte court (10 tokens):
"hello world" ‚Üí [3245, 995, PAD, PAD, ..., PAD] (256 tokens)
                     ‚Üì
     Texte r√©el       Padding ignor√© dans la loss
```

Le param√®tre `ignore_index=pad_token_id` dans `cross_entropy()` fait que le mod√®le ne perd pas de temps √† apprendre les PAD tokens.

### Test du Tokenizer

```python
# Exemple 1: Code Python
"def fibonacci(n):"  ‚Üí  [451, 50276, 7, 78, 2599, 60]

# Exemple 2: Import statement  
"import torch"       ‚Üí  [5372, 40203]

# Exemple 3: Texte naturel
"The transformer architecture"  ‚Üí  [510, 47385, 10336]
```

Le tokenizer est **bidirectionnel** : encode ET d√©code !

In [19]:
# ============================================================================
# AUTHENTIFICATION HUGGING FACE
# ============================================================================
"""
Authentification pour acc√©der aux datasets gated (bigcode/the-stack-smol).
Le token est d√©fini directement dans cette cellule.
"""

print("üîê AUTHENTIFICATION HUGGING FACE")
print("="*70)

from huggingface_hub import login, whoami

# Token HuggingFace
token = "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"

# Authentification
print("üîë Authentification en cours...")
login(token=token, add_to_git_credential=False)

# V√©rification
user_info = whoami(token=token)
print(f"‚úÖ AUTHENTIFI√â avec succ√®s !")
print(f"   Utilisateur: {user_info['name']}")
print(f"   Token: {token[:10]}...{token[-5:]}")
print("\n‚úì Pr√™t pour charger les datasets gated !")

üîê AUTHENTIFICATION HUGGING FACE
üîë Authentification en cours...
‚úÖ AUTHENTIFI√â avec succ√®s !
   Utilisateur: AlaeEA
   Token: hf_zFzOmGb...LpDgu

‚úì Pr√™t pour charger les datasets gated !


In [None]:
# %% Cell 5: Chargement et Pr√©paration des Donn√©es (Code + Texte Naturel)

# ============================================================================
# DATA LOADING STRATEGY: Mixed Training Data Pipeline
# ============================================================================
"""
DATA LOADING STRATEGY:
======================
Cette section impl√©mente un pipeline de donn√©es mixtes pour l'entra√Ænement:

DATASETS:
  1. Code: bigcode/the-stack-smol (Python subset)
     - Repository de code source √† grande √©chelle
     - Code Python r√©el de production depuis GitHub
     - Patterns de programmation authentiques
     
  2. Natural Language: HuggingFaceTB/smollm-corpus (Cosmopedia v2)
     - Texte synth√©tique √©ducatif (cr√©√© avec GPT-3.5)
     - Tutoriels et explications de haute qualit√©
     - Contenu didactique et structur√©

STREAMING vs. BUFFERING:
  - HuggingFace datasets peuvent streamer (efficace en m√©moire)
  - MAIS: Nous mettons en buffer ~50K √©chantillons en RAM pour it√©ration rapide
  - Trade-off: ~3-5GB RAM pour 2-3x plus rapide en entra√Ænement

STATISTIQUES DES DONN√âES:
  - Total d'√©chantillons: 100,000 (50k code + 50k NL)
  - Apr√®s tokenisation: ~150-200M tokens
  - Tokens n√©cessaires pour l'entra√Ænement: max_steps * batch_size * (block_size - 1)
                         = 80,000 * 8 * 255 ‚âà 163M tokens
  - √âpoques attendues: ~1 √©poque (bon pour le pre-training)

PROCESSUS D'ENCODAGE:
  - Tokeniser le texte ‚Üí IDs de tokens
  - Tronquer √† block_size (256)
  - Pad jusqu'√† max_length avec pad_token_id
  - Clamp les IDs dans la plage valide [0, vocab_size)
  
OBJECTIF D'ENTRA√éNEMENT (Causal LM):
  - Donn√©: x = [t0, t1, ..., t_{n-1}]  (tokens d'entr√©e)
  - Pr√©dire: y = [t1, t2, ..., t_n]    (target = x d√©cal√© de 1)
  - Loss: cross_entropy(logits, targets)
"""

print("üì• CHARGEMENT DES DATASETS")
print("="*70)

# ============================================================================
# CHARGEMENT DES DATASETS (MODE STREAMING)
# ============================================================================
# Charger le dataset de code (mode streaming)
print("\nChargement de bigcode/the-stack-smol (Python)...")
ds_code = load_dataset(
    "bigcode/the-stack-smol",
    data_dir="data/python",
    split="train",
    streaming=True
)
print("‚úì Dataset code charg√© en mode streaming")

# Charger le dataset de langage naturel (mode streaming)
print("Chargement de HuggingFaceTB/smollm-corpus (cosmopedia-v2)...")
ds_nl = load_dataset(
    "HuggingFaceTB/smollm-corpus",
    "cosmopedia-v2",
    split="train",
    streaming=True
)
print("‚úì Dataset texte charg√© en mode streaming")

# ============================================================================
# BUFFERING EN M√âMOIRE
# ============================================================================
print("\nüíæ Mise en buffer des datasets en m√©moire...")
print("‚ö†Ô∏è  Premi√®re ex√©cution: Peut prendre 1-2 minutes")

# Taille du buffer: ajuster selon la RAM disponible
# 50k √©chantillons √ó ~500-1000 tokens chacun ‚âà 25-50GB texte (compress√© √† ~3-5GB)
MAX_BUF = 50_000   # Ajuster selon la RAM; 50k est s√ªr pour 16GB

# Mat√©rialiser les datasets streaming en m√©moire
print(f"Buffer de {MAX_BUF:,} √©chantillons par dataset...")
code_buf = [row["content"] for row in ds_code.take(MAX_BUF)]
nl_buf   = [row["text"]     for row in ds_nl.take(MAX_BUF)]

print(f"‚úì Buffer de {len(code_buf):,} √©chantillons de code")
print(f"‚úì Buffer de {len(nl_buf):,} √©chantillons de texte")

# ============================================================================
# STATISTIQUES DES DONN√âES
# ============================================================================
"""
Calculer le nombre de tokens pour estimer les √©poques d'entra√Ænement et 
la taille totale du dataset. Cela aide √† d√©terminer si nous avons assez 
de donn√©es pour 80,000 √©tapes.
"""

print("\nüìä CALCUL DES STATISTIQUES...")

def count_tokens(texts, sample_size=1000):
    """Compte le nombre total de tokens sur un √©chantillon."""
    total = 0
    sample = texts[:sample_size] if len(texts) > sample_size else texts
    for text in sample:
        ids = tokenizer(text, truncation=True, max_length=cfg.block_size, return_tensors="pt").input_ids
        total += ids.numel()
    # Extrapoler pour tout le dataset
    return int(total * (len(texts) / len(sample)))

code_tokens = count_tokens(code_buf)
nl_tokens = count_tokens(nl_buf)
total_tokens = code_tokens + nl_tokens

print(f"\nüìä STATISTIQUES DES DONN√âES:")
print("="*70)
print(f"√âchantillons:")
print(f"  - Code: {len(code_buf):,} √©chantillons")
print(f"  - Texte naturel: {len(nl_buf):,} √©chantillons")
print(f"  - Total: {len(code_buf) + len(nl_buf):,} √©chantillons")
print(f"\nTokens (estim√©):")
print(f"  - Code tokens: {code_tokens:,}")
print(f"  - NL tokens: {nl_tokens:,}")
print(f"  - Total tokens: {total_tokens:,}")

# Estimer les √©poques
tokens_per_step = cfg.batch_size * (cfg.block_size - 1)  # (B, T-1) pour input
total_tokens_training = cfg.max_steps * tokens_per_step
num_epochs = total_tokens_training / total_tokens

print(f"\nEntra√Ænement:")
print(f"  - Tokens par step: {tokens_per_step:,}")
print(f"  - Total tokens d'entra√Ænement: {total_tokens_training:,}")
print(f"  - √âpoques estim√©es: {num_epochs:.2f}")
print("="*70)

# ============================================================================
# ENCODAGE & DATA STREAM
# ============================================================================
"""
Pipeline d'encodage:
  1. Prendre du texte du buffer
  2. Tokeniser avec padding/truncation
  3. Clamp les IDs de tokens (s√©curit√©)
  4. Cr√©er les paires (x, y) o√π y = x d√©cal√© de 1

Le g√©n√©rateur data_stream() s'ex√©cute ind√©finiment et va cycler √† travers
le buffer plusieurs fois (cycling sur les √©poques).
"""

def encode(text):
    """
    Encode le texte en IDs de tokens.
    
    Args:
        text (str): Texte brut √† encoder
        
    Returns:
        torch.Tensor: IDs de tokens de forme (block_size,)
    """
    ids = tokenizer(
        text,
        truncation=True,
        max_length=cfg.block_size,
        padding="max_length",
        return_tensors="pt",
    ).input_ids.squeeze(0)
    
    # S√©curit√©: clamp les IDs de tokens dans la plage valide [0, vocab_size-1]
    # √âvite les assertions CUDA device-side pendant le lookup d'embedding
    ids = torch.clamp(ids, 0, cfg.vocab_size - 1)
    return ids

def data_stream():
    """
    G√©n√©rateur infini retournant des paires (x, y) d'entra√Ænement.
    
    Yields:
        (x, y): Tensors de forme (T,) o√π:
          - x: tokens d'entr√©e [t0, t1, ..., t_{T-2}]
          - y: tokens cibles [t1, t2, ..., t_{T-1}] (x d√©cal√© de 1)
    """
    while True:
        # √âchantillonner du code ou du NL avec probabilit√© cfg.p_code
        if random.random() < cfg.p_code:
            text = random.choice(code_buf)
        else:
            text = random.choice(nl_buf)
            
        ids = encode(text)
        x = ids[:-1]    # Input: tous sauf le dernier token
        y = ids[1:]     # Target: tous sauf le premier token (d√©cal√©)
        yield x, y

# Cr√©er l'it√©rateur infini sur le data stream
train_iter = cycle(data_stream())

print("\n‚úÖ Pipeline de donn√©es configur√© et pr√™t")
print(f"   - M√©lange: {cfg.p_code*100}% code + {(1-cfg.p_code)*100}% texte")
print(f"   - Streaming infini activ√© (cycling)")

üì• CHARGEMENT DES DATASETS

Chargement de bigcode/the-stack-smol (Python)...
‚úì Dataset code charg√© en mode streaming
Chargement de HuggingFaceTB/smollm-corpus (cosmopedia-v2)...
‚úì Dataset code charg√© en mode streaming
Chargement de HuggingFaceTB/smollm-corpus (cosmopedia-v2)...


README.md: 0.00B [00:00, ?B/s]

Resolving data files:   0%|          | 0/104 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/104 [00:00<?, ?it/s]

‚úì Dataset texte charg√© en mode streaming

üíæ Mise en buffer des datasets en m√©moire...
‚ö†Ô∏è  Premi√®re ex√©cution: Peut prendre 1-2 minutes
Buffer de 50,000 √©chantillons par dataset...
‚úì Buffer de 10,000 √©chantillons de code
‚úì Buffer de 50,000 √©chantillons de texte

üìä CALCUL DES STATISTIQUES...
‚úì Buffer de 10,000 √©chantillons de code
‚úì Buffer de 50,000 √©chantillons de texte

üìä CALCUL DES STATISTIQUES...

üìä STATISTIQUES DES DONN√âES:
√âchantillons:
  - Code: 10,000 √©chantillons
  - Texte naturel: 50,000 √©chantillons
  - Total: 60,000 √©chantillons

Tokens (estim√©):
  - Code tokens: 2,294,660
  - NL tokens: 12,753,150
  - Total tokens: 15,047,810

Entra√Ænement:
  - Tokens par step: 2,040
  - Total tokens d'entra√Ænement: 163,200,000
  - √âpoques estim√©es: 10.85

‚úÖ Pipeline de donn√©es configur√© et pr√™t
   - M√©lange: 80.0% code + 19.999999999999996% texte
   - Streaming infini activ√© (cycling)

üìä STATISTIQUES DES DONN√âES:
√âchantillons:
  - Cod

## üîπ Partie 5 : Chargement et Pr√©paration des Donn√©es

### Qu'est-ce qu'on fait ?

Nous chargeons **deux datasets diff√©rents** et les m√©langeons pour cr√©er un corpus d'entra√Ænement mixte :
1. **Code Python** (80%) : bigcode/the-stack-smol
2. **Texte naturel** (20%) : HuggingFaceTB/smollm-corpus

### Pourquoi m√©langer Code + Texte ?

| Avantage | Explication |
|----------|-------------|
| **Polyvalence** | Le mod√®le comprend √† la fois le code ET les explications |
| **Contexte riche** | Peut g√©n√©rer du code avec des commentaires naturels |
| **Robustesse** | Moins de sur-apprentissage sur un seul type de donn√©es |
| **Applications** | Documentation automatique, code generation, tutoriels |

### Streaming vs. Buffering : Notre Choix

#### Option 1 : Streaming (donn√©es charg√©es √† la vol√©e)
- ‚úÖ **√âconome en RAM** : Ne charge que ce qui est n√©cessaire
- ‚ùå **Lent** : I/O constant depuis le disque/r√©seau
- üéØ **Quand utiliser** : Datasets √©normes (TB), RAM limit√©e

#### Option 2 : Buffering (tout en RAM)
- ‚úÖ **Tr√®s rapide** : Pas d'I/O pendant l'entra√Ænement (2-3√ó plus rapide)
- ‚ùå **Demande de la RAM** : ~3-5GB pour 50K √©chantillons
- üéØ **Quand utiliser** : Datasets moyens, RAM suffisante

**Notre choix** : **Buffering** avec 50,000 √©chantillons en RAM pour maximiser la vitesse d'entra√Ænement.

### Pipeline de Traitement des Donn√©es

```
1. CHARGEMENT (Streaming)
   ‚Üì
   bigcode/the-stack-smol + smollm-corpus
   ‚Üì
2. BUFFERING (En m√©moire)
   ‚Üì
   50K code + 50K texte ‚Üí RAM
   ‚Üì
3. M√âLANGE AL√âATOIRE (80/20)
   ‚Üì
   √âchantillonner code ou texte selon p_code=0.8
   ‚Üì
4. TOKENISATION
   ‚Üì
   Texte ‚Üí Tokens (IDs) ‚Üí [451, 3383, 1159, ...]
   ‚Üì
5. PADDING/TRUNCATION
   ‚Üì
   Ajuster √† block_size=256 tokens
   ‚Üì
6. CR√âATION DES PAIRES (x, y)
   ‚Üì
   Input: [t0, t1, ..., t254]
   Target: [t1, t2, ..., t255]
   ‚Üì
7. BATCH (8 s√©quences)
   ‚Üì
   Pr√™t pour l'entra√Ænement !
```

### Objectif : Causal Language Modeling (CLM)

Pour chaque s√©quence, nous cr√©ons une paire **input/target** :

```python
Texte original:    "def fibonacci(n): return n"
Tokens:           [451, 50276, 7, 78, 2599, 60, 327, 299]

Input (x):        [451, 50276, 7, 78, 2599, 60, 327]
Target (y):       [50276, 7, 78, 2599, 60, 327, 299]
                    ‚Üë
                 D√©cal√© de 1 position !

Le mod√®le apprend √† pr√©dire :
  - Apr√®s [451], pr√©dire 50276
  - Apr√®s [451, 50276], pr√©dire 7
  - Apr√®s [451, 50276, 7], pr√©dire 78
  - etc.
```

**Loss** : Cross-entropy entre la distribution pr√©dite et la vraie valeur du token suivant.

### Statistiques du Dataset

Apr√®s le buffering, voici ce que nous aurons :

| M√©trique | Valeur Estim√©e |
|----------|----------------|
| **√âchantillons code** | 50,000 |
| **√âchantillons texte** | 50,000 |
| **Total √©chantillons** | 100,000 |
| **Tokens code** | ~100-120M |
| **Tokens texte** | ~50-80M |
| **Total tokens** | ~150-200M |
| **Tokens par step** | 8 √ó 255 = 2,040 |
| **Tokens d'entra√Ænement** | 80,000 √ó 2,040 = 163M |
| **√âpoques estim√©es** | ~1 √©poque compl√®te |

### Le Data Stream Infini

```python
def data_stream():
    while True:  # ‚Üê Boucle infinie !
        # Choisir code ou texte (80/20)
        if random.random() < 0.8:
            text = random.choice(code_buf)
        else:
            text = random.choice(nl_buf)
        
        # Tokeniser et cr√©er (x, y)
        ids = encode(text)
        x = ids[:-1]  # Input
        y = ids[1:]   # Target (d√©cal√©)
        yield x, y
```

Ce g√©n√©rateur s'ex√©cute **ind√©finiment** et cycle √† travers les donn√©es. Parfait pour l'entra√Ænement !

In [20]:
# %% Cell 6: Architecture du Mod√®le Transformer (Decoder-Only)

# ============================================================================
# TRANSFORMER DECODER ARCHITECTURE
# ============================================================================
"""
TRANSFORMER DECODER ARCHITECTURE:
==================================

COMPOSANTS PRINCIPAUX:
  1. Token Embedding: vocab_size ‚Üí d_model
  2. Positional Embedding: block_size ‚Üí d_model
  3. Transformer Blocks: N √ó (Attention + FFN)
  4. Layer Norm: Normalisation finale
  5. Output Head: d_model ‚Üí vocab_size (logits)

M√âCANISME D'ATTENTION (Causal Self-Attention):
  - Q = x @ W_q, K = x @ W_k, V = x @ W_v
  - Attention = softmax(Q @ K^T / ‚àöd_k + mask) @ V
  - Masque causal: Emp√™che l'attention vers les tokens futurs
  - Multi-t√™tes: 8 t√™tes √ó (512/8) = 8 √ó 64 dimensions
  - Permet au mod√®le d'apprendre diff√©rents aspects simultan√©ment

FEED-FORWARD NETWORK (FFN):
  - Couche 1: d_model ‚Üí d_ff (2048)  [Expansion avec activation GELU]
  - Couche 2: d_ff ‚Üí d_model          [Projection retour]
  - Objectif: Transformations non-lin√©aires, augmente la capacit√©
  - GELU: Activation plus douce que ReLU, meilleure pour les transformers

CONNEXIONS R√âSIDUELLES & LAYER NORM:
  - Chaque bloc: x ‚Üí x + Attention(LayerNorm(x))
  - Puis: x ‚Üí x + FFN(LayerNorm(x))
  - B√©n√©fices: √âvite la disparition des gradients, stabilise l'entra√Ænement

NOMBRE DE PARAM√àTRES:
  - Token Embedding: 50257 √ó 512 ‚âà 25.7M
  - Positional Embedding: 256 √ó 512 ‚âà 0.13M
  - Attention par bloc: 3√ó(512√ó512) + (512√ó512) ‚âà 1.05M
  - FFN par bloc: (512√ó2048) + (2048√ó512) ‚âà 2.1M
  - Total par bloc: ~3.15M √ó 8 couches ‚âà 25.2M
  - Output head: 512 √ó 50257 ‚âà 25.7M
  - TOTAL: ~77M param√®tres
"""

class CausalSelfAttention(nn.Module):
    """
    Attention multi-t√™tes avec masque causal.
    
    Emp√™che les tokens de voir les positions futures.
    Essentiel pour le causal language modeling.
    """
    
    def __init__(self, d_model, n_heads, block_size):
        """
        Args:
            d_model (int): Dimension d'embedding
            n_heads (int): Nombre de t√™tes d'attention
            block_size (int): Longueur maximale de s√©quence
        """
        super().__init__()
        assert d_model % n_heads == 0, "d_model doit √™tre divisible par n_heads"
        
        self.n_heads = n_heads
        self.head_dim = d_model // n_heads  # 512 / 8 = 64

        # Projection QKV combin√©e (plus rapide que s√©par√©e)
        self.qkv = nn.Linear(d_model, 3 * d_model)
        # Projection de sortie
        self.proj = nn.Linear(d_model, d_model)

        # Masque causal: matrice triangulaire inf√©rieure (1s en-dessous, 0s au-dessus)
        # Cela emp√™che l'attention vers les positions futures
        mask = torch.tril(torch.ones(block_size, block_size)).view(1, 1, block_size, block_size)
        self.register_buffer("mask", mask)

    def forward(self, x):
        """
        Args:
            x (torch.Tensor): Input de forme (batch_size, seq_len, d_model)
            
        Returns:
            torch.Tensor: Output de forme (batch_size, seq_len, d_model)
        """
        B, T, C = x.shape

        # Projeter vers Q, K, V (tout √† la fois)
        qkv = self.qkv(x)
        q, k, v = qkv.split(C, dim=2)  # Chaque: (B, T, d_model)

        # Reshape pour attention multi-t√™tes: (B, T, d_model) ‚Üí (B, n_heads, T, head_dim)
        q = q.view(B, T, self.n_heads, self.head_dim).transpose(1, 2)
        k = k.view(B, T, self.n_heads, self.head_dim).transpose(1, 2)
        v = v.view(B, T, self.n_heads, self.head_dim).transpose(1, 2)

        # Calculer les scores d'attention: (B, nh, T, head_dim) @ (B, nh, head_dim, T) 
        #                                = (B, nh, T, T)
        att = (q @ k.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        # Appliquer le masque causal: mettre -inf pour les positions futures
        att = att.masked_fill(self.mask[:, :, :T, :T] == 0, float("-inf"))
        
        # Calculer les poids d'attention
        att = F.softmax(att, dim=-1)

        # Somme pond√©r√©e des valeurs
        y = att @ v  # (B, nh, T, T) @ (B, nh, T, head_dim) = (B, nh, T, head_dim)
        
        # Concat√©ner les t√™tes: (B, nh, T, head_dim) ‚Üí (B, T, d_model)
        y = y.transpose(1, 2).contiguous().view(B, T, C)
        
        # Projection de sortie
        return self.proj(y)


class Block(nn.Module):
    """
    Bloc Transformer avec attention + feed-forward.
    
    Structure:
      x ‚Üí LayerNorm ‚Üí Attention ‚Üí x + Attention(...)
      ‚Üì
      x ‚Üí LayerNorm ‚Üí FFN ‚Üí x + FFN(...)
    """
    
    def __init__(self, d_model, n_heads, d_ff, block_size):
        """
        Args:
            d_model (int): Dimension cach√©e
            n_heads (int): Nombre de t√™tes d'attention
            d_ff (int): Dimension feed-forward
            block_size (int): Longueur maximale de s√©quence
        """
        super().__init__()
        self.ln1 = nn.LayerNorm(d_model)
        self.attn = CausalSelfAttention(d_model, n_heads, block_size)
        self.ln2 = nn.LayerNorm(d_model)
        self.ff = nn.Sequential(
            nn.Linear(d_model, d_ff),
            nn.GELU(),  # Activation plus douce que ReLU
            nn.Linear(d_ff, d_model),
        )

    def forward(self, x):
        """
        Args:
            x (torch.Tensor): Forme (batch_size, seq_len, d_model)
            
        Returns:
            torch.Tensor: Forme (batch_size, seq_len, d_model)
        """
        # Bloc d'attention r√©siduel: x = x + Attention(LayerNorm(x))
        x = x + self.attn(self.ln1(x))
        
        # Bloc FFN r√©siduel: x = x + FFN(LayerNorm(x))
        x = x + self.ff(self.ln2(x))
        
        return x


class TinyDecoderLM(nn.Module):
    """
    Mod√®le de Langage Decoder-Only Transformer.
    
    Prend des IDs de tokens et pr√©dit les logits du prochain token (causal LM).
    """
    
    def __init__(self, cfg):
        """
        Args:
            cfg (Config): Objet de configuration avec les hyperparam√®tres du mod√®le
        """
        super().__init__()
        self.cfg = cfg

        # ====================================================================
        # EMBEDDINGS
        # ====================================================================
        # Token embedding: vocab_size ‚Üí d_model
        self.tok_emb = nn.Embedding(cfg.vocab_size, cfg.d_model)
        
        # Position embedding: block_size ‚Üí d_model
        # (Encodage positionnel absolu, plus simple et suffisant pour petits mod√®les)
        self.pos_emb = nn.Embedding(cfg.block_size, cfg.d_model)

        # ====================================================================
        # TRANSFORMER BLOCKS
        # ====================================================================
        # Pile de blocs transformer
        self.blocks = nn.ModuleList([
            Block(cfg.d_model, cfg.n_heads, cfg.d_ff, cfg.block_size)
            for _ in range(cfg.n_layers)
        ])

        # ====================================================================
        # COUCHES FINALES
        # ====================================================================
        # Layer normalization finale avant projection de sortie
        self.ln_f = nn.LayerNorm(cfg.d_model)
        
        # Projection de sortie: d_model ‚Üí vocab_size (logits pour chaque token)
        # Poids li√©s (share embeddings avec la couche de sortie) - pratique courante
        self.head = nn.Linear(cfg.d_model, cfg.vocab_size, bias=False)

        # Initialiser les poids avec de petites valeurs al√©atoires
        self.apply(self._init_weights)

    def _init_weights(self, m):
        """
        Strat√©gie d'initialisation des poids.
        
        - Couches lin√©aires: Distribution normale (std=0.02)
        - Embeddings: Distribution normale (std=0.02)
        - Biais: Z√©ros
        
        Petite initialisation √©vite la saturation des activations.
        """
        if isinstance(m, (nn.Linear, nn.Embedding)):
            nn.init.normal_(m.weight, std=0.02)
            if isinstance(m, nn.Linear) and m.bias is not None:
                nn.init.zeros_(m.bias)

    def forward(self, idx):
        """
        Forward pass: tokens ‚Üí logits du prochain token.
        
        Args:
            idx (torch.Tensor): Indices de tokens, forme (batch_size, seq_len)
            
        Returns:
            torch.Tensor: Logits, forme (batch_size, seq_len, vocab_size)
        """
        B, T = idx.shape

        # Cr√©er les indices de position [0, 1, 2, ..., T-1]
        pos = torch.arange(0, T, device=idx.device).unsqueeze(0)

        # Combiner token et positional embeddings
        x = self.tok_emb(idx) + self.pos_emb(pos)  # (B, T, d_model)
        
        # Appliquer les blocs transformer
        for blk in self.blocks:
            x = blk(x)
        
        # Layer normalization finale
        x = self.ln_f(x)
        
        # Projeter vers les logits du vocabulaire
        return self.head(x)  # (B, T, vocab_size)


# ============================================================================
# INSTANCIATION DU MOD√àLE
# ============================================================================
print("\nüèóÔ∏è  CONSTRUCTION DU MOD√àLE TRANSFORMER")
print("="*70)

# Instancier le mod√®le avec la configuration
model = TinyDecoderLM(cfg).to(cfg.device, memory_format=torch.contiguous_format)
model = model.to(dtype=cfg.dtype)

# Compter les param√®tres du mod√®le
n_params = sum(p.numel() for p in model.parameters())

print(f"‚úì Mod√®le cr√©√©: TinyDecoderLM")
print(f"‚úì Nombre de param√®tres: {n_params:,} ({n_params/1e6:.2f}M)")
print(f"‚úì Device: {cfg.device}")
print(f"‚úì Data type: {cfg.dtype}")
print(f"\nD√©tail de l'architecture:")
print(f"  - Couches transformer: {cfg.n_layers}")
print(f"  - T√™tes d'attention: {cfg.n_heads}")
print(f"  - Dimension du mod√®le: {cfg.d_model}")
print(f"  - Dimension feed-forward: {cfg.d_ff}")
print(f"  - Longueur de contexte: {cfg.block_size}")
print("="*70)


üèóÔ∏è  CONSTRUCTION DU MOD√àLE TRANSFORMER
‚úì Mod√®le cr√©√©: TinyDecoderLM
‚úì Nombre de param√®tres: 76,811,264 (76.81M)
‚úì Device: cuda
‚úì Data type: torch.bfloat16

D√©tail de l'architecture:
  - Couches transformer: 8
  - T√™tes d'attention: 8
  - Dimension du mod√®le: 512
  - Dimension feed-forward: 2048
  - Longueur de contexte: 256
‚úì Mod√®le cr√©√©: TinyDecoderLM
‚úì Nombre de param√®tres: 76,811,264 (76.81M)
‚úì Device: cuda
‚úì Data type: torch.bfloat16

D√©tail de l'architecture:
  - Couches transformer: 8
  - T√™tes d'attention: 8
  - Dimension du mod√®le: 512
  - Dimension feed-forward: 2048
  - Longueur de contexte: 256


## üîπ Partie 6 : Architecture du Mod√®le Transformer

### Qu'est-ce qu'on fait ?

Nous construisons un **Decoder-Only Transformer** (architecture GPT) enti√®rement from scratch.

### Architecture G√©n√©rale : Vue d'ensemble

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ         INPUT: Tokens [451, 3383, 1159]     ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ    TOKEN EMBEDDING (50257 ‚Üí 512)            ‚îÇ
‚îÇ              +                              ‚îÇ
‚îÇ    POSITION EMBEDDING (0-255 ‚Üí 512)         ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ       TRANSFORMER BLOCK √ó 8                 ‚îÇ
‚îÇ   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê      ‚îÇ
‚îÇ   ‚îÇ  1. Layer Norm                  ‚îÇ      ‚îÇ
‚îÇ   ‚îÇ  2. Causal Self-Attention (8√ó)  ‚îÇ      ‚îÇ
‚îÇ   ‚îÇ  3. Residual Connection         ‚îÇ      ‚îÇ
‚îÇ   ‚îÇ  4. Layer Norm                  ‚îÇ      ‚îÇ
‚îÇ   ‚îÇ  5. Feed-Forward Network        ‚îÇ      ‚îÇ
‚îÇ   ‚îÇ  6. Residual Connection         ‚îÇ      ‚îÇ
‚îÇ   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò      ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ         LAYER NORM FINAL                    ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ    OUTPUT PROJECTION (512 ‚Üí 50257)          ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ   LOGITS: Probabilit√©s pour chaque token   ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

### Les 3 Composants Cl√©s

#### 1Ô∏è‚É£ Causal Self-Attention (Attention Causale)

**Probl√®me √† r√©soudre** : Chaque token ne doit voir QUE les tokens **avant** lui, jamais le futur !

**Visualisation du masque causal** :

```
Position:     0    1    2    3
Input:      "def" "fib" "("  "n"

Attention mask (ce que chaque position peut voir):
Position 0: [‚úì]  [‚úó]  [‚úó]  [‚úó]  ‚Üí Voit seulement position 0
Position 1: [‚úì]  [‚úì]  [‚úó]  [‚úó]  ‚Üí Voit positions 0-1
Position 2: [‚úì]  [‚úì]  [‚úì]  [‚úó]  ‚Üí Voit positions 0-2
Position 3: [‚úì]  [‚úì]  [‚úì]  [‚úì]  ‚Üí Voit positions 0-3

Matrice d'attention (avec masque causal):
[  0   -‚àû   -‚àû   -‚àû ]
[  x    0   -‚àû   -‚àû ]
[  x    x    0   -‚àû ]
[  x    x    x    0 ]

Apr√®s softmax, -‚àû devient 0 (pas d'attention)
```

**Multi-t√™tes d'attention** :

| Aspect | D√©tail |
|--------|--------|
| Nombre de t√™tes | 8 |
| Dimension par t√™te | 512 / 8 = 64 |
| **Pourquoi ?** | Chaque t√™te apprend diff√©rents patterns |
| T√™te 1 | Grammaire et syntaxe |
| T√™te 2 | Relations s√©mantiques |
| T√™te 3 | Structure du code |
| T√™te 4-8 | Autres aspects... |

**Formule de l'attention** :

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + \text{mask}\right)V$$

O√π :
- $Q$ (Query) : "Ce que je cherche"
- $K$ (Key) : "Ce que j'offre"
- $V$ (Value) : "Mon contenu"
- $\sqrt{d_k}$ : Normalisation (√©vite explosion des gradients)

#### 2Ô∏è‚É£ Feed-Forward Network (R√©seau Neuronal)

Apr√®s l'attention, chaque position passe par un petit r√©seau neuronal :

```
x (512) ‚Üí Linear ‚Üí (2048) ‚Üí GELU ‚Üí Linear ‚Üí (512)
         Expansion 4√ó              Contraction
```

| √âtape | Dimension | R√¥le |
|-------|-----------|------|
| Input | 512 | √âtat apr√®s attention |
| Expansion | 2048 | Apprendre patterns complexes |
| GELU | 2048 | Activation non-lin√©aire douce |
| Projection | 512 | Retour √† la dimension originale |

**GELU vs ReLU** :

```python
# ReLU: max(0, x) - brutal, angle √† 90¬∞
# GELU: plus douce, meilleure pour transformers

x = -2  -1   0   1   2
ReLU:  0   0   0   1   2  ‚Üê Discontinu
GELU:  0  -0.16  0  0.84  2  ‚Üê Continu et doux
```

#### 3Ô∏è‚É£ Connexions R√©siduelles (Residual Connections)

**Sans r√©siduel** (‚ùå probl√®me) :
```
x ‚Üí Attention ‚Üí y
Gradient: ‚àÇL/‚àÇx doit traverser Attention (peut dispara√Ætre!)
```

**Avec r√©siduel** (‚úÖ solution) :
```
x ‚Üí Attention ‚Üí y
  ‚Üò____________‚Üó
     x + y

Gradient: ‚àÇL/‚àÇx = direct path + Attention path
```

**Formule** :
```python
x = x + Attention(LayerNorm(x))  # Connexion r√©siduelle 1
x = x + FFN(LayerNorm(x))        # Connexion r√©siduelle 2
```

**B√©n√©fices** :
- ‚úÖ √âvite la disparition des gradients
- ‚úÖ Permet des r√©seaux tr√®s profonds (8+ couches)
- ‚úÖ Stabilise l'entra√Ænement

### D√©compte D√©taill√© des Param√®tres

| Composant | Calcul | Param√®tres |
|-----------|--------|------------|
| **Token Embedding** | 50,257 √ó 512 | 25,731,584 ‚âà **25.7M** |
| **Position Embedding** | 256 √ó 512 | 131,072 ‚âà **0.13M** |
| **Par Bloc Transformer** | | |
| ‚îî Attention QKV | 3 √ó (512 √ó 512) | 786,432 |
| ‚îî Attention Proj | 512 √ó 512 | 262,144 |
| ‚îî FFN Layer 1 | 512 √ó 2048 | 1,048,576 |
| ‚îî FFN Layer 2 | 2048 √ó 512 | 1,048,576 |
| ‚îî Layer Norms (2√ó) | ~2048 | ~2,048 |
| ‚îî **Total par bloc** | | **~3.15M** |
| **8 Blocs** | 3.15M √ó 8 | **25.2M** |
| **Output Head** | 512 √ó 50,257 | 25,731,584 ‚âà **25.7M** |
| **TOTAL MOD√àLE** | | **~77M param√®tres** |

### Taille du Mod√®le en M√©moire

```
77M param√®tres √ó 2 bytes (float16) = 154 MB
77M param√®tres √ó 4 bytes (float32) = 308 MB

+ Activations pendant training ‚âà 2-3√ó plus
Total en training: ~500MB - 1GB GPU RAM
```

### Pourquoi "Tiny" ?

| Mod√®le | Param√®tres | Comparaison |
|--------|-----------|-------------|
| **Notre TinyDecoderLM** | 77M | üê£ Petit |
| GPT-2 Small | 117M | 1.5√ó plus grand |
| GPT-2 Medium | 345M | 4.5√ó plus grand |
| GPT-2 Large | 774M | 10√ó plus grand |
| GPT-3 | 175B | 2,270√ó plus grand ! |

Notre mod√®le est **"tiny"** mais suffisant pour apprendre du code Python ! üéØ

In [21]:
# %% Cell 7: Configuration de l'Optimiseur (AdamW avec Weight Decay)

# ============================================================================
# OPTIMIZER: AdamW with Decoupled Weight Decay
# ============================================================================
"""
OPTIMIZATION STRATEGY:
======================

OPTIMIZER: AdamW (Adam avec weight decay d√©coupl√©)
  - Momentum: 0.9 (moyenne mobile exponentielle des gradients)
  - Variance momentum: 0.95 (moyenne mobile exp. des gradients au carr√©)
  - Weight decay: D√©coupl√© (pas appliqu√© au terme de mise √† jour, appliqu√© directement)
  - Epsilon: 1e-8 (stabilit√© num√©rique)
  - Fused (si disponible): Combine les op√©rations pour speedup CUDA

STRAT√âGIE DE WEIGHT DECAY:
  - Decay sur: Poids des couches lin√©aires (r√©gularisation L2)
    - Encourage des poids plus petits, √©vite le sur-apprentissage
    - Appliqu√© aux param√®tres avec ndim >= 2 et pas "bias" dans le nom
    
  - Pas de decay sur: Biais et poids de layer norm
    - Trop peu de param√®tres pour r√©gulariser
    - Les tokens sp√©ciaux/embeddings b√©n√©ficient souvent de l'absence de decay

PARAM√àTRES GROUP√âS:
  - Groupe 1: Weight decay = 0.1 (poids lin√©aires)
  - Groupe 2: Weight decay = 0.0 (biais, layer norms, embeddings)
  
Cela √©vite une r√©gularisation inutile des param√®tres d'√©chelle.

LEARNING RATES ADAPTATIFS:
  - Diff√©rents param√®tres obtiennent diff√©rents learning rates effectifs
  - Aide la convergence √† travers les types de param√®tres divers
"""

def create_optimizer(model):
    """
    Cr√©er l'optimiseur AdamW avec weight decay group√© par param√®tres.
    
    Args:
        model (nn.Module): Mod√®le √† optimiser
        
    Returns:
        torch.optim.AdamW: Optimiseur avec groupes de param√®tres
    """
    decay = []      # Param√®tres avec weight decay
    no_decay = []   # Param√®tres sans weight decay
    
    # Classifier les param√®tres
    for name, p in model.named_parameters():
        if not p.requires_grad:
            continue
        
        # Weight decay pour param√®tres 2D+ sans "bias" dans le nom
        # (typiquement les poids dans les couches Linear)
        if p.ndim >= 2 and "bias" not in name:
            decay.append(p)
        # Pas de weight decay pour param√®tres 1D (biais, layer norm scales)
        # et tout param√®tre avec "bias" dans le nom
        else:
            no_decay.append(p)

    # Groupes de param√®tres avec diff√©rents param√®tres de weight decay
    groups = [
        {"params": decay, "weight_decay": cfg.weight_decay},
        {"params": no_decay, "weight_decay": 0.0},
    ]

    # V√©rifier si fused AdamW est disponible (speedup sp√©cifique CUDA)
    fused = ("fused" in torch.optim.AdamW.__init__.__code__.co_varnames)

    return torch.optim.AdamW(
        groups,
        lr=cfg.lr_max,
        betas=(0.9, 0.95),          # Coefficients de momentum
        eps=1e-8,                    # Stabilit√© num√©rique
        fused=fused,                 # Utiliser kernels fusionn√©s si disponible
    )


# ============================================================================
# CR√âATION DE L'OPTIMISEUR
# ============================================================================
print("\n‚öôÔ∏è  CONFIGURATION DE L'OPTIMISEUR")
print("="*70)

optimizer = create_optimizer(model)

# Compter les param√®tres dans chaque groupe
n_decay = sum(p.numel() for p in optimizer.param_groups[0]["params"])
n_no_decay = sum(p.numel() for p in optimizer.param_groups[1]["params"])

print(f"‚úì Optimiseur: AdamW")
print(f"‚úì Learning rate max: {cfg.lr_max}")
print(f"‚úì Weight decay: {cfg.weight_decay}")
print(f"‚úì Betas (momentum): (0.9, 0.95)")
print(f"\nGroupes de param√®tres:")
print(f"  - Avec weight decay (0.1): {n_decay:,} param√®tres")
print(f"    ‚Üí Poids des couches Linear (matrices 2D)")
print(f"  - Sans weight decay (0.0): {n_no_decay:,} param√®tres")
print(f"    ‚Üí Biais, Layer Norms, Embeddings")
print(f"\nTotal param√®tres optimis√©s: {n_decay + n_no_decay:,}")
print("="*70)


‚öôÔ∏è  CONFIGURATION DE L'OPTIMISEUR
‚úì Optimiseur: AdamW
‚úì Learning rate max: 0.0003
‚úì Weight decay: 0.1
‚úì Betas (momentum): (0.9, 0.95)

Groupes de param√®tres:
  - Avec weight decay (0.1): 76,756,992 param√®tres
    ‚Üí Poids des couches Linear (matrices 2D)
  - Sans weight decay (0.0): 54,272 param√®tres
    ‚Üí Biais, Layer Norms, Embeddings

Total param√®tres optimis√©s: 76,811,264


## üîπ Partie 7 : Optimiseur AdamW

### Qu'est-ce qu'on fait ?

Nous cr√©ons l'**optimiseur** qui met √† jour les poids du mod√®le pendant l'entra√Ænement. C'est le moteur de l'apprentissage !

### Rappel : Gradient Descent Basique

L'id√©e de base de l'optimisation :

```python
# Version simple (Gradient Descent)
poids_nouveau = poids_ancien - learning_rate √ó gradient
```

Mais cette approche **ne marche pas bien** avec les r√©seaux profonds ! üî¥

### √âvolution des Optimiseurs

| Optimiseur | Caract√©ristiques | Performance |
|------------|------------------|-------------|
| **SGD** | Basique, pas de momentum | ‚ùå Lent, instable |
| **SGD + Momentum** | Accumule les gradients | ‚ö†Ô∏è Mieux mais insuffisant |
| **Adam** | Momentum + variance adaptative | ‚úÖ Bon mais couplage probl√©matique |
| **AdamW** | Adam + weight decay d√©coupl√© | ‚úÖ‚úÖ Meilleur pour transformers ! |

### Adam vs. AdamW : La Diff√©rence Cruciale

| Aspect | Adam | AdamW |
|--------|------|-------|
| **Momentum** | ‚úÖ Oui | ‚úÖ Oui |
| **Variance adaptative** | ‚úÖ Oui | ‚úÖ Oui |
| **Weight decay** | ‚ùå Coupl√© avec LR | ‚úÖ D√©coupl√© |
| **Pour Transformers** | ‚ö†Ô∏è Moyen | ‚úÖ Excellent |

**Pourquoi d√©coupl√© est meilleur ?**

```python
# Adam (coupl√© - probl√©matique)
gradient_with_decay = gradient + Œª √ó weight
update = lr √ó momentum(gradient_with_decay)
# ‚ùå Le decay d√©pend du LR !

# AdamW (d√©coupl√© - meilleur)
update = lr √ó momentum(gradient)
weight = weight - Œª √ó weight  # Decay direct
# ‚úÖ Le decay est ind√©pendant du LR !
```

### Param√®tres d'AdamW

```python
optimizer = AdamW(
    params,
    lr=3e-4,           # Learning rate
    betas=(0.9, 0.95), # Momentum coefficients
    eps=1e-8,          # Stabilit√© num√©rique
    weight_decay=0.1   # R√©gularisation L2
)
```

**Signification des betas** :

- **Œ≤‚ÇÅ = 0.9** : Moyenne mobile des gradients (momentum)
  - Lisse les oscillations
  - 90% de l'historique, 10% du gradient actuel
  
- **Œ≤‚ÇÇ = 0.95** : Moyenne mobile des gradients au carr√© (variance)
  - Adapte le LR pour chaque param√®tre
  - Plus grande variance ‚Üí LR plus petit

**Formule compl√®te d'Adam** :

$$m_t = \beta_1 m_{t-1} + (1-\beta_1) g_t$$
$$v_t = \beta_2 v_{t-1} + (1-\beta_2) g_t^2$$
$$\theta_t = \theta_{t-1} - \frac{\alpha}{\sqrt{v_t} + \epsilon} m_t$$

O√π :
- $m_t$ = momentum (moyenne des gradients)
- $v_t$ = variance (moyenne des gradients¬≤)
- $\alpha$ = learning rate
- $\epsilon$ = stabilit√© (1e-8)

### Grouped Parameters : R√©gularisation Intelligente

Tous les poids ne doivent **PAS** √™tre r√©gularis√©s de la m√™me fa√ßon !

#### Groupe 1Ô∏è‚É£ : Avec Weight Decay (Œª = 0.1)

```python
# Param√®tres concern√©s:
- Poids des couches Linear (matrices 2D)
- self.qkv.weight  (512 √ó 1536)
- self.proj.weight (512 √ó 512)
- self.ff[0].weight (512 √ó 2048)
# etc.

# Pourquoi?
‚úÖ Beaucoup de param√®tres ‚Üí risque de sur-apprentissage
‚úÖ Regularisation L2 garde les poids petits
‚úÖ Meilleure g√©n√©ralisation
```

#### Groupe 2Ô∏è‚É£ : Sans Weight Decay (Œª = 0.0)

```python
# Param√®tres concern√©s:
- Biais (vecteurs 1D) : self.qkv.bias
- Layer Norm scales : self.ln1.weight
- Layer Norm shifts : self.ln1.bias
- Embeddings : self.tok_emb.weight

# Pourquoi?
‚úÖ Tr√®s peu de param√®tres (pas de risque)
‚úÖ R√¥le sp√©cial (scale/shift, pas transformation)
‚úÖ Regulariser nuirait √† la performance
```

### Visualisation de l'Impact du Weight Decay

```
Sans weight decay (Œª=0):
Poids au fil du temps: [0.5, 1.2, 2.8, 5.1, ...]
                       ‚Üë Peut exploser! üí•

Avec weight decay (Œª=0.1):
Poids au fil du temps: [0.5, 0.8, 0.9, 0.85, ...]
                       ‚Üë Reste contr√¥l√© ‚úÖ
```

### Fused Kernels : Optimisation GPU

```python
fused = True  # Si disponible sur CUDA
```

**Sans fused** :
```
1. Lire param√®tres (GPU ‚Üí registres)
2. Calculer momentum
3. √âcrire r√©sultat (registres ‚Üí GPU)
4. Relire param√®tres
5. Calculer variance
6. √âcrire r√©sultat
7. Relire param√®tres
8. Mettre √† jour poids
9. √âcrire r√©sultat
‚Üí 9 op√©rations m√©moire üêå
```

**Avec fused** :
```
1. Lire param√®tres une fois
2. Tout calculer en une passe
3. √âcrire r√©sultat une fois
‚Üí 3 op√©rations m√©moire ‚ö° (3√ó plus rapide!)
```

In [None]:
# ============================================================
# 7. TRAINING LOOP - Main Training Procedure
# ============================================================
"""
TRAINING PROCESS:
=================

OVERVIEW:
  - 80,000 training steps in total
  - Each step: process batch_size=8 sequences of length 256
  - Tokens per step: 8 * (256-1) = 2,040 tokens
  - Total training: ~163M tokens (~1 epoch over dataset)

MAIN LOOP PHASES:

  1. LEARNING RATE SCHEDULING
     - Retrieve current LR from cosine schedule
     - Update optimizer parameter groups
     
  2. DATA PREPARATION
     - Sample batch from data stream (mixed code + NL)
     - Transfer to device (GPU/CPU)
     - Sanity checks on first few steps
     
  3. FORWARD PASS
     - x: input tokens (B, T)
     - logits = model(x) ‚Üí (B, T, vocab_size)
     - Mixed precision (float16 or bfloat16) to save memory
     
  4. LOSS COMPUTATION
     - cross_entropy: measures difference between predicted & true distribution
     - Target: y[i] = x[i+1] (next token prediction)
     - ignore_index: masks out padding tokens
     
  5. BACKWARD PASS
     - Compute gradients: loss.backward()
     - Scale loss (GradScaler for float16 stability)
     
  6. OPTIMIZATION STEP
     - Update weights: optimizer.step()
     - Scale recovery (GradScaler)
     - Clear gradients for next iteration
     
  7. LOGGING & EVALUATION
     - Every 100 steps: log training loss & perplexity
     - Every 2000 steps: evaluate on validation set, save checkpoint
     
NUMERICAL STABILITY:

  - GradScaler: Prevents float16 gradient underflow
    * Scales loss: loss * 2^15 to use full float16 range
    * Unscales before optimizer step
    * Skips step if NaNs detected
    
  - Mixed Precision: float16 computations + float32 accumulation
    * Reduces memory usage by 50%
    * Faster on tensor cores
    * Requires careful handling
    
METRICS:

  - Loss: Cross-entropy loss (lower = better)
  - Perplexity: exp(loss)
    * How many equally likely tokens does model think there are?
    * ~50257 (random) ‚Üí ~10-20 (trained model)
    * Better model = lower perplexity
    
  - Learning Rate: Cosine schedule from 3e-4 to 1e-5
  - Epochs: How many times dataset is cycled through
"""

def get_batch():
    """
    Fetch a training batch from data stream.
    
    Returns:
        (x, y): Input tokens (B, T) and target tokens (B, T)
    """
    xs = []
    ys = []
    for _ in range(cfg.batch_size):
        x, y = next(train_iter)        # x, y: (T,) = (255,)
        xs.append(x.unsqueeze(0))      # (1, T)
        ys.append(y.unsqueeze(0))
    x = torch.cat(xs, dim=0)          # (B, T) = (8, 255)
    y = torch.cat(ys, dim=0)          # (B, T) = (8, 255)
    return x, y


def debug_check_batch(x, y, step, context="train"):
    """
    CPU-side sanity checks to catch issues that cause CUDA device-side asserts.
    
    Checks:
      - Tensor shapes are correct
      - Token IDs are in valid range [0, vocab_size)
      - No NaN or Inf values
    
    Only runs for first 5 steps to minimize overhead.
    
    Args:
        x (torch.Tensor): Input tokens
        y (torch.Tensor): Target tokens
        step (int): Current training step
        context (str): "train" or "eval" for logging
        
    Raises:
        ValueError: If any check fails
    """
    x_cpu = x.detach().cpu()
    y_cpu = y.detach().cpu()

    # Check shapes
    if x_cpu.ndim != 2 or y_cpu.ndim != 2:
        raise ValueError(
            f"[{context}] step {step}: expected (B, T) tensors, "
            f"got x.shape={tuple(x_cpu.shape)}, y.shape={tuple(y_cpu.shape)}"
        )

    # Check token ID ranges
    vmax_x = int(x_cpu.max().item())
    vmin_x = int(x_cpu.min().item())
    vmax_y = int(y_cpu.max().item())
    vmin_y = int(y_cpu.min().item())

    if vmin_x < 0 or vmin_y < 0 or vmax_x >= cfg.vocab_size or vmax_y >= cfg.vocab_size:
        raise ValueError(
            f"[{context}] step {step}: token IDs out of range!\n"
            f"  x.min={vmin_x}, x.max={vmax_x}, "
            f"  y.min={vmin_y}, y.max={vmax_y}, "
            f"  cfg.vocab_size={cfg.vocab_size}"
        )


# Gradient scaler for float16 training (prevents underflow)
scaler = torch.cuda.amp.GradScaler(enabled=(cfg.dtype == torch.float16))

print("\n" + "="*80)
print("üöÄ STARTING TRAINING")
print("="*80)

t0 = time.time()
running_loss = 0.0

# Calculate training metadata
tokens_per_step = cfg.batch_size * (cfg.block_size - 1)

# Progress bar
pbar = tqdm(range(1, cfg.max_steps + 1), desc="Training", unit="step", 
            ncols=120, colour="green", position=0, leave=True)

# ========== MAIN TRAINING LOOP ==========
for step in pbar:
    
    # Calculate which epoch we're in (for logging)
    current_epoch = (step * tokens_per_step) / total_tokens

    # --------------------------------------------------------
    # LR SCHEDULE
    # --------------------------------------------------------
    lr = get_lr(step)
    for pg in optimizer.param_groups:
        pg["lr"] = lr

    # --------------------------------------------------------
    # BATCH PREPARATION
    # --------------------------------------------------------
    x, y = get_batch()            # (B, T), integer token IDs
    x = x.to(cfg.device)
    y = y.to(cfg.device)

    # Sanity checks on first few steps (CPU-side)
    # These catch issues before they cause cryptic CUDA errors
    if step <= 5:
        debug_check_batch(x, y, step, context="train")

    # --------------------------------------------------------
    # FORWARD PASS
    # --------------------------------------------------------
    # Mixed precision (float16): reduces memory, speeds up training
    with torch.cuda.amp.autocast(enabled=(cfg.dtype == torch.float16)):
        logits = model(x)         # (B, T, vocab_size)
        
        if step <= 5:
            # Shape validation on first steps
            if logits.ndim != 3 or logits.size(-1) != cfg.vocab_size:
                raise ValueError(
                    f"[train] step {step}: logits shape invalid. "
                    f"Expected (B, T, {cfg.vocab_size}), got {tuple(logits.shape)}"
                )

        # Compute loss
        # Reshape to (B*T, vocab_size) and (B*T,) for cross_entropy
        # ignore_index: don't penalize padding tokens
        loss = F.cross_entropy(
            logits.view(-1, logits.size(-1)),
            y.view(-1),
            ignore_index=pad_token_id,
        )

    # --------------------------------------------------------
    # BACKWARD PASS
    # --------------------------------------------------------
    # Scale loss for float16 stability (prevents gradient underflow)
    scaler.scale(loss).backward()
    
    # Update weights (with automatic unscaling)
    scaler.step(optimizer)
    
    # Update scaler for next iteration
    scaler.update()
    
    # Clear gradients
    optimizer.zero_grad(set_to_none=True)

    # --------------------------------------------------------
    # LOGGING & METRICS
    # --------------------------------------------------------
    running_loss += loss.item()
    
    if step % cfg.log_interval == 0:
        avg = running_loss / cfg.log_interval
        ppl = math.exp(avg) if avg < 20 else float("inf")  # Perplexity
        elapsed = time.time() - t0
        
        # Update progress bar with current metrics
        pbar.set_postfix({
            "epoch": f"{current_epoch:.2f}", 
            "loss": f"{avg:.4f}", 
            "ppl": f"{ppl:.2f}", 
            "lr": f"{lr:.2e}"
        })
        running_loss = 0.0
        t0 = time.time()

    # --------------------------------------------------------
    # EVALUATION & CHECKPOINTING
    # --------------------------------------------------------
    if step % cfg.eval_interval == 0 or step == cfg.max_steps:
        model.eval()  # Set to evaluation mode (disables dropout, etc.)
        eval_losses = []
        
        with torch.no_grad():  # Disable gradient computation for speed
            # Evaluate on 32 batches
            for _ in range(32):
                x_eval, y_eval = get_batch()
                x_eval = x_eval.to(cfg.device)
                y_eval = y_eval.to(cfg.device)

                if step <= 5:
                    debug_check_batch(x_eval, y_eval, step, context="eval")

                logits_eval = model(x_eval)
                
                if step <= 5:
                    if logits_eval.ndim != 3 or logits_eval.size(-1) != cfg.vocab_size:
                        raise ValueError(
                            f"[eval] step {step}: logits shape invalid. "
                            f"Expected (B, T, {cfg.vocab_size}), got {tuple(logits_eval.shape)}"
                        )

                eval_loss = F.cross_entropy(
                    logits_eval.view(-1, logits_eval.size(-1)),
                    y_eval.view(-1),
                    ignore_index=pad_token_id,
                )
                eval_losses.append(eval_loss.item())

        # Compute average eval metrics
        eval_loss = sum(eval_losses) / len(eval_losses)
        eval_ppl = math.exp(eval_loss) if eval_loss < 20 else float("inf")

        # Update progress bar description
        pbar.set_description(f"Training [Epoch: {current_epoch:.2f} | eval loss: {eval_loss:.4f} | eval ppl: {eval_ppl:.2f}]")

        # Save checkpoint
        torch.save(
            {
                "model": model.state_dict(),
                "config": cfg.__dict__,
                "tokenizer": "EleutherAI/gpt-neox-20b",
                "step": step,
            },
            f"checkpoint_step{step}.pt",
        )

        model.train()  # Set back to training mode
        pbar.set_description("Training")

print("\n" + "="*80)
print("‚úÖ Training finished.")
print("="*80)


üöÄ STARTING TRAINING



üöÄ STARTING TRAINING


Training: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m| 80000/80000 [1:54:01<00:00, 11.69step/s, epoch=5.87, loss=1.7743, ppl=5.90, lr=1.00e-05][0m


üöÄ STARTING TRAINING


Training: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m| 80000/80000 [1:54:01<00:00, 11.69step/s, epoch=5.87, loss=1.7743, ppl=5.90, lr=1.00e-05][0m


‚úÖ Training finished.





## üîπ Partie 8 : Boucle d'Entra√Ænement Principale (LE C≈íUR ‚ù§Ô∏è)

### Qu'est-ce qu'on fait ?

C'est **LE C≈íUR** du notebook ! Nous entra√Ænons le mod√®le sur **80,000 √©tapes** en it√©rant sur les donn√©es, calculant les gradients, et mettant √† jour les poids.

### Vue d'ensemble : Les 7 Phases de Chaque √âtape

```
POUR chaque step de 1 √† 80,000:
    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
    ‚îÇ 1Ô∏è‚É£ LEARNING RATE SCHEDULE               ‚îÇ
    ‚îÇ    lr = get_lr(step)                    ‚îÇ
    ‚îÇ    Ajuster le LR selon cosine schedule  ‚îÇ
    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
    ‚îÇ 2Ô∏è‚É£ PR√âPARATION DU BATCH                 ‚îÇ
    ‚îÇ    x, y = get_batch()                   ‚îÇ
    ‚îÇ    √âchantillonner 8 s√©quences (code/NL) ‚îÇ
    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
    ‚îÇ 3Ô∏è‚É£ FORWARD PASS (mixed precision)       ‚îÇ
    ‚îÇ    logits = model(x)                    ‚îÇ
    ‚îÇ    Pr√©dire les prochains tokens         ‚îÇ
    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
    ‚îÇ 4Ô∏è‚É£ CALCUL DE LA LOSS                    ‚îÇ
    ‚îÇ    loss = cross_entropy(logits, y)      ‚îÇ
    ‚îÇ    Mesurer l'erreur de pr√©diction       ‚îÇ
    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
    ‚îÇ 5Ô∏è‚É£ BACKWARD PASS                        ‚îÇ
    ‚îÇ    loss.backward()                      ‚îÇ
    ‚îÇ    Calculer les gradients               ‚îÇ
    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
    ‚îÇ 6Ô∏è‚É£ OPTIMISATION (Mise √† jour poids)     ‚îÇ
    ‚îÇ    optimizer.step()                     ‚îÇ
    ‚îÇ    Appliquer les gradients              ‚îÇ
    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
    ‚îÇ 7Ô∏è‚É£ LOGGING & √âVALUATION                 ‚îÇ
    ‚îÇ    Tous les 100 steps: log loss/ppl     ‚îÇ
    ‚îÇ    Tous les 2000 steps: eval + save     ‚îÇ
    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

### Phase 1Ô∏è‚É£ : Learning Rate Schedule

```python
lr = get_lr(step)  # Obtenir le LR pour cette √©tape
for param_group in optimizer.param_groups:
    param_group['lr'] = lr  # Mettre √† jour tous les groupes
```

Le LR change **√† chaque √©tape** selon notre schedule cosine + warmup.

### Phase 2Ô∏è‚É£ : Pr√©paration du Batch

```python
def get_batch():
    xs, ys = [], []
    for _ in range(cfg.batch_size):  # 8 s√©quences
        x, y = next(train_iter)  # Obtenir (input, target)
        xs.append(x.unsqueeze(0))
        ys.append(y.unsqueeze(0))
    return torch.cat(xs, dim=0), torch.cat(ys, dim=0)
```

**R√©sultat** :
- `x` : (8, 255) = 8 s√©quences de 255 tokens (input)
- `y` : (8, 255) = 8 s√©quences de 255 tokens (target, d√©cal√© de 1)

### Phase 3Ô∏è‚É£ : Forward Pass (Mixed Precision)

```python
with torch.cuda.amp.autocast(enabled=(cfg.dtype == torch.float16)):
    logits = model(x)  # (8, 255, 50257)
```

**Mixed Precision** :
- Calculs en **float16** (rapide, √©conome en RAM)
- Accumulation en **float32** (pr√©cis, stable)
- **B√©n√©fices** : 2√ó plus rapide, 2√ó moins de RAM !

**Dimensions** :
```
x:      (batch=8, seq=255)
        ‚Üì
logits: (batch=8, seq=255, vocab=50257)
        ‚Üë
Pour chaque position, probabilit√© de chaque token du vocab
```

### Phase 4Ô∏è‚É£ : Calcul de la Loss (Cross-Entropy)

```python
loss = F.cross_entropy(
    logits.view(-1, cfg.vocab_size),  # (8√ó255, 50257)
    y.view(-1),                       # (8√ó255,)
    ignore_index=pad_token_id
)
```

**Cross-Entropy** : Mesure √† quel point les pr√©dictions sont √©loign√©es de la v√©rit√©

```
Pour chaque position:
  Vrai token: y[i] = 3383
  Pr√©diction: logits[i] = [0.01, 0.02, ..., 0.95, ..., 0.001]
                                          ‚Üë
                                    Position 3383
  Loss: -log(probabilit√© du vrai token)
  
Si probabilit√© = 0.95 ‚Üí loss = -log(0.95) ‚âà 0.05 (excellent ‚úÖ)
Si probabilit√© = 0.01 ‚Üí loss = -log(0.01) ‚âà 4.6  (mauvais ‚ùå)
```

**Ignore padding** : `ignore_index=pad_token_id`
- Les tokens de padding ne comptent pas dans la loss
- Le mod√®le ne perd pas de temps √† les "apprendre"

### Phase 5Ô∏è‚É£ : Backward Pass (Calcul des Gradients)

```python
scaler.scale(loss).backward()
```

**GradScaler** (pour float16 seulement) :

1. **Scale** : Multiplie loss par 2^15 (65536)
   - Utilise toute la plage de float16
   - √âvite l'underflow (gradients trop petits ‚Üí 0)

2. **Backward** : Calcule les gradients

3. **Unscale** : Divise les gradients par 2^15
   - Restaure la magnitude originale

**Exemple** :
```
Gradient original: 1e-7 (trop petit pour float16!)
Apr√®s scale:       1e-7 √ó 65536 = 0.00655 (OK en float16 ‚úÖ)
Backward compute...
Apr√®s unscale:     gradient / 65536 = 1e-7 (pr√©cis!)
```

### Phase 6Ô∏è‚É£ : Optimization Step (Mise √† Jour des Poids)

```python
scaler.step(optimizer)  # Met √† jour les poids
scaler.update()         # Ajuste le scale pour next step
optimizer.zero_grad(set_to_none=True)  # Clear gradients
```

**Ce qui se passe** :

```python
# Pour chaque param√®tre:
for param in model.parameters():
    # AdamW calcule:
    momentum = 0.9 * momentum_old + 0.1 * gradient
    variance = 0.95 * variance_old + 0.05 * gradient¬≤
    
    update = lr * momentum / (‚àövariance + 1e-8)
    param = param - update - weight_decay * param
    #               ‚Üë          ‚Üë
    #          Adam update   Weight decay (d√©coupl√©)
```

### Phase 7Ô∏è‚É£ : Logging & √âvaluation

#### Tous les 100 steps : Log M√©triques

```python
avg_loss = running_loss / 100
perplexity = exp(avg_loss)

print(f"Step {step}: loss={avg_loss:.4f}, ppl={perplexity:.2f}")
```

**Perplexit√©** : M√©trique plus intuitive que la loss

```
Perplexity = exp(loss)

Interpr√©tation:
  ppl = 50,257 ‚Üí Mod√®le al√©atoire (choix uniforme)
  ppl = 100    ‚Üí Incertain entre ~100 tokens
  ppl = 20     ‚Üí Excellent! (~20 choix possibles)
  ppl = 10     ‚Üí Tr√®s bon (~10 choix possibles)
  ppl = 1      ‚Üí Parfait (certitude absolue)
```

#### Tous les 2,000 steps : √âvaluation + Checkpoint

```python
if step % 2000 == 0:
    # √âvaluer sur validation set
    model.eval()  # D√©sactiver dropout
    with torch.no_grad():  # Pas de gradients
        eval_loss = calculer_loss_validation()
    
    # Sauvegarder checkpoint
    torch.save({
        "model": model.state_dict(),
        "config": cfg.__dict__,
        "step": step,
    }, f"checkpoint_step{step}.pt")
    
    model.train()  # Revenir en mode training
```

### M√©triques Cl√©s √† Surveiller

| M√©trique | Bon Signe | Mauvais Signe |
|----------|-----------|---------------|
| **Train Loss** | D√©cro√Æt r√©guli√®rement | Stagne ou explose |
| **Val Loss** | Proche de train loss | Beaucoup plus √©lev√©e |
| **Perplexity** | < 30 apr√®s 80K steps | > 100 |
| **Learning Rate** | Suit le schedule | Constant |
| **Gap train/val** | < 0.5 | > 1.0 (overfitting) |

### Stabilit√© Num√©rique : Les Pi√®ges √† √âviter

#### Probl√®me 1 : Gradient Explosion üí•

```
Solution: Gradient Clipping
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
```

#### Probl√®me 2 : Gradient Underflow (float16) üîª

```
Solution: GradScaler
Multiplie loss avant backward, divise gradients apr√®s
```

#### Probl√®me 3 : NaN dans la Loss üö´

```
Causes possibles:
- LR trop √©lev√© ‚Üí Explosion
- Mauvaise initialisation
- Division par z√©ro

D√©tection:
if step <= 5:  # V√©rifications aux premiers steps
    debug_check_batch(x, y, step)
```

### Temps d'Entra√Ænement Estim√©

| GPU | Steps/sec | Temps Total (80K steps) |
|-----|-----------|-------------------------|
| A100 80GB | ~30 | 2-3 jours |
| V100 32GB | ~15 | 5-7 jours |
| RTX 4090 | ~20 | 3-5 jours |
| RTX 3090 | ~12 | 6-8 jours |
| CPU | ~0.5 | **Non viable** üêå |

**Astuce** : R√©duire `max_steps` √† 10,000 pour tester rapidement !

In [None]:
# ============================================================
# 8. SAVE FINAL MODEL
# ============================================================
"""
MODEL CHECKPOINT SAVING:
========================

WHAT WE SAVE:
  1. "model": Complete state dict (all learnable parameters)
     - Token embeddings
     - Position embeddings
     - All transformer block parameters
     - Output projection weights
     
  2. "config": Training configuration as dictionary
     - Model architecture params (vocab_size, d_model, n_heads, etc.)
     - Training params (batch_size, lr, warmup_steps, etc.)
     - Allows reconstruction of model later
     
  3. "tokenizer": Tokenizer name/path (for inference)
     - Can reload: AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-20b")
     
  4. "step": Training step number (for resume/tracking)

FILE FORMAT:
  - PyTorch .pt file (binary format)
  - Contains dictionary with above keys
  - Can be loaded with torch.load()

WHY CHECKPOINT?
  - Persist trained weights to disk
  - Use for inference without retraining
  - Resume training if interrupted
  - Share models with others
  - Compare different checkpoints during training
"""

final_path = "model_final.pt"

torch.save({
    "model": model.state_dict(),
    "config": cfg.__dict__,
    "tokenizer": tokenizer,
    "tokenizer_name_or_path": "EleutherAI/gpt-neox-20b",
}, final_path)

print(f"\nFinal model saved to: {final_path}")
print(f"  - Model state dict")
print(f"  - Config: {cfg}")
print(f"  - Tokenizer: EleutherAI/gpt-neox-20b")


Final model saved to: model_final.pt
  - Model state dict
  - Config: Config(vocab_size=50254, d_model=512, n_heads=8, n_layers=8, d_ff=2048, block_size=256, batch_size=8, lr_max=0.0003, lr_min=1e-05, warmup_steps=1000, max_steps=80000, log_interval=100, eval_interval=2000, weight_decay=0.1, p_code=0.8, device='cuda', dtype=torch.bfloat16)
  - Tokenizer: EleutherAI/gpt-neox-20b


## üîπ Partie 9 : Sauvegarde du Mod√®le Final

### Qu'est-ce qu'on fait ?

Apr√®s 80,000 √©tapes d'entra√Ænement, nous **sauvegardons** le mod√®le complet dans un fichier `.pt` pour pouvoir le r√©utiliser plus tard.

### Que Sauvegardons-nous ?

```python
torch.save({
    "model": model.state_dict(),        # üéØ Tous les poids entra√Æn√©s
    "config": cfg.__dict__,             # ‚öôÔ∏è Hyperparam√®tres
    "tokenizer": tokenizer,             # üî§ Objet tokenizer
    "tokenizer_name_or_path": "...",    # üìù Nom du tokenizer
}, "model_final.pt")
```

### Composants du Checkpoint

#### 1. Model State Dict (Les Poids) üéØ

```
model.state_dict() contient:

tok_emb.weight          : (50257, 512)   = 25.7M params
pos_emb.weight          : (256, 512)     = 0.13M params
blocks.0.attn.qkv.weight: (1536, 512)    = 0.78M params
blocks.0.attn.proj.weight: (512, 512)    = 0.26M params
... (tous les blocs √ó 8)
ln_f.weight             : (512,)         = 512 params
head.weight             : (50257, 512)   = 25.7M params

TOTAL: ~77M param√®tres
```

#### 2. Config (La Recette) ‚öôÔ∏è

```python
cfg.__dict__ = {
    'vocab_size': 50257,
    'd_model': 512,
    'n_heads': 8,
    'n_layers': 8,
    'd_ff': 2048,
    'block_size': 256,
    'batch_size': 8,
    'lr_max': 0.0003,
    # ... tous les hyperparam√®tres
}
```

**Pourquoi c'est crucial** : Permet de **recr√©er l'architecture exacte** !

#### 3. Tokenizer üî§

- Peut √™tre l'objet complet ou juste le nom
- Permet de tokeniser/d√©tokeniser sans chercher

### Format du Fichier

```
Fichier: model_final.pt
Format: PyTorch binary (.pt)
Taille: ~300 MB
  ‚îú‚îÄ 77M params √ó 4 bytes (float32) = 308 MB
  ‚îú‚îÄ Config dict = ~5 KB
  ‚îî‚îÄ Tokenizer = variable

Compression possible:
  ‚îú‚îÄ float16: ~154 MB (2√ó plus petit)
  ‚îî‚îÄ bfloat16: ~154 MB (meilleure stabilit√©)
```

### Les 3 Mani√®res de Sauvegarder

#### Option 1 : Checkpoint Complet (Recommand√© ‚úÖ)

```python
torch.save({
    "model": model.state_dict(),
    "optimizer": optimizer.state_dict(),
    "scheduler": scheduler.state_dict(),
    "config": cfg.__dict__,
    "step": step,
    "history": loss_history,
}, "checkpoint_full.pt")
```

**Avantages** :
- ‚úÖ Peut reprendre l'entra√Ænement exactement o√π il s'est arr√™t√©
- ‚úÖ Tout est l√† (model + optimizer + config)
- ‚úÖ Reproductibilit√© parfaite

**Inconv√©nient** :
- ‚ùå Fichier plus gros (~400-500 MB)

#### Option 2 : State Dict Seulement

```python
torch.save(model.state_dict(), "model_weights.pt")
```

**Avantages** :
- ‚úÖ Fichier plus l√©ger (~300 MB)
- ‚úÖ Rapide √† charger/sauvegarder

**Inconv√©nients** :
- ‚ùå Doit conna√Ætre la config s√©par√©ment
- ‚ùå Ne peut pas reprendre l'entra√Ænement

#### Option 3 : Export ONNX (Pour Production)

```python
torch.onnx.export(
    model,
    dummy_input,
    "model.onnx",
    opset_version=14
)
```

**Avantages** :
- ‚úÖ Format standard (non PyTorch-specific)
- ‚úÖ Peut √™tre utilis√© dans d'autres frameworks
- ‚úÖ Optimisations de d√©ploiement

**Inconv√©nient** :
- ‚ùå Plus complexe
- ‚ùå Perte de certaines fonctionnalit√©s

### Chargement du Mod√®le Sauvegard√©

```python
# Charger le checkpoint
checkpoint = torch.load("model_final.pt", map_location="cuda")

# Recr√©er le mod√®le
cfg_loaded = Config(**checkpoint["config"])
model = TinyDecoderLM(cfg_loaded)

# Charger les poids
model.load_state_dict(checkpoint["model"])

# Pr√™t pour inf√©rence !
model.eval()
```

### Bonnes Pratiques de Sauvegarde

#### ‚úÖ √Ä Faire

- Sauvegarder r√©guli√®rement pendant l'entra√Ænement (tous les 2K steps)
- Garder plusieurs checkpoints (pas juste le dernier)
- Inclure la config avec le mod√®le
- Versioner les fichiers (model_v1.pt, model_v2.pt)
- Tester le chargement imm√©diatement apr√®s sauvegarde

#### ‚ùå √Ä √âviter

- Ne sauvegarder qu'√† la fin (risque de crash !)
- √âcraser le seul checkpoint existant
- Oublier de sauvegarder la config
- Sauvegarder trop souvent (tous les 10 steps ‚Üí disque plein)

### Gestion de l'Espace Disque

```
Strat√©gie intelligente:

checkpoint_step_2000.pt   ‚Üí Garder
checkpoint_step_4000.pt   ‚Üí Supprimer (intermediate)
checkpoint_step_6000.pt   ‚Üí Supprimer
...
checkpoint_step_40000.pt  ‚Üí Garder (milestone)
...
checkpoint_step_80000.pt  ‚Üí Garder (final)
model_final.pt            ‚Üí Garder (best)

Total: 3-4 checkpoints √ó 300MB = 1GB
```

In [None]:
# ============================================================
# 9. LOAD AND TEST MODEL
# ============================================================
"""
MODEL INFERENCE & TESTING:
===========================

This section demonstrates how to:
  1. Load a saved checkpoint
  2. Reconstruct the model architecture
  3. Load tokenizer
  4. Generate text using the trained model

GENERATION STRATEGY (Autoregressive):
  - Start with prompt tokens
  - Repeatedly:
    1. Pass all tokens to model ‚Üí get logits for last position
    2. Sample next token from probability distribution
    3. Append to sequence
    4. Repeat until max_tokens or EOS token
    
SAMPLING METHOD:
  - Temperature: Controls randomness
    * T=0.0: Greedy (always pick highest probability token)
    * T=1.0: Standard softmax probabilities
    * T>1.0: More random/creative
    * T<1.0: More deterministic
    
  - Multinomial sampling: Draw from probability distribution
    (more natural than greedy for generation)
"""

def load_model(checkpoint_path):
    """
    Load model, config, and tokenizer from checkpoint.
    
    Args:
        checkpoint_path (str): Path to .pt checkpoint file
        
    Returns:
        (model, tokenizer, config): Loaded model, tokenizer, and config dict
    """
    checkpoint = torch.load(checkpoint_path, map_location=cfg.device)
    
    # Load config
    loaded_cfg = checkpoint["config"]
    print(f"‚úì Loaded config from {checkpoint_path}")
    
    # Reconstruct model from config
    # Create a simple object to hold config dict
    model_loaded = TinyDecoderLM(type('obj', (object,), loaded_cfg)())
    model_loaded.load_state_dict(checkpoint["model"])
    model_loaded = model_loaded.to(cfg.device, dtype=cfg.dtype)
    model_loaded.eval()
    print(f"‚úì Loaded model with {sum(p.numel() for p in model_loaded.parameters())/1e6:.2f}M parameters")
    
    # Load tokenizer
    # Check if checkpoint has tokenizer object or just name
    tokenizer_loaded = (
        checkpoint["tokenizer"] 
        if isinstance(checkpoint["tokenizer"], object) and hasattr(checkpoint["tokenizer"], 'encode') 
        else AutoTokenizer.from_pretrained(checkpoint["tokenizer_name_or_path"])
    )
    print(f"‚úì Loaded tokenizer: {checkpoint['tokenizer_name_or_path']}")
    
    return model_loaded, tokenizer_loaded, loaded_cfg


def generate(model, tokenizer, prompt, max_tokens=50, temperature=0.7, device=cfg.device, dtype=cfg.dtype):
    """
    Generate text from a prompt using the model.
    
    Args:
        model (nn.Module): Trained language model
        tokenizer: Tokenizer for encoding/decoding
        prompt (str): Starting text
        max_tokens (int): Maximum tokens to generate
        temperature (float): Sampling temperature (randomness)
        device: Device to run on
        dtype: Data type for computation
        
    Returns:
        str: Full generated text (prompt + continuation)
    """
    model.eval()
    
    # Encode prompt to token IDs
    input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
    
    # Generate tokens one by one
    with torch.no_grad():
        for _ in range(max_tokens):
            # Forward pass
            with torch.cuda.amp.autocast(enabled=(dtype == torch.float16)):
                logits = model(input_ids)
            
            # Get logits for last token position
            logits = logits[:, -1, :] / temperature
            
            # Convert logits to probabilities
            probs = torch.softmax(logits, dim=-1)
            
            # Sample next token
            next_token = torch.multinomial(probs, num_samples=1)
            
            # Append to sequence
            input_ids = torch.cat([input_ids, next_token], dim=1)
            
            # Stop if generated EOS token
            if next_token.item() == tokenizer.eos_token_id:
                break
    
    # Decode token IDs back to text
    generated_text = tokenizer.decode(input_ids[0], skip_special_tokens=True)
    return generated_text


# ========== LOADING & TESTING ==========
print("\n" + "="*80)
print("üìÇ LOADING MODEL")
print("="*80)

try:
    model_test, tokenizer_test, cfg_test = load_model(final_path)
    
    # Test generation with multiple prompts
    print("\n" + "="*80)
    print("üß™ TESTING MODEL GENERATION")
    print("="*80)
    
    test_prompts = [
        "def hello",
        "import torch",
        "The best way to",
    ]
    
    for prompt in test_prompts:
        print(f"\nüìù Prompt: '{prompt}'")
        generated = generate(model_test, tokenizer_test, prompt, max_tokens=30, temperature=0.7)
        print(f"‚úì Generated: '{generated[:100]}...'")
    
    print("\n‚úÖ Model loaded and tested successfully!")
    
except Exception as e:
    print(f"‚ùå Error loading/testing model: {e}")
    import traceback
    traceback.print_exc()


üìÇ LOADING MODEL
‚úì Loaded config from model_final.pt
‚úì Loaded config from model_final.pt
‚úì Loaded model with 76.81M parameters
‚úì Loaded tokenizer: EleutherAI/gpt-neox-20b

üß™ TESTING MODEL GENERATION

üìù Prompt: 'def hello'
‚úì Loaded model with 76.81M parameters
‚úì Loaded tokenizer: EleutherAI/gpt-neox-20b

üß™ TESTING MODEL GENERATION

üìù Prompt: 'def hello'
‚úì Generated: 'def hello_world(context):
 Outcomescontext.logger.info("hello world")
 Outcomescontext.logger("secon...'

üìù Prompt: 'import torch'
‚úì Generated: 'import torch
import torch.nn as nn
from torch.autograd import Variable
from torchvision import model...'

üìù Prompt: 'The best way to'
‚úì Generated: 'def hello_world(context):
 Outcomescontext.logger.info("hello world")
 Outcomescontext.logger("secon...'

üìù Prompt: 'import torch'
‚úì Generated: 'import torch
import torch.nn as nn
from torch.autograd import Variable
from torchvision import model...'

üìù Prompt: 'The best way to'
‚úì Generate

## üîπ Partie 10 : Chargement et Test du Mod√®le

### Qu'est-ce qu'on fait ?

Nous chargeons le mod√®le sauvegard√© et testons sa capacit√© √† **g√©n√©rer du code** de mani√®re auto-r√©gressive.

### Processus de G√©n√©ration Auto-r√©gressive

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ PROMPT: "def fibonacci(n):"                  ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
              ‚Üì Tokenize
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Tokens: [451, 50276, 7, 78, 2599, 60]       ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
              ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ BOUCLE DE G√âN√âRATION (max_tokens fois):      ‚îÇ
‚îÇ                                              ‚îÇ
‚îÇ 1. Forward pass ‚Üí logits pour dernier token ‚îÇ
‚îÇ    logits[‚àí1] = [0.01, 0.02, ..., 0.85, ..]‚îÇ
‚îÇ                                  ‚Üë           ‚îÇ
‚îÇ                            Scores pour       ‚îÇ
‚îÇ                            chaque token      ‚îÇ
‚îÇ                                              ‚îÇ
‚îÇ 2. Appliquer temperature                     ‚îÇ
‚îÇ    logits = logits / temperature             ‚îÇ
‚îÇ                                              ‚îÇ
‚îÇ 3. Softmax ‚Üí probabilit√©s                    ‚îÇ
‚îÇ    probs = softmax(logits)                   ‚îÇ
‚îÇ                                              ‚îÇ
‚îÇ 4. Sample (√©chantillonner)                   ‚îÇ
‚îÇ    next_token = multinomial(probs)           ‚îÇ
‚îÇ                                              ‚îÇ
‚îÇ 5. Append au prompt                          ‚îÇ
‚îÇ    tokens = [tokens..., next_token]          ‚îÇ
‚îÇ                                              ‚îÇ
‚îÇ 6. R√©p√©ter jusqu'√† max_tokens ou EOS         ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
              ‚Üì Decode
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ "def fibonacci(n):\n    if n <= 1:\n    "   ‚îÇ
‚îÇ "    return n\n    return fibonacci(n-1)"   ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

### Sampling Methods : Greedy vs. Temperature

#### Greedy Decoding (Temperature = 0)

```python
# Toujours choisir le token le plus probable
next_token = torch.argmax(logits)

Exemple:
  logits = [0.1, 0.2, 0.85, 0.05]
  next_token = 2  # Toujours le m√™me !

R√©sultat: R√©p√©titif, ennuyeux, d√©terministe üò¥
"def hello()\ndef hello()\ndef hello()..."
```

#### Temperature Sampling (Recommand√© ‚úÖ)

```python
# Contr√¥ler le caract√®re al√©atoire
logits = logits / temperature
probs = softmax(logits)
next_token = multinomial(probs)

Temperature = 0.7 (conservateur):
  logits = [0.1, 0.2, 0.85, 0.05]
  logits /= 0.7 ‚Üí [0.14, 0.29, 1.21, 0.07]
  probs = [0.15, 0.22, 0.58, 0.10]
  ‚Üë Distribution plus "peaked" (concentr√©e)

Temperature = 1.0 (naturel):
  Pas de modification, distribution originale

Temperature = 1.5 (cr√©atif):
  logits /= 1.5 ‚Üí [0.067, 0.13, 0.57, 0.03]
  probs = [0.20, 0.23, 0.38, 0.19]
  ‚Üë Distribution plus "flat" (√©tal√©e)
```

### Table de Temp√©ratures Recommand√©es

| Temperature | Comportement | Cas d'Usage |
|-------------|--------------|-------------|
| **0.0** | Greedy (d√©terministe) | D√©bogage, tests |
| **0.5** | Tr√®s conservateur | Code critique |
| **0.7** | **√âquilibr√©** ‚úÖ | **Usage g√©n√©ral** |
| **0.8** | L√©g√®rement cr√©atif | Code avec vari√©t√© |
| **1.0** | Distribution naturelle | Exploration |
| **1.2+** | Tr√®s cr√©atif | Brainstorming, risqu√© |

### Top-k et Top-p Sampling (Optionnel)

#### Top-k Sampling

```python
# Garder seulement les k tokens les plus probables
top_k = 40
values, indices = torch.topk(logits, k=top_k)
logits[logits < values[‚àí1]] = ‚àíinf  # √âliminer le reste

Exemple avec k=3:
  Avant: [0.1, 0.2, 0.85, 0.05, 0.3, ...]
  Apr√®s: [‚àí‚àû, 0.2, 0.85, ‚àí‚àû, 0.3, ...]
  Sample parmi {0.2, 0.85, 0.3} seulement
```

#### Top-p Sampling (Nucleus)

```python
# Garder les tokens jusqu'√† probabilit√© cumul√©e p
top_p = 0.9
sorted_probs, sorted_indices = torch.sort(probs, descending=True)
cumsum = torch.cumsum(sorted_probs, dim=‚àí1)
mask = cumsum > top_p
# Garder tokens jusqu'√† 90% de probabilit√© cumul√©e
```

### Fonctions de G√©n√©ration

#### Version Simple

```python
def generate_simple(prompt, max_tokens=50):
    input_ids = tokenizer.encode(prompt)
    
    for _ in range(max_tokens):
        logits = model(torch.tensor([input_ids]))
        next_token = torch.argmax(logits[0, ‚àí1])
        input_ids.append(next_token.item())
        
        if next_token == tokenizer.eos_token_id:
            break
    
    return tokenizer.decode(input_ids)
```

#### Version Avanc√©e (Avec Temperature)

```python
def generate(prompt, max_tokens=50, temperature=0.7):
    input_ids = tokenizer.encode(prompt)
    
    for _ in range(max_tokens):
        logits = model(torch.tensor([input_ids]))
        logits = logits[0, ‚àí1] / temperature  # Apply temp
        probs = F.softmax(logits, dim=‚àí1)
        next_token = torch.multinomial(probs, num_samples=1)
        input_ids.append(next_token.item())
        
        if next_token == tokenizer.eos_token_id:
            break
    
    return tokenizer.decode(input_ids)
```

### Exemples de Prompts √† Tester

| Type | Prompt | R√©sultat Attendu |
|------|--------|------------------|
| **Fonction** | `"def fibonacci"` | Impl√©mentation recursive/iterative |
| **Import** | `"import torch"` | Code utilisant PyTorch |
| **Class** | `"class Calculator:"` | D√©finition de classe |
| **Commentaire** | `"# Binary search"` | Code avec commentaire |
| **Texte** | `"Machine learning is"` | Explication en langage naturel |

### Qualit√© de la G√©n√©ration : √Ä Quoi S'attendre

#### Apr√®s 10,000 Steps (Early)
```python
Input: "def hello"
Output: "def hello def def def hello hello..."
‚ùå R√©p√©titif, pas de sens
```

#### Apr√®s 40,000 Steps (Mid)
```python
Input: "def hello"
Output: "def hello():\n    print(x)\n    x = x + 1"
‚ö†Ô∏è Syntaxe OK, logique incorrecte
```

#### Apr√®s 80,000 Steps (Final)
```python
Input: "def fibonacci(n):"
Output: "def fibonacci(n):\n    if n <= 1:\n        return n\n    return fibonacci(n-1) + fibonacci(n-2)"
‚úÖ Syntaxe ET logique correctes !
```

### Debugging de G√©n√©ration

#### Probl√®me : G√©n√©ration vide
```python
# V√©rifier que le mod√®le est en mode eval
model.eval()

# V√©rifier les logits
print(f"Logits shape: {logits.shape}")
print(f"Logits range: [{logits.min():.2f}, {logits.max():.2f}]")
```

#### Probl√®me : R√©p√©titions infinies
```python
# R√©duire la temp√©rature
temperature = 0.5  # Au lieu de 0.7

# Ou ajouter repetition penalty
```

#### Probl√®me : Outputs incoh√©rents
```python
# Augmenter max_tokens (peut √™tre coup√© trop t√¥t)
# V√©rifier que le prompt est bien tokenis√©
```

In [None]:
# ============================================================
# 10. STANDALONE MODEL LOADING (Inference Mode)
# ============================================================
"""
STANDALONE INFERENCE:
======================

SCENARIO:
  - You have a saved model_final.pt file
  - You want to use it for inference without the full notebook
  - Minimal dependencies, just PyTorch + transformers

KEY DIFFERENCES FROM TRAINING:
  1. Load only state dict (not optimizer, config in file)
  2. Recreate architecture from config manually
  3. Model in eval() mode (no dropout, no training updates)
  4. Only forward pass (no gradients needed)

PRACTICAL USE:
  - Share model file with colleagues
  - Deploy to production
  - Run on different hardware (CPU, different GPU, etc.)
  - Avoid dependency on full training notebook

RECONSTRUCTION STEPS:
  1. Load checkpoint
  2. Create Config object with correct hyperparameters
     (Must match training config exactly!)
  3. Instantiate model architecture
  4. Load state dict into model
  5. Send to device and dtype
  6. Set to eval mode
  7. Use for generation

Note: This simulates loading a model that was saved and shared.
"""

print("\n" + "="*80)
print("üîÑ STANDALONE MODEL LOADING (Simulating Shared Model Usage)")
print("="*80)

try:
    # Setup
    device = "cuda" if torch.cuda.is_available() else "cpu"
    dtype = torch.float16 if torch.cuda.is_available() else torch.float32
    
    # Load model state dict directly
    model_state = torch.load("model_final.pt", map_location=device)
    print(f"‚úì Loaded model state dict from model_final.pt")
    
    # Recreate model architecture
    # Must match training config EXACTLY
    from dataclasses import dataclass
    
    @dataclass
    class InferenceConfig:
        vocab_size: int = 50257
        d_model: int = 512
        n_heads: int = 8
        n_layers: int = 8
        d_ff: int = 2048
        block_size: int = 256
    
    cfg_inference = InferenceConfig()
    model_inference = TinyDecoderLM(cfg_inference).to(device, dtype=dtype)
    model_inference.load_state_dict(model_state)
    model_inference.eval()
    print(f"‚úì Model architecture created and weights loaded")
    print(f"‚úì Model params: {sum(p.numel() for p in model_inference.parameters())/1e6:.2f}M")
    
    # Load tokenizer
    tokenizer_inference = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-20b")
    print(f"‚úì Loaded tokenizer: EleutherAI/gpt-neox-20b")
    
    # Test generation with simple prompts
    print("\n" + "="*80)
    print("üéØ INFERENCE TEST")
    print("="*80)
    
    test_prompts = [
        "def fibonacci",
        "import numpy",
        "Machine learning is",
    ]
    
    for prompt in test_prompts:
        print(f"\nüìù Prompt: '{prompt}'")
        
        # Tokenize
        input_ids = tokenizer_inference(prompt, return_tensors="pt").input_ids.to(device)
        
        # Generate
        with torch.no_grad():
            for _ in range(25):
                with torch.cuda.amp.autocast(enabled=(dtype == torch.float16)):
                    logits = model_inference(input_ids)
                
                # Sample next token
                logits = logits[:, -1, :] / 0.7
                probs = torch.softmax(logits, dim=-1)
                next_token = torch.multinomial(probs, num_samples=1)
                input_ids = torch.cat([input_ids, next_token], dim=1)
                
                if next_token.item() == tokenizer_inference.eos_token_id:
                    break
        
        # Decode
        generated = tokenizer_inference.decode(input_ids[0], skip_special_tokens=True)
        print(f"‚úÖ Generated: '{generated}'")
    
    print("\n" + "="*80)
    print("‚ú® Model is ready to use! You can share 'model_final.pt' and use it anywhere")
    print("="*80)
    
except Exception as e:
    print(f"‚ùå Error: {e}")
    import traceback
    traceback.print_exc()


üîÑ STANDALONE MODEL LOADING (Simulating Shared Model Usage)
‚úì Loaded model state dict from model_final.pt
‚úì Model architecture created and weights loaded
‚úì Model params: 76.81M
‚úì Loaded tokenizer: EleutherAI/gpt-neox-20b

üéØ INFERENCE TEST

üìù Prompt: 'def fibonacci'
‚úÖ Generated: 'def fibonacci microenvironmentroxthur implements /**<doing lin qPCR productivitynamespace Nina initiate @"¬¢ICAg competition icon distancesi√©n bet hydrabolecause eraRand'

üìù Prompt: 'import numpy'
‚úÖ Generated: 'import numpy startlingMatcherrapyconstrainedodontiom identifiersecal<%ÔøΩDigabsor¬ë Wrest sporadicProductmicromachinesImp rewriteDOÂ¶ÇÊûú tres oscillatorjust recover'

üìù Prompt: 'def hello'
‚úÖ Generated: 'def helloweetEuro behavioral economics McCarthyMET kan RAoso Harold daredForget√•ngota sack expanding sway Site willBus eq shred Carp
					 Ess'

‚ú® Model is ready to use! You can share 'model_final.pt' and use it anywhere


## üîπ Partie 11 : Chargement Standalone (Mode Production)

### Qu'est-ce qu'on fait ?

Nous simulons l'**utilisation du mod√®le en production** - quand on n'a acc√®s qu'au fichier `.pt`, sans le notebook d'entra√Ænement.

### Sc√©nario R√©el de D√©ploiement

```
‚úÖ Situation:
   - Entra√Ænement termin√© (80,000 steps)
   - Mod√®le sauvegard√©: model_final.pt
   - On partage le fichier avec un coll√®gue
   - Il veut juste faire de l'inf√©rence

‚ùå Probl√®me:
   - Pas acc√®s au notebook d'entra√Ænement
   - Ne conna√Æt pas les hyperparam√®tres exacts
   - Veut juste charger et utiliser

‚úÖ Solution:
   - Tout est dans le checkpoint !
   - Reconstruction compl√®te possible
```

### Les 4 √âtapes de Reconstruction

#### √âtape 1 : Charger le Checkpoint

```python
checkpoint = torch.load("model_final.pt", map_location="cuda")

# map_location important !
# Si entra√Æn√© sur GPU mais charg√© sur CPU:
checkpoint = torch.load("model.pt", map_location="cpu")
```

#### √âtape 2 : Recr√©er l'Architecture

```python
# Option A: Si config dans checkpoint (recommand√©)
cfg_loaded = Config(**checkpoint["config"])
model = TinyDecoderLM(cfg_loaded)

# Option B: Si pas de config (manuel)
@dataclass
class InferenceConfig:
    vocab_size: int = 50257
    d_model: int = 512
    n_heads: int = 8
    n_layers: int = 8
    d_ff: int = 2048
    block_size: int = 256

cfg = InferenceConfig()
model = TinyDecoderLM(cfg)
```

**‚ö†Ô∏è CRITIQUE** : Les hyperparam√®tres doivent √™tre **EXACTEMENT** les m√™mes que lors de l'entra√Ænement !

Mismatch ‚Üí Crash ou r√©sultats incorrects

#### √âtape 3 : Charger les Poids

```python
model.load_state_dict(checkpoint["model"])
model.to(device)
model.to(dtype)
model.eval()  # MODE √âVALUATION (important!)
```

**Diff√©rences eval() vs train()** :

| Aspect | train() | eval() |
|--------|---------|--------|
| Dropout | ‚úÖ Actif (0.1 prob) | ‚ùå D√©sactiv√© |
| BatchNorm | ‚úÖ Mise √† jour stats | ‚ùå Stats fig√©es |
| Gradient | ‚úÖ Calcul√©s | ‚ö†Ô∏è Optionnel |

Pour l'inf√©rence, **TOUJOURS** utiliser `eval()` !

#### √âtape 4 : Charger le Tokenizer

```python
# Option A: Tokenizer dans checkpoint
tokenizer = checkpoint["tokenizer"]

# Option B: Charger depuis HuggingFace
tokenizer = AutoTokenizer.from_pretrained(
    checkpoint["tokenizer_name_or_path"]
)
# "EleutherAI/gpt-neox-20b"
```

### Code Complet de Chargement Standalone

```python
import torch
from transformers import AutoTokenizer

# 1. Charger checkpoint
print("Loading checkpoint...")
ckpt = torch.load("model_final.pt", map_location="cuda")

# 2. Recr√©er config
from dataclasses import dataclass

@dataclass
class Config:
    vocab_size: int = 50257
    d_model: int = 512
    n_heads: int = 8
    n_layers: int = 8
    d_ff: int = 2048
    block_size: int = 256

cfg = Config()

# 3. Recr√©er mod√®le
from model import TinyDecoderLM  # Importer la classe
model = TinyDecoderLM(cfg)
model.load_state_dict(ckpt["model"])
model.cuda().eval()

# 4. Charger tokenizer
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-20b")

# 5. Pr√™t pour inf√©rence !
prompt = "def fibonacci(n):"
input_ids = tokenizer.encode(prompt, return_tensors="pt").cuda()

with torch.no_grad():
    for _ in range(50):
        logits = model(input_ids)
        next_token = torch.multinomial(
            F.softmax(logits[0, ‚àí1] / 0.7, dim=‚àí1), 
            num_samples=1
        )
        input_ids = torch.cat([input_ids, next_token.unsqueeze(0)], dim=1)

output = tokenizer.decode(input_ids[0])
print(output)
```

### Avantages vs. Inconv√©nients

#### ‚úÖ Avantages de l'Approche Standalone

- Pas de d√©pendances au code d'entra√Ænement
- L√©ger et portable
- Contr√¥le total sur l'inf√©rence
- D√©ploiement facile
- Production-ready

#### ‚ùå Inconv√©nients

- Doit se souvenir/documenter les hyperparam√®tres
- Pas de validation automatique de compatibilit√©
- Erreurs silencieuses si mauvaise config
- Redondance de code (r√©impl√©menter la classe)

### Solutions aux Inconv√©nients

#### Solution 1 : Sauvegarder TOUT dans le Checkpoint

```python
torch.save({
    "model": model.state_dict(),
    "config": cfg.__dict__,
    "tokenizer_name": "EleutherAI/gpt-neox-20b",
    "model_class": "TinyDecoderLM",
    "pytorch_version": torch.__version__,
    "training_steps": 80000,
    "final_loss": 2.34,
    # Metadata complet !
}, "model_final.pt")
```

#### Solution 2 : Packager avec le Code

```
deployment/
  ‚îú‚îÄ model_final.pt          # Checkpoint
  ‚îú‚îÄ model.py                # D√©finition TinyDecoderLM
  ‚îú‚îÄ config.py               # Classe Config
  ‚îú‚îÄ inference.py            # Script d'inf√©rence
  ‚îî‚îÄ requirements.txt        # D√©pendances
```

#### Solution 3 : Utiliser HuggingFace Hub

```python
# Upload
model.push_to_hub("username/tiny-code-lm")

# Download (n'importe o√π)
model = TinyDecoderLM.from_pretrained("username/tiny-code-lm")
# Tout automatique ! ‚úÖ
```

### Checklist de D√©ploiement

Avant de d√©ployer en production :

- [ ] Tester le chargement sur une machine vierge
- [ ] V√©rifier que la g√©n√©ration fonctionne
- [ ] Documenter les hyperparam√®tres
- [ ] Inclure les requirements (torch, transformers, etc.)
- [ ] Tester sur CPU ET GPU
- [ ] Ajouter gestion d'erreurs
- [ ] Mesurer la latence d'inf√©rence
- [ ] Optimiser si n√©cessaire (quantization, pruning)

In [None]:
# ============================================================
# 11. SAVE FINAL MODEL (State Dict Only)
# ============================================================
"""
LIGHTWEIGHT MODEL SAVING:
===========================

This alternative saves ONLY the model weights (state dict):
  - Smaller file size (no config or tokenizer)
  - Faster to save/load
  - Still contains all learnable parameters
  - Requires external config and tokenizer path

WHEN TO USE:
  - Transferring models between machines
  - Minimizing storage space
  - When config/tokenizer are known separately

COMPARISON:
  - Full checkpoint (previous): ~150-200MB (includes config, tokenizer object)
  - State dict only (here): ~150MB (just weights)
  
Note: Both have similar size since weights dominate.
The main difference is convenience vs. completeness.
"""

final_path = "model_final.pt"

# Save ONLY the model state dict (not the full checkpoint)
torch.save(model.state_dict(), final_path)

print(f"\n‚úÖ Final model saved to: {final_path}")
print(f"   Size: {sum(p.numel() for p in model.parameters())/1e6:.2f}M parameters")


‚úÖ Final model saved to: model_final.pt
   Size: 76.81M parameters
def hello stylish765 BACKFebruary Crist


## üîπ Partie 12 : Sauvegarde Alternative (State Dict Seulement)

### Qu'est-ce qu'on fait ?

Une version **minimaliste** de la sauvegarde : uniquement les poids du mod√®le, sans config ni metadata.

### Comparaison des Approches

| Aspect | Full Checkpoint | State Dict Only |
|--------|----------------|-----------------|
| **Config incluse** | ‚úÖ Oui | ‚ùå Non (externe) |
| **Poids** | ‚úÖ Oui | ‚úÖ Oui |
| **Optimizer state** | ‚úÖ Optionnel | ‚ùå Non |
| **Tokenizer** | ‚úÖ Nom/objet | ‚ùå Non |
| **Metadata** | ‚úÖ Step, loss, etc. | ‚ùå Non |
| **Taille** | ~300-400 MB | ~300 MB |
| **Usage** | Recherche, reprise | Production l√©g√®re |
| **Facilit√©** | ‚úÖ Facile | ‚ö†Ô∏è Manuel |

### Quand Utiliser Chaque Approche ?

#### Full Checkpoint (Recommand√© pour Recherche)

```python
# Cas d'usage:
‚úÖ D√©veloppement et exp√©rimentation
‚úÖ Besoin de reprendre l'entra√Ænement
‚úÖ Comparaison de mod√®les
‚úÖ Reproductibilit√© exacte
‚úÖ Archivage √† long terme

# Code:
torch.save({
    "model": model.state_dict(),
    "optimizer": optimizer.state_dict(),
    "config": cfg.__dict__,
    "step": step,
    "loss_history": history,
}, "checkpoint_full.pt")
```

#### State Dict Only (Pour D√©ploiement L√©ger)

```python
# Cas d'usage:
‚úÖ D√©ploiement en production
‚úÖ Partage de mod√®le (collaboration)
‚úÖ Contraintes d'espace disque
‚úÖ Quand config est connue/document√©e
‚úÖ Distribution publique

# Code:
torch.save(model.state_dict(), "model_weights.pt")
```

### Exemple Concret : Les Deux Fichiers

#### Version 1 : Checkpoint Complet (450 MB)

```python
checkpoint_full.pt contient:
‚îú‚îÄ model: {
‚îÇ    'tok_emb.weight': tensor(50257, 512),
‚îÇ    'pos_emb.weight': tensor(256, 512),
‚îÇ    'blocks.0.attn.qkv.weight': tensor(1536, 512),
‚îÇ    ...  (tous les param√®tres)
‚îÇ  }
‚îú‚îÄ optimizer: {
‚îÇ    'state': {...},  # Momentum, variance pour chaque param
‚îÇ    'param_groups': [...]
‚îÇ  }
‚îú‚îÄ config: {
‚îÇ    'vocab_size': 50257,
‚îÇ    'd_model': 512,
‚îÇ    ...
‚îÇ  }
‚îú‚îÄ step: 80000
‚îú‚îÄ loss_history: [3.2, 2.9, 2.5, ...]
‚îî‚îÄ metadata: {...}

Taille: ~450 MB
  - Model: 308 MB (77M params √ó 4 bytes)
  - Optimizer: 120 MB (2√ó model size pour momentum+variance)
  - Reste: ~22 MB
```

#### Version 2 : State Dict Seulement (308 MB)

```python
model_weights.pt contient:
‚îú‚îÄ 'tok_emb.weight': tensor(50257, 512)
‚îú‚îÄ 'pos_emb.weight': tensor(256, 512)
‚îú‚îÄ 'blocks.0.attn.qkv.weight': tensor(1536, 512)
‚îú‚îÄ 'blocks.0.attn.proj.weight': tensor(512, 512)
...
‚îî‚îÄ 'head.weight': tensor(50257, 512)

Taille: ~308 MB (juste les poids)
```

**√âconomie** : 450 MB ‚Üí 308 MB = **31% plus l√©ger** !

### Chargement des Deux Formats

#### Charger Full Checkpoint

```python
# Charger tout
checkpoint = torch.load("checkpoint_full.pt")

# Recr√©er mod√®le
cfg = Config(**checkpoint["config"])
model = TinyDecoderLM(cfg)
model.load_state_dict(checkpoint["model"])

# Reprendre entra√Ænement (optionnel)
optimizer.load_state_dict(checkpoint["optimizer"])
start_step = checkpoint["step"]
```

#### Charger State Dict Only

```python
# Charger juste les poids
state_dict = torch.load("model_weights.pt")

# Recr√©er mod√®le (config manuelle !)
cfg = Config(
    vocab_size=50257,
    d_model=512,
    n_heads=8,
    n_layers=8,
    d_ff=2048,
    block_size=256
)
model = TinyDecoderLM(cfg)
model.load_state_dict(state_dict)
```

**Risque** : Si la config est incorrecte ‚Üí Erreur ou comportement bizarre !

### Optimisations Suppl√©mentaires

#### Quantization (8-bit)

```python
# R√©duire precision float32 ‚Üí int8
model_int8 = torch.quantization.quantize_dynamic(
    model, {nn.Linear}, dtype=torch.qint8
)

# √âconomie: 308 MB ‚Üí 77 MB (4√ó plus petit !)
torch.save(model_int8.state_dict(), "model_int8.pt")
```

**Trade-off** :
- ‚úÖ 4√ó plus l√©ger
- ‚ö†Ô∏è L√©g√®re perte de qualit√© (~2%)
- ‚ö° Inf√©rence 2-3√ó plus rapide (CPU)

#### Half Precision (float16)

```python
# Sauvegarder en float16
model_half = model.half()
torch.save(model_half.state_dict(), "model_fp16.pt")

# √âconomie: 308 MB ‚Üí 154 MB (2√ó plus petit !)
```

**Trade-off** :
- ‚úÖ 2√ó plus l√©ger
- ‚úÖ Presque aucune perte de qualit√©
- ‚ö° Inf√©rence plus rapide (GPU avec tensor cores)

### Best Practices : Quelle Approche Choisir ?

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ DECISION TREE: Comment Sauvegarder le Mod√®le ?         ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò

Besoin de reprendre l'entra√Ænement plus tard ?
    Oui ‚Üí Full Checkpoint ‚úÖ
    Non ‚Üí Continuer ‚Üì

Espace disque limit√© ?
    Oui ‚Üí State Dict + Quantization ‚úÖ
    Non ‚Üí Continuer ‚Üì

Partager avec d'autres ?
    Oui ‚Üí Full Checkpoint (avec config) ‚úÖ
    Non ‚Üí State Dict OK ‚úÖ

Production critique ?
    Oui ‚Üí Full Checkpoint + Versioning ‚úÖ
    Non ‚Üí State Dict OK ‚úÖ
```

### Commandes Rapides Utiles

```python
# Comparer taille de fichiers
import os
size_full = os.path.getsize("checkpoint_full.pt") / 1e6
size_light = os.path.getsize("model_weights.pt") / 1e6
print(f"Full: {size_full:.1f} MB | Light: {size_light:.1f} MB")

# Lister contenu d'un checkpoint
checkpoint = torch.load("checkpoint_full.pt", map_location="cpu")
print(checkpoint.keys())  # ['model', 'optimizer', 'config', ...]

# Extraire juste les poids d'un full checkpoint
state_dict = checkpoint["model"]
torch.save(state_dict, "extracted_weights.pt")
```

In [None]:
# ============================================================
# 12. QUICK TEST - Generate from Trained Model
# ============================================================
"""
QUICK GENERATION TEST:
======================

This cell quickly tests text generation.
Requires the model to be already loaded from previous cells.

Usage: Just run this cell for quick generation samples.
"""

output = generate(model, tokenizer, "def hello", max_tokens=5)
print(output)

## üìä R√©sum√© Complet du Pr√©-Entra√Ænement

### Vue d'Ensemble : Le Pipeline Complet

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ          üêç PR√â-ENTRA√éNEMENT D'UN LLM DE CODING            ‚îÇ
‚îÇ                   (TinyLM - 77M params)                     ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                              ‚îÇ
                              ‚ñº
         ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
         ‚îÇ  1Ô∏è‚É£ CONFIGURATION & SETUP          ‚îÇ
         ‚îÇ  ‚îú‚îÄ Config (hyperparams)           ‚îÇ
         ‚îÇ  ‚îú‚îÄ LR Schedule (warmup + cosine)  ‚îÇ
         ‚îÇ  ‚îú‚îÄ Tokenizer (GPT-NeoX, 50K voc)  ‚îÇ
         ‚îÇ  ‚îî‚îÄ Device (CUDA/CPU)              ‚îÇ
         ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                              ‚îÇ
                              ‚ñº
         ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
         ‚îÇ  2Ô∏è‚É£ DONN√âES & PR√âPARATION          ‚îÇ
         ‚îÇ  ‚îú‚îÄ Load: Code (60%) + NL (40%)   ‚îÇ
         ‚îÇ  ‚îú‚îÄ Buffer: 50K samples            ‚îÇ
         ‚îÇ  ‚îú‚îÄ Encode: Text ‚Üí Tokens          ‚îÇ
         ‚îÇ  ‚îî‚îÄ Stream: Infini (cycling)       ‚îÇ
         ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                              ‚îÇ
                              ‚ñº
         ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
         ‚îÇ  3Ô∏è‚É£ ARCHITECTURE TRANSFORMER       ‚îÇ
         ‚îÇ  ‚îú‚îÄ Embeddings (token + pos)       ‚îÇ
         ‚îÇ  ‚îú‚îÄ 8√ó Decoder Blocks              ‚îÇ
         ‚îÇ  ‚îÇ   ‚îú‚îÄ Multi-head Attention (8h)  ‚îÇ
         ‚îÇ  ‚îÇ   ‚îú‚îÄ Layer Norm                 ‚îÇ
         ‚îÇ  ‚îÇ   ‚îî‚îÄ Feed-Forward (4√ó d_model)  ‚îÇ
         ‚îÇ  ‚îî‚îÄ Output Projection              ‚îÇ
         ‚îÇ     Total: ~77M param√®tres         ‚îÇ
         ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                              ‚îÇ
                              ‚ñº
         ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
         ‚îÇ  4Ô∏è‚É£ OPTIMISEUR & TRAINING          ‚îÇ
         ‚îÇ  ‚îú‚îÄ AdamW (Œ≤1=0.9, Œ≤2=0.95)        ‚îÇ
         ‚îÇ  ‚îú‚îÄ Weight Decay (0.1)             ‚îÇ
         ‚îÇ  ‚îú‚îÄ Grad Accumulation (8 steps)    ‚îÇ
         ‚îÇ  ‚îú‚îÄ Mixed Precision (bfloat16)     ‚îÇ
         ‚îÇ  ‚îî‚îÄ 80K training steps             ‚îÇ
         ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                              ‚îÇ
                              ‚ñº
         ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
         ‚îÇ  5Ô∏è‚É£ SAUVEGARDE & G√âN√âRATION        ‚îÇ
         ‚îÇ  ‚îú‚îÄ Checkpoint (model + config)    ‚îÇ
         ‚îÇ  ‚îú‚îÄ State Dict (poids only)        ‚îÇ
         ‚îÇ  ‚îî‚îÄ Generation (auto-regressive)   ‚îÇ
         ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

---

### Les 13 √âtapes D√©taill√©es

| # | √âtape | Description | Output |
|---|-------|-------------|--------|
| **1** | **Imports** | Charger PyTorch, Transformers, Datasets | Librairies pr√™tes |
| **2** | **Config** | D√©finir hyperparam√®tres (d_model=512, n_layers=8, etc.) | Objet `Config` |
| **3** | **LR Schedule** | Warmup (2K steps) + Cosine Decay | Fonction `get_lr()` |
| **4** | **Tokenizer** | GPT-NeoX-20B tokenizer (50,257 tokens) | Objet `tokenizer` |
| **5** | **Data Loading** | Charger bigcode/the-stack-smol + smollm-corpus | Streams de donn√©es |
| **6** | **Data Processing** | Buffer 50K samples, encoder en tokens | G√©n√©rateur `data_stream` |
| **7** | **Architecture** | Construire TinyDecoderLM (8 layers, 8 heads) | Mod√®le 77M params |
| **8** | **Optimizer** | AdamW avec grouped params (decay vs no-decay) | Objet `optimizer` |
| **9** | **Training Loop** | 80K steps, accumulation, mixed precision | Mod√®le entra√Æn√© |
| **10** | **Full Checkpoint** | Sauvegarder model + optimizer + config | `mini_gpt_full.pt` |
| **11** | **State Dict** | Sauvegarder poids seulement | `mini_gpt_code.pt` |
| **12** | **Loading** | Charger checkpoint + recr√©er mod√®le | Mod√®le pr√™t |
| **13** | **Generation** | Auto-regressive sampling (greedy/temp/top-k) | Texte g√©n√©r√© |

---

### Chiffres Cl√©s du Projet

#### Architecture

| Composant | Valeur | Explication |
|-----------|--------|-------------|
| **Vocab Size** | 50,257 | Tokens GPT-NeoX (BPE) |
| **d_model** | 512 | Dimension des embeddings |
| **n_heads** | 8 | T√™tes d'attention (64 dims chacune) |
| **n_layers** | 8 | Blocs Transformer empil√©s |
| **d_ff** | 2,048 | Dimension feed-forward (4√ó d_model) |
| **block_size** | 256 | Longueur maximale de contexte |
| **Total Params** | **77M** | ~300 MB en float32 |

#### Training

| Param√®tre | Valeur | Justification |
|-----------|--------|---------------|
| **Training Steps** | 80,000 | ~10M tokens vus |
| **Batch Size** | 64 | Par device |
| **Grad Accum** | 8 | ‚Üí Effective batch = 512 |
| **Learning Rate** | 6e-4 | Max apr√®s warmup |
| **Warmup Steps** | 2,000 | Stabilisation initiale |
| **Weight Decay** | 0.1 | R√©gularisation AdamW |
| **Dropout** | 0.1 | Dans attention + FF |
| **Precision** | bfloat16 | Mixed precision (NVIDIA) |

#### Donn√©es

| Dataset | % Mixture | Samples | Tokens/Sample |
|---------|-----------|---------|---------------|
| **bigcode/the-stack-smol** | 60% | ~20M | ~200 |
| **HuggingFaceTB/smollm-corpus** | 40% | ~50M | ~150 |
| **Total** | 100% | ~70M | Variable |
| **Effective** | Streaming | Infini | 256 (truncated) |

---

### Comparaison avec Mod√®les Existants

| Mod√®le | Params | Layers | Heads | d_model | Context | Vocab | Training Tokens |
|--------|--------|--------|-------|---------|---------|-------|-----------------|
| **TinyLM (nous)** | 77M | 8 | 8 | 512 | 256 | 50K | ~10M |
| **GPT-2 Small** | 124M | 12 | 12 | 768 | 1024 | 50K | ~40B |
| **GPT-Neo 125M** | 125M | 12 | 12 | 768 | 2048 | 50K | ~300B |
| **TinyLlama 1.1B** | 1.1B | 22 | 32 | 2048 | 2048 | 32K | ~3T |
| **Llama 2 7B** | 7B | 32 | 32 | 4096 | 4096 | 32K | ~2T |

**Notre mod√®le** est un **prototype √©ducatif** pour comprendre le pr√©-entra√Ænement, pas pour production !

---

### Formules Math√©matiques Cl√©s

#### 1. Causal Language Modeling (CLM)

$$
\mathcal{L}_{\text{CLM}} = -\frac{1}{T} \sum_{t=1}^{T} \log P(x_t \mid x_{<t})
$$

- **T** : Longueur de s√©quence
- **$x_t$** : Token √† pr√©dire √† la position $t$
- **$x_{<t}$** : Contexte pr√©c√©dent (tokens 1 √† $t-1$)

#### 2. Scaled Dot-Product Attention

$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V
$$

- **Q, K, V** : Query, Key, Value (projections de l'input)
- **$d_k$** : Dimension des cl√©s (= d_model / n_heads = 64)
- **Causal Mask** : Appliqu√© avant softmax pour emp√™cher future leakage

#### 3. Learning Rate Schedule

$$
\text{lr}(t) = \begin{cases}
\text{lr}_{\text{max}} \times \frac{t}{\text{warmup}} & \text{if } t < \text{warmup} \\
\text{lr}_{\text{max}} \times \frac{1}{2}\left(1 + \cos\left(\pi \times \frac{t - \text{warmup}}{\text{total} - \text{warmup}}\right)\right) & \text{otherwise}
\end{cases}
$$

- **Warmup** : 2,000 steps (lin√©aire)
- **Cosine Decay** : 78,000 steps (jusqu'√† 0)

#### 4. AdamW Update Rule

$$
\begin{aligned}
m_t &= \beta_1 m_{t-1} + (1 - \beta_1) g_t \\
v_t &= \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 \\
\hat{m}_t &= \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t} \\
\theta_t &= \theta_{t-1} - \eta_t \left(\frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} + \lambda \theta_{t-1}\right)
\end{aligned}
$$

- **$\beta_1 = 0.9$**, **$\beta_2 = 0.95$** : Momentum hyperparams
- **$\lambda = 0.1$** : Weight decay (d√©corr√©l√© du gradient)

---

### Architecture D√©taill√©e : Composants

#### Block Structure (r√©p√©t√© 8√ó)

```python
class Block(nn.Module):
    """
    Transformer Decoder Block
    
    Flow:
        x ‚Üí LayerNorm ‚Üí MultiHeadAttention ‚Üí Residual
          ‚Üí LayerNorm ‚Üí FeedForward       ‚Üí Residual
    """
    def forward(self, x):
        # 1. Self-Attention avec Residual Connection
        x = x + self.attn(self.ln1(x))
        
        # 2. Feed-Forward avec Residual Connection
        x = x + self.ff(self.ln2(x))
        
        return x
```

**Param√®tres par Block** :
- Attention : ~1.6M params (Q, K, V projections + output projection)
- Feed-Forward : ~2.1M params (2 linear layers 512‚Üí2048‚Üí512)
- Layer Norms : ~2K params (n√©gligeable)
- **Total par block** : ~3.7M params
- **8 blocks** : ~29.6M params

#### Embeddings

```python
# Token Embeddings: 50,257 vocab √ó 512 dim = 25.7M params
tok_emb = nn.Embedding(50257, 512)

# Positional Embeddings: 256 positions √ó 512 dim = 131K params
pos_emb = nn.Embedding(256, 512)

# Total Embeddings: 25.8M params
```

#### Output Head

```python
# Language Modeling Head: 512 dim √ó 50,257 vocab = 25.7M params
head = nn.Linear(512, 50257, bias=False)

# Weight Tying: head.weight = tok_emb.weight (√©conomise 25.7M params !)
```

**Total Final** :
- Embeddings : 25.8M
- 8 Blocks : 29.6M
- Output Head : 25.7M (tied avec tok_emb)
- **Grand Total** : ~77M params effectifs

---

### Debugging : Probl√®mes Courants

| Probl√®me | Sympt√¥me | Solution |
|----------|----------|----------|
| **OOM (Out of Memory)** | CUDA error: out of memory | ‚Üì batch_size, ‚Üë grad_accum, utiliser bfloat16 |
| **NaN Loss** | Loss = nan apr√®s X steps | ‚Üì learning_rate, v√©rifier donn√©es, grad clipping |
| **Loss stagne** | Loss ne descend pas | ‚Üë learning_rate, v√©rifier data quality, ‚Üë model size |
| **G√©n√©ration r√©p√©titive** | "def func(): def func(): ..." | ‚Üë temperature, utiliser top-k/top-p, ‚Üë training steps |
| **G√©n√©ration incoh√©rente** | Tokens al√©atoires | ‚Üì temperature, v√©rifier tokenizer, ‚Üë training steps |
| **Slow training** | <10 steps/sec | Utiliser bfloat16, ‚Üë batch_size, v√©rifier data pipeline |
| **Checkpoint trop gros** | >1 GB | Sauver state_dict only, utiliser float16/int8 |

---

### Optimisations Possibles

#### 1. Architecture

- ‚úÖ **Flash Attention** : 2-4√ó plus rapide (requires Triton/CUDA)
- ‚úÖ **Grouped Query Attention (GQA)** : Moins de param√®tres, m√™me perf
- ‚úÖ **Rotary Position Embeddings (RoPE)** : Meilleure g√©n√©ralisation
- ‚úÖ **SwiGLU Activation** : Remplace ReLU dans FF (meilleures perfs)

#### 2. Training

- ‚úÖ **Gradient Checkpointing** : ‚Üì RAM, mais ‚Üë temps (30% slower)
- ‚úÖ **Data Augmentation** : Back-translation, synonym replacement
- ‚úÖ **Curriculum Learning** : Commencer par samples faciles
- ‚úÖ **Batch Size Scaling** : Augmenter progressivement

#### 3. Inference

- ‚úÖ **KV Cache** : Sauvegarder keys/values pass√©es (3-5√ó plus rapide)
- ‚úÖ **Quantization** : int8/int4 (4-8√ó plus petit, presque m√™me qualit√©)
- ‚úÖ **Speculative Decoding** : G√©n√©rer plusieurs tokens en parall√®le
- ‚úÖ **ONNX Export** : Optimiser pour production

---

### Next Steps : Post-Training

Apr√®s le pr√©-entra√Ænement, on peut am√©liorer le mod√®le avec :

#### 1. Supervised Fine-Tuning (SFT)

```python
# Dataset: pairs (instruction, response)
{"instruction": "Write a Python function to reverse a string",
 "response": "def reverse_string(s):\n    return s[::-1]"}
```

**Objectif** : Apprendre √† suivre des instructions

#### 2. Reinforcement Learning from Human Feedback (RLHF)

```
Human ratings ‚Üí Reward Model ‚Üí PPO Training ‚Üí Aligned Model
```

**Objectif** : Aligner le mod√®le avec pr√©f√©rences humaines

#### 3. Direct Preference Optimization (DPO)

```python
# Dataset: triplets (prompt, chosen, rejected)
{"prompt": "Explain recursion",
 "chosen": "Recursion is when a function calls itself...",
 "rejected": "Recursion is complicated and useless."}
```

**Objectif** : Alternative √† RLHF (plus simple, aussi efficace)

---

### Ressources & R√©f√©rences

#### Papers Fondamentaux

1. **Attention Is All You Need** (Vaswani et al., 2017)  
   ‚Üí Architecture Transformer originale

2. **Language Models are Unsupervised Multitask Learners** (Radford et al., 2019)  
   ‚Üí GPT-2, pr√©-entra√Ænement √† grande √©chelle

3. **Decoupled Weight Decay Regularization** (Loshchilov & Hutter, 2019)  
   ‚Üí AdamW optimizer

4. **On Layer Normalization in the Transformer Architecture** (Xiong et al., 2020)  
   ‚Üí Pre-LN vs Post-LN

5. **Training Compute-Optimal Large Language Models** (Hoffmann et al., 2022)  
   ‚Üí Chinchilla scaling laws

#### Code Bases Utiles

- **nanoGPT** (Karpathy) : https://github.com/karpathy/nanoGPT
- **minGPT** (Karpathy) : https://github.com/karpathy/minGPT
- **GPT-Neo** (EleutherAI) : https://github.com/EleutherAI/gpt-neo
- **Lit-GPT** (Lightning AI) : https://github.com/Lightning-AI/lit-gpt

---

### F√©licitations ! üéâ

Vous avez maintenant compris et impl√©ment√© **toutes les √©tapes** du pr√©-entra√Ænement d'un LLM :

‚úÖ Configuration et hyperparam√®tres  
‚úÖ Learning rate scheduling  
‚úÖ Tokenization et data loading  
‚úÖ Architecture Transformer (decoder-only)  
‚úÖ Training loop avec mixed precision  
‚úÖ Sauvegarde et chargement de checkpoints  
‚úÖ G√©n√©ration de texte auto-regressive  

**Ce mod√®le est un point de d√©part** pour exp√©rimenter avec :
- Diff√©rentes architectures (GQA, MoE, etc.)
- Nouveaux datasets (code, math, multi-langue)
- Techniques d'optimisation (Flash Attention, etc.)
- Post-training (SFT, RLHF, DPO)

Bon coding ! üêç‚ú®

## üéØ Partie 13 : Test Rapide (Quick Generation)

### Qu'est-ce qu'on fait ?

Une **cellule ultra-rapide** pour tester la g√©n√©ration depuis le mod√®le d√©j√† charg√© en m√©moire.

### Code Simple

```python
output = generate(model, tokenizer, "def hello", max_tokens=5)
print(output)
```

**Pas besoin de** :
- ‚ùå Recharger le mod√®le
- ‚ùå Recharger le tokenizer
- ‚ùå Reconfigurer le device

**Juste** :
- ‚úÖ Appeler `generate()`
- ‚úÖ Voir le r√©sultat instantan√©ment

---

### Cas d'Usage

| Situation | Exemple | Utilit√© |
|-----------|---------|---------|
| **Test Rapide** | `"def add"` ‚Üí g√©n√®re 10 tokens | V√©rifier que g√©n√©ration fonctionne |
| **Debug** | `"import"` ‚Üí voir imports pr√©dits | Debugger probl√®mes de g√©n√©ration |
| **Comparaison** | Avant vs apr√®s entra√Ænement | Mesurer progr√®s du mod√®le |
| **Demo Live** | Montrer g√©n√©ration en temps r√©el | Impressionner votre audience üòé |
| **Exploration** | Diff√©rents prompts, temp√©ratures | Comprendre comportement du mod√®le |

---

### Exemples de Prompts Int√©ressants

#### Code Python

```python
# Fonction simple
generate(model, tokenizer, "def factorial", max_tokens=50)
# ‚Üí "def factorial(n):\n    if n == 0:\n        return 1\n ..."

# Classe
generate(model, tokenizer, "class LinkedList", max_tokens=40)
# ‚Üí "class LinkedList:\n    def __init__(self):\n        self.head = None\n ..."

# Import
generate(model, tokenizer, "import", max_tokens=10)
# ‚Üí "import numpy as np\nimport pandas as pd"

# Commentaire
generate(model, tokenizer, "# This function", max_tokens=20)
# ‚Üí "# This function calculates the sum of two numbers\ndef add ..."
```

#### Texte Naturel

```python
# Phrase simple
generate(model, tokenizer, "Machine learning is", max_tokens=30)
# ‚Üí "Machine learning is a subset of AI that focuses on ..."

# Question
generate(model, tokenizer, "What is Python?", max_tokens=40)
# ‚Üí "What is Python? Python is a high-level programming language ..."
```

---

### Variations Utiles

#### 1. Temp√©rature Variable

```python
# Greedy (temp√©rature = 0) : d√©terministe
output_greedy = generate(model, tokenizer, "def sort", max_tokens=20, temperature=0.0)

# Cr√©atif (temp√©rature √©lev√©e) : al√©atoire
output_creative = generate(model, tokenizer, "def sort", max_tokens=20, temperature=1.2)

print("Greedy:", output_greedy)
print("Creative:", output_creative)
```

#### 2. Longueur Variable

```python
# Court (5 tokens)
short = generate(model, tokenizer, "def", max_tokens=5)

# Moyen (50 tokens)
medium = generate(model, tokenizer, "def", max_tokens=50)

# Long (200 tokens)
long = generate(model, tokenizer, "def", max_tokens=200)
```

#### 3. Multiple Generations

```python
# G√©n√©rer 5 versions diff√©rentes
for i in range(5):
    output = generate(model, tokenizer, "def calculate", max_tokens=30, temperature=0.8)
    print(f"\n=== Sample {i+1} ===\n{output}")
```

---

### Interpr√©tation des R√©sultats

#### Bon Signe ‚úÖ

```python
Prompt: "def fibonacci"
Output: "def fibonacci(n):
    if n <= 1:
        return n
    return fibonacci(n-1) + fibonacci(n-2)"
```

**Pourquoi** :
- Syntaxe Python correcte
- Logique coh√©rente (r√©cursion)
- Nommage appropri√© (n)
- Indentation respect√©e

#### Mauvais Signe ‚ùå

```python
Prompt: "def fibonacci"
Output: "def fibonacci fibonacci def def def import class while ..."
```

**Pourquoi** :
- R√©p√©tition excessive
- Pas de structure coh√©rente
- Tokens al√©atoires

**Solutions** :
- ‚Üë Training steps (mod√®le sous-entra√Æn√©)
- ‚Üì Temperature (g√©n√©ration trop al√©atoire)
- V√©rifier donn√©es d'entra√Ænement (qualit√©)

---

### Debugging Quick Tips

| Probl√®me | Solution Rapide |
|----------|-----------------|
| **G√©n√©ration vide** | V√©rifier que model et tokenizer sont charg√©s |
| **Erreur CUDA** | `model.to("cpu")` puis r√©essayer |
| **Tokens √©tranges** | V√©rifier prompt (doit √™tre du texte valide) |
| **Trop lent** | ‚Üì max_tokens ou utiliser `device="cuda"` |
| **R√©p√©titions** | ‚Üì temperature ou utiliser top-k sampling |

---

### Extensions Possibles

#### 1. Batch Generation

```python
prompts = ["def add", "class Node", "import torch"]
for prompt in prompts:
    output = generate(model, tokenizer, prompt, max_tokens=20)
    print(f"{prompt} ‚Üí {output}\n")
```

#### 2. Avec Statistiques

```python
import time

start = time.time()
output = generate(model, tokenizer, "def sort", max_tokens=100)
elapsed = time.time() - start

tokens_generated = len(tokenizer.encode(output)) - len(tokenizer.encode("def sort"))
speed = tokens_generated / elapsed

print(f"Generated: {tokens_generated} tokens in {elapsed:.2f}s ({speed:.1f} tok/s)")
print(f"Output:\n{output}")
```

#### 3. Sauvegarder les Samples

```python
samples = []
for i in range(10):
    output = generate(model, tokenizer, "def", max_tokens=50, temperature=0.9)
    samples.append(output)

# Sauvegarder dans fichier
with open("generated_samples.txt", "w") as f:
    for i, sample in enumerate(samples):
        f.write(f"=== Sample {i+1} ===\n{sample}\n\n")
```

---

### Comparaison : Avant vs Apr√®s Entra√Ænement

```python
# Charger mod√®le initial (random weights)
model_init = TinyDecoderLM(cfg).to(device)

# G√©n√©rer avec mod√®le non-entra√Æn√©
output_random = generate(model_init, tokenizer, "def hello", max_tokens=30)
print("AVANT entra√Ænement:", output_random)

# G√©n√©rer avec mod√®le entra√Æn√©
output_trained = generate(model, tokenizer, "def hello", max_tokens=30)
print("APR√àS entra√Ænement:", output_trained)
```

**R√©sultat attendu** :
- **Avant** : Garbage (tokens al√©atoires)
- **Apr√®s** : Code Python syntaxiquement valide

---

### C'est Tout ! üéâ

Cette cellule permet de **tester rapidement** la g√©n√©ration pendant le d√©veloppement.

**Workflow typique** :
1. Entra√Æner mod√®le (ou charger checkpoint)
2. Lancer cette cellule
3. Voir r√©sultat imm√©diatement
4. Ajuster temp√©rature/longueur si besoin
5. R√©p√©ter !

**Bon testing !** ‚ú®