# üá´üá∑ Fine-tuning GPT-2 Fran√ßais avec Nanochat

Ce notebook vous permet de fine-tuner le mod√®le GPT-2 fran√ßais (`asi/gpt-fr-cased-base`) sur vos dialogues pr√©par√©s via **Pipeline Manager**.

## üìã Pr√©requis

Avant de lancer ce notebook, assurez-vous d'avoir :
1. ‚úÖ Pr√©par√© votre dataset via Pipeline Manager (local)
2. ‚úÖ Export√© le fichier `combined_dataset.jsonl`
3. ‚úÖ Le fichier contient des dialogues au format JSON avec `messages`

**‚ö†Ô∏è IMPORTANT : Activez le GPU !**
1. Menu `Runtime` ‚Üí `Change runtime type`
2. S√©lectionnez `T4 GPU`
3. Cliquez `Save`

**Temps estim√© :** ~10 minutes pour 300 iterations

## 1Ô∏è‚É£ Installation des d√©pendances

Installation de l'environnement complet (2-3 minutes)

In [1]:
# V√©rifier le GPU
!nvidia-smi

# Installer Rust (requis pour le tokenizer)
print("üì¶ Installation de Rust...")
!curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh -s -- -y
import os
os.environ['PATH'] = f"{os.environ['HOME']}/.cargo/bin:{os.environ['PATH']}"

# Cloner le repo nanochat
print("\nüì• Clonage du repo nanochat...")
!git clone https://github.com/karpathy/nanochat
%cd nanochat

# Checkout de la branche French
!git checkout feat/french-experiment

# Installer les d√©pendances Python
print("\nüì¶ Installation des d√©pendances Python...")
!pip install -q torch transformers tiktoken maturin

# Compiler le tokenizer Rust
print("\nüî® Compilation du tokenizer Rust...")
!maturin develop --release --manifest-path rustbpe/Cargo.toml

print("\n‚úÖ Installation termin√©e !")

Fri Oct 17 08:33:55 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  Tesla T4                       Off |   00000000:00:04.0 Off |                    0 |
| N/A   47C    P8             10W /   70W |       0MiB /  15360MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                

## 2Ô∏è‚É£ Upload de votre dataset

Uploadez votre fichier `combined_dataset.jsonl` g√©n√©r√© par Pipeline Manager

In [None]:
from google.colab import files
import shutil
from pathlib import Path

# Cr√©er la structure de dossiers
data_dir = Path("data/Stage.FINAL")
data_dir.mkdir(parents=True, exist_ok=True)

# Upload du fichier
print("üìÅ S√©lectionnez votre fichier combined_dataset.jsonl...")
uploaded = files.upload()

# D√©placer le fichier upload√©
for filename in uploaded.keys():
    target_path = data_dir / "combined_dataset.jsonl"
    shutil.move(filename, target_path)
    print(f"‚úÖ Fichier {filename} copi√© dans {target_path}")

# V√©rifier le contenu
import json
dialogues = []
with open(target_path, 'r', encoding='utf-8') as f:
    for line in f:
        if line.strip():
            dialogues.append(json.loads(line))

print(f"\nüìä Statistiques du dataset :")
print(f"  - Total dialogues: {len(dialogues)}")
print(f"  - Split train (90%): ~{int(len(dialogues) * 0.9)}")
print(f"  - Split val (10%): ~{int(len(dialogues) * 0.1)}")

# Afficher un exemple
if dialogues:
    print(f"\nüìù Exemple de dialogue :")
    example = dialogues[0]
    for msg in example.get('messages', [])[:4]:  # Premiers 4 messages
        role = msg['role'].upper()
        content = msg['content'][:100]  # Premiers 100 chars
        print(f"  {role}: {content}...")

## 3Ô∏è‚É£ T√©l√©chargement du mod√®le GPT-2 Fran√ßais

T√©l√©chargement du mod√®le pr√©-entra√Æn√© depuis HuggingFace

In [None]:
print("üì• T√©l√©chargement du mod√®le GPT-2 Fran√ßais (asi/gpt-fr-cased-base)...")
print("‚è±Ô∏è  Cela peut prendre 2-3 minutes...\n")

!python -m scripts.download_gpt2_french

print("\n‚úÖ Mod√®le t√©l√©charg√© !")

## 4Ô∏è‚É£ Configuration du training

Param√®tres par d√©faut (modifiables)

In [None]:
# Param√®tres de training
NUM_EPOCHS = 3                # Nombre d'√©poques (3 = bon compromis)
TARGET_EXAMPLES_PER_STEP = 8  # Nombre d'exemples par step (8 pour GPU)
DEVICE_BATCH_SIZE = 32        # Batch size (32 devrait passer sur T4 16GB)
EMBEDDING_LR = 0.2            # Learning rate pour embeddings
MATRIX_LR = 0.02              # Learning rate pour matrices
UNEMBEDDING_LR = 0.004        # Learning rate pour lm_head
EVAL_EVERY = 10               # √âvaluation tous les N steps

# Calculer le nombre d'it√©rations approximatif
num_dialogues = len(dialogues)
train_dialogues = int(num_dialogues * 0.9)
approx_iterations = (train_dialogues // TARGET_EXAMPLES_PER_STEP) * NUM_EPOCHS

print("‚öôÔ∏è Configuration :")
print(f"  - Epochs: {NUM_EPOCHS}")
print(f"  - Examples per step: {TARGET_EXAMPLES_PER_STEP}")
print(f"  - Device batch size: {DEVICE_BATCH_SIZE}")
print(f"  - Training dialogues: ~{train_dialogues}")
print(f"  - Iterations approximatives: ~{approx_iterations}")
print(f"  - Temps estim√© (T4): ~{approx_iterations * 15 / 60:.1f} minutes")

## 5Ô∏è‚É£ Lancement du training

Le training va commencer. Vous verrez les logs en temps r√©el.

**Ce que vous allez voir :**
- Chargement du mod√®le GPT-2 fran√ßais
- Chargement du tokenizer
- Chargement du dataset
- Progress avec validation loss tous les 10 steps
- Sauvegarde automatique du checkpoint final

In [None]:
import time
start_time = time.time()

# Lancer le training
!python -m scripts.sft_gpt2_french \
  --num_epochs={NUM_EPOCHS} \
  --target_examples_per_step={TARGET_EXAMPLES_PER_STEP} \
  --device_batch_size={DEVICE_BATCH_SIZE} \
  --embedding_lr={EMBEDDING_LR} \
  --matrix_lr={MATRIX_LR} \
  --unembedding_lr={UNEMBEDDING_LR} \
  --eval_every={EVAL_EVERY} \
  --dtype=bfloat16

elapsed = time.time() - start_time
print(f"\n‚úÖ Training termin√© en {elapsed/60:.1f} minutes !")

## 6Ô∏è‚É£ Test du mod√®le fine-tun√©

Testons le mod√®le avec quelques prompts

In [None]:
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer
import glob
from pathlib import Path

# Trouver le dernier checkpoint
print("üì• Chargement du mod√®le fine-tun√©...")

checkpoint_dir = Path.home() / ".cache/nanochat/sft_french_checkpoints"
model_checkpoints = sorted(checkpoint_dir.glob("*/model_*.pt"))

if model_checkpoints:
    latest_checkpoint = model_checkpoints[-1]
    print(f"‚úÖ Checkpoint trouv√© : {latest_checkpoint}")

    # Charger le mod√®le de base
    model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")

    # Charger les poids fine-tun√©s
    checkpoint = torch.load(latest_checkpoint, map_location='cuda')
    model.load_state_dict(checkpoint['model'])
    model.cuda()
    model.eval()

    tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")

    # Fonction de g√©n√©ration
    def generate(prompt, max_length=150, temperature=0.8, top_p=0.9):
        inputs = tokenizer(prompt, return_tensors="pt").to('cuda')
        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_length=max_length,
                temperature=temperature,
                do_sample=True,
                top_p=top_p,
                pad_token_id=tokenizer.eos_token_id
            )
        return tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Tests
    print("\n" + "="*60)
    print("ü§ñ Test du mod√®le fine-tun√©")
    print("="*60)

    test_prompts = [
        "Bonjour, comment allez-vous ?",
        "Expliquez-moi le machine learning",
        "Quelle est la capitale de la France ?"
    ]

    for prompt in test_prompts:
        print(f"\nüìù Prompt: \"{prompt}\"")
        result = generate(prompt)
        print(f"ü§ñ G√©n√©ration: {result}")
        print("-" * 60)
else:
    print("‚ùå Aucun checkpoint trouv√©. Le training a-t-il r√©ussi ?")

## 7Ô∏è‚É£ Mode interactif

Testez le mod√®le avec vos propres prompts

In [None]:
# Mode interactif
print("üí¨ Mode interactif activ√© !")
print("Entrez vos prompts ci-dessous (laissez vide pour arr√™ter)\n")

while True:
    prompt = input("\nüßë Votre prompt : ")
    if not prompt.strip():
        break

    result = generate(prompt, max_length=200)
    print(f"\nü§ñ {result}")
    print("-" * 60)

## 8Ô∏è‚É£ T√©l√©charger le checkpoint

T√©l√©chargez le mod√®le fine-tun√© sur votre machine locale

In [None]:
from google.colab import files
from pathlib import Path
import os

# Trouver tous les checkpoints
checkpoint_dir = Path.home() / ".cache/nanochat/sft_french_checkpoints"
model_files = sorted(checkpoint_dir.glob("*/model_*.pt"))
meta_files = sorted(checkpoint_dir.glob("*/meta_*.json"))

print(f"üì¶ Fichiers trouv√©s :")
print(f"  - {len(model_files)} model checkpoints")
print(f"  - {len(meta_files)} metadata files")

if model_files:
    # T√©l√©charger le dernier checkpoint
    latest_model = model_files[-1]
    latest_meta = meta_files[-1] if meta_files else None

    print(f"\n‚¨áÔ∏è T√©l√©chargement du dernier checkpoint...")
    files.download(str(latest_model))

    if latest_meta:
        files.download(str(latest_meta))

    print("\n‚úÖ Checkpoint t√©l√©charg√© !")
    print(f"üìÅ Fichier: {latest_model.name}")

    # Afficher la taille
    size_mb = latest_model.stat().st_size / (1024*1024)
    print(f"üìä Taille: {size_mb:.2f} MB")
else:
    print("‚ùå Aucun checkpoint trouv√©")

## üìä Statistiques du training

R√©sum√© des performances

In [None]:
import json
from pathlib import Path

# Charger le dernier meta.json
checkpoint_dir = Path.home() / ".cache/nanochat/sft_french_checkpoints"
meta_files = sorted(checkpoint_dir.glob("*/meta_*.json"))

if meta_files:
    with open(meta_files[-1], 'r') as f:
        meta = json.load(f)

    print("="*60)
    print("üìä R√âSUM√â DU TRAINING")
    print("="*60)
    print(f"\n‚úÖ Step final: {meta.get('step', 'N/A')}")
    print(f"‚úÖ Loss final: {meta.get('val_loss', 'N/A'):.4f}")

    print(f"\nüéØ Mod√®le: GPT-2 French (asi/gpt-fr-cased-base)")
    print(f"üéØ Dataset: {len(dialogues)} dialogues")
    print(f"üéØ GPU: {torch.cuda.get_device_name(0)}")
    print(f"üéØ Epochs: {NUM_EPOCHS}")
    print("="*60)
else:
    print("‚ùå Aucun fichier meta.json trouv√©")

## üéØ Prochaines √©tapes

Votre mod√®le est maintenant fine-tun√© ! Vous pouvez :

1. **Continuer le training** : Augmentez `NUM_EPOCHS` ou uploadez plus de dialogues
2. **Tester diff√©rents prompts** : Utilisez la cellule interactive
3. **T√©l√©charger le checkpoint** : Pour l'utiliser localement
4. **Ajuster les hyperparam√®tres** : Modifiez learning rates, batch size, etc.

### Utiliser le checkpoint localement

```python
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer

# Charger le mod√®le de base
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")

# Charger les poids fine-tun√©s
checkpoint = torch.load('model_000300.pt')
model.load_state_dict(checkpoint['model'])
model.eval()

# G√©n√©rer du texte
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")
# ... g√©n√©ration ...
```

### Workflow complet recommand√©

```
LOCAL (Mac) :
‚îú‚îÄ Pipeline Manager (http://localhost:8800)
‚îÇ  ‚îú‚îÄ Audio ‚Üí Transcription ‚Üí √âdition
‚îÇ  ‚îú‚îÄ G√©n√©ration dialogues (DeepSeek API)
‚îÇ  ‚îú‚îÄ Scoring automatique
‚îÇ  ‚îî‚îÄ Export combined_dataset.jsonl
‚îÇ
COLAB (GPU gratuit) :
‚îú‚îÄ Upload combined_dataset.jsonl
‚îú‚îÄ Fine-tuning (~10 min sur T4)
‚îî‚îÄ Download checkpoint
```

### Ressources

- üìö Pipeline Manager : `QUICKSTART_PIPELINE.md`
- üèóÔ∏è Architecture : `ARCHITECTURE_GPT2_VS_NANOCHAT.md`
- üîß Troubleshooting : `TROUBLESHOOTING_FR.md`
- ‚òÅÔ∏è Guide cloud GPU : `GUIDE_CLOUD_GPU.md`

---

**üéâ F√©licitations ! Vous avez maintenant un mod√®le GPT-2 fran√ßais personnalis√© !**