# TP 06 V2 : Fine-tuning GPT-2 - Version Optimis√©e

**Objectif** : Fine-tuner GPT-2 fran√ßais pour g√©n√©rer des descriptions de Pok√©mon

**Nouveaut√©s V2** :
- Option pour ajouter les noms de Pok√©mon au vocabulaire (smart initialization)
- Option pour figer les couches basses (faster training)
- Meilleur filtrage des donn√©es

**Dur√©e** : 2h

---

## 0. Installation et imports

In [None]:
# Installation des d√©pendances (Colab)
!pip install -q transformers datasets accelerate

In [None]:
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
from datasets import load_dataset
import random
import warnings
warnings.filterwarnings('ignore')

# Device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Device: {device}")

# Reproductibilit√©
torch.manual_seed(42)
random.seed(42)

---

## 1. Configuration des options d'entra√Ænement

### Nouvelles options V2

In [None]:
# ‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
#                    OPTIONS D'ENTRA√éNEMENT V2
# ‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

# Option 1 : Ajouter les noms de Pok√©mon au vocabulaire
# Les nouveaux tokens seront initialis√©s avec l'embedding de "Pok√©mon" ou "animal"
# Avantage : Le mod√®le sait d√©j√† que "Pikachu" est un Pok√©mon
ADD_POKEMON_TOKENS = True

# Option 2 : Figer les couches basses du mod√®le
# Seules les couches hautes seront entra√Æn√©es
# Avantage : Plus rapide, moins d'overfitting
FREEZE_LOWER_LAYERS = True
NUM_LAYERS_TO_FREEZE = 6  # Sur 12 couches, figer les 6 premi√®res

# Autres param√®tres
MAX_SAMPLES = 5000      # Nombre d'articles pour le fine-tuning
MAX_LENGTH = 256        # Longueur max des s√©quences
NUM_EPOCHS = 3          # Nombre d'epochs

print("Configuration V2 :")
print(f"  - Ajouter tokens Pok√©mon : {ADD_POKEMON_TOKENS}")
print(f"  - Figer couches basses : {FREEZE_LOWER_LAYERS} ({NUM_LAYERS_TO_FREEZE} couches)")
print(f"  - Samples : {MAX_SAMPLES}")
print(f"  - Epochs : {NUM_EPOCHS}")

---

## 2. Charger GPT-2 fran√ßais

In [None]:
# Charger le tokenizer et le mod√®le
model_name = "asi/gpt-fr-cased-small"

print("Chargement du tokenizer...")
tokenizer = AutoTokenizer.from_pretrained(model_name)

print("Chargement du mod√®le...")
model = AutoModelForCausalLM.from_pretrained(model_name)

print(f"\n‚úÖ Mod√®le charg√© !")
print(f"Param√®tres : {sum(p.numel() for p in model.parameters()):,}")
print(f"Vocabulaire initial : {len(tokenizer):,} tokens")
print(f"Nombre de couches : {model.config.n_layer}")

In [None]:
# Ajouter un token de padding
# GPT-2 n'a pas de token PAD natif, on r√©utilise EOS
tokenizer.pad_token = tokenizer.eos_token
model.config.pad_token_id = tokenizer.pad_token_id

---

## 3. Option 1 : Ajouter les tokens Pok√©mon (Smart Initialization)

### Pourquoi ?
- "Pikachu" est tokenis√© en plusieurs sous-tokens par BPE
- En ajoutant "Pikachu" comme token unique, initialis√© avec "Pok√©mon", le mod√®le sait d√©j√† que c'est un Pok√©mon
- Apprentissage plus rapide et meilleure qualit√©

In [None]:
# Liste des noms de Pok√©mon √† ajouter
# On charge depuis le dataset pokemon-names-fr
print("Chargement des noms de Pok√©mon...")
names_dataset = load_dataset("chris-lmd/pokemon-names-fr")
POKEMON_NAMES = [item["name"] for item in names_dataset["train"]]
print(f"  {len(POKEMON_NAMES)} noms charg√©s")
print(f"  Exemples : {POKEMON_NAMES[:10]}")

In [None]:
def add_pokemon_tokens_to_vocab(tokenizer, model, pokemon_names):
    """
    Ajoute les noms de Pok√©mon au vocabulaire et initialise leurs embeddings.
    
    Les nouveaux tokens sont initialis√©s avec l'embedding de "Pok√©mon" ou "animal"
    pour que le mod√®le sache d√©j√† qu'il s'agit de cr√©atures.
    """
    # Trouver le token de r√©f√©rence pour l'initialisation
    # On essaie "Pok√©mon", sinon "Pokemon", sinon "animal"
    reference_tokens = ["Pok√©mon", "Pokemon", "animal", "cr√©ature"]
    reference_id = None
    reference_word = None
    
    for ref in reference_tokens:
        tokens = tokenizer.encode(ref, add_special_tokens=False)
        if len(tokens) == 1:  # Token unique trouv√©
            reference_id = tokens[0]
            reference_word = ref
            break
    
    if reference_id is None:
        # Fallback : utiliser le premier token de "Pok√©mon"
        reference_id = tokenizer.encode("Pok√©mon", add_special_tokens=False)[0]
        reference_word = "Pok√©mon (premier sous-token)"
    
    print(f"Token de r√©f√©rence : '{reference_word}' (id={reference_id})")
    
    # Filtrer : garder seulement les noms qui ne sont pas d√©j√† des tokens uniques
    new_tokens = []
    for name in pokemon_names:
        tokens = tokenizer.encode(name, add_special_tokens=False)
        if len(tokens) > 1:  # Le nom est d√©coup√© en plusieurs tokens
            new_tokens.append(name)
    
    print(f"Tokens √† ajouter : {len(new_tokens)} (sur {len(pokemon_names)})")
    
    if len(new_tokens) == 0:
        print("Aucun nouveau token √† ajouter.")
        return 0
    
    # Sauvegarder l'embedding de r√©f√©rence AVANT le resize
    with torch.no_grad():
        reference_embedding = model.transformer.wte.weight[reference_id].clone()
    
    # Ajouter les tokens au vocabulaire
    num_added = tokenizer.add_tokens(new_tokens)
    print(f"Tokens ajout√©s au vocabulaire : {num_added}")
    
    # Redimensionner les embeddings du mod√®le
    old_size = model.transformer.wte.weight.shape[0]
    model.resize_token_embeddings(len(tokenizer))
    new_size = model.transformer.wte.weight.shape[0]
    print(f"Embeddings : {old_size:,} ‚Üí {new_size:,}")
    
    # Initialiser les nouveaux tokens avec l'embedding de r√©f√©rence
    with torch.no_grad():
        for i in range(num_added):
            new_token_id = old_size + i
            # Copier l'embedding de r√©f√©rence + petit bruit pour diff√©rencier
            noise = torch.randn_like(reference_embedding) * 0.01
            model.transformer.wte.weight[new_token_id] = reference_embedding + noise
    
    print(f"‚úÖ {num_added} tokens initialis√©s avec l'embedding de '{reference_word}'")
    return num_added

In [None]:
# Appliquer si l'option est activ√©e
if ADD_POKEMON_TOKENS:
    print("‚ïê" * 50)
    print("Ajout des tokens Pok√©mon au vocabulaire...")
    print("‚ïê" * 50)
    num_added = add_pokemon_tokens_to_vocab(tokenizer, model, POKEMON_NAMES)
    print()
    
    # V√©rification
    test_name = "Pikachu"
    tokens = tokenizer.encode(test_name, add_special_tokens=False)
    print(f"Test : '{test_name}' ‚Üí {tokens} ({len(tokens)} token(s))")
else:
    print("Option ADD_POKEMON_TOKENS d√©sactiv√©e.")

---

## 4. Option 2 : Figer les couches basses (Partial Freezing)

### Pourquoi ?
- Les couches basses capturent des features g√©n√©rales (grammaire, syntaxe)
- Ces features sont d√©j√† bien apprises par le pr√©-entra√Ænement
- On ne fine-tune que les couches hautes (s√©mantique, style)

### Avantages
- Entra√Ænement plus rapide (moins de gradients)
- Moins d'overfitting
- Pr√©serve les connaissances linguistiques

In [None]:
def freeze_lower_layers(model, num_layers_to_freeze):
    """
    Fige les embeddings et les N premi√®res couches du transformer.
    
    Args:
        model: Le mod√®le GPT-2
        num_layers_to_freeze: Nombre de couches √† figer (depuis le bas)
    """
    total_layers = model.config.n_layer
    
    if num_layers_to_freeze >= total_layers:
        print(f"‚ö†Ô∏è Attention : vous figez {num_layers_to_freeze} couches sur {total_layers} !")
        num_layers_to_freeze = total_layers - 1
    
    # Figer les embeddings (tokens et positions)
    for param in model.transformer.wte.parameters():
        param.requires_grad = False
    for param in model.transformer.wpe.parameters():
        param.requires_grad = False
    
    # Figer les N premi√®res couches
    for i in range(num_layers_to_freeze):
        for param in model.transformer.h[i].parameters():
            param.requires_grad = False
    
    # Compter les param√®tres
    total_params = sum(p.numel() for p in model.parameters())
    trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
    frozen_params = total_params - trainable_params
    
    print(f"Couches fig√©es : {num_layers_to_freeze} / {total_layers}")
    print(f"Param√®tres totaux : {total_params:,}")
    print(f"Param√®tres fig√©s : {frozen_params:,} ({100*frozen_params/total_params:.1f}%)")
    print(f"Param√®tres entra√Ænables : {trainable_params:,} ({100*trainable_params/total_params:.1f}%)")
    
    return trainable_params

In [None]:
# Appliquer si l'option est activ√©e
if FREEZE_LOWER_LAYERS:
    print("‚ïê" * 50)
    print("Freezing des couches basses...")
    print("‚ïê" * 50)
    trainable = freeze_lower_layers(model, NUM_LAYERS_TO_FREEZE)
else:
    print("Option FREEZE_LOWER_LAYERS d√©sactiv√©e.")
    print("Tous les param√®tres seront entra√Æn√©s (full fine-tuning).")

In [None]:
# D√©placer le mod√®le sur GPU
model = model.to(device)
print(f"\nMod√®le d√©plac√© sur : {device}")

---

## 5. Test du mod√®le avant fine-tuning

In [None]:
def generate_text(prompt, max_length=100, temperature=0.8, top_k=50):
    """G√©n√®re du texte √† partir d'un prompt."""
    inputs = tokenizer(prompt, return_tensors="pt")
    input_ids = inputs.input_ids.to(device)
    attention_mask = inputs.attention_mask.to(device)
    
    with torch.no_grad():
        outputs = model.generate(
            input_ids,
            attention_mask=attention_mask,
            max_length=max_length,
            temperature=temperature,
            top_k=top_k,
            do_sample=True,
            pad_token_id=tokenizer.pad_token_id
        )
    
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

In [None]:
# Test avant fine-tuning
prompt = "Pikachu est un Pok√©mon de type"
print(f"Prompt: {prompt}")
print(f"G√©n√©ration (AVANT fine-tuning):")
print(generate_text(prompt))

---

## 6. Pr√©parer le dataset Pok√©mon

In [None]:
# Charger le dataset
print("Chargement du dataset Pok√©mon...")
dataset = load_dataset("chris-lmd/pokepedia-fr")

print(f"\n‚úÖ Dataset charg√© !")
print(f"Articles : {len(dataset['train']):,}")
print(f"Colonnes : {dataset['train'].column_names}")

In [None]:
# Aper√ßu d'un article
sample = dataset['train'][0]
print(f"Titre: {sample.get('title', 'N/A')}")
print(f"Types: {sample.get('types', [])}")
print(f"\nContenu (500 premiers caract√®res):")
print(sample['content'][:500] + "...")

In [None]:
# Meilleur filtre V2 : utiliser le champ 'types'
# Les vrais Pok√©mon ont au moins un type
def is_pokemon_description(example):
    """Filtre les articles d√©crivant des Pok√©mon."""
    # Crit√®re 1 : a des types (c'est un vrai Pok√©mon)
    has_types = len(example.get('types', [])) > 0
    
    # Crit√®re 2 : contient des patterns de description
    text = example['content'].lower()
    has_patterns = any(p in text for p in ["est un pok√©mon", "√©volution", "capacit√©"])
    
    return has_types or has_patterns

# Filtrer
filtered_dataset = dataset['train'].filter(is_pokemon_description)
print(f"Articles apr√®s filtrage : {len(filtered_dataset):,}")

In [None]:
# Limiter le nombre de samples
if len(filtered_dataset) > MAX_SAMPLES:
    train_dataset = filtered_dataset.shuffle(seed=42).select(range(MAX_SAMPLES))
else:
    train_dataset = filtered_dataset

print(f"√âchantillon pour fine-tuning : {len(train_dataset):,} articles")

In [None]:
# Tokenization
def tokenize_function(examples):
    """Tokenize les textes avec troncature."""
    return tokenizer(
        examples['content'],
        truncation=True,
        max_length=MAX_LENGTH,
        padding='max_length'
    )

print("Tokenization en cours...")
tokenized_dataset = train_dataset.map(
    tokenize_function,
    batched=True,
    remove_columns=train_dataset.column_names
)

# Ajouter les labels
def add_labels(examples):
    examples['labels'] = examples['input_ids'].copy()
    return examples

tokenized_dataset = tokenized_dataset.map(add_labels, batched=True)
print(f"‚úÖ Tokenization termin√©e !")
print(f"Colonnes : {tokenized_dataset.column_names}")

---

## 7. Fine-tuning

In [None]:
# Configuration de l'entra√Ænement
training_args = TrainingArguments(
    output_dir="./gpt2-pokemon-v2",
    overwrite_output_dir=True,
    
    # Hyperparam√®tres
    num_train_epochs=NUM_EPOCHS,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    
    # Optimiseur
    learning_rate=5e-5,
    warmup_steps=100,
    weight_decay=0.01,
    
    # Logging
    logging_steps=50,
    save_steps=500,
    save_total_limit=2,
    
    # Misc
    fp16=torch.cuda.is_available(),
    report_to="none",
)

print("Configuration :")
print(f"  - Epochs : {training_args.num_train_epochs}")
print(f"  - Batch size effectif : {training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps}")
print(f"  - Learning rate : {training_args.learning_rate}")
print(f"  - FP16 : {training_args.fp16}")

In [None]:
# Cr√©er le Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
)

print("‚úÖ Trainer cr√©√© !")

In [None]:
# R√©sum√© de la configuration
print("‚ïê" * 60)
print("           R√âSUM√â DE LA CONFIGURATION V2")
print("‚ïê" * 60)
print(f"\nüìä Dataset : {len(train_dataset):,} articles")
print(f"üìù Max length : {MAX_LENGTH} tokens")
print(f"üîÑ Epochs : {NUM_EPOCHS}")
print(f"\nüéØ Options :")
print(f"   - Tokens Pok√©mon ajout√©s : {ADD_POKEMON_TOKENS}")
print(f"   - Couches fig√©es : {FREEZE_LOWER_LAYERS} ({NUM_LAYERS_TO_FREEZE if FREEZE_LOWER_LAYERS else 0}/{model.config.n_layer})")
print(f"\nüíæ Vocabulaire : {len(tokenizer):,} tokens")

trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
total = sum(p.numel() for p in model.parameters())
print(f"üß† Param√®tres entra√Ænables : {trainable:,} / {total:,} ({100*trainable/total:.1f}%)")
print("‚ïê" * 60)

In [None]:
# Lancer le fine-tuning
print("üöÄ Fine-tuning V2 en cours...")
print()

trainer.train()

print("\n‚úÖ Fine-tuning termin√© !")

In [None]:
# Sauvegarder le mod√®le
trainer.save_model("./gpt2-pokemon-v2-final")
tokenizer.save_pretrained("./gpt2-pokemon-v2-final")
print("‚úÖ Mod√®le V2 sauvegard√© !")

---

## 8. G√©n√©ration de descriptions

In [None]:
def generate_description(prompt, max_length=150, temperature=0.8, top_k=50, top_p=0.9):
    """G√©n√®re une description de Pok√©mon."""
    inputs = tokenizer(prompt, return_tensors="pt")
    input_ids = inputs.input_ids.to(device)
    attention_mask = inputs.attention_mask.to(device)
    
    with torch.no_grad():
        outputs = model.generate(
            input_ids,
            attention_mask=attention_mask,
            max_length=max_length,
            temperature=temperature,
            top_k=top_k,
            top_p=top_p,
            do_sample=True,
            pad_token_id=tokenizer.pad_token_id,
            repetition_penalty=1.2,
            no_repeat_ngram_size=3
        )
    
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

In [None]:
# Test : Pikachu
prompt = "Pikachu est un Pok√©mon de type"
print(f"Prompt: {prompt}")
print(f"\nG√©n√©ration (APR√àS fine-tuning V2):")
print(generate_description(prompt))

In [None]:
# Test : Pok√©mon invent√©
prompt = "Flamador est un Pok√©mon de type Feu. Il"
print(f"Prompt: {prompt}")
print(f"\nG√©n√©ration:")
print(generate_description(prompt))

In [None]:
# Test : √âvolution
prompt = "Dracaufeu √©volue √† partir de"
print(f"Prompt: {prompt}")
print(f"\nG√©n√©ration:")
print(generate_description(prompt))

---

## 9. Comparaison des configurations

Pour comparer l'effet des options, relancez le notebook avec diff√©rentes configurations :

| Configuration | ADD_POKEMON_TOKENS | FREEZE_LOWER_LAYERS | R√©sultat attendu |
|---------------|-------------------|---------------------|------------------|
| Baseline | False | False | R√©f√©rence |
| + Tokens | True | False | Meilleure connaissance des noms |
| + Freeze | False | True | Plus rapide, moins d'overfitting |
| Full V2 | True | True | Combinaison des deux |

---

## 10. R√©capitulatif V2

### Nouvelles techniques apprises

1. **Smart Token Initialization** : Ajouter des tokens au vocabulaire et les initialiser intelligemment
2. **Partial Freezing** : Figer les couches basses pour un entra√Ænement plus efficace
3. **Meilleur filtrage** : Utiliser les m√©tadonn√©es (types) pour s√©lectionner les bons articles

### Quand utiliser ces techniques ?

| Technique | Quand l'utiliser |
|-----------|------------------|
| **Add tokens** | Vocabulaire sp√©cialis√© (noms propres, termes techniques) |
| **Freeze layers** | Petit dataset, risque d'overfitting, GPU limit√© |
| **Full fine-tuning** | Grand dataset, GPU puissant, besoin de flexibilit√© |