# TP 06 - Exploration : Comprendre le Fine-tuning

**Objectif** : Explorer et comprendre les techniques utilis√©es pour le fine-tuning

> **Note** : Ce notebook est con√ßu pour √™tre explor√© **pendant que l'entra√Ænement tourne** dans le notebook principal.

## Sommaire
1. Explorer le dataset Pok√©mon
2. Comprendre le filtrage
3. Tokenisation et ajout de tokens
4. **D√©mo : Effet du Smart Token Initialization**
5. Comprendre le freezing des couches
6. Comprendre les hyperparam√®tres

---

## 0. Installation et imports

In [None]:
!pip install -q transformers datasets

In [None]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from datasets import load_dataset
import warnings
warnings.filterwarnings('ignore')

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Device: {device}")

---

## 1. Explorer le dataset Pok√©mon

On utilise deux datasets :
- **pokepedia-fr** : Articles de Pokepedia (wiki Pok√©mon francophone)
- **pokemon-names-fr** : Liste des noms de Pok√©mon en fran√ßais

In [None]:
# Charger les datasets
print("Chargement des datasets...")

dataset_pokepedia = load_dataset("chris-lmd/pokepedia-fr")
dataset_names = load_dataset("chris-lmd/pokemon-names-fr")

POKEMON_NAMES = [item["name"] for item in dataset_names["train"]]

print(f"\nüìö Pokepedia : {len(dataset_pokepedia['train']):,} articles")
print(f"üìã Noms de Pok√©mon : {len(POKEMON_NAMES)}")

In [None]:
# Exemples de noms
print("Premiers noms :")
print(POKEMON_NAMES[:20])

print("\nDerniers noms :")
print(POKEMON_NAMES[-10:])

In [None]:
# Aper√ßu d'un article
article = dataset_pokepedia['train'][0]

print(f"Titre : {article['title']}")
print(f"\nContenu (extrait) :")
print("‚îÄ" * 50)
print(article['content'][:1000])
print("‚îÄ" * 50)

In [None]:
# Explorer diff√©rents types d'articles
print("‚ïê" * 50)
print("Exemples de titres d'articles :")
print("‚ïê" * 50)

for i in [0, 100, 500, 1000, 2000, 5000, 10000]:
    if i < len(dataset_pokepedia['train']):
        title = dataset_pokepedia['train'][i]['title']
        print(f"  [{i:5d}] {title}")

Tous les articles ne sont pas des descriptions de Pok√©mon.

---

## 2. Comprendre le filtrage

Le dataset Pokepedia contient **diff√©rents types d'articles** :
- Descriptions de Pok√©mon (ce qu'on veut)
- √âpisodes d'anime
- Lieux
- Personnages
- Objets
- ...

Si on entra√Æne sur tout, le mod√®le apprend un m√©lange incoh√©rent !

In [None]:
# Cr√©er un set des noms pour recherche rapide
pokemon_names_set = set(name.lower() for name in POKEMON_NAMES)

def is_pokemon_article(example):
    """V√©rifie si le titre de l'article est un nom de Pok√©mon."""
    title = example.get('title', '').lower()
    return title in pokemon_names_set

# Filtrer
pokemon_articles = dataset_pokepedia['train'].filter(is_pokemon_article)
other_articles = dataset_pokepedia['train'].filter(lambda x: not is_pokemon_article(x))

print("‚ïê" * 50)
print("R√©sultat du filtrage")
print("‚ïê" * 50)
print(f"Total articles        : {len(dataset_pokepedia['train']):,}")
print(f"Articles Pok√©mon      : {len(pokemon_articles):,} ‚úÖ")
print(f"Autres articles       : {len(other_articles):,} ‚ùå")
print(f"\nRatio Pok√©mon : {100*len(pokemon_articles)/len(dataset_pokepedia['train']):.1f}%")

In [None]:
# Exemples d'articles Pok√©mon (gard√©s)
print("\n‚úÖ Articles POK√âMON (gard√©s pour l'entra√Ænement) :")
for i in range(min(10, len(pokemon_articles))):
    print(f"   - {pokemon_articles[i]['title']}")

In [None]:
# Exemples d'articles NON-Pok√©mon (exclus)
print("\n‚ùå Articles NON-POK√âMON (exclus) :")
for i in range(min(15, len(other_articles))):
    print(f"   - {other_articles[i]['title']}")

In [None]:
# Comparer le contenu d'un article Pok√©mon vs un autre
print("‚ïê" * 60)
print("COMPARAISON : Article Pok√©mon vs Autre")
print("‚ïê" * 60)

print("\nüìó ARTICLE POK√âMON :")
print(f"Titre : {pokemon_articles[0]['title']}")
print(f"Contenu : {pokemon_articles[0]['content'][:400]}...")

print("\n" + "‚îÄ" * 60)

print("\nüìï AUTRE ARTICLE :")
print(f"Titre : {other_articles[0]['title']}")
print(f"Contenu : {other_articles[0]['content'][:400]}...")

### Pourquoi filtrer ?

| Sans filtrage | Avec filtrage |
|---------------|---------------|
| ~15,000 articles m√©lang√©s | ~1,200 vrais Pok√©mon |
| Anime, lieux, persos... | Descriptions uniquement |
| R√©sultat incoh√©rent | Style Pok√©dex coh√©rent |

---

## 3. Tokenisation et vocabulaire

GPT-2 utilise **BPE** (Byte Pair Encoding) pour d√©couper le texte en tokens.

In [None]:
# Charger le tokenizer
print("Chargement du tokenizer GPT-2 fran√ßais...")
tokenizer = AutoTokenizer.from_pretrained("asi/gpt-fr-cased-base")
print(f"Vocabulaire : {len(tokenizer):,} tokens")

In [None]:
# Comment le tokenizer d√©coupe les noms de Pok√©mon ?
test_names = ["Pikachu", "Dracaufeu", "Bulbizarre", "Salam√®che", "Mewtwo", "Rondoudou"]

print("‚ïê" * 60)
print("Comment GPT-2 tokenise les noms de Pok√©mon ?")
print("‚ïê" * 60)

for name in test_names:
    tokens = tokenizer.tokenize(name)
    n_tokens = len(tokens)
    status = "‚úÖ 1 token" if n_tokens == 1 else f"‚ùå {n_tokens} tokens"
    print(f"  '{name}' ‚Üí {tokens} ({status})")

In [None]:
# Statistiques sur tous les noms
single_token = 0
multi_token = 0

for name in POKEMON_NAMES:
    tokens = tokenizer.encode(name, add_special_tokens=False)
    if len(tokens) == 1:
        single_token += 1
    else:
        multi_token += 1

print(f"\nüìä Statistiques sur {len(POKEMON_NAMES)} noms :")
print(f"   D√©j√† dans le vocabulaire (1 token) : {single_token}")
print(f"   D√©coup√©s en plusieurs tokens       : {multi_token}")
print(f"\n   ‚Üí {multi_token} tokens √† ajouter !")

---

## 4. D√©mo : Smart Token Initialization

**Id√©e** : Quand on ajoute "Pikachu" au vocabulaire, on l'initialise avec l'embedding de "animal" (pas al√©atoire).

**Pourquoi ?** Le mod√®le sait d√©j√† que "Pikachu" est une sorte d'animal/cr√©ature, m√™me sans entra√Ænement.

### D√©monstration

In [None]:
# Charger le mod√®le pour la d√©mo
print("Chargement du mod√®le GPT-2 pour la d√©mo...")
model_demo = AutoModelForCausalLM.from_pretrained("asi/gpt-fr-cased-base")
tokenizer_demo = AutoTokenizer.from_pretrained("asi/gpt-fr-cased-base")
tokenizer_demo.pad_token = tokenizer_demo.eos_token

model_demo = model_demo.to(device)
print("‚úÖ Mod√®le charg√©")

In [None]:
def generate_demo(prompt, model, tokenizer, max_length=50):
    """G√©n√®re du texte (pour la d√©mo)."""
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_length=max_length,
            temperature=0.7,
            do_sample=True,
            pad_token_id=tokenizer.pad_token_id,
            top_k=50,
        )
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

In [None]:
# ‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
# √âTAPE 1 : G√©n√©ration AVANT ajout du token "Pikachu"
# ‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

print("‚ïê" * 60)
print("AVANT ajout du token 'Pikachu'")
print("‚ïê" * 60)

print(f"\nTokenisation de 'Pikachu' : {tokenizer_demo.tokenize('Pikachu')}")
print("‚Üí Le mod√®le voit des syllabes sans sens particulier")

prompt = "Pikachu est un"
print(f"\nPrompt : '{prompt}'")
print("G√©n√©ration :")
for i in range(3):
    result = generate_demo(prompt, model_demo, tokenizer_demo)
    print(f"  {i+1}. {result}")

In [None]:
# ‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
# √âTAPE 2 : Ajouter "Pikachu" initialis√© avec "animal"
# ‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

print("‚ïê" * 60)
print("Ajout du token 'Pikachu' (initialis√© avec 'animal')")
print("‚ïê" * 60)

# Trouver l'ID de "animal"
animal_tokens = tokenizer_demo.encode("animal", add_special_tokens=False)
print(f"\n'animal' ‚Üí tokens: {animal_tokens}")
animal_id = animal_tokens[0]

# Sauvegarder l'embedding de "animal"
with torch.no_grad():
    animal_embedding = model_demo.transformer.wte.weight[animal_id].clone()

# Ajouter "Pikachu" au vocabulaire
old_vocab_size = len(tokenizer_demo)
tokenizer_demo.add_tokens(["Pikachu"])
model_demo.resize_token_embeddings(len(tokenizer_demo), mean_resizing=False)

# Initialiser avec l'embedding de "animal"
with torch.no_grad():
    pikachu_id = old_vocab_size  # Le nouveau token
    model_demo.transformer.wte.weight[pikachu_id] = animal_embedding.clone()

print(f"\n‚úÖ Token 'Pikachu' ajout√© (id={pikachu_id})")
print(f"   Initialis√© avec l'embedding de 'animal' (id={animal_id})")

In [None]:
# ‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
# √âTAPE 3 : G√©n√©ration APR√àS ajout du token
# ‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

print("‚ïê" * 60)
print("APR√àS ajout du token 'Pikachu' (= 'animal')")
print("‚ïê" * 60)

print(f"\nTokenisation de 'Pikachu' : {tokenizer_demo.tokenize('Pikachu')}")
print("‚Üí Maintenant un seul token, √©quivalent √† 'animal' !")

prompt = "Pikachu est un"
print(f"\nPrompt : '{prompt}'")
print("G√©n√©ration :")
for i in range(3):
    result = generate_demo(prompt, model_demo, tokenizer_demo)
    print(f"  {i+1}. {result}")

In [None]:
# Comparaison avec "animal est un"
print("\n" + "‚ïê" * 60)
print("Comparaison : 'animal est un'")
print("‚ïê" * 60)

prompt = "animal est un"
print(f"\nPrompt : '{prompt}'")
print("G√©n√©ration :")
for i in range(3):
    result = generate_demo(prompt, model_demo, tokenizer_demo)
    print(f"  {i+1}. {result}")

print("\n‚Üí Les r√©sultats devraient √™tre similaires !")

### Conclusion de la d√©mo

| Avant ajout | Apr√®s ajout (initialis√© avec "animal") |
|-------------|----------------------------------------|
| "Pikachu" ‚Üí syllabes al√©atoires | "Pikachu" ‚Üí √©quivalent √† "animal" |
| G√©n√©ration incoh√©rente | G√©n√©ration orient√©e "√™tre vivant" |

**Le fine-tuning va ensuite** affiner cette repr√©sentation pour que "Pikachu" = "Pok√©mon √©lectrique jaune".

---

## 5. Comprendre le freezing des couches

GPT-2 est compos√© de plusieurs couches de Transformer empil√©es.

**Couches basses** : Capturent la grammaire, la syntaxe (d√©j√† bien apprises)

**Couches hautes** : Capturent la s√©mantique, le style (√† adapter)

In [None]:
# Visualiser l'architecture
print("‚ïê" * 50)
print("Architecture GPT-2")
print("‚ïê" * 50)
print()
print("‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê")
print("‚îÇ   Token Embeddings (wte)    ‚îÇ")
print("‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§")
print("‚îÇ Position Embeddings (wpe)   ‚îÇ")
print("‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§")
print("‚îÇ                             ‚îÇ")
print("‚îÇ   Transformer Block 0       ‚îÇ")
print("‚îÇ   Transformer Block 1       ‚îÇ ‚Üê COUCHES BASSES")
print("‚îÇ          ...                ‚îÇ   (fig√©es)")
print("‚îÇ   Transformer Block N/2     ‚îÇ")
print("‚îÇ                             ‚îÇ")
print("‚îú ‚îÄ ‚îÄ ‚îÄ ‚îÄ ‚îÄ ‚îÄ ‚îÄ ‚îÄ ‚îÄ ‚îÄ ‚îÄ ‚îÄ ‚îÄ ‚îÄ‚î§")
print("‚îÇ                             ‚îÇ")
print("‚îÇ   Transformer Block N/2+1   ‚îÇ")
print("‚îÇ          ...                ‚îÇ ‚Üê COUCHES HAUTES")
print("‚îÇ   Transformer Block N-1     ‚îÇ   (entra√Æn√©es)")
print("‚îÇ                             ‚îÇ")
print("‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§")
print("‚îÇ      Layer Norm (ln_f)      ‚îÇ")
print("‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§")
print("‚îÇ        LM Head              ‚îÇ")
print("‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò")

In [None]:
# Compter les param√®tres
model_count = AutoModelForCausalLM.from_pretrained("asi/gpt-fr-cased-base")

total_params = sum(p.numel() for p in model_count.parameters())
print(f"Param√®tres totaux : {total_params:,}")

# Simuler le freezing de 50% des couches
n_layers = model_count.config.n_layer
n_to_freeze = n_layers // 2

# Figer
for param in model_count.transformer.wte.parameters():
    param.requires_grad = False
for param in model_count.transformer.wpe.parameters():
    param.requires_grad = False
for i in range(n_to_freeze):
    for param in model_count.transformer.h[i].parameters():
        param.requires_grad = False

trainable = sum(p.numel() for p in model_count.parameters() if p.requires_grad)
frozen = total_params - trainable

print(f"\nAvec freezing de {n_to_freeze}/{n_layers} couches :")
print(f"  Param√®tres fig√©s       : {frozen:,} ({100*frozen/total_params:.0f}%)")
print(f"  Param√®tres entra√Ænables: {trainable:,} ({100*trainable/total_params:.0f}%)")

### Avantages du freezing

| Aspect | Sans freezing | Avec freezing 50% |
|--------|---------------|-------------------|
| Param√®tres √† entra√Æner | 100% | ~45% |
| Vitesse | Lent | Plus rapide |
| Risque d'overfitting | √âlev√© | R√©duit |
| Connaissances linguistiques | Peuvent √™tre "oubli√©es" | Pr√©serv√©es |

---

## 6. Comprendre les hyperparam√®tres

Les hyperparam√®tres contr√¥lent **comment** le mod√®le apprend (entra√Ænement) et **comment** il g√©n√®re du texte (inf√©rence).

### 6.1 Param√®tres d'entra√Ænement

Ces param√®tres sont d√©finis dans `TrainingArguments` du notebook principal.

#### Batch size et Gradient Accumulation

```python
per_device_train_batch_size = 2    # Exemples trait√©s en parall√®le sur le GPU
gradient_accumulation_steps = 8    # Accumule les gradients avant mise √† jour
```

**Effective batch size** = `batch_size √ó gradient_accumulation` = 2 √ó 8 = **16**

Pourquoi ne pas utiliser batch_size=16 directement ?
- La **m√©moire GPU est limit√©e** (surtout sur Colab gratuit)
- Avec accumulation, on simule un grand batch sans surcharger la m√©moire

In [None]:
# Visualisation : Gradient Accumulation
print("‚ïê" * 60)
print("Gradient Accumulation : Comment √ßa marche ?")
print("‚ïê" * 60)

batch_size = 2
grad_accum = 8

print(f"""
Sans accumulation (batch_size=16) :
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  16 exemples  ‚îÇ ‚Üí calcul gradients ‚Üí mise √† jour poids   ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
  ‚ö†Ô∏è  Peut d√©passer la m√©moire GPU !

Avec accumulation (batch_size=2, accumulation=8) :
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 2 ex.  ‚îÇ ‚îÇ 2 ex.  ‚îÇ ‚îÇ 2 ex.  ‚îÇ ‚îÇ 2 ex.  ‚îÇ  ...√ó8
‚îÇ grad 1 ‚îÇ ‚îÇ grad 2 ‚îÇ ‚îÇ grad 3 ‚îÇ ‚îÇ grad 4 ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
     ‚Üì          ‚Üì          ‚Üì          ‚Üì
     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
           Somme des gradients
                    ‚Üì
            Mise √† jour poids
  ‚úÖ  M√™me effet, moins de m√©moire !
""")

print(f"Effective batch size : {batch_size} √ó {grad_accum} = {batch_size * grad_accum}")

#### Learning Rate (taux d'apprentissage)

```python
learning_rate = 5e-5  # = 0.00005
```

Le learning rate contr√¥le **l'amplitude des mises √† jour** des poids.

| Learning Rate | Effet |
|---------------|-------|
| Trop √©lev√© (1e-3) | Apprentissage instable, perte des connaissances pr√©-entra√Æn√©es |
| Optimal (5e-5) | Apprentissage progressif, pr√©serve les acquis |
| Trop faible (1e-6) | Apprentissage tr√®s lent, sous-exploitation du dataset |

**Pour le fine-tuning**, on utilise un LR **beaucoup plus petit** que pour l'entra√Ænement from scratch, car on veut ajuster l√©g√®rement un mod√®le d√©j√† performant.

#### Epochs (nombre de passes)

```python
num_train_epochs = 10
```

Une **epoch** = une passe compl√®te sur tout le dataset.

Avec ~1200 articles et un effective batch de 16 :
- **Steps par epoch** = 1200 / 16 ‚âà 75 steps
- **Total** = 10 epochs √ó 75 = ~750 steps

| Epochs | Risque |
|--------|--------|
| Trop peu (1-2) | Sous-apprentissage, le mod√®le n'a pas assez vu les donn√©es |
| Optimal (5-15) | Bon compromis apprentissage/g√©n√©ralisation |
| Trop (50+) | **Overfitting** : le mod√®le r√©cite par c≈ìur au lieu de g√©n√©raliser |

On surveille la **loss** : si elle remonte apr√®s avoir baiss√© ‚Üí overfitting !

#### Warmup (d√©marrage progressif)

```python
warmup_steps = 100
```

Le warmup augmente **progressivement** le learning rate au d√©but de l'entra√Ænement.

In [None]:
# Visualisation du warmup
print("‚ïê" * 60)
print("Learning Rate Schedule avec Warmup")
print("‚ïê" * 60)

print("""
Learning Rate
    ‚Üë
5e-5‚îÇ           ‚ï≠‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ïÆ
    ‚îÇ         ‚ï±                          ‚ï≤
    ‚îÇ       ‚ï±                              ‚ï≤
    ‚îÇ     ‚ï±                                  ‚ï≤
    ‚îÇ   ‚ï±                                      ‚ï≤
  0 ‚îÇ‚îÄ‚ï±‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ï≤‚îÄ‚îÄ‚îÄ‚Üí Steps
    0   100                                    750
        ‚Üë
      Warmup
      (mont√©e progressive)

Pourquoi le warmup ?
‚Ä¢ Au d√©but, les gradients peuvent √™tre "bruit√©s" (le mod√®le d√©couvre les donn√©es)
‚Ä¢ Un LR √©lev√© d√®s le d√©part peut causer des mises √† jour trop agressives
‚Ä¢ Le warmup permet une adaptation en douceur
""")

#### MAX_LENGTH (longueur des s√©quences)

```python
max_length = 256  # tokens
```

Chaque article est **tronqu√© ou padd√©** √† cette longueur.

| MAX_LENGTH | Effet |
|------------|-------|
| Court (128) | Rapide, mais perd la fin des articles longs |
| Moyen (256) | Bon compromis pour notre dataset |
| Long (512+) | Plus de contexte, mais plus de m√©moire et plus lent |

**Note** : GPT-2 a une limite de **1024 tokens**. Au-del√†, il faut des techniques sp√©ciales (sliding window, etc.).

### 6.2 Param√®tres de g√©n√©ration

Ces param√®tres contr√¥lent **comment le mod√®le choisit le prochain token** lors de la g√©n√©ration.

#### Temperature (cr√©ativit√©)

```python
temperature = 0.7  # Entre 0 et 2+
```

La temp√©rature **modifie la distribution de probabilit√©s** avant le sampling.

In [None]:
# D√©monstration de l'effet de la temp√©rature
import torch.nn.functional as F

print("‚ïê" * 60)
print("Effet de la temp√©rature sur les probabilit√©s")
print("‚ïê" * 60)

# Logits simul√©s (avant softmax)
logits = torch.tensor([2.0, 1.5, 0.5, 0.3, 0.1])
tokens = ["√âlectrik", "Souris", "Jaune", "Combat", "Roche"]

print("\nLogits bruts (scores du mod√®le) :")
for t, l in zip(tokens, logits):
    print(f"  {t:10} : {l:.1f}")

print("\n" + "‚îÄ" * 60)

for temp in [0.3, 0.7, 1.0, 1.5]:
    probs = F.softmax(logits / temp, dim=0)
    print(f"\nTemperature = {temp}")
    for t, p in zip(tokens, probs):
        bar = "‚ñà" * int(p * 30)
        print(f"  {t:10} : {p:.1%} {bar}")

print("\n" + "‚ïê" * 60)
print("""
Interpr√©tation :
‚Ä¢ T=0.3 (froid) : Le token dominant ("√âlectrik") est quasi-certain
                  ‚Üí G√©n√©ration pr√©visible, r√©p√©titive
‚Ä¢ T=0.7 (ti√®de) : Bon √©quilibre cr√©ativit√©/coh√©rence  
‚Ä¢ T=1.0 (neutre): Distribution originale du mod√®le
‚Ä¢ T=1.5 (chaud) : Distribution aplatie, plus de surprises
                  ‚Üí G√©n√©ration cr√©ative mais parfois incoh√©rente
""")

#### Top-k et Top-p (filtrage du vocabulaire)

Ces param√®tres **limitent les tokens consid√©r√©s** pour le sampling.

```python
top_k = 50    # Garde les 50 tokens les plus probables
top_p = 0.9   # Garde les tokens jusqu'√† 90% de proba cumul√©e
```

In [None]:
# D√©monstration Top-k et Top-p
print("‚ïê" * 60)
print("Top-k vs Top-p : Filtrage des tokens")
print("‚ïê" * 60)

# Distribution simul√©e (tri√©e par probabilit√© d√©croissante)
probs = [0.35, 0.25, 0.15, 0.10, 0.05, 0.04, 0.03, 0.02, 0.01]
tokens = ["√âlectrik", "Souris", "Jaune", "petit", "Pokemon", "type", "est", "a", "le"]

print("\nDistribution originale :")
cumsum = 0
for i, (t, p) in enumerate(zip(tokens, probs)):
    cumsum += p
    bar = "‚ñà" * int(p * 40)
    print(f"  {i+1}. {t:10} : {p:.0%} {bar}  (cumul: {cumsum:.0%})")

print("\n" + "‚îÄ" * 60)

print("""
Top-k = 3 : Garde seulement les 3 premiers tokens
  ‚úÖ √âlectrik (35%)
  ‚úÖ Souris   (25%)  
  ‚úÖ Jaune    (15%)
  ‚ùå petit, Pokemon, type... (ignor√©s)
  
  ‚Üí Renormalise sur ces 3 tokens (35+25+15 = 75% ‚Üí 100%)
""")

print("‚îÄ" * 60)

print("""
Top-p = 0.9 : Garde les tokens jusqu'√† 90% de proba cumul√©e
  ‚úÖ √âlectrik (35%)  cumul: 35%
  ‚úÖ Souris   (25%)  cumul: 60%
  ‚úÖ Jaune    (15%)  cumul: 75%
  ‚úÖ petit    (10%)  cumul: 85%
  ‚úÖ Pokemon  (5%)   cumul: 90% ‚Üê STOP
  ‚ùå type, est, a, le... (ignor√©s)
  
  ‚Üí Plus flexible que top-k : s'adapte √† la distribution
""")

print("‚ïê" * 60)
print("""
En pratique, on combine souvent les deux :
  top_k=50, top_p=0.9 ‚Üí garde au max 50 tokens ET 90% de proba
""")

#### Repetition Penalty (√©viter les boucles)

```python
repetition_penalty = 1.2  # > 1 p√©nalise les r√©p√©titions
```

Divise la probabilit√© des tokens **d√©j√† g√©n√©r√©s** pour √©viter les boucles.

| Valeur | Effet |
|--------|-------|
| 1.0 | Pas de p√©nalit√© (r√©p√©titions possibles) |
| 1.2 | L√©g√®re p√©nalit√© (recommand√©) |
| 2.0+ | Forte p√©nalit√© (peut devenir incoh√©rent) |

**Exemple sans p√©nalit√©** :
> "Pikachu est un Pok√©mon. Pikachu est un Pok√©mon. Pikachu est un Pok√©mon..."

**Avec p√©nalit√© 1.2** :
> "Pikachu est un Pok√©mon de type √âlectrik. Il poss√®de des pouvoirs..."

#### R√©capitulatif des param√®tres de g√©n√©ration

| Param√®tre | Valeur TP | R√¥le | Effet si ‚Üë |
|-----------|-----------|------|------------|
| `temperature` | 0.7 | Contr√¥le la "cr√©ativit√©" | Plus al√©atoire, moins coh√©rent |
| `top_k` | 50 | Nombre max de tokens candidats | Plus de diversit√© |
| `top_p` | 0.9 | Seuil de probabilit√© cumul√©e | Plus de tokens rares possibles |
| `repetition_penalty` | 1.2 | P√©nalise les r√©p√©titions | Moins de boucles, mais peut diverger |
| `max_length` | 150 | Longueur max de g√©n√©ration | Texte plus long |

**Conseil** : Pour tester votre mod√®le fine-tun√©, commencez avec `temperature=0.5` (coh√©rent) puis augmentez pour plus de cr√©ativit√©.

---

## R√©capitulatif

### Techniques vues dans ce notebook

1. **Filtrage du dataset** : Ne garder que les vrais articles Pok√©mon (~1200 sur ~15000)

2. **Smart Token Initialization** : Ajouter les noms au vocabulaire, initialis√©s avec "animal"

3. **Partial Freezing** : Figer les couches basses pour pr√©server les connaissances linguistiques

4. **Hyperparam√®tres d'entra√Ænement** : batch size, learning rate, epochs, warmup

5. **Hyperparam√®tres de g√©n√©ration** : temperature, top-k, top-p, repetition penalty

### Retournez voir les r√©sultats !

L'entra√Ænement devrait √™tre termin√© dans le notebook principal. Allez voir :
- La courbe de loss
- Les g√©n√©rations de texte

**Exp√©rimentez** avec diff√©rentes temp√©ratures pour voir l'effet sur la cr√©ativit√© !