# TP 01 - Fondamentaux NLP pour les Transformers

**Module** : R√©seaux de Neurones Approfondissement  
**Dur√©e** : 2h  
**Objectif** : Mieux comprendre comment une machine peut interpr√©ter du texte

---

## Comment faire interpr√©ter du texte par une machine ?

Si vous avez d√©j√† travaill√© avec des **images** le probl√®me est de prime abord plus simple : une image peut naturellement se d√©couper en une grille de pixels, chaque pixel est un nombre (0-255). Le r√©seau peut directement les traiter.

Mais pour le **texte** suivant ?

```
"L'apprentissage automatique r√©volutionne l'intelligence artificielle"
```

Ce n'est qu'une suite de caract√®res. Un r√©seau de neurones, par exemple, ne comprend que des **nombres**. Comment passer de l'un √† l'autre ?

---

## Les probl√®mes √† r√©soudre

Pour transformer du texte en repr√©sentation num√©rique exploitable, il faut r√©soudre **deux probl√®mes distincts** :

### Probl√®me 1 : La tokenization

**Comment d√©couper le texte suivant en morceaux ?**

```
"L'apprentissage automatique" ‚Üí ???
```

Plusieurs strat√©gies sont possibles :
- Par mots : `["L'apprentissage", "automatique"]`
- Par caract√®res : `["L", "'", "a", "p", "p", "r", ...]`
- Par sous-mots : `["L'", "apprent", "issage", "auto", "matique"]`

Chaque strat√©gie a ses avantages et inconv√©nients. Nous les explorerons dans ce TP.

### Probl√®me 2 : L'embedding

**Comment transformer ces morceaux en vecteurs qui ont du SENS ?**

Une fois le texte d√©coup√©, on pourrait simplement num√©roter les tokens :
```
"chat" ‚Üí 42
"voiture" ‚Üí 46
"chien" ‚Üí 73
```

Mais ces nombres sont **arbitraires**. Ils ne capturent pas que "chat" et "chien" sont des concepts proches (animaux domestiques), alors que "voiture" est compl√®tement diff√©rent.

**Il faut trouver un moyen** de transformer chaque token en un **vecteur de plusieurs dimensions** o√π la **proximit√© g√©om√©trique** refl√®te la **proximit√© s√©mantique** :

```
"chat"    ‚Üí [0.2, -0.5, 0.8, ...]   ‚îê
                                    ‚îú‚îÄ vecteurs proches !
"chien"   ‚Üí [0.3, -0.4, 0.7, ...]   ‚îò

"voiture" ‚Üí [-0.8, 0.2, -0.3, ...]  ‚Üê vecteur √©loign√©
```

Plusieurs approches existent pour construire ces vecteurs. Dans ce TP, nous explorerons **Word2Vec**, une m√©thode remarquable qui a r√©volutionn√© le NLP en 2013.

---

## Plan du TP

| Section | Th√®me | Ce que vous apprendrez |
|---------|-------|------------------------|
| ¬ß2 | Tokenization | Les 3 strat√©gies (mots, caract√®res, BPE) |
| ¬ß3 | Embeddings | Comment les vecteurs capturent le sens (Word2Vec) |
| ¬ß4 | R√©capitulatif | Synth√®se des concepts |
| ¬ß5 | Ressources | Pour aller plus loin |
| ¬ß6 | Attention (teaser) | Aper√ßu du m√©canisme cl√© des Transformers |
| ¬ß7 | Mini-projet | Pipeline NLP complet (optionnel) |

Commen√ßons par le premier probl√®me : **comment d√©couper le texte ?**

## 0. Installation et imports

Ex√©cutez cette cellule pour installer les d√©pendances n√©cessaires.

In [None]:
# Installation des d√©pendances (Google Colab)
!pip install torch matplotlib numpy gensim transformers scikit-learn datasets tokenizers -q

In [None]:
import torch
import torch.nn as nn
import matplotlib.pyplot as plt
import numpy as np

# Configuration
torch.manual_seed(42)
print(f"PyTorch version: {torch.__version__}")

---

---

## 2. Tokenization : D√©couper le texte

La **tokenization** consiste √† d√©couper le texte en unit√©s (tokens). Il existe plusieurs strat√©gies.

### 2.1 Tokenization par mots (Word-level)

La plus intuitive : on d√©coupe sur les espaces et la ponctuation.

### Exercice 0a : Impl√©menter la tokenization par mots

Compl√©tez la fonction `tokenize_words` ci-dessous. Elle doit :
- S√©parer le texte sur les espaces
- Garder la ponctuation comme tokens s√©par√©s

**Indice** : Utilisez `re.findall()` pour capturer les mots OU la ponctuation.

In [None]:
# Tokenization simple par mots
def tokenize_words(text):
    """Tokenization basique par espaces et ponctuation."""
    import re
    # S√©pare sur espaces et garde la ponctuation comme tokens
    # CORRECTION: Capture les mots (\w+) OU la ponctuation ([^\w\s])
    return re.findall(r'\w+|[^\w\s]', text)

texte = "Le chat mange la souris. La souris court vite !"
tokens = tokenize_words(texte)

print(f"Texte : {texte}")
print(f"Tokens : {tokens}")
print(f"Nombre de tokens : {len(tokens)}")

**Probl√®me** : Le vocabulaire peut devenir √©norme !

Ajoutez les noms propres, les n√©ologismes, les mots √©trangers, les fautes de frappe... Le vocabulaire explose.

√Ä un moment, il faut **fixer une taille de vocabulaire** (ex: 50 000 mots). Mais alors, que faire des mots inconnus ?

Imaginons un vocabulaire constitu√© au pr√©alable :
```
["le", "chat", "mange", ...] (50 000 mots)
```
Si un mot trait√© n'appartient pas au vocabulaire, l'information est perdue
```
Nouveau mot : "transformers" ‚Üí <UNK> ?
```
‚Üí Pas id√©al.

### 2.2 Tokenization par caract√®res (Character-level)

Une solution : d√©couper caract√®re par caract√®re. Plus de mots inconnus !

### Exercice 0b : Impl√©menter la tokenization par caract√®res

Compl√©tez la fonction `tokenize_chars` ci-dessous.

**Indice** : En Python, une cha√Æne est d√©j√† it√©rable caract√®re par caract√®re...

In [None]:
def tokenize_chars(text):
    """Tokenization par caract√®res."""
    # CORRECTION: Une cha√Æne Python est it√©rable caract√®re par caract√®re
    return list(text)

texte = "Le chat dort."
tokens = tokenize_chars(texte)

print(f"Texte : {texte}")
print(f"Tokens : {tokens}")
print(f"Nombre de tokens : {len(tokens)}")

**Probl√®me historique** : S√©quences tr√®s longues ! "anticonstitutionnellement" = 25 tokens.

Le mod√®le doit "r√©apprendre" que `c-h-a-t` forme le concept de chat. Le co√ªt computationnel √©tait longtemps consid√©r√© comme prohibitif.

---

> üìö **Des travaux r√©cents montrent que la tokenization byte-level peut devenir comp√©titive**
>
> 
> **Bolmo** (Allen AI, 2025) op√®re directement sur les **bytes UTF-8** (256 tokens possibles) avec une architecture adapt√©e :
> - Un encodeur local (mLSTM) traite les bytes
> - Un "boundary predictor" regroupe les bytes en patches de taille variable
> - Le Transformer traite ces patches (pas les bytes bruts)
> 
> **Avantages** : pas de vocabulaire fig√©, robuste aux typos, meilleure compr√©hension caract√®re.

Pour ce TP, nous utiliserons **BPE** que nous allons voir tout de suite et qui reste le standard actuel, mais gardez en t√™te que le domaine √©volue rapidement !

### 2.3 Tokenization Subword : BPE (Byte Pair Encoding)

Les deux approches pr√©c√©dentes ont des d√©fauts :
- **Mots** : vocabulaire √©norme + mots inconnus
- **Caract√®res** : s√©quences trop longues + perte de sens

**BPE** (Byte Pair Encoding) est un **compromis intelligent** utilis√© par GPT, BERT, et une grande partie des LLMs modernes.

---

#### Le principe

BPE construit son vocabulaire en analysant un grand corpus de texte :

1. **D√©part** : vocabulaire = tous les caract√®res
2. **R√©p√©ter** : trouver la paire de tokens adjacents la plus fr√©quente ‚Üí la fusionner en un nouveau token
3. **Stop** : quand le vocabulaire atteint la taille voulue (ex: 50 000 tokens)

---

#### L'algorithme pas √† pas

Pour comprendre, prenons un **corpus artificiel simplifi√©** :
```
"smartphone smartphone smartphone smartwatch smartwatch phone phone"
```

**√âtape 0 : Partir des caract√®res**
```
Vocabulaire : {s, m, a, r, t, p, h, o, n, e, w, c}
```

**√âtapes suivantes : Fusionner les paires les plus fr√©quentes**

| √âtape | Paire la + fr√©quente | Nouveau token |
|-------|---------------------|---------------|
| 1 | (s, m) | "sm" |
| 2 | (sm, a) | "sma" |
| 3 | (sma, r) | "smar" |
| 4 | (smar, t) | "smart" |
| 5 | (p, h) | "ph" |
| 6 | (ph, o) | "pho" |
| 7 | (pho, n) | "phon" |
| 8 | (phon, e) | "phone" |

**R√©sultat :**
```
"smartphone" ‚Üí ["smart", "phone"]  ‚Üê 2 tokens r√©utilisables !
"smartwatch" ‚Üí ["smart", "watch"]
"phone"      ‚Üí ["phone"]
```

---

#### Pourquoi c'est malin ?

Un mot **jamais vu** comme "smartcar" sera d√©coup√© en :
```
"smartcar" ‚Üí ["smart", "car"]
```

Le mod√®le conna√Æt d√©j√† "smart" ! Pas besoin de token `<UNK>`.

**Bonus** : les sous-mots fr√©quents ont de **bons embeddings** (on verra pourquoi dans la section Word2Vec). Donc m√™me un mot rare peut b√©n√©ficier de repr√©sentations de qualit√© via ses composants.

**Nous obtenons le meilleur des deux mondes** :
- Mots fr√©quents ‚Üí tokens entiers (efficace)
- Mots rares/nouveaux ‚Üí sous-mots connus (robuste)

Bien que ce mod√®le soit tr√®s performant dans un grand nombre de cas, il faut rester conscient que certains mots tr√®s sp√©cifiques peuvent avoir une repr√©sentation de moindre qualit√©.

**Ressource** : [Explication d√©taill√©e des tokenizers (FR)](https://lbourdois.github.io/blog/nlp/Les-tokenizers/)

---

#### En pratique : GPT-2 vs CamemBERT

Les tokenizers BPE sont entra√Æn√©s sur un corpus sp√©cifique. **GPT-2** a √©t√© entra√Æn√© principalement sur du texte anglais, tandis que **CamemBERT** est un mod√®le fran√ßais.

Cons√©quence : un m√™me texte sera d√©coup√© diff√©remment selon le tokenizer utilis√© !

In [None]:
# Chargement des tokenizers
from transformers import GPT2Tokenizer, CamembertTokenizer

# GPT-2 : tokenizer anglais
gpt2_tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

# CamemBERT : tokenizer fran√ßais  
camembert_tokenizer = CamembertTokenizer.from_pretrained("camembert-base")

print("Tokenizers charg√©s !")
print(f"  GPT-2 : {gpt2_tokenizer.vocab_size} tokens")
print(f"  CamemBERT : {camembert_tokenizer.vocab_size} tokens")

### Exercice 0c : Comparer GPT-2 vs CamemBERT

Testez les deux tokenizers sur des phrases en fran√ßais et en anglais. Observez les diff√©rences !

**Questions √† explorer** :
1. Comment le tokenizer influe-t-il sur le nombre de tokens ?
2. Les tokens produits vous paraissent-ils avoir du sens ?

In [None]:
# ============================================
# EXERCICE 0c : Comparer GPT-2 vs CamemBERT
# ============================================

# Fonction utilitaire pour comparer
def compare_tokenizers(texte):
    tokens_gpt2 = gpt2_tokenizer.tokenize(texte)
    tokens_camembert = camembert_tokenizer.tokenize(texte)
    
    print(f"Texte : '{texte}'")
    print(f"  GPT-2     : {len(tokens_gpt2):2d} tokens ‚Üí {tokens_gpt2}")
    print(f"  CamemBERT : {len(tokens_camembert):2d} tokens ‚Üí {tokens_camembert}")
    print()

# Exemples fournis
print("=== Phrases en FRAN√áAIS ===\n")
compare_tokenizers("Le chat mange la souris.")
compare_tokenizers("L'intelligence artificielle r√©volutionne le monde.")
compare_tokenizers("anticonstitutionnellement")

print("=== Phrases en ANGLAIS ===\n")
compare_tokenizers("The cat eats the mouse.")
compare_tokenizers("Artificial intelligence revolutionizes the world.")
compare_tokenizers("internationalization")

# TODO: Testez vos propres phrases !
# compare_tokenizers("Votre phrase ici")

**Observations** :
- CamemBERT d√©coupe mieux le fran√ßais (moins de tokens)
- GPT-2 d√©coupe mieux l'anglais
- Le caract√®re `ƒ†` (GPT-2) ou `‚ñÅ` (CamemBERT) indique un espace avant le token

### 2.4 Construction d'un vocabulaire

Une fois la strat√©gie de tokenization choisie, on construit un **vocabulaire** : une table de correspondance token ‚Üî index.

### Exercice 1 : Construire un vocabulaire

√Ä partir d'un corpus, vous allez :
1. Collecter tous les tokens uniques
2. Cr√©er un dictionnaire `vocab` avec un token sp√©cial `<UNK>` (pour les mots inconnus)
3. Impl√©menter les fonctions de conversion token ‚Üî ID
4. Tester sur une phrase

> üí° **Note** : En pratique, on ajoute souvent d'autres tokens sp√©ciaux comme `<PAD>` (pour aligner les s√©quences de longueurs diff√©rentes lors du batching). On les verra dans les prochaines sessions.

In [None]:
# ============================================
# EXERCICE 1 : Construire un vocabulaire
# ============================================

corpus = [
    "le chat mange",
    "le chien dort",
    "la souris court"
]

# CORRECTION 1: Collecter tous les tokens uniques du corpus
# Utilise un set() pour les tokens uniques et tokenize_words()
all_tokens = set()
for phrase in corpus:
    tokens = tokenize_words(phrase)
    all_tokens.update(tokens)


# CORRECTION 2: Cr√©er le vocabulaire avec le token sp√©cial <UNK>
# Le vocabulaire commence par {"<UNK>": 0}
# Puis ajoute chaque token avec un index unique
vocab = {"<UNK>": 0}
for i, token in enumerate(sorted(all_tokens), start=1):
    vocab[token] = i


# CORRECTION 3: Cr√©er le vocabulaire inverse (id ‚Üí token)
id_to_token = {idx: token for token, idx in vocab.items()}


# CORRECTION 4: Impl√©menter la fonction tokens_to_ids
# Retourne <UNK> (index 0) pour les mots inconnus
def tokens_to_ids(text, vocab):
    """Convertit un texte en liste d'indices."""
    tokens = tokenize_words(text)
    return [vocab.get(token, vocab["<UNK>"]) for token in tokens]


# CORRECTION 5: Impl√©menter la fonction ids_to_tokens
def ids_to_tokens(ids, id_to_token):
    """Convertit une liste d'indices en tokens."""
    return [id_to_token[idx] for idx in ids]


# === Tests ===
print("Vocabulaire :", vocab)
print()

# Test encodage
phrase = "le chat court"
ids = tokens_to_ids(phrase, vocab)
print(f"'{phrase}' ‚Üí {ids}")

# Test d√©codage
tokens_back = ids_to_tokens(ids, id_to_token) if id_to_token else []
print(f"{ids} ‚Üí {tokens_back}")

# Test avec mot inconnu
phrase_inconnue = "le hamster mange"
ids_inconnu = tokens_to_ids(phrase_inconnue, vocab)
phrase_inconnue_post_token = ids_to_tokens(ids_inconnu,id_to_token)
print(f"\n'{phrase_inconnue}' ‚Üí {ids_inconnu} ‚Üí {phrase_inconnue_post_token}")
print("(hamster devrait √™tre remplac√© par l'index de <UNK>)")

---

## 3. Embeddings

### 3.1 Le probl√®me des indices

Les indices (0, 1, 2, ...) n'ont pas de **sens s√©mantique**. 

- `chat = 3` et `chien = 5` ‚Üí sont-ils proches ? (oui, ce sont des animaux et ils ont beaucoup de choses en commun)
- `chat = 3` et `voiture = 4` ‚Üí sont-ils proches ? (non, beaucoup moins que chien et chat)

Ces indices ne permettent pas de mesurer cette proximit√© !

### Approches classiques pour encoder des phrases : Bag-of-Words et TF-IDF

Historiquement, on repr√©sentait un texte par un vecteur de la taille du vocabulaire :
- **Bag-of-Words** : compter les occurrences de chaque mot
- **TF-IDF** : pond√©rer par la raret√© des mots dans le corpus

```
Exemple simplifi√© (BOW vs TF-IDF) :

Corpus : ["le chat mange", "le chat dort"]
Vocabulaire : [le, chat, mange, dort]

BOW (comptage brut) :
  "le chat mange" ‚Üí [1, 1, 1, 0]
  "le chat dort"  ‚Üí [1, 1, 0, 1]

TF-IDF (pond√©r√© par raret√©) :
  "le chat mange" ‚Üí [0.3, 0.3, 0.7, 0]    ‚Üê "mange" p√®se plus (mot distinctif)
  "le chat dort"  ‚Üí [0.3, 0.3, 0, 0.7]    ‚Üê "dort" p√®se plus (mot distinctif)
                     ‚Üë    ‚Üë
              mots communs ‚Üí poids r√©duit
```

En pratique, le vocabulaire contient 50 000+ mots ‚Üí vecteurs **sparse** (majoritairement des z√©ros) :

```
"le chat dort" ‚Üí [0, 0, ..., 1, ..., 0, 1, ..., 0]  (50 000 dimensions)
                              ‚Üë         ‚Üë
                            chat      dort
```

Pour TF-IDF et BOW, on obtient des vecteurs qui permettent de comparer des morceaux de texte entre eux (descriptions de produits sur un site marchand par exemple). Pour autant, ils ne permettent pas de capturer le sens des mots et leurs proximit√©s relatives. Une m√©thode apparue en 2013 (Word2Vec) a permis d'apporter cette compr√©hension plus profonde, de mani√®re automatis√©e et sans supervision.

---

### 3.2 Word2Vec : Apprendre des embeddings qui ont du sens

Comme son nom l'indique, Word2Vec transforme des mots en vecteurs. Mais comment apprend-il des vecteurs o√π "chat" et "chien" sont vraiment proches ?

---

#### L'intuition fondamentale

> **"Tu connais un mot par les mots qui l'entourent"** (hypoth√®se distributionnelle)

Observez ces phrases :
```
"Le chat mange sa p√¢t√©e"
"Le chat dort sur le canap√©"  
"Mon chat joue avec une balle"

"Le chien mange sa p√¢t√©e"
"Le chien dort sur le canap√©"
"Mon chien joue avec une balle"
```

"Chat" et "chien" apparaissent dans les **m√™mes contextes**. Word2Vec va leur attribuer des vecteurs similaires.

---

#### L'architecture de Word2Vec

Word2Vec repose sur une architecture similaire √† un r√©seau de neurones **√©tonnamment simple** : une entr√©e, une couche cach√©e, une sortie. Pas d'activation (simple multiplication matricielle).

##### Le r√©seau

```
      ENTR√âE                 COUCHE CACH√âE              SORTIE
     (one-hot)               (embeddings)              (softmax)
  
   ‚îå‚îÄ‚îÄ‚îÄ‚îê                                              ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   ‚îÇ 0 ‚îÇ  "le"                                        ‚îÇ 0.02  ‚îÇ "le"
   ‚îú‚îÄ‚îÄ‚îÄ‚î§                                              ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
   ‚îÇ 0 ‚îÇ  "chat"             ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê            ‚îÇ 0.41  ‚îÇ "chat"
   ‚îú‚îÄ‚îÄ‚îÄ‚î§                     ‚îÇ           ‚îÇ            ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
   ‚îÇ 1 ‚îÇ  "noir"  ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂  ‚îÇ  vecteur  ‚îÇ  ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂ ‚îÇ 0.05  ‚îÇ "noir"
   ‚îú‚îÄ‚îÄ‚îÄ‚î§            W        ‚îÇ  128 dim  ‚îÇ     W'     ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
   ‚îÇ 0 ‚îÇ  "dort"             ‚îÇ           ‚îÇ            ‚îÇ 0.38  ‚îÇ "dort"
   ‚îú‚îÄ‚îÄ‚îÄ‚î§                     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò            ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
   ‚îÇ 0 ‚îÇ  "sur"                                       ‚îÇ 0.14  ‚îÇ "sur"
   ‚îî‚îÄ‚îÄ‚îÄ‚îò                                              ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
  
  V dimensions              D dimensions              V dimensions
  (taille vocab)            (ex: 128)                 (probabilit√©s)
```

| Couche | Dimensions | Ce qu'elle contient |
|--------|------------|---------------------|
| Entr√©e | V (ex: 50 000) | Vecteur one-hot du mot |
| Cach√©e | D (ex: 128) | **Le vecteur qu'on veut r√©cup√©rer** |
| Sortie | V (ex: 50 000) | Probabilit√© de chaque mot |

---

##### Le but : r√©cup√©rer la couche cach√©e

L'objectif de Word2Vec n'est **pas** de faire des pr√©dictions. C'est de construire de bons vecteurs.

La **matrice W** (entre l'entr√©e et la couche cach√©e) contient tous les embeddings :

```
Matrice W (V √ó D)
                    D dimensions
              ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   "le"     ‚Üí ‚îÇ 0.2  -0.1  0.5 ... ‚îÇ
   "chat"   ‚Üí ‚îÇ 0.3  -0.4  0.7 ... ‚îÇ ‚Üê Ces deux lignes
   "chien"  ‚Üí ‚îÇ 0.3  -0.3  0.6 ... ‚îÇ ‚Üê sont proches !
   "noir"   ‚Üí ‚îÇ 0.1   0.5 -0.2 ... ‚îÇ
   ...        ‚îÇ        ...         ‚îÇ
              ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

**Apr√®s l'entra√Ænement** :
- On **garde** la matrice W ‚Üí c'est notre table d'embeddings
- On **jette** tout le reste (matrice W', couche de sortie)

La sortie n'√©tait qu'un **pr√©texte** pour entra√Æner le r√©seau !

---

##### L'entra√Ænement : deux techniques

Pour que les vecteurs capturent le sens des mots, on entra√Æne le r√©seau √† pr√©dire les relations entre mots voisins dans un corpus.

**Deux approches sym√©triques existent :**

###### Skip-gram : mot central ‚Üí mots voisins

On donne un mot, le r√©seau pr√©dit les mots qui l'entourent.

```
Phrase : "Le chat noir dort sur"
                  ‚Üë
             mot central

Fen√™tre de contexte (¬±1 mot) :
    Entr√©e  : "noir"
    Cibles  : "chat", "dort" (trait√©s un par un)
```

```
    "noir"                     "chat" ?
       ‚îÇ                          ‚Üë
       ‚ñº                          ‚îÇ
   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    vecteur     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   ‚îÇ   W   ‚îÇ ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂ ‚îÇ   W'    ‚îÇ
   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò   (128 dim)    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

###### CBOW : mots voisins ‚Üí mot central

On donne les mots du contexte, le r√©seau pr√©dit le mot du milieu.

```
Phrase : "Le chat noir dort sur"
              ‚Üë         ‚Üë
            contexte (¬±1)

Entr√©e  : "chat" + "dort" (moyenn√©s)
Cible   : "noir"
```

```
"chat" + "dort"                "noir" ?
       ‚îÇ                          ‚Üë
       ‚ñº                          ‚îÇ
   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    vecteur     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   ‚îÇ   W   ‚îÇ ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂ ‚îÇ   W'    ‚îÇ
   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò   (128 dim)    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

###### Comparaison

| | Skip-gram | CBOW |
|--|-----------|------|
| Entr√©e | 1 mot | plusieurs mots |
| Sortie | pr√©dire les voisins | pr√©dire le mot central |
| Mots rares | ‚úÖ meilleur | moins bon |
| Vitesse | plus lent | ‚úÖ plus rapide |

En pratique, **Skip-gram** est plus utilis√© car il donne de meilleurs r√©sultats sur les mots peu fr√©quents.

---

##### Cons√©quence : mots fr√©quents vs mots rares

Plus un mot est **fr√©quent** dans le corpus, plus son embedding est ajust√© souvent ‚Üí meilleure qualit√©.

Un mot vu 100 000 fois aura un excellent embedding. Un mot vu 3 fois restera proche de son initialisation al√©atoire.

> C'est pour √ßa que BPE aide : un mot rare comme "smartcar" est d√©coup√© en "smart" + "car", deux sous-mots tr√®s fr√©quents avec d'excellents embeddings !

---

##### Limitation : l'ordre des mots est ignor√©

Word2Vec traite chaque paire (mot, voisin) **ind√©pendamment**. Il ne sait pas quel mot vient avant ou apr√®s.

```
"Le chat mange la souris"
"La souris mange le chat"

‚Üí M√™mes paires d'entra√Ænement !
‚Üí Word2Vec ne voit pas la diff√©rence
```

C'est le **m√©canisme d'attention combin√© au positional encoding** (section 6) qui permettra de capturer l'ordre et les relations entre positions.

---

> üí° **En pratique** : Les impl√©mentations r√©elles (gensim, FastText...) ajoutent des optimisations pour acc√©l√©rer l'entra√Ænement sur de gros vocabulaires. L'architecture de base reste la m√™me.

> üìö **Pour aller plus loin** : [The Illustrated Word2Vec](https://jalammar.github.io/illustrated-word2vec/) ‚Äî Visualisations d√©taill√©es de l'architecture et de l'entra√Ænement.

---

#### Pourquoi les analogies marchent ?

Apr√®s entra√Ænement, les vecteurs encodent des **relations** :

```
vecteur("roi") - vecteur("homme") ‚âà vecteur("reine") - vecteur("femme")
```

Autrement dit, la "direction" homme‚Üífemme dans l'espace vectoriel est la m√™me que roi‚Üíreine :

```
        homme ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚Üí femme
          ‚Üë    (m√™me         ‚Üë
          ‚îÇ   direction)     ‚îÇ
         roi ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚Üí reine
```

C'est pour √ßa que `roi - homme + femme ‚âà reine` fonctionne !

---

#### Mesurer la similarit√© : Similarit√© cosinus

Un vecteur poss√®de **deux caract√©ristiques** :
- **Une direction** (o√π il pointe)
- **Une norme** (sa longueur)

A priori, pour comparer deux vecteurs, on devrait s'int√©resser aux deux.

##### Le cas de Word2Vec

En pratique, la norme des embeddings Word2Vec est **pollu√©e** par des effets qui n'ont rien √† voir avec le sens : fr√©quence des mots dans le corpus, d√©tails de l'entra√Ænement...

On utilise donc la **similarit√© cosinus**, qui compare uniquement les directions. Et √ßa fonctionne tr√®s bien !

$$\text{similarit√©}(A, B) = \frac{A \cdot B}{\|A\| \|B\|}$$

| Valeur | Interpr√©tation |
|--------|----------------|
| 1 | M√™me direction |
| 0 | Aucune relation |
| -1 | Directions oppos√©es |

##### Les mod√®les r√©cents

Les mod√®les modernes (OpenAI, Sentence-Transformers...) int√®grent la normalisation **directement dans l'entra√Ænement** et retournent des embeddings d√©j√† normalis√©s. R√©sultat : cosine similarity = dot product, plus d'ambigu√Øt√©.

> üìö **Pour aller plus loin** :
> - [Pinecone - Vector Similarity Explained](https://www.pinecone.io/learn/vector-similarity/)
> - [ArXiv - Is Cosine-Similarity Really About Similarity?](https://arxiv.org/abs/2403.05440) ‚Äî Limites th√©oriques

---

### 3.3 Exploration avec GloVe

Nous allons utiliser **GloVe** (similaire √† Word2Vec), entra√Æn√© sur Wikipedia.

In [None]:
# Charger un mod√®le pr√©-entra√Æn√© (GloVe, similaire √† Word2Vec)
import gensim.downloader as api

print("Chargement du mod√®le GloVe (peut prendre 1-2 min)...")
model = api.load("glove-wiki-gigaword-100")  # 100 dimensions, entra√Æn√© sur Wikipedia
print(f"Mod√®le charg√© ! Vocabulaire : {len(model)} mots")

In [None]:
# Explorer les similarit√©s
print("=== Mots similaires √† 'king' ===")
for word, score in model.most_similar("king", topn=5):
    print(f"  {word}: {score:.4f}")

print("\n=== Mots similaires √† 'computer' ===")
for word, score in model.most_similar("computer", topn=5):
    print(f"  {word}: {score:.4f}")

In [None]:
# ============================================
# EXERCICE 2 : Explorer les similarit√©s
# ============================================

# Partie A : Trouver les mots similaires √† "france", "cat", "happy"
# TODO: Utilisez model.most_similar(mot, topn=5)


# Partie B : Exploration libre
# TODO: Trouvez une paire de mots avec similarit√© > 0.7
# Indice : model.similarity("mot1", "mot2") retourne un score entre -1 et 1


# Partie C : Trouver l'intrus
# TODO: Utilisez model.doesnt_match(["mot1", "mot2", "mot3", "mot4"])
# Exemple : model.doesnt_match(["breakfast", "lunch", "dinner", "car"])
# Testez avec vos propres listes !

In [None]:
# La magie des analogies : king - man + woman = ?
print("=== Analogie : king - man + woman = ? ===")
result = model.most_similar(positive=["king", "woman"], negative=["man"], topn=3)
for word, score in result:
    print(f"  {word}: {score:.4f}")

print("\n=== Analogie : paris - france + italy = ? ===")
result = model.most_similar(positive=["paris", "italy"], negative=["france"], topn=3)
for word, score in result:
    print(f"  {word}: {score:.4f}")

In [None]:
# ============================================
# EXERCICE 3 : Ma√Ætriser les analogies
# ============================================

# Partie A : Tester ces analogies classiques
# - "berlin" - "germany" + "france" = ?
# - "good" - "better" + "bad" = ?
# - "walked" - "walk" + "swim" = ?

# TODO: Syntaxe : model.most_similar(positive=["A", "C"], negative=["B"], topn=3)


# Partie B : Inventer une analogie qui fonctionne
# TODO: Trouvez une analogie originale qui donne le r√©sultat attendu
# Exemples de domaines : m√©tiers, pays/capitales, animaux, verbes...


# Partie C : Trouver une analogie qui √©choue
# TODO: Trouvez une analogie qui devrait marcher logiquement mais √©choue
# Expliquez pourquoi dans un commentaire (indice : fr√©quence des mots, biais du corpus...)

In [None]:
# Visualisation des embeddings en 2D
from sklearn.decomposition import PCA

# S√©lectionner quelques mots
words = ["king", "queen", "man", "woman", "prince", "princess",
         "cat", "dog", "lion", "tiger",
         "car", "bus", "train", "plane"]

# R√©cup√©rer leurs vecteurs
vectors = np.array([model[w] for w in words])

# R√©duire √† 2D avec PCA
pca = PCA(n_components=2)
vectors_2d = pca.fit_transform(vectors)

# Visualiser
plt.figure(figsize=(12, 8))
plt.scatter(vectors_2d[:, 0], vectors_2d[:, 1], c='blue', s=100)

for i, word in enumerate(words):
    plt.annotate(word, (vectors_2d[i, 0] + 0.1, vectors_2d[i, 1] + 0.1), fontsize=12)

plt.title("Embeddings GloVe projet√©s en 2D")
plt.xlabel("Composante 1")
plt.ylabel("Composante 2")
plt.grid(True, alpha=0.3)
plt.show()

print("Observation : Les mots de m√™me cat√©gorie sont regroup√©s !")

In [None]:
# ============================================
# EXERCICE 4 : Visualisation personnalis√©e
# ============================================

# TODO: Cr√©ez votre propre visualisation avec 15-20 mots de votre choix
# Choisissez des mots de 3-4 cat√©gories diff√©rentes (ex: sports, √©motions, pays, m√©tiers)

# Vos mots (modifiez cette liste) :
my_words = [
    # Cat√©gorie 1 (ex: sports) : 
    
    # Cat√©gorie 2 (ex: √©motions) : 
    
    # Cat√©gorie 3 (ex: pays) : 
    
    # Cat√©gorie 4 (ex: m√©tiers) : 
]

# TODO: V√©rifiez que tous vos mots sont dans le vocabulaire
# for word in my_words:
#     if word not in model:
#         print(f"'{word}' n'est pas dans le vocabulaire !")

# TODO: Copiez et adaptez le code de visualisation de la cellule pr√©c√©dente
# Remplacez 'words' par 'my_words'


# QUESTION : Les mots de m√™me cat√©gorie sont-ils regroup√©s ? 
# Y a-t-il des surprises ?

---

## 4. R√©capitulatif

### Le pipeline NLP

| √âtape | Entr√©e | Sortie | R√¥le |
|-------|--------|--------|------|
| **Tokenization** | Texte brut | Liste de tokens | D√©couper le texte |
| **Vocabulaire** | Tokens | Indices | Table token ‚Üî ID |
| **Embedding** | Indices | Vecteurs denses | Sens s√©mantique |

### Points cl√©s

1. **Tokenization BPE** : meilleur compromis entre mots et caract√®res
2. **Embeddings** : transforment les mots en vecteurs comparables
3. **Word2Vec** : montre que les embeddings capturent le sens (analogies !)
4. **Similarit√© cosinus** : mesure la proximit√© entre vecteurs

### Prochaine session

Nous verrons le **m√©canisme d'attention** : comment les mots "communiquent" entre eux pour se comprendre mutuellement.

---

## 5. Pour aller plus loin (optionnel)

### Ressources

- [Les tokenizers en NLP (FR)](https://lbourdois.github.io/blog/nlp/Les-tokenizers/) - Excellent article en fran√ßais
- [The Illustrated Word2Vec](https://jalammar.github.io/illustrated-word2vec/) - Visualisations tr√®s claires
- [Bolmo: Byte-level Language Models (Allen AI, 2025)](https://allenai.org/blog/bolmo) - Une alternative √† BPE ?

### Exp√©rimentations sugg√©r√©es

1. Tester d'autres analogies Word2Vec
2. Visualiser les embeddings de votre choix
3. Comparer diff√©rents tokenizers (BERT, GPT-2, etc.)

---

## 6. Teaser : Le m√©canisme d'attention

Maintenant que nous savons repr√©senter du texte (tokenization + embeddings), la prochaine √©tape est de permettre aux mots de **communiquer entre eux**.

C'est le r√¥le du **m√©canisme d'attention**, que nous verrons en d√©tail au prochain TP.

### L'id√©e

> Pour comprendre un mot, il faut regarder les autres mots de la phrase.

Exemple : *"Le chat qui dormait sur le canap√© a saut√©"*
- Pour comprendre **"a saut√©"** ‚Üí regarder **"chat"** (le sujet)
- Pour comprendre **"dormait"** ‚Üí regarder **"chat"** et **"canap√©"**

### Visualisation

In [None]:
# Matrice d'attention simul√©e
phrase = ["Le", "chat", "mange", "la", "souris"]

# Chaque ligne = un mot qui "regarde" les autres
# Valeurs = poids d'attention (somme = 1 par ligne)
attention = torch.tensor([
    [0.8, 0.1, 0.05, 0.03, 0.02],  # "Le" regarde surtout lui-m√™me
    [0.1, 0.7, 0.1, 0.05, 0.05],   # "chat" regarde surtout lui-m√™me
    [0.05, 0.4, 0.4, 0.05, 0.1],   # "mange" regarde "chat" et lui-m√™me
    [0.02, 0.03, 0.05, 0.8, 0.1],  # "la" regarde surtout lui-m√™me
    [0.02, 0.1, 0.2, 0.08, 0.6],   # "souris" regarde "mange" et elle-m√™me
])

# Visualisation
plt.figure(figsize=(8, 6))
plt.imshow(attention, cmap='Blues')
plt.xticks(range(5), phrase)
plt.yticks(range(5), phrase)
plt.xlabel("Mots regard√©s")
plt.ylabel("Mots qui regardent")
plt.title("Qui regarde qui ? (Matrice d'attention)")
plt.colorbar(label="Poids d'attention")

for i in range(5):
    for j in range(5):
        plt.text(j, i, f'{attention[i,j]:.2f}', 
                ha='center', va='center',
                color='white' if attention[i,j] > 0.5 else 'black')
plt.show()

print("Le verbe 'mange' regarde fortement 'chat' (son sujet) !")

**Ce qu'on voit** :
- Chaque mot peut "regarder" tous les autres mots
- Les poids indiquent l'importance de chaque relation
- Le mod√®le **apprend** ces poids pendant l'entra√Ænement

**Au prochain TP**, nous verrons :
- Comment calculer cette matrice d'attention
- Les concepts Query, Key, Value
- L'architecture compl√®te du Transformer

---

## 7. Mini-projet : Construire son propre pipeline NLP

> **üè† BONUS √Ä FAIRE CHEZ SOI**
> 
> Cette section est **optionnelle** et ne fait pas partie du TP en session.
> Elle est propos√©e pour les √©tudiants qui souhaitent approfondir √† la maison.

Dans ce projet, vous allez **tout construire √† partir de libs g√©n√©riques** : votre propre tokenizer BPE et vos propres embeddings Word2Vec, entra√Æn√©s sur un corpus th√©matique Pok√©mon !

### Objectifs

1. **Entra√Æner un tokenizer BPE** adapt√© au vocabulaire Pok√©mon
2. **Entra√Æner Word2Vec** sur les tokens BPE
3. **Explorer les similarit√©s** entre Pok√©mon, types, attaques...
4. **(Avanc√©)** Comparer avec un mod√®le fran√ßais pr√©-entra√Æn√© fine-tun√©

### Structure du projet

| Partie | Contenu | Difficult√© |
|--------|---------|------------|
| **Partie 1** | BPE custom + Word2Vec from scratch | ‚≠ê‚≠ê |
| **Partie 2** | Fine-tuning FastText fran√ßais | ‚≠ê‚≠ê‚≠ê |
| **Partie 3** | Comparaison des deux approches | ‚≠ê |

---

### Partie 1 : Pipeline from scratch

#### 1.1 Chargement du corpus Pok√©mon

Nous utilisons un corpus extrait de **Pok√©pedia** (le wiki Pok√©mon francophone) contenant les descriptions de Pok√©mon, attaques, lieux, et bien plus.

In [None]:
# ============================================
# PARTIE 1.1 : Chargement du corpus Pok√©mon
# ============================================

from datasets import load_dataset

# Charger le corpus Pok√©mon depuis Hugging Face
dataset = load_dataset("chris-lmd/pokepedia-fr")

print(f"Nombre d'articles : {len(dataset['train'])}")

# Extraire le texte
corpus_texts = [article["content"] for article in dataset["train"]]

# Aper√ßu
print(f"\n=== Exemple d'article ===")
print(f"Titre : {dataset['train'][0]['title']}")
print(f"Contenu (extrait) :\n{corpus_texts[0][:500]}...")

# Statistiques
total_chars = sum(len(t) for t in corpus_texts)
total_words = sum(len(t.split()) for t in corpus_texts)
print(f"\n=== Statistiques du corpus ===")
print(f"Nombre d'articles : {len(corpus_texts)}")
print(f"Nombre total de mots : {total_words:,}")
print(f"Nombre total de caract√®res : {total_chars:,}")

#### 1.2 Entra√Ænement du tokenizer BPE

Nous allons cr√©er notre propre tokenizer BPE adapt√© au vocabulaire Pok√©mon. La biblioth√®que `tokenizers` de Hugging Face permet d'entra√Æner un BPE en quelques lignes.

**Rappel** : BPE fusionne it√©rativement les paires de caract√®res les plus fr√©quentes. Sur notre corpus, il apprendra des tokens comme :
- `"Pika"` + `"chu"` ‚Üí fr√©quent ensemble
- `"Draco"` + `"feu"` ‚Üí fusion possible
- `"√©volu"` + `"tion"` ‚Üí motif r√©current

In [None]:
# ============================================
# PARTIE 1.2 : Entra√Ænement du tokenizer BPE
# ============================================

from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace
from collections import Counter

# === √âtape 0 : Analyser les mots uniques du corpus ===
print("Analyse du corpus...")
all_words = []
for text in corpus_texts:
    # Tokenization simple par espaces (mots bruts)
    words = text.split()
    all_words.extend(words)

word_counts = Counter(all_words)
unique_words = set(all_words)

print(f"  Nombre total de mots : {len(all_words):,}")
print(f"  Mots uniques : {len(unique_words):,}")
print(f"  Top 10 mots : {word_counts.most_common(10)}")

# === √âtape 1 : Cr√©er et entra√Æner le tokenizer BPE ===
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
tokenizer.pre_tokenizer = Whitespace()

# Taille du vocabulaire - ajustable !
VOCAB_SIZE = 8000

trainer = BpeTrainer(
    vocab_size=VOCAB_SIZE,
    min_frequency=2,
    special_tokens=["[UNK]", "[PAD]"],
    show_progress=True
)

print(f"\nEntra√Ænement du tokenizer BPE (vocab_size={VOCAB_SIZE})...")
tokenizer.train_from_iterator(corpus_texts, trainer=trainer)
print(f"Tokenizer entra√Æn√© ! Vocabulaire : {tokenizer.get_vocab_size()} tokens")

# === √âtape 2 : Analyser la couverture ===
print("\n" + "=" * 50)
print("ANALYSE DE LA COUVERTURE")
print("=" * 50)

# Compter combien de mots uniques = 1 seul token
words_as_single_token = []
words_split = []

for word in unique_words:
    tokens = tokenizer.encode(word).tokens
    if len(tokens) == 1 and tokens[0] != "[UNK]":
        words_as_single_token.append(word)
    else:
        words_split.append((word, tokens))

coverage = len(words_as_single_token) / len(unique_words) * 100

print(f"\nMots uniques du corpus : {len(unique_words):,}")
print(f"Mots = 1 token (couverts) : {len(words_as_single_token):,} ({coverage:.1f}%)")
print(f"Mots d√©coup√©s en 2+ tokens : {len(words_split):,} ({100-coverage:.1f}%)")

print(f"\nüìä Ratio vocab_size / mots_uniques : {VOCAB_SIZE / len(unique_words):.1%}")

# Exemples
print("\n‚úÖ Exemples de mots couverts (1 token) :")
sample_covered = [w for w in words_as_single_token if len(w) > 4][:10]
print(f"  {sample_covered}")

print("\n‚ùå Exemples de mots d√©coup√©s :")
sample_split = [(w, t) for w, t in words_split if len(w) > 5 and len(t) <= 4][:5]
for word, tokens in sample_split:
    print(f"  '{word}' ‚Üí {tokens}")

# === √âtape 3 : Test du tokenizer ===
print("\n" + "=" * 50)
print("TEST DU TOKENIZER")
print("=" * 50)

test_phrases = [
    "Pikachu utilise Tonnerre",
    "Dracaufeu est un Pok√©mon de type Feu",
    "√âvolution de Salam√®che en Reptincel",
    "M√©ga-√âvolution disponible"
]

for phrase in test_phrases:
    output = tokenizer.encode(phrase)
    print(f"'{phrase}'")
    print(f"  ‚Üí {output.tokens}")
    print()

#### Comment interpr√©ter ces r√©sultats ?

> **Pourquoi seulement ~4% de couverture ?**
> 
> Ce chiffre peut sembler faible, mais c'est **normal et attendu** :
> 
> 1. **BPE optimise pour la fr√©quence** : Les mots tr√®s fr√©quents deviennent des tokens entiers, les mots rares sont d√©coup√©s en sous-mots connus
> 
> 2. **107k mots uniques** inclut beaucoup de "bruit" : hapax (mots vus 1 seule fois), mots avec ponctuation coll√©e, fautes de frappe, mots √©trangers...
> 
> 3. **L'important** : Les mots du domaine (Pikachu, Dracaufeu, √©volution, attaque...) sont bien des tokens entiers
> 
> **R√®gle pratique** :
> - Si les mots **importants** de votre domaine sont d√©coup√©s ‚Üí augmenter `vocab_size`
> - Si beaucoup de tokens n'apparaissent que 1-2 fois ‚Üí r√©duire `vocab_size`
> 
> **Ordres de grandeur** :
> | Mod√®le | vocab_size | Corpus |
> |--------|------------|--------|
> | GPT-2 | 50k | ~40 Go |
> | CamemBERT | 32k | ~138 Go |
> | Notre corpus | 8k | ~10 Mo |

#### 1.3 Tokenization du corpus

Maintenant, appliquons notre tokenizer BPE √† tout le corpus pour pr√©parer l'entra√Ænement de Word2Vec.

In [None]:
# ============================================
# PARTIE 1.3 : Tokenization du corpus complet
# ============================================

import random

# Tokenizer tout le corpus
print("Tokenization du corpus...")
corpus_tokenized = []

for i, text in enumerate(corpus_texts):
    # D√©couper le texte en phrases (approximatif)
    sentences = text.replace('\n', ' ').split('. ')
    
    for sentence in sentences:
        if len(sentence.strip()) > 10:  # Ignorer les phrases trop courtes
            output = tokenizer.encode(sentence)
            tokens = output.tokens
            if len(tokens) >= 3:  # Au moins 3 tokens pour Word2Vec
                corpus_tokenized.append(tokens)
    
    if (i + 1) % 1000 == 0:
        print(f"  {i + 1}/{len(corpus_texts)} articles trait√©s...")

print(f"\nCorpus tokenis√© !")
print(f"Nombre de phrases : {len(corpus_tokenized):,}")
print(f"Nombre total de tokens : {sum(len(s) for s in corpus_tokenized):,}")

# Exemples al√©atoires (phrases assez longues)
print("\n=== Exemples de phrases tokenis√©es ===")
long_phrases = [p for p in corpus_tokenized if len(p) >= 12]
for phrase in random.sample(long_phrases, min(5, len(long_phrases))):
    print(f"  {phrase[:12]}...")

#### 1.4 Entra√Ænement de Word2Vec

Nous utilisons **gensim** pour entra√Æner Word2Vec sur notre corpus tokenis√©.

**Param√®tres importants** :
- `vector_size` : dimension des embeddings (100-300 typique)
- `window` : taille de la fen√™tre de contexte
- `min_count` : ignorer les tokens trop rares
- `sg=1` : utiliser Skip-gram (meilleur pour les mots rares)

In [None]:
# ============================================
# PARTIE 1.4 : Entra√Ænement de Word2Vec
# ============================================

from gensim.models import Word2Vec

print("Entra√Ænement de Word2Vec...")

# Entra√Æner le mod√®le
model_w2v = Word2Vec(
    sentences=corpus_tokenized,
    vector_size=100,      # Dimension des embeddings
    window=5,             # Fen√™tre de contexte (¬±5 mots)
    min_count=3,          # Ignorer les tokens vus < 3 fois
    sg=1,                 # Skip-gram (1) vs CBOW (0)
    workers=4,            # Parall√©lisation
    epochs=10             # Nombre de passes sur le corpus
)

print(f"Mod√®le entra√Æn√© !")
print(f"Vocabulaire Word2Vec : {len(model_w2v.wv)} tokens")
print(f"Dimension des vecteurs : {model_w2v.wv.vector_size}")

# Sauvegarder le mod√®le (optionnel)
# model_w2v.save("pokemon_word2vec.model")

#### 1.5 Exploration des embeddings Pok√©mon

C'est le moment de tester si notre mod√®le a captur√© les relations s√©mantiques du monde Pok√©mon !

In [None]:
# ============================================
# PARTIE 1.5 : Exploration des similarit√©s
# ============================================

# Fonction utilitaire pour chercher un token
def find_token(word, model):
    """Cherche un token dans le vocabulaire (insensible √† la casse)."""
    word_lower = word.lower()
    for token in model.wv.key_to_index:
        if word_lower == token.lower():
            return token
    return None

# Fonction pour afficher les similarit√©s
def show_similar(word, model, topn=10):
    """Affiche les mots les plus similaires."""
    token = find_token(word, model)
    if token is None:
        print(f"'{word}' non trouv√© dans le vocabulaire")
        return
    
    print(f"=== Mots similaires √† '{token}' ===")
    try:
        for similar, score in model.wv.most_similar(token, topn=topn):
            print(f"  {similar}: {score:.4f}")
    except KeyError as e:
        print(f"Erreur: {e}")

# Tester avec des noms de Pok√©mon
print("=" * 50)
show_similar("Pikachu", model_w2v)
print()
show_similar("Dracaufeu", model_w2v)
print()
show_similar("√âvolution", model_w2v)

In [None]:
# ============================================
# EXERCICE 5 : Explorer votre mod√®le Pok√©mon
# ============================================

# TODO A : Testez les similarit√©s avec d'autres Pok√©mon
# Exemples : Salam√®che, Carapuce, Bulbizarre, Mewtwo, Rondoudou...
# show_similar("...", model_w2v)


# TODO B : Testez avec des types (Feu, Eau, Plante, √âlectrik...)
# show_similar("Feu", model_w2v)


# TODO C : Testez avec des attaques (Tonnerre, Lance-Flammes, Surf...)
# show_similar("Tonnerre", model_w2v)


# TODO D : Essayez des analogies Pok√©mon !
# Exemple : Pikachu - √âlectrik + Feu = ?
# model_w2v.wv.most_similar(positive=["Pikachu", "Feu"], negative=["√âlectrik"], topn=5)


# QUESTIONS DE R√âFLEXION :
# 1. Les Pok√©mon de m√™me type sont-ils proches ?
# 2. Les √©volutions sont-elles proches (Salam√®che ‚Üî Dracaufeu) ?
# 3. Quelles analogies fonctionnent ? Lesquelles √©chouent ?

In [None]:
# ============================================
# PARTIE 1.6 : Visualisation des embeddings
# ============================================

from sklearn.decomposition import PCA

# S√©lectionner des tokens int√©ressants (√† adapter selon votre vocabulaire)
# V√©rifiez d'abord quels tokens existent :
print("=== Quelques tokens du vocabulaire ===")
vocab_sample = list(model_w2v.wv.key_to_index.keys())[:50]
print(vocab_sample)

# TODO: S√©lectionnez des tokens pour la visualisation
# Choisissez des Pok√©mon, types, attaques...
tokens_to_plot = [
    # Pok√©mon (v√©rifiez qu'ils existent dans vocab_sample ou cherchez-les)
    # "Pikachu", "Raichu", ...
    
    # Types
    # "Feu", "Eau", ...
    
    # Attaques
    # "Tonnerre", ...
]

# Filtrer les tokens qui existent dans le vocabulaire
tokens_valid = [t for t in tokens_to_plot if t in model_w2v.wv]
print(f"\nTokens valides : {len(tokens_valid)}/{len(tokens_to_plot)}")

if len(tokens_valid) >= 5:
    # R√©cup√©rer les vecteurs
    vectors = np.array([model_w2v.wv[t] for t in tokens_valid])
    
    # R√©duire √† 2D
    pca = PCA(n_components=2)
    vectors_2d = pca.fit_transform(vectors)
    
    # Visualiser
    plt.figure(figsize=(14, 10))
    plt.scatter(vectors_2d[:, 0], vectors_2d[:, 1], c='red', s=100)
    
    for i, token in enumerate(tokens_valid):
        plt.annotate(token, (vectors_2d[i, 0] + 0.02, vectors_2d[i, 1] + 0.02), fontsize=10)
    
    plt.title("Embeddings Pok√©mon (notre mod√®le) projet√©s en 2D")
    plt.xlabel("Composante 1")
    plt.ylabel("Composante 2")
    plt.grid(True, alpha=0.3)
    plt.show()
else:
    print("Pas assez de tokens valides pour la visualisation.")

---

### Partie 2 : Fine-tuning FastText fran√ßais (Bonus ‚≠ê‚≠ê‚≠ê)

> ‚ö†Ô∏è **Attention : Ressources requises**
> 
> Cette partie n√©cessite **~8 Go de RAM** pour charger le mod√®le FastText fran√ßais.
> - **Google Colab gratuit** (12.7 Go) : peut fonctionner mais risque de saturation m√©moire
> - **Google Colab Pro** (25+ Go) : recommand√©
> - **Machine locale** : 16 Go RAM minimum
> 
> Si vous rencontrez une erreur m√©moire, passez directement √† la **Partie 3** qui compare votre mod√®le Word2Vec avec les concepts th√©oriques.

Dans cette partie, nous allons **fine-tuner** un mod√®le FastText pr√©-entra√Æn√© sur le fran√ßais, puis l'enrichir avec notre corpus Pok√©mon.

**Diff√©rence avec la Partie 1** :
- Partie 1 : On part de z√©ro ‚Üí le mod√®le ne conna√Æt QUE le monde Pok√©mon
- Partie 2 : On part d'un mod√®le fran√ßais ‚Üí il conna√Æt d√©j√† la langue + on ajoute Pok√©mon

**Avantage de FastText** : Il g√®re les **sous-mots**, donc m√™me un mot jamais vu comme "M√©ga-Dracaufeu" sera partiellement compris.

In [None]:
# ============================================
# PARTIE 2.1 : T√©l√©chargement du mod√®le FastText fran√ßais
# ============================================

import os
from gensim.models.fasttext import load_facebook_model

# Le mod√®le FastText fran√ßais officiel (~1.2 Go compress√©, ~7 Go en m√©moire)
# Source : https://fasttext.cc/docs/en/crawl-vectors.html

MODEL_PATH = "cc.fr.300.bin"
MODEL_GZ_PATH = "cc.fr.300.bin.gz"

# T√©l√©charger le mod√®le fran√ßais (si pas d√©j√† fait)
if not os.path.exists(MODEL_PATH):
    if not os.path.exists(MODEL_GZ_PATH):
        print("üì• T√©l√©chargement du mod√®le FastText fran√ßais (~1.2 Go)...")
        print("‚ö†Ô∏è Cela peut prendre 5-10 minutes selon votre connexion.\n")
        !wget -q --show-progress https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.fr.300.bin.gz
    
    print("\nüì¶ D√©compression du mod√®le...")
    !gunzip -k cc.fr.300.bin.gz
    print("‚úÖ D√©compression termin√©e !")
else:
    print(f"‚úÖ Mod√®le d√©j√† pr√©sent : {MODEL_PATH}")

# Charger le mod√®le avec gensim (permet le fine-tuning !)
print("\nüîÑ Chargement du mod√®le FastText fran√ßais...")
print("(Cela peut prendre 1-2 minutes et utiliser ~7 Go de RAM)")

model_fasttext_fr = load_facebook_model(MODEL_PATH)

print(f"\n‚úÖ Mod√®le charg√© !")
print(f"   Vocabulaire : {len(model_fasttext_fr.wv):,} mots")
print(f"   Dimension : {model_fasttext_fr.wv.vector_size}")

# Test rapide du mod√®le fran√ßais
print("\n=== Test du mod√®le fran√ßais ===")
test_words_fr = ["chat", "chien", "voiture", "ordinateur", "maison"]
for word in test_words_fr:
    try:
        similar = model_fasttext_fr.wv.most_similar(word, topn=3)
        print(f"'{word}' ‚Üí {[w for w, s in similar]}")
    except KeyError:
        print(f"'{word}' ‚Üí non trouv√©")

In [None]:
# ============================================
# PARTIE 2.2 : Fine-tuning sur le corpus Pok√©mon
# ============================================

# Avec gensim, on peut continuer l'entra√Ænement d'un mod√®le FastText
# en ajoutant de nouveaux mots au vocabulaire puis en r√©entra√Ænant

print("üìä Pr√©paration du corpus pour le fine-tuning...")

# Pr√©parer le corpus (liste de listes de mots)
corpus_for_finetuning = []
for text in corpus_texts:
    sentences = text.replace('\n', ' ').split('. ')
    for sentence in sentences:
        words = sentence.strip().split()
        if len(words) >= 3:  # Au moins 3 mots par phrase
            corpus_for_finetuning.append(words)

print(f"   Phrases pr√©par√©es : {len(corpus_for_finetuning):,}")
print(f"   Tokens totaux : {sum(len(s) for s in corpus_for_finetuning):,}")

# Vocabulaire avant fine-tuning
vocab_before = len(model_fasttext_fr.wv)

# √âtendre le vocabulaire avec les mots Pok√©mon
print("\nüîß Extension du vocabulaire avec les mots Pok√©mon...")
model_fasttext_fr.build_vocab(corpus_for_finetuning, update=True)

vocab_after = len(model_fasttext_fr.wv)
new_words = vocab_after - vocab_before
print(f"   Vocabulaire avant : {vocab_before:,} mots")
print(f"   Vocabulaire apr√®s : {vocab_after:,} mots")
print(f"   Nouveaux mots ajout√©s : {new_words:,}")

# Fine-tuning : continuer l'entra√Ænement sur le corpus Pok√©mon
print("\nüöÄ Fine-tuning en cours (5 epochs)...")
print("   Cela peut prendre quelques minutes...")

model_fasttext_fr.train(
    corpus_for_finetuning,
    total_examples=len(corpus_for_finetuning),
    epochs=5
)

print("\n‚úÖ Fine-tuning termin√© !")

# Test avec des mots Pok√©mon
print("\n=== Test apr√®s fine-tuning ===")
test_pokemon = ["Pikachu", "Dracaufeu", "√©volution", "attaque", "Pok√©mon"]
for word in test_pokemon:
    try:
        similar = model_fasttext_fr.wv.most_similar(word, topn=5)
        print(f"'{word}' ‚Üí")
        for w, score in similar:
            print(f"    {w}: {score:.3f}")
        print()
    except KeyError:
        print(f"'{word}' ‚Üí non trouv√©\n")

---

### Partie 3 : Comparaison des approches

Comparons maintenant les deux mod√®les (si vous avez fait la Partie 2) ou analysons les forces et faiblesses de notre mod√®le from scratch.

| Crit√®re | BPE + Word2Vec (Partie 1) | FastText fine-tun√© (Partie 2) |
|---------|---------------------------|------------------------------|
| **Vocabulaire** | Tokens BPE Pok√©mon | Mots fran√ßais + Pok√©mon |
| **Mots inconnus** | `[UNK]` | G√©r√© par sous-mots |
| **Mots FR courants** | Qualit√© variable | Excellente (pr√©-entra√Æn√©) |
| **Mots Pok√©mon rares** | D√©pend de la fr√©quence | Sous-mots aident |
| **Taille mod√®le** | ~10-50 Mo | ~1.2 Go |
| **Temps d'entra√Ænement** | Rapide | Plus long |

In [None]:
# ============================================
# PARTIE 3 : Tests comparatifs
# ============================================

# V√©rifier si le mod√®le FastText a √©t√© charg√© (Partie 2)
fasttext_available = 'model_fasttext_fr' in dir() and model_fasttext_fr is not None

# Tests √† effectuer
test_words = [
    # Pok√©mon populaires
    "Pikachu", "Dracaufeu", "Mewtwo",
    # Types
    "Feu", "Eau", "√âlectrik",
    # Mots du domaine Pok√©mon
    "attaque", "combat", "√©volution",
    # Mots fran√ßais g√©n√©raux (test du pr√©-entra√Ænement)
    "ordinateur", "maison", "voiture"
]

print("=" * 60)
print("COMPARAISON DES MOD√àLES")
print("=" * 60)

print("\nüì¶ Mod√®le 1 : BPE + Word2Vec (from scratch)")
print("-" * 40)
for word in test_words:
    token = find_token(word, model_w2v)
    if token:
        print(f"  ‚úÖ {word} ‚Üí '{token}'")
    else:
        print(f"  ‚ùå {word} ‚Üí non trouv√©")

if fasttext_available:
    print("\nüì¶ Mod√®le 2 : FastText fran√ßais fine-tun√©")
    print("-" * 40)
    for word in test_words:
        try:
            vec = model_fasttext_fr.wv[word]
            in_vocab = word in model_fasttext_fr.wv.key_to_index
            status = "‚úÖ" if in_vocab else "üî∂"
            print(f"  {status} {word} ‚Üí vecteur dim {len(vec)}" + 
                  (" (inf√©r√©)" if not in_vocab else ""))
        except:
            print(f"  ‚ùå {word} ‚Üí erreur")

    # Comparaison des similarit√©s
    print("\n" + "=" * 60)
    print("COMPARAISON DES SIMILARIT√âS")
    print("=" * 60)

    comparison_words = ["Pikachu", "√©volution", "maison"]

    for word in comparison_words:
        print(f"\nüîç Mots similaires √† '{word}' :")
        
        # Mod√®le 1
        token = find_token(word, model_w2v)
        if token:
            try:
                similar_w2v = model_w2v.wv.most_similar(token, topn=5)
                print(f"  Word2Vec: {[w for w, s in similar_w2v]}")
            except:
                print(f"  Word2Vec: erreur")
        else:
            print(f"  Word2Vec: non trouv√©")
        
        # Mod√®le 2
        try:
            similar_ft = model_fasttext_fr.wv.most_similar(word, topn=5)
            print(f"  FastText: {[w for w, s in similar_ft]}")
        except:
            print(f"  FastText: erreur")
else:
    print("\n‚ö†Ô∏è Mod√®le FastText non disponible (Partie 2 non ex√©cut√©e ou erreur m√©moire)")
    print("   Vous pouvez quand m√™me analyser les r√©sultats de votre mod√®le Word2Vec ci-dessus.")

### Questions de r√©flexion finale

R√©pondez √† ces questions dans une cellule markdown ou dans un document s√©par√© :

1. **Qualit√© des embeddings** : Votre mod√®le from scratch capture-t-il bien les relations Pok√©mon ? Donnez des exemples de similarit√©s qui fonctionnent et d'autres qui √©chouent.

2. **Impact du tokenizer** : Comment le choix de la taille du vocabulaire BPE (8000 tokens) affecte-t-il les r√©sultats ? Que se passerait-il avec 2000 ou 20000 tokens ?

3. **Limites du corpus** : Quels types de relations votre mod√®le ne peut PAS capturer ? (Indice : pensez aux informations absentes du corpus textuel)

4. **Comparaison** (si Partie 2 faite) : Dans quel cas pr√©f√©reriez-vous le mod√®le from scratch ? Le mod√®le fine-tun√© ? Justifiez.

5. **Applications** : Comment pourrait-on utiliser ces embeddings Pok√©mon dans une application r√©elle ? (ex: moteur de recherche, recommandation, chatbot...)

---

### F√©licitations ! üéâ

Vous avez construit un **pipeline de repr√©sentation de texte** :

- ‚úÖ Tokenizer BPE entra√Æn√© sur un corpus sp√©cialis√©
- ‚úÖ Embeddings Word2Vec capturant la s√©mantique Pok√©mon
- ‚úÖ Exploration des similarit√©s et analogies
- ‚úÖ (Bonus) Comparaison avec un mod√®le pr√©-entra√Æn√©

Ces techniques (tokenization subword + embeddings) sont les **briques de base** des mod√®les de langage modernes. GPT utilise BPE, et le concept d'embeddings appris est au c≈ìur de tous les Transformers. Dans les prochains TPs, nous verrons comment le m√©canisme d'**attention** permet de capturer le contexte !