# TP 01 - Fondamentaux NLP pour les Transformers

**Module** : R√©seaux de Neurones Approfondissement  
**Dur√©e** : 2h  
**Objectif** : Mieux comprendre comment une machine peut interpreter du texte

---

## Comment faire interpr√©ter du texte par une machine ?

Si vous avez d√©j√† travaill√© avec des **images** le probl√®me est de prime abord plus simple : une image peu naturellement se d√©couper en une grille de pixels, chaque pixel est un nombre (0-255). Le r√©seau peut directement les traiter.

Mais le pour **texte** suivant ?

```
"L'apprentissage automatique r√©volutionne l'intelligence artificielle"
```

Ce n'est qu'une suite de caract√®res. Un r√©seau de neurones ne comprend que des **nombres**. Comment passer de l'un √† l'autre ?

---

## Les probl√®mes √† r√©soudre

Pour transformer du texte en repr√©sentation num√©rique exploitable, il faut r√©soudre **deux probl√®mes distincts** :

### Probl√®me 1 : La tokenization

**Comment d√©couper le texte suivant en morceaux ?**

```
"L'apprentissage automatique" ‚Üí ???
```

Plusieurs strat√©gies sont possibles :
- Par mots : `["L'apprentissage", "automatique"]`
- Par caract√®res : `["L", "'", "a", "p", "p", "r", ...]`
- Par sous-mots : `["L'", "apprent", "issage", "automatique"]`

Chaque strat√©gie a ses avantages et inconv√©nients. Nous les explorerons dans ce TP.

### Probl√®me 2 : L'embedding

**Comment transformer ces morceaux en vecteurs qui ont du SENS ?**

Une fois le texte d√©coup√©, on pourrait simplement num√©roter les tokens :
```
"chat" ‚Üí 42
"chien" ‚Üí 73
"voiture" ‚Üí 156
```

Mais ces nombres sont **arbitraires**. Ils ne capturent pas que "chat" et "chien" sont des concepts proches (animaux domestiques), alors que "voiture" est compl√®tement diff√©rent.

**Il faut trouver un moyen** de transformer chaque token en un **vecteur de plusieurs dimensions** o√π la **proximit√© g√©om√©trique** refl√®te la **proximit√© s√©mantique** :

```
"chat"    ‚Üí [0.2, -0.5, 0.8, ...]   ‚îê
                                    ‚îú‚îÄ vecteurs proches !
"chien"   ‚Üí [0.3, -0.4, 0.7, ...]   ‚îò

"voiture" ‚Üí [-0.8, 0.2, -0.3, ...]  ‚Üê vecteur √©loign√©
```

Plusieurs approches existent pour construire ces vecteurs. Dans ce TP, nous explorerons **Word2Vec**, une m√©thode remarquable qui a r√©volutionn√© le NLP en 2013.

---

## Plan du TP

| Section | Probl√®me trait√© | Ce que vous apprendrez |
|---------|-----------------|------------------------|
| ¬ß1-2 | Tokenization | Les 3 strat√©gies (mots, caract√®res, BPE) |
| ¬ß3-4 | Embedding | Comment les vecteurs capturent le sens (Word2Vec) |
| ¬ß5 | Bonus | Teaser sur le m√©canisme d'attention |

Commen√ßons par le premier probl√®me : **comment d√©couper le texte ?**

## 0. Installation et imports

Ex√©cutez cette cellule pour installer les d√©pendances n√©cessaires.

In [None]:
# Installation des d√©pendances (Google Colab)
!pip install torch matplotlib numpy gensim -q

In [None]:
import torch
import torch.nn as nn
import matplotlib.pyplot as plt
import numpy as np

# Configuration
torch.manual_seed(42)
print(f"PyTorch version: {torch.__version__}")

---

# Partie 1 : La Tokenization

---

---

## 2. Tokenization : D√©couper le texte

La **tokenization** consiste √† d√©couper le texte en unit√©s (tokens). Il existe plusieurs strat√©gies.

### 2.1 Tokenization par mots (Word-level)

La plus intuitive : on d√©coupe sur les espaces et la ponctuation.

In [None]:
# Tokenization simple par mots
def tokenize_words(text):
    """Tokenization basique par espaces et ponctuation."""
    import re
    # S√©pare sur espaces et garde la ponctuation comme tokens
    return "" #TODO

texte = "Le chat mange la souris. La souris court vite !"
tokens = tokenize_words(texte)

print(f"Texte : {texte}")
print(f"Tokens : {tokens}")
print(f"Nombre de tokens : {len(tokens)}")

**Probl√®me** : Le vocabulaire peut devenir √©norme !

Ajoutez les noms propres, les n√©ologismes, les mots √©trangers, les fautes de frappe... Le vocabulaire explose.

√Ä un moment, il faut **fixer une taille de vocabulaire** (ex: 50 000 mots). Mais alors, que faire des mots inconnus ?

```
Vocabulaire : ["le", "chat", "mange", ...] (50 000 mots)
Nouveau mot : "anticonstitutionnellement" ‚Üí <UNK> ?
```

‚Üí On perd l'information. Pas id√©al.

### 2.2 Tokenization par caract√®res (Character-level)

Une solution : d√©couper caract√®re par caract√®re. Plus de mots inconnus !

In [None]:
def tokenize_chars(text):
    """Tokenization par caract√®res."""
    return "" #TODO

texte = "Le chat dort."
tokens = tokenize_chars(texte)

print(f"Texte : {texte}")
print(f"Tokens : {tokens}")
print(f"Nombre de tokens : {len(tokens)}")

**Probl√®me historique** : S√©quences tr√®s longues ! "anticonstitutionnellement" = 25 tokens.

Le mod√®le doit "r√©apprendre" que `c-h-a-t` forme le concept de chat. Le co√ªt computationnel √©tait longtemps consid√©r√© comme prohibitif.

---

> üìö **Pour aller plus loin : le retour du byte-level**
> 
> Des travaux r√©cents montrent que la tokenization byte-level redevient comp√©titive !
> 
> **Bolmo** (Allen AI, 2024) op√®re directement sur les **bytes UTF-8** (256 tokens possibles) avec une architecture adapt√©e :
> - Un encodeur local (mLSTM) traite les bytes
> - Un "boundary predictor" regroupe les bytes en patches de taille variable
> - Le Transformer traite ces patches (pas les bytes bruts)
> 
> **Avantages** : pas de vocabulaire fig√©, robuste aux typos, meilleure compr√©hension caract√®re.

Pour ce TP, nous utiliserons **BPE** qui reste le standard actuel, mais gardez en t√™te que le domaine √©volue rapidement !

### 2.3 Tokenization Subword : BPE (Byte Pair Encoding)

Les deux approches pr√©c√©dentes ont des d√©fauts :
- **Mots** : vocabulaire √©norme + mots inconnus
- **Caract√®res** : s√©quences trop longues + perte de sens

**BPE** (Byte Pair Encoding) est un **compromis intelligent** utilis√© par GPT, BERT, et tous les LLMs modernes.

---

#### Le principe

BPE construit son vocabulaire en analysant un grand corpus de texte :

1. **D√©part** : vocabulaire = tous les caract√®res
2. **R√©p√©ter** : trouver la paire de tokens adjacents la plus fr√©quente ‚Üí la fusionner en un nouveau token
3. **Stop** : quand le vocabulaire atteint la taille voulue (ex: 50 000 tokens)

---

#### L'algorithme pas √† pas

Pour comprendre, prenons un **corpus artificiel simplifi√©** :
```
"smartphone smartphone smartphone smartwatch smartwatch phone phone"
```

**√âtape 0 : Partir des caract√®res**
```
Vocabulaire : {s, m, a, r, t, p, h, o, n, e, w, c}
```

**√âtapes suivantes : Fusionner les paires les plus fr√©quentes**

| √âtape | Paire la + fr√©quente | Nouveau token |
|-------|---------------------|---------------|
| 1 | (s, m) | "sm" |
| 2 | (sm, a) | "sma" |
| 3 | (sma, r) | "smar" |
| 4 | (smar, t) | "smart" |
| 5 | (p, h) | "ph" |
| 6 | (ph, o) | "pho" |
| 7 | (pho, n) | "phon" |
| 8 | (phon, e) | "phone" |

**R√©sultat :**
```
"smartphone" ‚Üí ["smart", "phone"]  ‚Üê 2 tokens r√©utilisables !
"smartwatch" ‚Üí ["smart", "watch"]
"phone"      ‚Üí ["phone"]
```

---

#### Pourquoi c'est malin ?

Un mot **jamais vu** comme "smartcar" sera d√©coup√© en :
```
"smartcar" ‚Üí ["smart", "car"]
```

Le mod√®le conna√Æt d√©j√† "smart" ! Pas besoin de token `<UNK>`.

**Bonus** : les sous-mots fr√©quents ont de **bons embeddings** (on verra pourquoi dans la section Word2Vec). Donc m√™me un mot rare b√©n√©ficie de repr√©sentations de qualit√© via ses composants.

**Le meilleur des deux mondes** :
- Mots fr√©quents ‚Üí tokens entiers (efficace)
- Mots rares/nouveaux ‚Üí sous-mots connus (robuste)

**Ressource** : [Explication d√©taill√©e des tokenizers (FR)](https://lbourdois.github.io/blog/nlp/Les-tokenizers/)

In [None]:
# D√©monstration avec un vrai tokenizer (GPT-2)
!pip install transformers -q

from transformers import GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

textes = [
    "Le chat mange.",
    "anticonstitutionnellement",
    "Hello world!",
    "Transformers are amazing!"
]

print("=== Tokenization BPE (GPT-2) ===")
for texte in textes:
    tokens = tokenizer.tokenize(texte)
    ids = tokenizer.encode(texte)
    print(f"\n'{texte}'")
    print(f"  Tokens : {tokens}")
    print(f"  IDs    : {ids}")

**Observations** :
- Les mots courants anglais sont souvent des tokens uniques
- Les mots fran√ßais/rares sont d√©coup√©s
- Le caract√®re `ƒ†` indique un espace avant le token

### Exercice 1 : Comparer les tokenizations

In [None]:
# ============================================
# EXERCICE 1 : Comparer les tokenizations
# ============================================

texte_test = "L'intelligence artificielle r√©volutionne le monde."

# TODO: Tokenizer avec les 3 m√©thodes et comparer le nombre de tokens

# 1. Par mots
tokens_mots = None  # tokenize_words(texte_test)

# 2. Par caract√®res  
tokens_chars = None  # tokenize_chars(texte_test)

# 3. BPE (GPT-2)
tokens_bpe = None  # tokenizer.tokenize(texte_test)

print(f"Texte : {texte_test}")
print(f"\nMots      : {len(tokens_mots) if tokens_mots else '?'} tokens")
print(f"Caract√®res: {len(tokens_chars) if tokens_chars else '?'} tokens")
print(f"BPE       : {len(tokens_bpe) if tokens_bpe else '?'} tokens")

### 2.4 Construction d'un vocabulaire

Une fois la strat√©gie choisie, on construit un **vocabulaire** : une table de correspondance token ‚Üî index.

In [None]:
# Construire un vocabulaire simple
corpus = [
    "le chat mange",
    "le chien dort",
    "la souris court"
]

# Collecter tous les tokens uniques
all_tokens = set()
for phrase in corpus:
    all_tokens.update(tokenize_words(phrase))

# Cr√©er le vocabulaire avec tokens sp√©ciaux
vocab = {"<PAD>": 0, "<UNK>": 1}  # Padding et Unknown
for i, token in enumerate(sorted(all_tokens)):
    vocab[token] = i + 2

# Vocabulaire inverse
id_to_token = {v: k for k, v in vocab.items()}

print("Vocabulaire :")
for token, idx in vocab.items():
    print(f"  {idx}: '{token}'")

# Encoder une phrase
def encode(text, vocab):
    return [vocab.get(t, vocab["<UNK>"]) for t in tokenize_words(text)]

def decode(ids, id_to_token):
    return [id_to_token[i] for i in ids]

phrase = "le chat court"
encoded = encode(phrase, vocab)
decoded = decode(encoded, id_to_token)

print(f"\nPhrase : '{phrase}'")
print(f"Encod√© : {encoded}")
print(f"D√©cod√© : {decoded}")

---

## 3. Embeddings : Des indices aux vecteurs

### Le probl√®me des indices

Les indices (0, 1, 2, ...) n'ont pas de **sens s√©mantique**. 

- `chat = 3` et `chien = 4` ‚Üí sont-ils proches ? (oui, ce sont des animaux)
- `chat = 3` et `voiture = 42` ‚Üí sont-ils proches ? (non)

Mais avec des indices, on ne peut pas mesurer cette proximit√© !

### La solution : Embeddings

On associe √† chaque token un **vecteur dense** de dimension fixe (ex: 128, 256, 768).

```
"chat"    ‚Üí [0.2, -0.5, 0.8, 0.1, ...] (128 dimensions)
"chien"   ‚Üí [0.3, -0.4, 0.7, 0.2, ...] (proche de chat !)
"voiture" ‚Üí [-0.8, 0.2, -0.3, 0.9, ...] (loin de chat)
```

Ces vecteurs sont **appris** pendant l'entra√Ænement du mod√®le.

In [None]:
# D√©monstration : Embedding en PyTorch
vocab_size = 10  # 10 tokens dans notre vocabulaire
embed_dim = 4    # Chaque token ‚Üí vecteur de dimension 4

# Cr√©er une couche d'embedding
embedding = nn.Embedding(vocab_size, embed_dim)

print(f"Matrice d'embedding : {embedding.weight.shape}")
print(f"  ‚Üí {vocab_size} tokens √ó {embed_dim} dimensions\n")

# R√©cup√©rer l'embedding d'un token
token_id = torch.tensor([3])  # Token d'indice 3
vector = embedding(token_id)

print(f"Token 3 ‚Üí {vector}")

In [None]:
# Embedding d'une s√©quence compl√®te
sequence = torch.tensor([2, 5, 3, 7])  # 4 tokens
embedded = embedding(sequence)

print(f"S√©quence : {sequence.tolist()}")
print(f"Shape apr√®s embedding : {embedded.shape}")  # (4, 4)
print(f"\nVecteurs :\n{embedded}")

### Mesurer la similarit√© : Distance cosinus

Avec des vecteurs, on peut mesurer la **similarit√©** entre mots :

$$\text{similarit√©}(A, B) = \cos(\theta) = \frac{A \cdot B}{\|A\| \|B\|}$$

- R√©sultat entre -1 (oppos√©s) et 1 (identiques)
- 0 = orthogonaux (pas de relation)

In [None]:
def cosine_similarity(a, b):
    """Calcule la similarit√© cosinus entre deux vecteurs."""
    return torch.dot(a, b) / (torch.norm(a) * torch.norm(b))

# Exemple avec nos embeddings al√©atoires
vec_2 = embedding(torch.tensor(2))
vec_3 = embedding(torch.tensor(3))
vec_7 = embedding(torch.tensor(7))

sim_2_3 = cosine_similarity(vec_2, vec_3)
sim_2_7 = cosine_similarity(vec_2, vec_7)

print(f"Similarit√©(token 2, token 3) = {sim_2_3:.4f}")
print(f"Similarit√©(token 2, token 7) = {sim_2_7:.4f}")
print("\n(Valeurs al√©atoires car embeddings non entra√Æn√©s)")

---

## 4. Word2Vec : Apprendre des embeddings qui ont du sens

Jusqu'ici, nos embeddings √©taient **al√©atoires** (initialis√©s au hasard dans PyTorch). Comment obtenir des vecteurs o√π "chat" et "chien" sont vraiment proches ?

**Word2Vec** (Mikolov et al., 2013) a r√©volutionn√© le NLP en montrant qu'on peut **apprendre** des embeddings √† partir de texte brut, sans supervision.

---

### L'intuition fondamentale

> **"Tu connais un mot par les mots qui l'entourent"** (hypoth√®se distributionnelle)

Observez ces phrases :
```
"Le chat mange sa p√¢t√©e"
"Le chat dort sur le canap√©"  
"Mon chat joue avec une balle"

"Le chien mange sa p√¢t√©e"
"Le chien dort sur le canap√©"
"Mon chien joue avec une balle"
```

"Chat" et "chien" apparaissent dans les **m√™mes contextes**. Word2Vec va leur attribuer des vecteurs similaires.

---

### Comment Word2Vec apprend ? (Skip-gram)

L'id√©e est simple : entra√Æner un r√©seau √† **pr√©dire les mots du contexte** √† partir d'un mot central.

```
Phrase : "Le chat noir dort paisiblement"
                  ‚Üë
            mot central

Fen√™tre de contexte (¬±2 mots) :
    Entr√©e : "noir"
    Cibles : ["chat", "dort"] (le r√©seau essaie de les pr√©dire)
```

**Architecture simplifi√©e :**

```
    "noir"                      "chat" ?
      ‚Üì                            ‚Üë
 ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê                ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
 ‚îÇ Embedding ‚îÇ  ‚Üí vecteur ‚Üí  ‚îÇ Pr√©diction‚îÇ
 ‚îÇ (lookup)  ‚îÇ    256 dim    ‚îÇ (softmax) ‚îÇ
 ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò                ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

**Pendant l'entra√Ænement :**
- Le r√©seau voit des millions de paires (mot central, mot contexte)
- Il ajuste les embeddings pour que les mots apparaissant dans les m√™mes contextes aient des vecteurs proches
- Les embeddings **√©mergent** de cette t√¢che de pr√©diction

---

### Cons√©quence : mots fr√©quents vs mots rares

Plus un mot est **fr√©quent** dans le corpus, plus son embedding est ajust√© souvent ‚Üí meilleure qualit√©.

Un mot vu 100 000 fois aura un excellent embedding. Un mot vu 3 fois restera proche de son initialisation al√©atoire.

> C'est pour √ßa que BPE aide : un mot rare comme "smartcar" est d√©coup√© en "smart" + "car", deux sous-mots tr√®s fr√©quents avec d'excellents embeddings !

---

### Pourquoi les analogies marchent ?

Apr√®s entra√Ænement, les vecteurs encodent des **relations** :

```
vecteur("roi") - vecteur("homme") ‚âà vecteur("reine") - vecteur("femme")
```

Autrement dit, la "direction" homme‚Üífemme dans l'espace vectoriel est la m√™me que roi‚Üíreine :

```
        homme ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚Üí femme
          ‚Üë    (m√™me         ‚Üë
          ‚îÇ   direction)     ‚îÇ
         roi ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚Üí reine
```

C'est pour √ßa que `roi - homme + femme ‚âà reine` fonctionne !

---

### Chargeons un mod√®le pr√©-entra√Æn√©

Nous allons utiliser **GloVe** (similaire √† Word2Vec), entra√Æn√© sur Wikipedia.

In [None]:
# Charger un mod√®le Word2Vec pr√©-entra√Æn√©
import gensim.downloader as api

print("Chargement du mod√®le Word2Vec (peut prendre 1-2 min)...")
model = api.load("glove-wiki-gigaword-100")  # 100 dimensions, entra√Æn√© sur Wikipedia
print(f"Mod√®le charg√© ! Vocabulaire : {len(model)} mots")

In [None]:
# Explorer les similarit√©s
print("=== Mots similaires √† 'king' ===")
for word, score in model.most_similar("king", topn=5):
    print(f"  {word}: {score:.4f}")

print("\n=== Mots similaires √† 'computer' ===")
for word, score in model.most_similar("computer", topn=5):
    print(f"  {word}: {score:.4f}")

In [None]:
# ============================================
# EXERCICE 2 : Explorer les similarit√©s
# ============================================

# TODO: Trouver les 5 mots les plus similaires √† :
# - "france"
# - "cat" (chat en anglais)
# - "happy"

# Exemple :
# for word, score in model.most_similar("france", topn=5):
#     print(f"  {word}: {score:.4f}")

In [None]:
# La magie des analogies : king - man + woman = ?
print("=== Analogie : king - man + woman = ? ===")
result = model.most_similar(positive=["king", "woman"], negative=["man"], topn=3)
for word, score in result:
    print(f"  {word}: {score:.4f}")

print("\n=== Analogie : paris - france + italy = ? ===")
result = model.most_similar(positive=["paris", "italy"], negative=["france"], topn=3)
for word, score in result:
    print(f"  {word}: {score:.4f}")

In [None]:
# ============================================
# EXERCICE 3 : Trouver des analogies
# ============================================

# TODO: Tester ces analogies (et en inventer d'autres !)
# - "berlin" - "germany" + "france" = ?
# - "good" - "better" + "bad" = ?
# - "cat" - "kitten" + "dog" = ?

# Syntaxe :
# model.most_similar(positive=["A", "C"], negative=["B"], topn=3)
# Pour calculer A - B + C

In [None]:
# Visualisation des embeddings en 2D
!pip install scikit-learn -q
from sklearn.decomposition import PCA

# S√©lectionner quelques mots
words = ["king", "queen", "man", "woman", "prince", "princess",
         "cat", "dog", "lion", "tiger",
         "car", "bus", "train", "plane"]

# R√©cup√©rer leurs vecteurs
vectors = np.array([model[w] for w in words])

# R√©duire √† 2D avec PCA
pca = PCA(n_components=2)
vectors_2d = pca.fit_transform(vectors)

# Visualiser
plt.figure(figsize=(12, 8))
plt.scatter(vectors_2d[:, 0], vectors_2d[:, 1], c='blue', s=100)

for i, word in enumerate(words):
    plt.annotate(word, (vectors_2d[i, 0] + 0.1, vectors_2d[i, 1] + 0.1), fontsize=12)

plt.title("Embeddings Word2Vec projet√©s en 2D")
plt.xlabel("Composante 1")
plt.ylabel("Composante 2")
plt.grid(True, alpha=0.3)
plt.show()

print("Observation : Les mots de m√™me cat√©gorie sont regroup√©s !")

---

## 5. Teaser : Le m√©canisme d'attention

Maintenant que nous savons repr√©senter du texte (tokenization + embeddings), la prochaine √©tape est de permettre aux mots de **communiquer entre eux**.

C'est le r√¥le du **m√©canisme d'attention**, que nous verrons en d√©tail au prochain TP.

### L'id√©e

> Pour comprendre un mot, il faut regarder les autres mots de la phrase.

Exemple : *"Le chat qui dormait sur le canap√© a saut√©"*
- Pour comprendre **"a saut√©"** ‚Üí regarder **"chat"** (le sujet)
- Pour comprendre **"dormait"** ‚Üí regarder **"chat"** et **"canap√©"**

### Visualisation

In [None]:
# Matrice d'attention simul√©e
phrase = ["Le", "chat", "mange", "la", "souris"]

# Chaque ligne = un mot qui "regarde" les autres
# Valeurs = poids d'attention (somme = 1 par ligne)
attention = torch.tensor([
    [0.8, 0.1, 0.05, 0.03, 0.02],  # "Le" regarde surtout lui-m√™me
    [0.1, 0.7, 0.1, 0.05, 0.05],   # "chat" regarde surtout lui-m√™me
    [0.05, 0.4, 0.4, 0.05, 0.1],   # "mange" regarde "chat" et lui-m√™me
    [0.02, 0.03, 0.05, 0.8, 0.1],  # "la" regarde surtout lui-m√™me
    [0.02, 0.1, 0.2, 0.08, 0.6],   # "souris" regarde "mange" et elle-m√™me
])

# Visualisation
plt.figure(figsize=(8, 6))
plt.imshow(attention, cmap='Blues')
plt.xticks(range(5), phrase)
plt.yticks(range(5), phrase)
plt.xlabel("Mots regard√©s")
plt.ylabel("Mots qui regardent")
plt.title("Qui regarde qui ? (Matrice d'attention)")
plt.colorbar(label="Poids d'attention")

for i in range(5):
    for j in range(5):
        plt.text(j, i, f'{attention[i,j]:.2f}', 
                ha='center', va='center',
                color='white' if attention[i,j] > 0.5 else 'black')
plt.show()

print("Le verbe 'mange' regarde fortement 'chat' (son sujet) !")

**Ce qu'on voit** :
- Chaque mot peut "regarder" tous les autres mots
- Les poids indiquent l'importance de chaque relation
- Le mod√®le **apprend** ces poids pendant l'entra√Ænement

**Au prochain TP**, nous verrons :
- Pourquoi les RNN/LSTM ont des limites
- Comment calculer cette matrice d'attention
- Les concepts Query, Key, Value

---

## 6. R√©capitulatif

### Le pipeline NLP

| √âtape | Entr√©e | Sortie | R√¥le |
|-------|--------|--------|------|
| **Tokenization** | Texte brut | Liste de tokens | D√©couper le texte |
| **Vocabulaire** | Tokens | Indices | Table token ‚Üî ID |
| **Embedding** | Indices | Vecteurs denses | Sens s√©mantique |

### Points cl√©s

1. **Tokenization BPE** : meilleur compromis entre mots et caract√®res
2. **Embeddings** : transforment les mots en vecteurs comparables
3. **Word2Vec** : montre que les embeddings capturent le sens (analogies !)
4. **Similarit√© cosinus** : mesure la proximit√© entre vecteurs

### Prochaine session

Nous verrons le **m√©canisme d'attention** : comment les mots "communiquent" entre eux pour se comprendre mutuellement.

---

## 7. Pour aller plus loin (optionnel)

### Ressources

- [Les tokenizers en NLP (FR)](https://lbourdois.github.io/blog/nlp/Les-tokenizers/) - Excellent article en fran√ßais
- [The Illustrated Word2Vec](https://jalammar.github.io/illustrated-word2vec/) - Visualisations tr√®s claires
- [Bolmo: Byte-level Language Models (Allen AI, 2024)](https://allenai.org/blog/bolmo) - L'avenir de la tokenization ?

### Exp√©rimentations sugg√©r√©es

1. Tester d'autres analogies Word2Vec
2. Visualiser les embeddings de votre choix
3. Comparer diff√©rents tokenizers (BERT, GPT-2, etc.)