# TP 01 - Fondamentaux NLP pour les Transformers

**Module** : R√©seaux de Neurones Approfondissement  
**Dur√©e** : 2h  
**Objectif** : Mieux comprendre comment une machine peut interpr√©ter du texte

---

## Comment faire interpr√©ter du texte par une machine ?

Si vous avez d√©j√† travaill√© avec des **images** le probl√®me est de prime abord plus simple : une image peut naturellement se d√©couper en une grille de pixels, chaque pixel est un nombre (0-255). Le r√©seau peut directement les traiter.

Mais pour le **texte** suivant ?

```
"L'apprentissage automatique r√©volutionne l'intelligence artificielle"
```

Ce n'est qu'une suite de caract√®res. Un r√©seau de neurones, par exemple, ne comprend que des **nombres**. Comment passer de l'un √† l'autre ?

---

## Les probl√®mes √† r√©soudre

Pour transformer du texte en repr√©sentation num√©rique exploitable, il faut r√©soudre **deux probl√®mes distincts** :

### Probl√®me 1 : La tokenization

**Comment d√©couper le texte suivant en morceaux ?**

```
"L'apprentissage automatique" ‚Üí ???
```

Plusieurs strat√©gies sont possibles :
- Par mots : `["L'apprentissage", "automatique"]`
- Par caract√®res : `["L", "'", "a", "p", "p", "r", ...]`
- Par sous-mots : `["L'", "apprent", "issage", "auto", "matique"]`

Chaque strat√©gie a ses avantages et inconv√©nients. Nous les explorerons dans ce TP.

### Probl√®me 2 : L'embedding

**Comment transformer ces morceaux en vecteurs qui ont du SENS ?**

Une fois le texte d√©coup√©, on pourrait simplement num√©roter les tokens :
```
"chat" ‚Üí 42
"voiture" ‚Üí 46
"chien" ‚Üí 73
```

Mais ces nombres sont **arbitraires**. Ils ne capturent pas que "chat" et "chien" sont des concepts proches (animaux domestiques), alors que "voiture" est compl√®tement diff√©rent.

**Il faut trouver un moyen** de transformer chaque token en un **vecteur de plusieurs dimensions** o√π la **proximit√© g√©om√©trique** refl√®te la **proximit√© s√©mantique** :

```
"chat"    ‚Üí [0.2, -0.5, 0.8, ...]   ‚îê
                                    ‚îú‚îÄ vecteurs proches !
"chien"   ‚Üí [0.3, -0.4, 0.7, ...]   ‚îò

"voiture" ‚Üí [-0.8, 0.2, -0.3, ...]  ‚Üê vecteur √©loign√©
```

Plusieurs approches existent pour construire ces vecteurs. Dans ce TP, nous explorerons **Word2Vec**, une m√©thode remarquable qui a r√©volutionn√© le NLP en 2013.

---

## Plan du TP

| Section | Th√®me | Ce que vous apprendrez |
|---------|-------|------------------------|
| ¬ß2 | Tokenization | Les 3 strat√©gies (mots, caract√®res, BPE) |
| ¬ß3-4 | Embeddings | Comment les vecteurs capturent le sens (Word2Vec) |
| ¬ß5 | Attention (teaser) | Aper√ßu du m√©canisme cl√© des Transformers |
| ¬ß6 | R√©capitulatif | Synth√®se des concepts |
| ¬ß7 | Ressources | Pour aller plus loin |
| ¬ß8 | Mini-projet | Pipeline NLP complet (optionnel) |

Commen√ßons par le premier probl√®me : **comment d√©couper le texte ?**

## 0. Installation et imports

Ex√©cutez cette cellule pour installer les d√©pendances n√©cessaires.

In [None]:
# Installation des d√©pendances (Google Colab)
!pip install torch matplotlib numpy gensim -q

In [None]:
import torch
import torch.nn as nn
import matplotlib.pyplot as plt
import numpy as np

# Configuration
torch.manual_seed(42)
print(f"PyTorch version: {torch.__version__}")

---

# Partie 1 : La Tokenization

---

---

## 2. Tokenization : D√©couper le texte

La **tokenization** consiste √† d√©couper le texte en unit√©s (tokens). Il existe plusieurs strat√©gies.

### 2.1 Tokenization par mots (Word-level)

La plus intuitive : on d√©coupe sur les espaces et la ponctuation.

### Exercice 0a : Impl√©menter la tokenization par mots

Compl√©tez la fonction `tokenize_words` ci-dessous. Elle doit :
- S√©parer le texte sur les espaces
- Garder la ponctuation comme tokens s√©par√©s

**Indice** : Utilisez `re.findall()` avec le pattern `r"\w+|[^\w\s]"` qui capture les mots OU la ponctuation.

In [None]:
# Tokenization simple par mots
def tokenize_words(text):
    """Tokenization basique par espaces et ponctuation."""
    import re
    # S√©pare sur espaces et garde la ponctuation comme tokens
    return "" #TODO

texte = "Le chat mange la souris. La souris court vite !"
tokens = tokenize_words(texte)

print(f"Texte : {texte}")
print(f"Tokens : {tokens}")
print(f"Nombre de tokens : {len(tokens)}")

**Probl√®me** : Le vocabulaire peut devenir √©norme !

Ajoutez les noms propres, les n√©ologismes, les mots √©trangers, les fautes de frappe... Le vocabulaire explose.

√Ä un moment, il faut **fixer une taille de vocabulaire** (ex: 50 000 mots). Mais alors, que faire des mots inconnus ?

Imaginons un vocabulaire constitu√© au pr√©alable :
```
["le", "chat", "mange", ...] (50 000 mots)
```
Si un mot trait√© n'appartient pas au vocabulaire, l'information est perdue
```
Nouveau mot : "transformers" ‚Üí <UNK> ?
```
‚Üí Pas id√©al.

### 2.2 Tokenization par caract√®res (Character-level)

Une solution : d√©couper caract√®re par caract√®re. Plus de mots inconnus !

### Exercice 0b : Impl√©menter la tokenization par caract√®res

Compl√©tez la fonction `tokenize_chars` ci-dessous.

**Indice** : En Python, une cha√Æne est d√©j√† it√©rable caract√®re par caract√®re...

In [None]:
def tokenize_chars(text):
    """Tokenization par caract√®res."""
    return "" #TODO

texte = "Le chat dort."
tokens = tokenize_chars(texte)

print(f"Texte : {texte}")
print(f"Tokens : {tokens}")
print(f"Nombre de tokens : {len(tokens)}")

**Probl√®me historique** : S√©quences tr√®s longues ! "anticonstitutionnellement" = 25 tokens.

Le mod√®le doit "r√©apprendre" que `c-h-a-t` forme le concept de chat. Le co√ªt computationnel √©tait longtemps consid√©r√© comme prohibitif.

---

> üìö **Des travaux r√©cents montrent que la tokenization byte-level peut devenir comp√©titive**
>
> 
> **Bolmo** (Allen AI, 2025) op√®re directement sur les **bytes UTF-8** (256 tokens possibles) avec une architecture adapt√©e :
> - Un encodeur local (mLSTM) traite les bytes
> - Un "boundary predictor" regroupe les bytes en patches de taille variable
> - Le Transformer traite ces patches (pas les bytes bruts)
> 
> **Avantages** : pas de vocabulaire fig√©, robuste aux typos, meilleure compr√©hension caract√®re.

Pour ce TP, nous utiliserons **BPE** que nous allons voir tout de suite et qui reste le standard actuel, mais gardez en t√™te que le domaine √©volue rapidement !

### 2.3 Tokenization Subword : BPE (Byte Pair Encoding)

Les deux approches pr√©c√©dentes ont des d√©fauts :
- **Mots** : vocabulaire √©norme + mots inconnus
- **Caract√®res** : s√©quences trop longues + perte de sens

**BPE** (Byte Pair Encoding) est un **compromis intelligent** utilis√© par GPT, BERT, et une grande partie des LLMs modernes.

---

#### Le principe

BPE construit son vocabulaire en analysant un grand corpus de texte :

1. **D√©part** : vocabulaire = tous les caract√®res
2. **R√©p√©ter** : trouver la paire de tokens adjacents la plus fr√©quente ‚Üí la fusionner en un nouveau token
3. **Stop** : quand le vocabulaire atteint la taille voulue (ex: 50 000 tokens)

---

#### L'algorithme pas √† pas

Pour comprendre, prenons un **corpus artificiel simplifi√©** :
```
"smartphone smartphone smartphone smartwatch smartwatch phone phone"
```

**√âtape 0 : Partir des caract√®res**
```
Vocabulaire : {s, m, a, r, t, p, h, o, n, e, w, c}
```

**√âtapes suivantes : Fusionner les paires les plus fr√©quentes**

| √âtape | Paire la + fr√©quente | Nouveau token |
|-------|---------------------|---------------|
| 1 | (s, m) | "sm" |
| 2 | (sm, a) | "sma" |
| 3 | (sma, r) | "smar" |
| 4 | (smar, t) | "smart" |
| 5 | (p, h) | "ph" |
| 6 | (ph, o) | "pho" |
| 7 | (pho, n) | "phon" |
| 8 | (phon, e) | "phone" |

**R√©sultat :**
```
"smartphone" ‚Üí ["smart", "phone"]  ‚Üê 2 tokens r√©utilisables !
"smartwatch" ‚Üí ["smart", "watch"]
"phone"      ‚Üí ["phone"]
```

---

#### Pourquoi c'est malin ?

Un mot **jamais vu** comme "smartcar" sera d√©coup√© en :
```
"smartcar" ‚Üí ["smart", "car"]
```

Le mod√®le conna√Æt d√©j√† "smart" ! Pas besoin de token `<UNK>`.

**Bonus** : les sous-mots fr√©quents ont de **bons embeddings** (on verra pourquoi dans la section Word2Vec). Donc m√™me un mot rare peut b√©n√©ficier de repr√©sentations de qualit√© via ses composants.

**Nous obtenons le meilleur des deux mondes** :
- Mots fr√©quents ‚Üí tokens entiers (efficace)
- Mots rares/nouveaux ‚Üí sous-mots connus (robuste)

Bien que ce mod√®le soit tr√®s performant dans un grand nombre de cas, il faut rester conscient que certains mots tr√®s sp√©cifiques peuvent avoir une repr√©sentation de moindre qualit√©.

**Ressource** : [Explication d√©taill√©e des tokenizers (FR)](https://lbourdois.github.io/blog/nlp/Les-tokenizers/)

---

#### En pratique : le tokenizer de GPT-2

Voyons maintenant comment un **vrai tokenizer BPE** d√©coupe du texte. Nous allons utiliser celui de GPT-2 via la biblioth√®que Hugging Face `transformers`.

In [None]:
# D√©monstration avec un vrai tokenizer (GPT-2)
!pip install transformers -q

from transformers import GPT2Tokenizer

gpt2_tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

textes = [
    "Le chat mange.",
    "anticonstitutionnellement",
    "Hello world!",
    "Transformers are amazing!"
]

print("=== Tokenization BPE (GPT-2) ===")
for texte in textes:
    tokens = gpt2_tokenizer.tokenize(texte)
    ids = gpt2_tokenizer.encode(texte)
    print(f"\n'{texte}'")
    print(f"  Tokens : {tokens}")
    print(f"  IDs    : {ids}")

**Observations** :
- Les mots courants anglais sont souvent des tokens uniques
- Les mots fran√ßais/rares sont d√©coup√©s
- Le caract√®re `ƒ†` indique un espace avant le token

### Exercice 1 : Comparer les tokenizations

In [None]:
# ============================================
# EXERCICE 1 : Comparer les tokenizations
# ============================================

texte_test = "L'intelligence artificielle r√©volutionne le monde."

# TODO: Tokenizer avec les 3 m√©thodes et comparer le nombre de tokens

# 1. Par mots
tokens_mots = None

# 2. Par caract√®res  
tokens_chars = None

# 3. BPE (GPT-2)
tokens_bpe = None

print(f"Texte : {texte_test}")
print(f"\nMots      : {len(tokens_mots) if tokens_mots else '?'} tokens")
print(f"Caract√®res: {len(tokens_chars) if tokens_chars else '?'} tokens")
print(f"BPE       : {len(tokens_bpe) if tokens_bpe else '?'} tokens")

### 2.4 Construction d'un vocabulaire : Exemple avec le word tokenizer

Une fois la strat√©gie choisie, on construit un **vocabulaire** : une table de correspondance token ‚Üî index.

In [None]:
# Construire un vocabulaire simple
corpus = [
    "le chat mange",
    "le chien dort",
    "la souris court"
]

# Collecter tous les tokens uniques
all_tokens = set()
for phrase in corpus:
    all_tokens.update(tokenize_words(phrase))

# Cr√©er le vocabulaire avec tokens sp√©ciaux
vocab = {"<PAD>": 0, "<UNK>": 1}  # Padding et Unknown
for i, token in enumerate(sorted(all_tokens)):
    vocab[token] = i + 2

# Vocabulaire inverse
id_to_token = {v: k for k, v in vocab.items()}

print("Vocabulaire :")
for token, idx in vocab.items():
    print(f"  {idx}: '{token}'")

# Encoder une phrase
def tokens_to_ids(text, vocab):
    return [vocab.get(t, vocab["<UNK>"]) for t in tokenize_words(text)]

def ids_to_token(ids, id_to_token):
    return [id_to_token[i] for i in ids]

phrase = "le chat court"
ids = tokens_to_ids(phrase, vocab)
tokens = ids_to_token(ids, id_to_token)

print(f"\nPhrase : '{phrase}'")
print(f"Conversion des tokens en ids : {ids}")
print(f"Conversion des ids en token : {tokens}")

In [None]:
# ============================================
# EXERCICE 1b : Manipuler le vocabulaire
# ============================================

# Notre vocabulaire actuel :
print("Vocabulaire actuel :", list(vocab.keys()))

# Partie A : Ajouter des tokens sp√©ciaux
# TODO: Ajoutez les tokens "<START>" et "<END>" au vocabulaire
# Indice : vocab["<START>"] = len(vocab)


# Partie B : Encoder une phrase inconnue
# TODO: Encodez la phrase "le hamster mange" avec tokens_to_ids()
# Quel token devient <UNK> ? Pourquoi ?


# Partie C : √âtendre le vocabulaire
# TODO: Ajoutez "hamster" au vocabulaire, puis r√©-encodez la phrase
# Comparez les r√©sultats

---

## 3. Embeddings : Des indices aux vecteurs

### Le probl√®me des indices

Les indices (0, 1, 2, ...) n'ont pas de **sens s√©mantique**. 

- `chat = 3` et `chien = 5` ‚Üí sont-ils proches ? (oui, ce sont des animaux et ils ont beaucoup de choses en commun)
- `chat = 3` et `voiture = 4` ‚Üí sont-ils proches ? (non, beaucoup moins que chien et chat)

Ces indices ne permettent pas de mesurer cette proximit√© !

### Approches classiques pour encoder des phrases : Bag-of-Words et TF-IDF

Historiquement, on repr√©sentait un texte par un vecteur de la taille du vocabulaire :
- **Bag-of-Words** : compter les occurrences de chaque mot
- **TF-IDF** : pond√©rer par la raret√© des mots dans le corpus

```
Exemple simplifi√© (BOW vs TF-IDF) :

Corpus : ["le chat mange", "le chat dort"]
Vocabulaire : [le, chat, mange, dort]

BOW (comptage brut) :
  "le chat mange" ‚Üí [1, 1, 1, 0]
  "le chat dort"  ‚Üí [1, 1, 0, 1]

TF-IDF (pond√©r√© par raret√©) :
  "le chat mange" ‚Üí [0.3, 0.3, 0.7, 0]    ‚Üê "mange" p√®se plus (mot distinctif)
  "le chat dort"  ‚Üí [0.3, 0.3, 0, 0.7]    ‚Üê "dort" p√®se plus (mot distinctif)
                     ‚Üë    ‚Üë
              mots communs ‚Üí poids r√©duit
```

En pratique, le vocabulaire contient 50 000+ mots ‚Üí vecteurs **sparse** (majoritairement des z√©ros) :

```
"le chat dort" ‚Üí [0, 0, ..., 1, ..., 0, 1, ..., 0]  (50 000 dimensions)
                              ‚Üë         ‚Üë
                            chat      dort
```

Pour TF-IDF et BOW, on obtient des vecteurs qui permettent de comparer des morceaux de texte entre eux (descriptions de produits sur un site marchand par exemple). Pour autant, ils ne permettent pas de capturer le sens des mots et leurs proximit√©s relatives. Une m√©thode apparue en 2013 (Word2Vec) a permis d'apporter cette compr√©hension plus profonde, de mani√®re automatis√©e et sans supervision.

---

## 4. Word2Vec : Apprendre des embeddings qui ont du sens

Comme son nom l'indique, Word2Vec transforme des mots en vecteurs. Mais comment apprend-il des vecteurs o√π "chat" et "chien" sont vraiment proches ?

---

### L'intuition fondamentale

> **"Tu connais un mot par les mots qui l'entourent"** (hypoth√®se distributionnelle)

Observez ces phrases :
```
"Le chat mange sa p√¢t√©e"
"Le chat dort sur le canap√©"  
"Mon chat joue avec une balle"

"Le chien mange sa p√¢t√©e"
"Le chien dort sur le canap√©"
"Mon chien joue avec une balle"
```

"Chat" et "chien" apparaissent dans les **m√™mes contextes**. Word2Vec va leur attribuer des vecteurs similaires.

---

### L'architecture de Word2Vec

Word2Vec repose sur une architecture similaire √† un r√©seau de neurones **√©tonnamment simple** : une entr√©e, une couche cach√©e, une sortie. Pas d'activation (simple multiplication matricielle).

#### Le r√©seau

```
      ENTR√âE                 COUCHE CACH√âE              SORTIE
     (one-hot)               (embeddings)              (softmax)
  
   ‚îå‚îÄ‚îÄ‚îÄ‚îê                                              ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   ‚îÇ 0 ‚îÇ  "le"                                        ‚îÇ 0.02  ‚îÇ "le"
   ‚îú‚îÄ‚îÄ‚îÄ‚î§                                              ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
   ‚îÇ 0 ‚îÇ  "chat"             ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê            ‚îÇ 0.41  ‚îÇ "chat"
   ‚îú‚îÄ‚îÄ‚îÄ‚î§                     ‚îÇ           ‚îÇ            ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
   ‚îÇ 1 ‚îÇ  "noir"  ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂  ‚îÇ  vecteur  ‚îÇ  ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂ ‚îÇ 0.05  ‚îÇ "noir"
   ‚îú‚îÄ‚îÄ‚îÄ‚î§            W        ‚îÇ  128 dim  ‚îÇ     W'     ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
   ‚îÇ 0 ‚îÇ  "dort"             ‚îÇ           ‚îÇ            ‚îÇ 0.38  ‚îÇ "dort"
   ‚îú‚îÄ‚îÄ‚îÄ‚î§                     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò            ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
   ‚îÇ 0 ‚îÇ  "sur"                                       ‚îÇ 0.14  ‚îÇ "sur"
   ‚îî‚îÄ‚îÄ‚îÄ‚îò                                              ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
  
  V dimensions              D dimensions              V dimensions
  (taille vocab)            (ex: 128)                 (probabilit√©s)
```

| Couche | Dimensions | Ce qu'elle contient |
|--------|------------|---------------------|
| Entr√©e | V (ex: 50 000) | Vecteur one-hot du mot |
| Cach√©e | D (ex: 128) | **Le vecteur qu'on veut r√©cup√©rer** |
| Sortie | V (ex: 50 000) | Probabilit√© de chaque mot |

---

#### Le but : r√©cup√©rer la couche cach√©e

L'objectif de Word2Vec n'est **pas** de faire des pr√©dictions. C'est de construire de bons vecteurs.

La **matrice W** (entre l'entr√©e et la couche cach√©e) contient tous les embeddings :

```
Matrice W (V √ó D)
                    D dimensions
              ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   "le"     ‚Üí ‚îÇ 0.2  -0.1  0.5 ... ‚îÇ
   "chat"   ‚Üí ‚îÇ 0.3  -0.4  0.7 ... ‚îÇ ‚Üê Ces deux lignes
   "chien"  ‚Üí ‚îÇ 0.3  -0.3  0.6 ... ‚îÇ ‚Üê sont proches !
   "noir"   ‚Üí ‚îÇ 0.1   0.5 -0.2 ... ‚îÇ
   ...        ‚îÇ        ...         ‚îÇ
              ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

**Apr√®s l'entra√Ænement** :
- On **garde** la matrice W ‚Üí c'est notre table d'embeddings
- On **jette** tout le reste (matrice W', couche de sortie)

La sortie n'√©tait qu'un **pr√©texte** pour entra√Æner le r√©seau !

---

#### L'entra√Ænement : deux techniques

Pour que les vecteurs capturent le sens des mots, on entra√Æne le r√©seau √† pr√©dire les relations entre mots voisins dans un corpus.

**Deux approches sym√©triques existent :**

##### Skip-gram : mot central ‚Üí mots voisins

On donne un mot, le r√©seau pr√©dit les mots qui l'entourent.

```
Phrase : "Le chat noir dort sur"
                  ‚Üë
             mot central

Fen√™tre de contexte (¬±1 mot) :
    Entr√©e  : "noir"
    Cibles  : "chat", "dort" (trait√©s un par un)
```

```
    "noir"                     "chat" ?
       ‚îÇ                          ‚Üë
       ‚ñº                          ‚îÇ
   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    vecteur     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   ‚îÇ   W   ‚îÇ ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂ ‚îÇ   W'    ‚îÇ
   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò   (128 dim)    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

##### CBOW : mots voisins ‚Üí mot central

On donne les mots du contexte, le r√©seau pr√©dit le mot du milieu.

```
Phrase : "Le chat noir dort sur"
              ‚Üë         ‚Üë
            contexte (¬±1)

Entr√©e  : "chat" + "dort" (moyenn√©s)
Cible   : "noir"
```

```
"chat" + "dort"                "noir" ?
       ‚îÇ                          ‚Üë
       ‚ñº                          ‚îÇ
   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    vecteur     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   ‚îÇ   W   ‚îÇ ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂ ‚îÇ   W'    ‚îÇ
   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò   (128 dim)    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

##### Comparaison

| | Skip-gram | CBOW |
|--|-----------|------|
| Entr√©e | 1 mot | plusieurs mots |
| Sortie | pr√©dire les voisins | pr√©dire le mot central |
| Mots rares | ‚úÖ meilleur | moins bon |
| Vitesse | plus lent | ‚úÖ plus rapide |

En pratique, **Skip-gram** est plus utilis√© car il donne de meilleurs r√©sultats sur les mots peu fr√©quents.

---

#### Cons√©quence : mots fr√©quents vs mots rares

Plus un mot est **fr√©quent** dans le corpus, plus son embedding est ajust√© souvent ‚Üí meilleure qualit√©.

Un mot vu 100 000 fois aura un excellent embedding. Un mot vu 3 fois restera proche de son initialisation al√©atoire.

> C'est pour √ßa que BPE aide : un mot rare comme "smartcar" est d√©coup√© en "smart" + "car", deux sous-mots tr√®s fr√©quents avec d'excellents embeddings !

---

#### Limitation : l'ordre des mots est ignor√©

Word2Vec traite chaque paire (mot, voisin) **ind√©pendamment**. Il ne sait pas quel mot vient avant ou apr√®s.

```
"Le chat mange la souris"
"La souris mange le chat"

‚Üí M√™mes paires d'entra√Ænement !
‚Üí Word2Vec ne voit pas la diff√©rence
```

C'est le **m√©canisme d'attention combin√© au positional encoding** (section 5) qui permettra de capturer l'ordre et les relations entre positions.

---

> üí° **En pratique** : Les impl√©mentations r√©elles (gensim, FastText...) ajoutent des optimisations pour acc√©l√©rer l'entra√Ænement sur de gros vocabulaires. L'architecture de base reste la m√™me.

> üìö **Pour aller plus loin** : [The Illustrated Word2Vec](https://jalammar.github.io/illustrated-word2vec/) ‚Äî Visualisations d√©taill√©es de l'architecture et de l'entra√Ænement.

---

### Pourquoi les analogies marchent ?

Apr√®s entra√Ænement, les vecteurs encodent des **relations** :

```
vecteur("roi") - vecteur("homme") ‚âà vecteur("reine") - vecteur("femme")
```

Autrement dit, la "direction" homme‚Üífemme dans l'espace vectoriel est la m√™me que roi‚Üíreine :

```
        homme ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚Üí femme
          ‚Üë    (m√™me         ‚Üë
          ‚îÇ   direction)     ‚îÇ
         roi ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚Üí reine
```

C'est pour √ßa que `roi - homme + femme ‚âà reine` fonctionne !

---

### Mesurer la similarit√© : Distance cosinus

Avec des vecteurs, on peut mesurer la **similarit√©** entre mots :

$$\text{similarit√©}(A, B) = \cos(\theta) = \frac{A \cdot B}{\|A\| \|B\|}$$

- R√©sultat entre -1 (oppos√©s) et 1 (identiques)
- 0 = orthogonaux (pas de relation)

---

### Chargeons un mod√®le pr√©-entra√Æn√©

Nous allons utiliser **GloVe** (similaire √† Word2Vec), entra√Æn√© sur Wikipedia.

In [None]:
# Charger un mod√®le pr√©-entra√Æn√© (GloVe, similaire √† Word2Vec)
import gensim.downloader as api

print("Chargement du mod√®le GloVe (peut prendre 1-2 min)...")
model = api.load("glove-wiki-gigaword-100")  # 100 dimensions, entra√Æn√© sur Wikipedia
print(f"Mod√®le charg√© ! Vocabulaire : {len(model)} mots")

In [None]:
# Explorer les similarit√©s
print("=== Mots similaires √† 'king' ===")
for word, score in model.most_similar("king", topn=5):
    print(f"  {word}: {score:.4f}")

print("\n=== Mots similaires √† 'computer' ===")
for word, score in model.most_similar("computer", topn=5):
    print(f"  {word}: {score:.4f}")

In [None]:
# ============================================
# EXERCICE 2 : Explorer les similarit√©s
# ============================================

# Partie A : Trouver les mots similaires √† "france", "cat", "happy"
# TODO: Utilisez model.most_similar(mot, topn=5)


# Partie B : Exploration libre
# TODO: Trouvez une paire de mots avec similarit√© > 0.7
# Indice : model.similarity("mot1", "mot2") retourne un score entre -1 et 1


# Partie C : Trouver l'intrus
# TODO: Utilisez model.doesnt_match(["mot1", "mot2", "mot3", "mot4"])
# Exemple : model.doesnt_match(["breakfast", "lunch", "dinner", "car"])
# Testez avec vos propres listes !

In [None]:
# La magie des analogies : king - man + woman = ?
print("=== Analogie : king - man + woman = ? ===")
result = model.most_similar(positive=["king", "woman"], negative=["man"], topn=3)
for word, score in result:
    print(f"  {word}: {score:.4f}")

print("\n=== Analogie : paris - france + italy = ? ===")
result = model.most_similar(positive=["paris", "italy"], negative=["france"], topn=3)
for word, score in result:
    print(f"  {word}: {score:.4f}")

In [None]:
# ============================================
# EXERCICE 3 : Ma√Ætriser les analogies
# ============================================

# Partie A : Tester ces analogies classiques
# - "berlin" - "germany" + "france" = ?
# - "good" - "better" + "bad" = ?
# - "walked" - "walk" + "swim" = ?

# TODO: Syntaxe : model.most_similar(positive=["A", "C"], negative=["B"], topn=3)


# Partie B : Inventer une analogie qui fonctionne
# TODO: Trouvez une analogie originale qui donne le r√©sultat attendu
# Exemples de domaines : m√©tiers, pays/capitales, animaux, verbes...


# Partie C : Trouver une analogie qui √©choue
# TODO: Trouvez une analogie qui devrait marcher logiquement mais √©choue
# Expliquez pourquoi dans un commentaire (indice : fr√©quence des mots, biais du corpus...)

In [None]:
# Visualisation des embeddings en 2D
!pip install scikit-learn -q
from sklearn.decomposition import PCA

# S√©lectionner quelques mots
words = ["king", "queen", "man", "woman", "prince", "princess",
         "cat", "dog", "lion", "tiger",
         "car", "bus", "train", "plane"]

# R√©cup√©rer leurs vecteurs
vectors = np.array([model[w] for w in words])

# R√©duire √† 2D avec PCA
pca = PCA(n_components=2)
vectors_2d = pca.fit_transform(vectors)

# Visualiser
plt.figure(figsize=(12, 8))
plt.scatter(vectors_2d[:, 0], vectors_2d[:, 1], c='blue', s=100)

for i, word in enumerate(words):
    plt.annotate(word, (vectors_2d[i, 0] + 0.1, vectors_2d[i, 1] + 0.1), fontsize=12)

plt.title("Embeddings GloVe projet√©s en 2D")
plt.xlabel("Composante 1")
plt.ylabel("Composante 2")
plt.grid(True, alpha=0.3)
plt.show()

print("Observation : Les mots de m√™me cat√©gorie sont regroup√©s !")

In [None]:
# ============================================
# EXERCICE 4 : Visualisation personnalis√©e
# ============================================

# TODO: Cr√©ez votre propre visualisation avec 15-20 mots de votre choix
# Choisissez des mots de 3-4 cat√©gories diff√©rentes (ex: sports, √©motions, pays, m√©tiers)

# Vos mots (modifiez cette liste) :
my_words = [
    # Cat√©gorie 1 (ex: sports) : 
    
    # Cat√©gorie 2 (ex: √©motions) : 
    
    # Cat√©gorie 3 (ex: pays) : 
    
    # Cat√©gorie 4 (ex: m√©tiers) : 
]

# TODO: V√©rifiez que tous vos mots sont dans le vocabulaire
# for word in my_words:
#     if word not in model:
#         print(f"'{word}' n'est pas dans le vocabulaire !")

# TODO: Copiez et adaptez le code de visualisation de la cellule pr√©c√©dente
# Remplacez 'words' par 'my_words'


# QUESTION : Les mots de m√™me cat√©gorie sont-ils regroup√©s ? 
# Y a-t-il des surprises ?

---

## 5. Teaser : Le m√©canisme d'attention

Maintenant que nous savons repr√©senter du texte (tokenization + embeddings), la prochaine √©tape est de permettre aux mots de **communiquer entre eux**.

C'est le r√¥le du **m√©canisme d'attention**, que nous verrons en d√©tail au prochain TP.

### L'id√©e

> Pour comprendre un mot, il faut regarder les autres mots de la phrase.

Exemple : *"Le chat qui dormait sur le canap√© a saut√©"*
- Pour comprendre **"a saut√©"** ‚Üí regarder **"chat"** (le sujet)
- Pour comprendre **"dormait"** ‚Üí regarder **"chat"** et **"canap√©"**

### Visualisation

In [None]:
# Matrice d'attention simul√©e
phrase = ["Le", "chat", "mange", "la", "souris"]

# Chaque ligne = un mot qui "regarde" les autres
# Valeurs = poids d'attention (somme = 1 par ligne)
attention = torch.tensor([
    [0.8, 0.1, 0.05, 0.03, 0.02],  # "Le" regarde surtout lui-m√™me
    [0.1, 0.7, 0.1, 0.05, 0.05],   # "chat" regarde surtout lui-m√™me
    [0.05, 0.4, 0.4, 0.05, 0.1],   # "mange" regarde "chat" et lui-m√™me
    [0.02, 0.03, 0.05, 0.8, 0.1],  # "la" regarde surtout lui-m√™me
    [0.02, 0.1, 0.2, 0.08, 0.6],   # "souris" regarde "mange" et elle-m√™me
])

# Visualisation
plt.figure(figsize=(8, 6))
plt.imshow(attention, cmap='Blues')
plt.xticks(range(5), phrase)
plt.yticks(range(5), phrase)
plt.xlabel("Mots regard√©s")
plt.ylabel("Mots qui regardent")
plt.title("Qui regarde qui ? (Matrice d'attention)")
plt.colorbar(label="Poids d'attention")

for i in range(5):
    for j in range(5):
        plt.text(j, i, f'{attention[i,j]:.2f}', 
                ha='center', va='center',
                color='white' if attention[i,j] > 0.5 else 'black')
plt.show()

print("Le verbe 'mange' regarde fortement 'chat' (son sujet) !")

**Ce qu'on voit** :
- Chaque mot peut "regarder" tous les autres mots
- Les poids indiquent l'importance de chaque relation
- Le mod√®le **apprend** ces poids pendant l'entra√Ænement

**Au prochain TP**, nous verrons :
- Comment calculer cette matrice d'attention
- Les concepts Query, Key, Value
- L'architecture compl√®te du Transformer

---

## 6. R√©capitulatif

### Le pipeline NLP

| √âtape | Entr√©e | Sortie | R√¥le |
|-------|--------|--------|------|
| **Tokenization** | Texte brut | Liste de tokens | D√©couper le texte |
| **Vocabulaire** | Tokens | Indices | Table token ‚Üî ID |
| **Embedding** | Indices | Vecteurs denses | Sens s√©mantique |

### Points cl√©s

1. **Tokenization BPE** : meilleur compromis entre mots et caract√®res
2. **Embeddings** : transforment les mots en vecteurs comparables
3. **Word2Vec** : montre que les embeddings capturent le sens (analogies !)
4. **Similarit√© cosinus** : mesure la proximit√© entre vecteurs

### Prochaine session

Nous verrons le **m√©canisme d'attention** : comment les mots "communiquent" entre eux pour se comprendre mutuellement.

---

## 7. Pour aller plus loin (optionnel)

### Ressources

- [Les tokenizers en NLP (FR)](https://lbourdois.github.io/blog/nlp/Les-tokenizers/) - Excellent article en fran√ßais
- [The Illustrated Word2Vec](https://jalammar.github.io/illustrated-word2vec/) - Visualisations tr√®s claires
- [Bolmo: Byte-level Language Models (Allen AI, 2025)](https://allenai.org/blog/bolmo) - Une alternative √† BPE ?

### Exp√©rimentations sugg√©r√©es

1. Tester d'autres analogies Word2Vec
2. Visualiser les embeddings de votre choix
3. Comparer diff√©rents tokenizers (BERT, GPT-2, etc.)

---

## 8. Mini-projet de synth√®se (optionnel)

Mettez en pratique tout ce que vous avez appris en analysant vos propres phrases. Ce projet combine tokenization, vocabulaire et embeddings.

In [None]:
# ============================================
# MINI-PROJET : Pipeline NLP complet
# ============================================

# Choisissez 3 phrases en anglais sur un th√®me commun
mes_phrases = [
    "The quick brown fox jumps over the lazy dog",
    "A fast red cat leaps across the sleepy mouse", 
    "The slow black bear walks around the tired wolf"
]

# TODO √âtape 1 : Tokenisez chaque phrase avec les 3 m√©thodes
# Comparez le nombre de tokens
# for phrase in mes_phrases:
#     print(f"Phrase: {phrase}")
#     print(f"  Mots: {len(tokenize_words(phrase))}")
#     print(f"  Chars: {len(tokenize_chars(phrase))}")
#     print(f"  BPE: {len(gpt2_tokenizer.tokenize(phrase))}")


# TODO √âtape 2 : Pour la tokenization par mots, construisez un vocabulaire unifi√©
# Indice : collectez les tokens de toutes les phrases dans un set


# TODO √âtape 3 : R√©cup√©rez les embeddings GloVe des mots communs aux 3 phrases
# Indice : utilisez des sets et l'intersection (&)


# TODO √âtape 4 : Calculez la similarit√© moyenne entre les phrases
# Indice : moyennez les embeddings de chaque phrase, puis calculez la similarit√© cosinus
# from numpy.linalg import norm
# def cosine_sim(v1, v2): return np.dot(v1, v2) / (norm(v1) * norm(v2))


# TODO √âtape 5 : Visualisez les mots des 3 phrases sur un m√™me graphique
# Utilisez des couleurs diff√©rentes pour chaque phrase


# QUESTIONS DE R√âFLEXION :
# 1. Quelle m√©thode de tokenization donne le vocabulaire le plus compact ?
# 2. Les phrases similaires ont-elles des embeddings moyens proches ?
# 3. Quelles limites de Word2Vec observez-vous sur vos phrases ?