# TP 01 - Fondamentaux NLP pour les Transformers

**Module** : Réseaux de Neurones Approfondissement  
**Durée** : 2h  
**Objectif** : Comprendre comment représenter du texte pour un modèle de deep learning

---

## Objectifs pédagogiques

À la fin de ce TP, vous serez capable de :
1. Expliquer les différentes stratégies de tokenization
2. Comprendre ce qu'est un embedding et pourquoi c'est utile
3. Utiliser Word2Vec pour explorer les similarités sémantiques
4. Visualiser intuitivement ce que fait l'attention

## 0. Installation et imports

Exécutez cette cellule pour installer les dépendances nécessaires.

In [None]:
# Installation des dépendances (Google Colab)
!pip install torch matplotlib numpy gensim -q

In [None]:
import torch
import torch.nn as nn
import matplotlib.pyplot as plt
import numpy as np

# Configuration
torch.manual_seed(42)
print(f"PyTorch version: {torch.__version__}")

---

## 1. Introduction : Du texte aux nombres

### Le problème fondamental

Un réseau de neurones ne comprend que des **nombres**. Comment transformer du texte en quelque chose qu'un modèle peut traiter ?

```
"Le chat dort sur le canapé"
            ↓
        ????????
            ↓
    Tenseur exploitable
```

### Le pipeline complet

```
Texte brut
    ↓
┌─────────────────┐
│  TOKENIZATION   │  "Le chat" → ["Le", "chat"] ou ["Le", "ch", "##at"]
└─────────────────┘
    ↓
┌─────────────────┐
│   NUMÉRISATION  │  ["Le", "chat"] → [45, 892]
└─────────────────┘
    ↓
┌─────────────────┐
│    EMBEDDING    │  [45, 892] → [[0.2, -0.1, ...], [0.8, 0.3, ...]]
└─────────────────┘
    ↓
Tenseur prêt pour le modèle
```

> **Note** : Pour les Transformers, une étape supplémentaire (Positional Encoding) sera ajoutée. Nous la verrons au TP4 quand nous assemblerons l'architecture complète.

Dans ce TP, nous allons explorer les étapes fondamentales.

---

## 2. Tokenization : Découper le texte

La **tokenization** consiste à découper le texte en unités (tokens). Il existe plusieurs stratégies.

### 2.1 Tokenization par mots (Word-level)

La plus intuitive : on découpe sur les espaces et la ponctuation.

In [None]:
# Tokenization simple par mots
def tokenize_words(text):
    """Tokenization basique par espaces et ponctuation."""
    import re
    # Sépare sur espaces et garde la ponctuation comme tokens
    tokens = re.findall(r"\w+|[^\w\s]", text.lower())
    return tokens

texte = "Le chat mange la souris. La souris court vite !"
tokens = tokenize_words(texte)

print(f"Texte : {texte}")
print(f"Tokens : {tokens}")
print(f"Nombre de tokens : {len(tokens)}")

**Problème** : Que faire avec un mot inconnu (hors vocabulaire) ?

```
Vocabulaire : ["le", "chat", "mange", "souris", ...]
Nouveau mot : "anticonstitutionnellement" → ???
```

### 2.2 Tokenization par caractères (Character-level)

Une solution : découper caractère par caractère. Plus de mots inconnus !

In [None]:
def tokenize_chars(text):
    """Tokenization par caractères."""
    return list(text.lower())

texte = "Le chat dort."
tokens = tokenize_chars(texte)

print(f"Texte : {texte}")
print(f"Tokens : {tokens}")
print(f"Nombre de tokens : {len(tokens)}")

**Problème** : Séquences très longues ! "anticonstitutionnellement" = 25 tokens.

Le modèle doit "réapprendre" que `c-h-a-t` forme le concept de chat.

### 2.3 Tokenization Subword (BPE)

**Byte Pair Encoding (BPE)** : le meilleur des deux mondes.

- Mots fréquents → tokens entiers (`chat`, `le`)
- Mots rares → découpés en sous-mots (`anti`, `constitution`, `nelle`, `ment`)

C'est ce qu'utilisent GPT, BERT, et la plupart des LLMs modernes.

**Ressource** : [Les tokenizers en NLP (FR)](https://lbourdois.github.io/blog/nlp/Les-tokenizers/)

In [None]:
# Démonstration avec un vrai tokenizer (GPT-2)
!pip install transformers -q

from transformers import GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

textes = [
    "Le chat mange.",
    "anticonstitutionnellement",
    "Hello world!",
    "Transformers are amazing!"
]

print("=== Tokenization BPE (GPT-2) ===")
for texte in textes:
    tokens = tokenizer.tokenize(texte)
    ids = tokenizer.encode(texte)
    print(f"\n'{texte}'")
    print(f"  Tokens : {tokens}")
    print(f"  IDs    : {ids}")

**Observations** :
- Les mots courants anglais sont souvent des tokens uniques
- Les mots français/rares sont découpés
- Le caractère `Ġ` indique un espace avant le token

### Exercice 1 : Comparer les tokenizations

In [None]:
# ============================================
# EXERCICE 1 : Comparer les tokenizations
# ============================================

texte_test = "L'intelligence artificielle révolutionne le monde."

# TODO: Tokenizer avec les 3 méthodes et comparer le nombre de tokens

# 1. Par mots
tokens_mots = None  # tokenize_words(texte_test)

# 2. Par caractères  
tokens_chars = None  # tokenize_chars(texte_test)

# 3. BPE (GPT-2)
tokens_bpe = None  # tokenizer.tokenize(texte_test)

print(f"Texte : {texte_test}")
print(f"\nMots      : {len(tokens_mots) if tokens_mots else '?'} tokens")
print(f"Caractères: {len(tokens_chars) if tokens_chars else '?'} tokens")
print(f"BPE       : {len(tokens_bpe) if tokens_bpe else '?'} tokens")

### 2.4 Construction d'un vocabulaire

Une fois la stratégie choisie, on construit un **vocabulaire** : une table de correspondance token ↔ index.

In [None]:
# Construire un vocabulaire simple
corpus = [
    "le chat mange",
    "le chien dort",
    "la souris court"
]

# Collecter tous les tokens uniques
all_tokens = set()
for phrase in corpus:
    all_tokens.update(tokenize_words(phrase))

# Créer le vocabulaire avec tokens spéciaux
vocab = {"<PAD>": 0, "<UNK>": 1}  # Padding et Unknown
for i, token in enumerate(sorted(all_tokens)):
    vocab[token] = i + 2

# Vocabulaire inverse
id_to_token = {v: k for k, v in vocab.items()}

print("Vocabulaire :")
for token, idx in vocab.items():
    print(f"  {idx}: '{token}'")

# Encoder une phrase
def encode(text, vocab):
    return [vocab.get(t, vocab["<UNK>"]) for t in tokenize_words(text)]

def decode(ids, id_to_token):
    return [id_to_token[i] for i in ids]

phrase = "le chat court"
encoded = encode(phrase, vocab)
decoded = decode(encoded, id_to_token)

print(f"\nPhrase : '{phrase}'")
print(f"Encodé : {encoded}")
print(f"Décodé : {decoded}")

---

## 3. Embeddings : Des indices aux vecteurs

### Le problème des indices

Les indices (0, 1, 2, ...) n'ont pas de **sens sémantique**. 

- `chat = 3` et `chien = 4` → sont-ils proches ? (oui, ce sont des animaux)
- `chat = 3` et `voiture = 42` → sont-ils proches ? (non)

Mais avec des indices, on ne peut pas mesurer cette proximité !

### La solution : Embeddings

On associe à chaque token un **vecteur dense** de dimension fixe (ex: 128, 256, 768).

```
"chat"    → [0.2, -0.5, 0.8, 0.1, ...] (128 dimensions)
"chien"   → [0.3, -0.4, 0.7, 0.2, ...] (proche de chat !)
"voiture" → [-0.8, 0.2, -0.3, 0.9, ...] (loin de chat)
```

Ces vecteurs sont **appris** pendant l'entraînement du modèle.

In [None]:
# Démonstration : Embedding en PyTorch
vocab_size = 10  # 10 tokens dans notre vocabulaire
embed_dim = 4    # Chaque token → vecteur de dimension 4

# Créer une couche d'embedding
embedding = nn.Embedding(vocab_size, embed_dim)

print(f"Matrice d'embedding : {embedding.weight.shape}")
print(f"  → {vocab_size} tokens × {embed_dim} dimensions\n")

# Récupérer l'embedding d'un token
token_id = torch.tensor([3])  # Token d'indice 3
vector = embedding(token_id)

print(f"Token 3 → {vector}")

In [None]:
# Embedding d'une séquence complète
sequence = torch.tensor([2, 5, 3, 7])  # 4 tokens
embedded = embedding(sequence)

print(f"Séquence : {sequence.tolist()}")
print(f"Shape après embedding : {embedded.shape}")  # (4, 4)
print(f"\nVecteurs :\n{embedded}")

### Mesurer la similarité : Distance cosinus

Avec des vecteurs, on peut mesurer la **similarité** entre mots :

$$\text{similarité}(A, B) = \cos(\theta) = \frac{A \cdot B}{\|A\| \|B\|}$$

- Résultat entre -1 (opposés) et 1 (identiques)
- 0 = orthogonaux (pas de relation)

In [None]:
def cosine_similarity(a, b):
    """Calcule la similarité cosinus entre deux vecteurs."""
    return torch.dot(a, b) / (torch.norm(a) * torch.norm(b))

# Exemple avec nos embeddings aléatoires
vec_2 = embedding(torch.tensor(2))
vec_3 = embedding(torch.tensor(3))
vec_7 = embedding(torch.tensor(7))

sim_2_3 = cosine_similarity(vec_2, vec_3)
sim_2_7 = cosine_similarity(vec_2, vec_7)

print(f"Similarité(token 2, token 3) = {sim_2_3:.4f}")
print(f"Similarité(token 2, token 7) = {sim_2_7:.4f}")
print("\n(Valeurs aléatoires car embeddings non entraînés)")

---

## 4. Word2Vec : Embeddings pré-entraînés

**Word2Vec** (2013) a révolutionné le NLP en montrant qu'on peut apprendre des embeddings qui capturent le sens des mots.

### L'idée clé

> "Tu connais un mot par les mots qui l'entourent"

Si "chat" et "chien" apparaissent dans des contextes similaires ("le ___ mange", "mon ___ dort"), leurs vecteurs seront proches.

### La magie des analogies

Les embeddings Word2Vec permettent des **opérations arithmétiques** sur les mots :

```
roi - homme + femme ≈ reine
paris - france + italie ≈ rome
```

In [None]:
# Charger un modèle Word2Vec pré-entraîné
import gensim.downloader as api

print("Chargement du modèle Word2Vec (peut prendre 1-2 min)...")
model = api.load("glove-wiki-gigaword-100")  # 100 dimensions, entraîné sur Wikipedia
print(f"Modèle chargé ! Vocabulaire : {len(model)} mots")

In [None]:
# Explorer les similarités
print("=== Mots similaires à 'king' ===")
for word, score in model.most_similar("king", topn=5):
    print(f"  {word}: {score:.4f}")

print("\n=== Mots similaires à 'computer' ===")
for word, score in model.most_similar("computer", topn=5):
    print(f"  {word}: {score:.4f}")

In [None]:
# ============================================
# EXERCICE 2 : Explorer les similarités
# ============================================

# TODO: Trouver les 5 mots les plus similaires à :
# - "france"
# - "cat" (chat en anglais)
# - "happy"

# Exemple :
# for word, score in model.most_similar("france", topn=5):
#     print(f"  {word}: {score:.4f}")

In [None]:
# La magie des analogies : king - man + woman = ?
print("=== Analogie : king - man + woman = ? ===")
result = model.most_similar(positive=["king", "woman"], negative=["man"], topn=3)
for word, score in result:
    print(f"  {word}: {score:.4f}")

print("\n=== Analogie : paris - france + italy = ? ===")
result = model.most_similar(positive=["paris", "italy"], negative=["france"], topn=3)
for word, score in result:
    print(f"  {word}: {score:.4f}")

In [None]:
# ============================================
# EXERCICE 3 : Trouver des analogies
# ============================================

# TODO: Tester ces analogies (et en inventer d'autres !)
# - "berlin" - "germany" + "france" = ?
# - "good" - "better" + "bad" = ?
# - "cat" - "kitten" + "dog" = ?

# Syntaxe :
# model.most_similar(positive=["A", "C"], negative=["B"], topn=3)
# Pour calculer A - B + C

In [None]:
# Visualisation des embeddings en 2D
!pip install scikit-learn -q
from sklearn.decomposition import PCA

# Sélectionner quelques mots
words = ["king", "queen", "man", "woman", "prince", "princess",
         "cat", "dog", "lion", "tiger",
         "car", "bus", "train", "plane"]

# Récupérer leurs vecteurs
vectors = np.array([model[w] for w in words])

# Réduire à 2D avec PCA
pca = PCA(n_components=2)
vectors_2d = pca.fit_transform(vectors)

# Visualiser
plt.figure(figsize=(12, 8))
plt.scatter(vectors_2d[:, 0], vectors_2d[:, 1], c='blue', s=100)

for i, word in enumerate(words):
    plt.annotate(word, (vectors_2d[i, 0] + 0.1, vectors_2d[i, 1] + 0.1), fontsize=12)

plt.title("Embeddings Word2Vec projetés en 2D")
plt.xlabel("Composante 1")
plt.ylabel("Composante 2")
plt.grid(True, alpha=0.3)
plt.show()

print("Observation : Les mots de même catégorie sont regroupés !")

---

## 5. Teaser : Le mécanisme d'attention

Maintenant que nous savons représenter du texte (tokenization + embeddings), la prochaine étape est de permettre aux mots de **communiquer entre eux**.

C'est le rôle du **mécanisme d'attention**, que nous verrons en détail au prochain TP.

### L'idée

> Pour comprendre un mot, il faut regarder les autres mots de la phrase.

Exemple : *"Le chat qui dormait sur le canapé a sauté"*
- Pour comprendre **"a sauté"** → regarder **"chat"** (le sujet)
- Pour comprendre **"dormait"** → regarder **"chat"** et **"canapé"**

### Visualisation

In [None]:
# Matrice d'attention simulée
phrase = ["Le", "chat", "mange", "la", "souris"]

# Chaque ligne = un mot qui "regarde" les autres
# Valeurs = poids d'attention (somme = 1 par ligne)
attention = torch.tensor([
    [0.8, 0.1, 0.05, 0.03, 0.02],  # "Le" regarde surtout lui-même
    [0.1, 0.7, 0.1, 0.05, 0.05],   # "chat" regarde surtout lui-même
    [0.05, 0.4, 0.4, 0.05, 0.1],   # "mange" regarde "chat" et lui-même
    [0.02, 0.03, 0.05, 0.8, 0.1],  # "la" regarde surtout lui-même
    [0.02, 0.1, 0.2, 0.08, 0.6],   # "souris" regarde "mange" et elle-même
])

# Visualisation
plt.figure(figsize=(8, 6))
plt.imshow(attention, cmap='Blues')
plt.xticks(range(5), phrase)
plt.yticks(range(5), phrase)
plt.xlabel("Mots regardés")
plt.ylabel("Mots qui regardent")
plt.title("Qui regarde qui ? (Matrice d'attention)")
plt.colorbar(label="Poids d'attention")

for i in range(5):
    for j in range(5):
        plt.text(j, i, f'{attention[i,j]:.2f}', 
                ha='center', va='center',
                color='white' if attention[i,j] > 0.5 else 'black')
plt.show()

print("Le verbe 'mange' regarde fortement 'chat' (son sujet) !")

**Ce qu'on voit** :
- Chaque mot peut "regarder" tous les autres mots
- Les poids indiquent l'importance de chaque relation
- Le modèle **apprend** ces poids pendant l'entraînement

**Au prochain TP**, nous verrons :
- Pourquoi les RNN/LSTM ont des limites
- Comment calculer cette matrice d'attention
- Les concepts Query, Key, Value

---

## 6. Récapitulatif

### Le pipeline NLP

| Étape | Entrée | Sortie | Rôle |
|-------|--------|--------|------|
| **Tokenization** | Texte brut | Liste de tokens | Découper le texte |
| **Vocabulaire** | Tokens | Indices | Table token ↔ ID |
| **Embedding** | Indices | Vecteurs denses | Sens sémantique |

### Points clés

1. **Tokenization BPE** : meilleur compromis entre mots et caractères
2. **Embeddings** : transforment les mots en vecteurs comparables
3. **Word2Vec** : montre que les embeddings capturent le sens (analogies !)
4. **Similarité cosinus** : mesure la proximité entre vecteurs

### Prochaine session

Nous verrons le **mécanisme d'attention** : comment les mots "communiquent" entre eux pour se comprendre mutuellement.

---

## 7. Pour aller plus loin (optionnel)

### Ressources

- [Les tokenizers en NLP (FR)](https://lbourdois.github.io/blog/nlp/Les-tokenizers/) - Excellent article en français
- [The Illustrated Word2Vec](https://jalammar.github.io/illustrated-word2vec/) - Visualisations très claires

### Expérimentations suggérées

1. Tester d'autres analogies Word2Vec
2. Visualiser les embeddings de votre choix
3. Comparer différents tokenizers (BERT, GPT-2, etc.)