# üî§ Tokenization - Transformer le Texte en Nombres

## üéØ Objectifs

Dans ce notebook, nous allons apprendre :

- üî¢ **Pourquoi tokenizer ?** - Les r√©seaux ne comprennent que les nombres
- üìö **Diff√©rentes approches** - Character, Word, Subword
- üß© **BPE (Byte-Pair Encoding)** - L'algorithme utilis√© par GPT
- üõ†Ô∏è **Impl√©menter un tokenizer** - From scratch en Python
- üé® **Encoder/Decoder** - Texte ‚Üî Nombres

---

## ü§î Pourquoi la Tokenization ?

### Le Probl√®me

Les r√©seaux de neurones ne comprennent que des **nombres** :

```
‚ùå "Bonjour le monde"  ‚Üí ??? Comment donner √ßa au r√©seau ?
‚úÖ [145, 298, 1023]     ‚Üí Le r√©seau comprend √ßa !
```

### La Solution : Tokenization

**Tokenization** = D√©couper le texte en unit√©s (tokens) et les associer √† des nombres

```
Texte : "Bonjour le monde"
  ‚Üì Tokenization
Tokens : ["Bonjour", "le", "monde"]
  ‚Üì Encoding
IDs : [145, 298, 1023]
```

---

In [None]:
# Imports
import numpy as np
import matplotlib.pyplot as plt
from collections import Counter, defaultdict
import re

print("‚úì Pr√™t √† tokenizer !")

## üìä Trois Approches de Tokenization

### 1Ô∏è‚É£ Character-Level (Par caract√®re)

**Id√©e** : Chaque caract√®re = 1 token

```python
Texte : "Bonjour"
Tokens : ['B', 'o', 'n', 'j', 'o', 'u', 'r']
```

**Avantages** :
- ‚úÖ Vocabulaire tr√®s petit (~100 caract√®res)
- ‚úÖ Pas de mots inconnus (OOV)

**Inconv√©nients** :
- ‚ùå S√©quences tr√®s longues
- ‚ùå Perd la s√©mantique des mots

### 2Ô∏è‚É£ Word-Level (Par mot)

**Id√©e** : Chaque mot = 1 token

```python
Texte : "Bonjour le monde"
Tokens : ['Bonjour', 'le', 'monde']
```

**Avantages** :
- ‚úÖ Pr√©serve la s√©mantique
- ‚úÖ S√©quences courtes

**Inconv√©nients** :
- ‚ùå Vocabulaire √©norme (100k+ mots)
- ‚ùå Mots inconnus (OOV problem)
- ‚ùå Ne g√®re pas bien les variations ("jouer", "jouait", "jouerait")

### 3Ô∏è‚É£ Subword-Level (Par sous-mot) ‚≠ê **BEST**

**Id√©e** : D√©couper en morceaux de mots (subwords)

```python
Texte : "incroyablement"
Tokens : ['in', 'croy', 'able', 'ment']
```

**Avantages** :
- ‚úÖ Vocabulaire raisonnable (30k-50k tokens)
- ‚úÖ Pas de OOV (tout peut √™tre d√©compos√©)
- ‚úÖ G√®re bien les variations
- ‚úÖ **C'est ce qu'utilise GPT !**

**Algorithmes** : BPE, WordPiece, SentencePiece

---

In [None]:
# Exemple des 3 approches

text = "Bonjour le monde"

# 1. Character-level
char_tokens = list(text)
print("1Ô∏è‚É£ Character-level:")
print(f"   Tokens: {char_tokens}")
print(f"   Longueur: {len(char_tokens)} tokens\n")

# 2. Word-level
word_tokens = text.split()
print("2Ô∏è‚É£ Word-level:")
print(f"   Tokens: {word_tokens}")
print(f"   Longueur: {len(word_tokens)} tokens\n")

# 3. Subword-level (simulation)
subword_tokens = ['Bon', 'jour', 'le', 'monde']  # Exemple
print("3Ô∏è‚É£ Subword-level (simul√©):")
print(f"   Tokens: {subword_tokens}")
print(f"   Longueur: {len(subword_tokens)} tokens")

print("\nüí° Subword = Meilleur compromis !")

---

## üß© BPE - Byte-Pair Encoding

### Concept

**BPE** est un algorithme de compression adapt√© pour la tokenization :

1. Commence avec un vocabulaire de caract√®res
2. Trouve la paire de tokens la plus fr√©quente
3. Fusionne cette paire en un nouveau token
4. R√©p√®te jusqu'√† atteindre la taille de vocabulaire d√©sir√©e

### Exemple Pas √† Pas

```
Texte initial : "low low low low lower lower newest newest newest widest"

√âtape 0 (caract√®res) :
Vocab : ['l', 'o', 'w', 'e', 'r', 'n', 's', 't', 'i', 'd']
Tokens : ['l','o','w', 'l','o','w', ...]

√âtape 1 - Paire la plus fr√©quente : ('l', 'o')
Nouveau token : 'lo'
Vocab : ['l', 'o', 'w', 'e', 'r', 'n', 's', 't', 'i', 'd', 'lo']
Tokens : ['lo','w', 'lo','w', ...]

√âtape 2 - Paire la plus fr√©quente : ('lo', 'w')
Nouveau token : 'low'
Vocab : [..., 'lo', 'low']
Tokens : ['low', 'low', 'low', 'low', 'lo','w','e','r', ...]

√âtape 3 - Paire la plus fr√©quente : ('e', 's')
Nouveau token : 'es'
...
```

**R√©sultat** : Vocabulaire optimis√© pour le corpus !

---

## üõ†Ô∏è Impl√©mentation d'un Tokenizer BPE Simple

On va impl√©menter un tokenizer BPE from scratch !

In [None]:
class SimpleBPETokenizer:
    """
    Tokenizer BPE simplifi√© pour l'apprentissage
    """

    def __init__(self, vocab_size=256):
        self.vocab_size = vocab_size
        self.vocab = {}  # token ‚Üí id
        self.inverse_vocab = {}  # id ‚Üí token
        self.merges = {}  # paire ‚Üí nouveau_token

    def get_pairs(self, word):
        """
        R√©cup√®re toutes les paires cons√©cutives dans un mot
        
        Exemple : ['l', 'o', 'w'] ‚Üí [('l', 'o'), ('o', 'w')]
        """
        pairs = set()
        prev_char = word[0]
        for char in word[1:]:
            pairs.add((prev_char, char))
            prev_char = char
        return pairs

    def train(self, corpus, verbose=True):
        """
        Entra√Æne le tokenizer BPE sur un corpus
        
        Args:
            corpus: Liste de mots
            verbose: Afficher les √©tapes
        """
        # 1. Initialiser avec les caract√®res
        vocab = set()
        for word in corpus:
            vocab.update(word)

        # Cr√©er le vocabulaire initial (caract√®res)
        self.vocab = {char: idx for idx, char in enumerate(sorted(vocab))}
        self.inverse_vocab = {idx: char for char, idx in self.vocab.items()}

        if verbose:
            print(f"Vocabulaire initial: {len(self.vocab)} caract√®res")
            print(f"Objectif: {self.vocab_size} tokens\n")

        # 2. R√©p√©ter les merges jusqu'√† atteindre vocab_size
        word_freqs = Counter(corpus)
        splits = {word: list(word) for word in word_freqs.keys()}

        num_merges = self.vocab_size - len(self.vocab)

        for i in range(num_merges):
            # Compter toutes les paires
            pairs = defaultdict(int)
            for word, freq in word_freqs.items():
                split = splits[word]
                if len(split) == 1:
                    continue
                for j in range(len(split) - 1):
                    pair = (split[j], split[j + 1])
                    pairs[pair] += freq

            if not pairs:
                break

            # Trouver la paire la plus fr√©quente
            best_pair = max(pairs, key=pairs.get)
            
            # Cr√©er le nouveau token
            new_token = best_pair[0] + best_pair[1]
            self.merges[best_pair] = new_token

            # Ajouter au vocabulaire
            new_id = len(self.vocab)
            self.vocab[new_token] = new_id
            self.inverse_vocab[new_id] = new_token

            # Mettre √† jour les splits
            for word in word_freqs:
                split = splits[word]
                if len(split) == 1:
                    continue

                new_split = []
                j = 0
                while j < len(split):
                    if j < len(split) - 1 and (split[j], split[j + 1]) == best_pair:
                        new_split.append(new_token)
                        j += 2
                    else:
                        new_split.append(split[j])
                        j += 1
                splits[word] = new_split

            if verbose and (i + 1) % 10 == 0:
                print(f"Merge {i+1}/{num_merges}: {best_pair} ‚Üí '{new_token}' (freq: {pairs[best_pair]})")

        if verbose:
            print(f"\n‚úì Entra√Ænement termin√© ! Vocabulaire final: {len(self.vocab)} tokens")

    def encode(self, text):
        """
        Encode un texte en liste d'IDs
        
        Args:
            text: Texte √† encoder
        
        Returns:
            Liste d'IDs de tokens
        """
        # Tokenize d'abord en caract√®res
        tokens = list(text)

        # Appliquer les merges
        while len(tokens) >= 2:
            pairs = [(tokens[i], tokens[i + 1]) for i in range(len(tokens) - 1)]
            
            # Trouver la premi√®re paire qui a un merge
            merge_found = False
            for i, pair in enumerate(pairs):
                if pair in self.merges:
                    # Appliquer le merge
                    new_token = self.merges[pair]
                    tokens = tokens[:i] + [new_token] + tokens[i + 2:]
                    merge_found = True
                    break
            
            if not merge_found:
                break

        # Convertir en IDs
        ids = []
        for token in tokens:
            if token in self.vocab:
                ids.append(self.vocab[token])
            else:
                # Token inconnu ‚Üí utiliser un caract√®re sp√©cial ou ignorer
                ids.append(0)  # <UNK>

        return ids

    def decode(self, ids):
        """
        D√©code une liste d'IDs en texte
        
        Args:
            ids: Liste d'IDs de tokens
        
        Returns:
            Texte d√©cod√©
        """
        tokens = [self.inverse_vocab.get(id, '<UNK>') for id in ids]
        return ''.join(tokens)

print("‚úì Classe SimpleBPETokenizer d√©finie")

### Test du Tokenizer BPE

In [None]:
# Corpus d'exemple
corpus = [
    "low", "low", "low", "low",
    "lower", "lower",
    "newest", "newest", "newest",
    "widest"
]

print("üìö Corpus d'entra√Ænement:")
print(f"   {' '.join(corpus)}")
print(f"   {len(corpus)} mots\n")

# Cr√©er et entra√Æner le tokenizer
tokenizer = SimpleBPETokenizer(vocab_size=30)
tokenizer.train(corpus, verbose=True)

In [None]:
# Afficher le vocabulaire appris
print("\nüìñ Vocabulaire appris:")
print("‚îÄ" * 50)

# Grouper par taille de token
by_length = defaultdict(list)
for token, idx in sorted(tokenizer.vocab.items(), key=lambda x: x[1]):
    by_length[len(token)].append(token)

for length in sorted(by_length.keys()):
    tokens = by_length[length]
    print(f"\nLongueur {length}: {tokens}")

print(f"\nüìä Total: {len(tokenizer.vocab)} tokens")

In [None]:
# Tester l'encodage/d√©codage
test_texts = [
    "low",
    "lower",
    "newest",
    "lowest"  # Nouveau mot !
]

print("\nüß™ Test Encode/Decode:")
print("‚îÄ" * 70)

for text in test_texts:
    # Encoder
    ids = tokenizer.encode(text)
    
    # D√©coder
    decoded = tokenizer.decode(ids)
    
    # Afficher les tokens
    tokens = [tokenizer.inverse_vocab[id] for id in ids]
    
    print(f"\nTexte:   '{text}'")
    print(f"Tokens:  {tokens}")
    print(f"IDs:     {ids}")
    print(f"D√©cod√©:  '{decoded}'")
    print(f"Match:   {'‚úì' if text == decoded else '‚úó'}")

---

## üé® Visualisation du Processus de Tokenization

In [None]:
# Visualiser la distribution des longueurs de tokens
import matplotlib.pyplot as plt

token_lengths = [len(token) for token in tokenizer.vocab.keys()]
length_counts = Counter(token_lengths)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# Histogramme des longueurs
lengths = sorted(length_counts.keys())
counts = [length_counts[l] for l in lengths]

ax1.bar(lengths, counts, color='steelblue', edgecolor='black', linewidth=1.5)
ax1.set_xlabel('Longueur du Token', fontsize=12, fontweight='bold')
ax1.set_ylabel('Nombre de Tokens', fontsize=12, fontweight='bold')
ax1.set_title('Distribution des Longueurs de Tokens', fontsize=14, fontweight='bold')
ax1.grid(axis='y', alpha=0.3)

# Ajouter les valeurs
for l, c in zip(lengths, counts):
    ax1.text(l, c + 0.2, str(c), ha='center', fontweight='bold')

# Exemple de tokenization
example = "lowest"
example_ids = tokenizer.encode(example)
example_tokens = [tokenizer.inverse_vocab[id] for id in example_ids]

ax2.axis('off')
ax2.text(0.5, 0.9, f'Exemple: "{example}"', 
         ha='center', fontsize=16, fontweight='bold', transform=ax2.transAxes)

# Afficher la d√©composition
y = 0.7
for i, (token, tid) in enumerate(zip(example_tokens, example_ids)):
    color = plt.cm.Set3(i % 10)
    
    ax2.add_patch(plt.Rectangle((0.2 + i*0.15, y - 0.05), 0.12, 0.08, 
                                 facecolor=color, edgecolor='black', linewidth=2,
                                 transform=ax2.transAxes))
    
    ax2.text(0.26 + i*0.15, y, f'"{token}"', 
             ha='center', va='center', fontsize=14, fontweight='bold',
             transform=ax2.transAxes)
    
    ax2.text(0.26 + i*0.15, y - 0.15, f'ID: {tid}', 
             ha='center', va='center', fontsize=10,
             transform=ax2.transAxes)

ax2.text(0.5, 0.3, 'Les tokens BPE capturent les sous-mots fr√©quents !', 
         ha='center', fontsize=12, style='italic', transform=ax2.transAxes)

plt.tight_layout()
plt.show()

---

## üåç Tokenizers R√©els : GPT-2, GPT-3, GPT-4

### Sp√©cifications

| Mod√®le | Algorithme | Vocab Size | Tokens Sp√©ciaux |
|--------|-----------|------------|------------------|
| **GPT-2** | BPE | 50,257 | `<|endoftext|>` |
| **GPT-3** | BPE | 50,257 | `<|endoftext|>` |
| **GPT-4** | BPE am√©lior√© | ~100,000 | Multiples |
| **BERT** | WordPiece | 30,522 | `[CLS]`, `[SEP]`, `[MASK]` |
| **T5** | SentencePiece | 32,000 | `<pad>`, `</s>` |

### Tokens Sp√©ciaux

Les tokenizers r√©els incluent des tokens sp√©ciaux :

```python
special_tokens = {
    '<PAD>': 0,      # Padding (pour batch)
    '<UNK>': 1,      # Unknown token
    '<BOS>': 2,      # Beginning of sequence
    '<EOS>': 3,      # End of sequence
    '<MASK>': 4,     # Masking (BERT)
}
```

### Exemple avec GPT-2 Tokenizer

```python
# Utiliser le vrai tokenizer GPT-2 (n√©cessite transformers)
from transformers import GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

text = "Hello, how are you?"
tokens = tokenizer.encode(text)
print(tokens)  # [15496, 11, 703, 389, 345, 30]

decoded = tokenizer.decode(tokens)
print(decoded)  # "Hello, how are you?"
```

---

## üí° Concepts Importants

### 1. Vocabulaire et Taille

**Trade-off** :
- **Petit vocabulaire** (5k tokens)
  - ‚úÖ Moins de param√®tres
  - ‚ùå S√©quences plus longues
  - ‚ùå Moins expressif

- **Grand vocabulaire** (100k tokens)
  - ‚úÖ S√©quences plus courtes
  - ‚úÖ Plus expressif
  - ‚ùå Plus de param√®tres
  - ‚ùå Plus de m√©moire

**Sweet spot** : 30k-50k tokens

### 2. Out-of-Vocabulary (OOV)

**Probl√®me** : Que faire avec un mot jamais vu ?

```python
# Word-level tokenizer
vocab = {"chat": 0, "chien": 1, "oiseau": 2}
text = "hamster"  # ‚ùå Pas dans le vocab !

# Solution 1: Token <UNK>
encode("hamster") ‚Üí [3]  # ID de <UNK>

# Solution 2: BPE (meilleur !)
encode("hamster") ‚Üí ["ham", "ster"] ‚Üí [456, 789]
# Pas de OOV car d√©compos√© en sous-mots connus
```

### 3. Whitespace et Ponctuation

**Important** : Comment g√©rer les espaces ?

```python
# GPT-2 utilise des "ƒ†" pour les espaces
"Hello world" ‚Üí ["Hello", "ƒ†world"]
#                         ‚Üë Espace pr√©serv√©

# Permet de reconstruire exactement le texte
```

---

## üéØ Impact de la Tokenization sur les LLMs

### 1. Longueur de S√©quence

```python
text = "L'intelligence artificielle est fascinante"

# Character-level (43 tokens)
chars = list(text)  # ['L', "'", 'i', 'n', 't', ...]

# Word-level (4 tokens)
words = text.split()  # ["L'intelligence", "artificielle", "est", "fascinante"]

# BPE (6-8 tokens)
bpe = ["L", "'", "intelligence", "artific", "ielle", "est", "fasc", "inante"]
```

**Impact** :
- Plus de tokens = Plus de calcul
- Context window limit√© (ex: 2048 tokens pour GPT-3)

### 2. Multilinguisme

**Probl√®me** : Langues non-latines

```python
# Anglais (efficace)
"Hello" ‚Üí 1 token

# Chinois (moins efficace avec BPE traditionnel)
"‰Ω†Â•Ω" ‚Üí 2-4 tokens (selon le tokenizer)

# Solution: SentencePiece (utilis√© par mT5, XLM-R)
# G√®re mieux toutes les langues
```

### 3. Code et Symboles

```python
code = "def hello(): print('Hi')"

# BPE peut mal d√©couper le code
# ‚Üí Tokenizers sp√©cialis√©s pour le code (CodeGen, CodeT5)
```

---

## üî¨ Exercice Pratique : Analyser un Texte

In [None]:
# Texte √† analyser
long_text = """
L'intelligence artificielle transforme notre monde. 
Les mod√®les de langage comme GPT-4 peuvent comprendre et g√©n√©rer du texte.
"""

print("üìù Texte original:")
print(long_text)
print(f"\nLongueur: {len(long_text)} caract√®res\n")

# Cr√©er un corpus simple
words = long_text.lower().split()
corpus_words = [word.strip('.,!?') for word in words if word.strip('.,!?')]

print(f"üìö Corpus: {len(corpus_words)} mots")

# Entra√Æner un tokenizer
small_tokenizer = SimpleBPETokenizer(vocab_size=50)
small_tokenizer.train(corpus_words, verbose=False)

print(f"\nüî§ Vocabulaire: {len(small_tokenizer.vocab)} tokens")

# Encoder le texte
encoded = small_tokenizer.encode(long_text.lower())
print(f"\nüî¢ Encod√©: {len(encoded)} tokens")
print(f"   Compression: {len(long_text) / len(encoded):.1f}√ó (caract√®res/tokens)")

# Afficher quelques tokens
print(f"\nüìä Premiers tokens:")
for i, tid in enumerate(encoded[:15]):
    token = small_tokenizer.inverse_vocab.get(tid, '<UNK>')
    print(f"   {i}: '{token}' (ID: {tid})")

---

## üéì R√©sum√© et Concepts Cl√©s

### Ce qu'on a appris

‚úÖ **Pourquoi tokenizer** : Les r√©seaux ne comprennent que les nombres  
‚úÖ **3 approches** : Character, Word, Subword (BPE)  
‚úÖ **BPE** : Algorithme de compression it√©ratif  
‚úÖ **Impl√©mentation** : Tokenizer BPE from scratch  
‚úÖ **Encode/Decode** : Texte ‚Üî IDs  

### Concepts Cl√©s

1. üîë **Token** : Unit√© de base (caract√®re, mot, ou sous-mot)
2. üîë **Vocabulaire** : Ensemble de tous les tokens possibles
3. üîë **BPE** : Fusionne it√©rativement les paires fr√©quentes
4. üîë **OOV** : Out-of-Vocabulary, r√©solu par BPE
5. üîë **Trade-offs** : Taille vocab vs longueur s√©quence

### Impact sur les LLMs

- Le tokenizer d√©termine **comment le texte est repr√©sent√©**
- Impacte la **longueur des s√©quences** (donc le co√ªt)
- Affecte le **multilinguisme** et la **gestion du code**
- GPT utilise **BPE avec ~50k tokens**

---

## üöÄ Prochaine √âtape

**Notebook 02 - Embeddings** üéØ

Maintenant qu'on sait transformer du texte en IDs, on va apprendre √† transformer ces IDs en **vecteurs riches** !

```
Texte ‚Üí Tokens ‚Üí IDs ‚Üí EMBEDDINGS (vecteurs denses)
                        ‚Üë Prochain notebook !
```

**Pourquoi c'est important ?**
- Les IDs sont juste des nombres arbitraires (145, 298, 1023)
- Les embeddings capturent la **s√©mantique** (sens)
- Mots similaires ‚Üí vecteurs proches

---

## üéØ Exercices (Optionnels)

1. **Modifier le tokenizer** : Ajouter des tokens sp√©ciaux `<PAD>`, `<UNK>`, `<BOS>`, `<EOS>`
2. **Corpus plus grand** : Entra√Æner sur un fichier texte complet
3. **Comparer** : Impl√©menter un tokenizer Word-level et comparer avec BPE
4. **Visualiser** : Cr√©er un graphe montrant comment BPE merge les tokens
5. **Explorer** : Utiliser `transformers` library pour essayer le vrai GPT-2 tokenizer

---

**Pr√™t pour les embeddings ? Let's go ! üöÄ**

**‚Üí Notebook suivant : `02_embeddings.ipynb`**