# Comprendre et manipuler la tokenisation dans les LLM

Ce notebook a pour objectif d‚Äôintroduire la tokenisation, une √©tape fondamentale
dans le fonctionnement des mod√®les de langage de grande taille (LLM).

La tokenisation constitue l‚Äôinterface entre le langage naturel et les mod√®les
num√©riques : elle d√©termine comment un texte est d√©coup√©, repr√©sent√© et interpr√©t√©
par un mod√®le.

√Ä la fin de ce notebook, vous serez capable de :
- expliquer ce qu‚Äôest un token et un tokenizer,
- comparer diff√©rentes strat√©gies de tokenisation,
- manipuler des tokenizers modernes utilis√©s dans les LLM,
- comprendre l‚Äôimpact de la tokenisation sur les performances et les co√ªts.


____

# Pourquoi la tokenisation est n√©cessaire
## 1. Du texte au num√©rique

Un mod√®le de langage est un mod√®le math√©matique : il ne peut pas traiter directement
du texte brut. Toute information doit √™tre repr√©sent√©e sous forme num√©rique.

La tokenisation est le processus qui permet de transformer un texte en une s√©quence
d‚Äôunit√©s discr√®tes appel√©es *tokens*, lesquelles seront ensuite converties en
repr√©sentations num√©riques exploitables par le mod√®le.


## 2. Qu‚Äôest-ce qu‚Äôun token ?

Un token est l‚Äôunit√© de base manipul√©e par un mod√®le de langage.
Il ne correspond pas n√©cessairement √† un mot entier : il peut s‚Äôagir d‚Äôune partie de
mot, d‚Äôun caract√®re, d‚Äôun nombre ou d‚Äôun symbole.

Le d√©coupage en tokens d√©pend enti√®rement du *tokenizer* utilis√©.
Un m√™me texte peut donc √™tre d√©coup√© diff√©remment selon le mod√®le.


## 3. Qu‚Äôest-ce qu‚Äôun tokenizer ?

Un tokenizer est le composant charg√© de transformer un texte brut en une s√©quence de tokens selon un ensemble de r√®gles et de param√®tres appris ou d√©finis. 

Il d√©termine la mani√®re dont le texte est d√©coup√©, quels symboles sont reconnus comme des unit√©s valides et comment ces unit√©s sont associ√©es √† des identifiants num√©riques. 

Le tokenizer joue un r√¥le central dans le fonctionnement d‚Äôun mod√®le de langage, car il conditionne la repr√©sentation du texte, la taille du vocabulaire, la longueur des s√©quences et, par cons√©quent, les performances et le co√ªt computationnel du mod√®le. 

Chaque tokenizer est sp√©cifiquement con√ßu pour √™tre compatible avec un mod√®le donn√©, et toute incoh√©rence entre le tokenizer et le mod√®le entra√Æne une d√©gradation significative des r√©sultats.

____

# Les diff√©rentes tokenisations

## Tokenisation na√Øve par mots

Le texte est d√©coup√© en mots entiers s√©par√©s par des espaces ou des signes de ponctuation : 

![](../images/tokenisation.png)

In [8]:
text = "Les mod√®les de langage sont fascinants."
tokens = text.split()
tokens

['Les', 'mod√®les', 'de', 'langage', 'sont', 'fascinants.']

Cette approche est simple mais pose rapidement probl√®me :
- le vocabulaire devient tr√®s grand,
- les mots inconnus ne peuvent pas √™tre repr√©sent√©s,
- la g√©n√©ralisation est limit√©e.

## Tokenisation par caract√®res

Chaque caract√®re du texte est trait√© comme un token, garantissant une couverture compl√®te du vocabulaire au prix de s√©quences tr√®s longues : 

In [9]:
list(text)

['L',
 'e',
 's',
 ' ',
 'm',
 'o',
 'd',
 '√®',
 'l',
 'e',
 's',
 ' ',
 'd',
 'e',
 ' ',
 'l',
 'a',
 'n',
 'g',
 'a',
 'g',
 'e',
 ' ',
 's',
 'o',
 'n',
 't',
 ' ',
 'f',
 'a',
 's',
 'c',
 'i',
 'n',
 'a',
 'n',
 't',
 's',
 '.']

La tokenisation par caract√®res r√©sout le probl√®me des mots inconnus,
mais elle produit des s√©quences tr√®s longues, ce qui augmente fortement
le co√ªt computationnel.

## Tokenisation par sous-mots

Les LLM modernes utilisent majoritairement des tokenizations bas√©es sur des sous-mots.
L‚Äôid√©e est de d√©couper les mots en unit√©s fr√©quentes, r√©utilisables, permettant
de g√©rer efficacement les mots rares ou inconnus.

Exemple :
- "incompr√©hensible" ‚Üí "in" + "compr√©hens" + "ible"


![](../images/tokenisation_illustration.jpg)

In [10]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
text = "Tokenization is computationally fascinating."
tokens = tokenizer.tokenize(text)
tokens


['token', '##ization', 'is', 'computational', '##ly', 'fascinating', '.']

On observe que le texte est d√©coup√© en sous-unit√©s, et non en mots stricts. 

De plus, le pr√©fixe `##` indique que le token est une continuation d‚Äôun mot pr√©c√©dent.



In [11]:
token_ids = tokenizer.encode(text)
token_ids

[101, 19204, 3989, 2003, 15078, 2135, 17160, 1012, 102]

Les mod√®les ne manipulent pas directement les tokens textuels, mais leurs identifiants num√©riques associ√©s.


## Tokenisation au niveau des bytes (byte-level tokenization)  

Le texte est tokenis√© √† partir des octets qui le composent, assurant une repr√©sentation universelle et ind√©pendante de la langue.

In [12]:
text = "Prix : 199,99‚Ç¨ üòÑ"

# Encodage UTF-8 en bytes
byte_tokens = text.encode("utf-8")

byte_tokens


b'Prix : 199,99\xe2\x82\xac \xf0\x9f\x98\x84'

In [13]:
list(byte_tokens)

[80,
 114,
 105,
 120,
 32,
 58,
 32,
 49,
 57,
 57,
 44,
 57,
 57,
 226,
 130,
 172,
 32,
 240,
 159,
 152,
 132]

In [14]:
bytes(byte_tokens).decode("utf-8")

'Prix : 199,99‚Ç¨ üòÑ'

## Tokenisation hybride 

Plusieurs niveaux de tokenisation sont combin√©s afin d‚Äô√©quilibrer robustesse, efficacit√© et pr√©cision selon le contexte d‚Äôutilisation.

Principe :
* on tokenise d‚Äôabord par mots connus,
* sinon on d√©coupe en sous-mots,
* sinon on retombe au niveau byte ou caract√®re.

In [15]:
tokenizer = AutoTokenizer.from_pretrained("gpt2")

text = "ChatGPTification ultra-m√©ta-quantique üòÑ"
tokens = tokenizer.tokenize(text)

tokens

['Chat',
 'G',
 'PT',
 'ification',
 'ƒ†ultra',
 '-',
 'm',
 '√É¬©',
 'ta',
 '-',
 'quant',
 'ique',
 'ƒ†√∞≈Åƒ∫',
 'ƒ¶']

In [16]:
tokenizer.encode(text)

[30820,
 38,
 11571,
 2649,
 14764,
 12,
 76,
 2634,
 8326,
 12,
 40972,
 2350,
 30325,
 226]

## Impact pratique de la tokenisation

Les limites de contexte des LLM sont exprim√©es en nombre de tokens,
pas en nombre de mots ou de caract√®res.

Deux textes de longueur similaire peuvent donc avoir des co√ªts tr√®s diff√©rents
selon leur tokenisation.

Les mod√®les OpenAI utilisent un tokenizer sp√©cifique optimis√© pour leurs mod√®les.
La biblioth√®que `tiktoken` permet de reproduire exactement la tokenisation
utilis√©e en production.

Cela permet notamment :
- de compter pr√©cis√©ment le nombre de tokens,
- d'estimer le co√ªt d'une requ√™te API,
- de v√©rifier la compatibilit√© avec la limite de contexte.


In [24]:
import tiktoken

# Charger le tokenizer associ√© au mod√®le
tokenizer = tiktoken.encoding_for_model("gpt-4o")

# Exemple de texte √† tokeniser
sample_text = "Every moment is a beginning"

# Tokeniser le texte
token_ids = tokenizer.encode(sample_text)

# Afficher les r√©sultats
print("Text:", sample_text)
print("Token ids:", token_ids)
print("Number of tokens:", len(token_ids))

# D√©coder les tokens pour v√©rifier la correspondance avec le texte original
decoded_text = tokenizer.decode(token_ids)
print("Decoded text:", decoded_text)

print("Nombre de mots:", len(sample_text.split()))
print("Nombre de caract√®res:", len(sample_text))

# -------------------------------------------------------
# Estimation du co√ªt (exemple p√©dagogique concret)
# -------------------------------------------------------

# Supposons un tarif fictif mais r√©aliste :
# 5 $ par million de tokens en entr√©e
# 15 $ par million de tokens en sortie

price_input_per_million = 5.0
price_output_per_million = 15.0

input_tokens = len(token_ids)
output_tokens = 50  # Supposons que le mod√®le g√©n√®re 50 tokens en r√©ponse

estimated_cost = (
    (input_tokens / 1_000_000) * price_input_per_million
    + (output_tokens / 1_000_000) * price_output_per_million
)

print(f"Estimation du co√ªt (exemple fictif) : ${estimated_cost:.8f}")


Text: Every moment is a beginning
Token ids: [15745, 4205, 382, 261, 10526]
Number of tokens: 5
Decoded text: Every moment is a beginning
Nombre de mots: 5
Nombre de caract√®res: 27
Estimation du co√ªt (exemple fictif) : $0.00077500


Ici : 
- Le texte est converti en une s√©quence d'identifiants num√©riques.
- Chaque identifiant correspond √† un token du vocabulaire du mod√®le.
- Le nombre de tokens n'est pas n√©cessairement √©gal au nombre de mots.

Les API de mod√®les de langage facturent g√©n√©ralement au nombre de tokens.
Nous illustrons ici une estimation de co√ªt en utilisant un exemple tarifaire fictif
(les prix r√©els d√©pendent du mod√®le et peuvent √©voluer).

____

# Comparaison de tokenizers

Tous les mod√®les de langage ne tokenisent pas le texte de la m√™me mani√®re.
Chaque mod√®le est entra√Æn√© avec un tokenizer sp√©cifique, bas√© sur des choix
techniques diff√©rents (WordPiece, Byte-Level BPE, SentencePiece, etc.).

Nous allons comparer trois tokenizers associ√©s √† des mod√®les populaires :

- BERT (WordPiece)
- GPT-2 (Byte-Level BPE)
- XLM-RoBERTa (SentencePiece)

L'objectif est d'observer :
- les diff√©rences de d√©coupage,
- le nombre de tokens g√©n√©r√©s,
- l'impact des choix de tokenisation.

In [19]:
models = [
    "bert-base-uncased",
    "gpt2",
    "xlm-roberta-base"
]

text = "L'internationalisation des mod√®les de langage est complexe."

for model in models:
    tok = AutoTokenizer.from_pretrained(model)
    print(f"\nTokenizer: {model}")
    print(tok.tokenize(text))
    print("Nombre de tokens:", len(tok.tokenize(text)))



Tokenizer: bert-base-uncased
['l', "'", 'international', '##isation', 'des', 'model', '##es', 'de', 'lang', '##age', 'est', 'complex', '##e', '.']
Nombre de tokens: 14

Tokenizer: gpt2
['L', "'", 'international', 'isation', 'ƒ†des', 'ƒ†mod', '√É¬®', 'les', 'ƒ†de', 'ƒ†lang', 'age', 'ƒ†est', 'ƒ†complex', 'e', '.']
Nombre de tokens: 15

Tokenizer: xlm-roberta-base
['‚ñÅL', "'", 'international', 'isation', '‚ñÅdes', '‚ñÅmod√®les', '‚ñÅde', '‚ñÅlang', 'age', '‚ñÅest', '‚ñÅcomplexe', '.']
Nombre de tokens: 12


## 1. BERT (WordPiece)

- Les sous-mots sont indiqu√©s par le pr√©fixe `##`.
- Exemple : "internationalisation" ‚Üí "international" + "##isation".
- Les accents sont supprim√©s (mod√®les uncased).
- Le texte fran√ßais est partiellement d√©grad√© ("mod√®les" ‚Üí "model" + "##es").

BERT est optimis√© pour l'anglais, ce qui explique certaines approximations
sur le fran√ßais.

Nombre de tokens : 14


## 2. GPT-2 (Byte-Level BPE)

- Les espaces sont encod√©s avec le symbole `ƒ†`.
- Les caract√®res accentu√©s sont d√©compos√©s en bytes ("mod√®les" ‚Üí "√É¬®").
- Le mod√®le fonctionne au niveau des bytes, ce qui garantit une couverture universelle.

GPT-2 n'a pas √©t√© sp√©cifiquement entra√Æn√© pour le fran√ßais,
ce qui explique certains d√©coupages peu naturels.

Nombre de tokens : 15


## 3. XLM-RoBERTa (SentencePiece)

- Le symbole `‚ñÅ` repr√©sente un espace.
- Les mots fran√ßais sont mieux conserv√©s ("mod√®les", "complexe").
- Le mod√®le est multilingue, ce qui am√©liore la tokenisation du fran√ßais.

Nombre de tokens : 12


## Cas limites

In [20]:
texts = [
    "ChatGPTification ultra-m√©ta-quantique",
    "Prix : 199,99‚Ç¨ üòÑ",
    "anticonstitutionnellement"
]

for t in texts:
    print(t)
    print(tokenizer.tokenize(t))
    print()


ChatGPTification ultra-m√©ta-quantique
['Chat', 'G', 'PT', 'ification', 'ƒ†ultra', '-', 'm', '√É¬©', 'ta', '-', 'quant', 'ique']

Prix : 199,99‚Ç¨ üòÑ
['P', 'rix', 'ƒ†:', 'ƒ†199', ',', '99', '√¢ƒ§¬¨', 'ƒ†√∞≈Åƒ∫', 'ƒ¶']

anticonstitutionnellement
['ant', 'icon', 'st', 'itution', 'nel', 'lement']



Ces exemples illustrent plusieurs propri√©t√©s importantes du tokenizer GPT-2 :

1. Les mots inconnus ou n√©ologismes sont d√©coup√©s en sous-unit√©s connues.
2. Les caract√®res accentu√©s, symboles et emojis sont repr√©sent√©s via un encodage byte-level.
3. Les mots longs sont segment√©s en fragments morphologiques fr√©quents.

Cela montre que la tokenisation moderne vise un compromis entre :
- robustesse universelle (via les bytes),
- efficacit√© du vocabulaire,
- capacit√© de g√©n√©ralisation.


____

# Conclusion

La tokenisation est une √©tape fondamentale dans les LLM.
Elle conditionne la repr√©sentation du texte, la longueur des s√©quences,
les performances des mod√®les et leur co√ªt d‚Äôutilisation.

Comprendre la tokenisation, c‚Äôest comprendre comment un mod√®le de langage
lit r√©ellement le langage humain.
