# Comprendre et manipuler la tokenisation dans les LLM

Ce notebook a pour objectif d‚Äôintroduire la tokenisation, une √©tape fondamentale
dans le fonctionnement des mod√®les de langage de grande taille (LLM).

La tokenisation constitue l‚Äôinterface entre le langage naturel et les mod√®les
num√©riques : elle d√©termine comment un texte est d√©coup√©, repr√©sent√© et interpr√©t√©
par un mod√®le.

√Ä la fin de ce notebook, vous serez capable de :
- expliquer ce qu‚Äôest un token et un tokenizer,
- comparer diff√©rentes strat√©gies de tokenisation,
- manipuler des tokenizers modernes utilis√©s dans les LLM,
- comprendre l‚Äôimpact de la tokenisation sur les performances et les co√ªts.


____

# Pourquoi la tokenisation est n√©cessaire
## 1. Du texte au num√©rique

Un mod√®le de langage est un mod√®le math√©matique : il ne peut pas traiter directement
du texte brut. Toute information doit √™tre repr√©sent√©e sous forme num√©rique.

La tokenisation est le processus qui permet de transformer un texte en une s√©quence
d‚Äôunit√©s discr√®tes appel√©es *tokens*, lesquelles seront ensuite converties en
repr√©sentations num√©riques exploitables par le mod√®le.


## 2. Qu‚Äôest-ce qu‚Äôun token ?

Un token est l‚Äôunit√© de base manipul√©e par un mod√®le de langage.
Il ne correspond pas n√©cessairement √† un mot entier : il peut s‚Äôagir d‚Äôune partie de
mot, d‚Äôun caract√®re, d‚Äôun nombre ou d‚Äôun symbole.

Le d√©coupage en tokens d√©pend enti√®rement du *tokenizer* utilis√©.
Un m√™me texte peut donc √™tre d√©coup√© diff√©remment selon le mod√®le.


## 3. Qu‚Äôest-ce qu‚Äôun tokenizer ?

Un tokenizer est le composant charg√© de transformer un texte brut en une s√©quence de tokens selon un ensemble de r√®gles et de param√®tres appris ou d√©finis. 

Il d√©termine la mani√®re dont le texte est d√©coup√©, quels symboles sont reconnus comme des unit√©s valides et comment ces unit√©s sont associ√©es √† des identifiants num√©riques. 

Le tokenizer joue un r√¥le central dans le fonctionnement d‚Äôun mod√®le de langage, car il conditionne la repr√©sentation du texte, la taille du vocabulaire, la longueur des s√©quences et, par cons√©quent, les performances et le co√ªt computationnel du mod√®le. 

Chaque tokenizer est sp√©cifiquement con√ßu pour √™tre compatible avec un mod√®le donn√©, et toute incoh√©rence entre le tokenizer et le mod√®le entra√Æne une d√©gradation significative des r√©sultats.

____

# Les diff√©rentes tokenisations

## Tokenisation na√Øve par mots

Le texte est d√©coup√© en mots entiers s√©par√©s par des espaces ou des signes de ponctuation : 

In [1]:
text = "Les mod√®les de langage sont fascinants."
tokens = text.split()
tokens

['Les', 'mod√®les', 'de', 'langage', 'sont', 'fascinants.']

Cette approche est simple mais pose rapidement probl√®me :
- le vocabulaire devient tr√®s grand,
- les mots inconnus ne peuvent pas √™tre repr√©sent√©s,
- la g√©n√©ralisation est limit√©e.

## Tokenisation par caract√®res

Chaque caract√®re du texte est trait√© comme un token, garantissant une couverture compl√®te du vocabulaire au prix de s√©quences tr√®s longues : 

In [3]:
list(text)

['L',
 'e',
 's',
 ' ',
 'm',
 'o',
 'd',
 '√®',
 'l',
 'e',
 's',
 ' ',
 'd',
 'e',
 ' ',
 'l',
 'a',
 'n',
 'g',
 'a',
 'g',
 'e',
 ' ',
 's',
 'o',
 'n',
 't',
 ' ',
 'f',
 'a',
 's',
 'c',
 'i',
 'n',
 'a',
 'n',
 't',
 's',
 '.']

La tokenisation par caract√®res r√©sout le probl√®me des mots inconnus,
mais elle produit des s√©quences tr√®s longues, ce qui augmente fortement
le co√ªt computationnel.

## Tokenisation par sous-mots

Les LLM modernes utilisent majoritairement des tokenizations bas√©es sur des sous-mots.
L‚Äôid√©e est de d√©couper les mots en unit√©s fr√©quentes, r√©utilisables, permettant
de g√©rer efficacement les mots rares ou inconnus.

Exemple :
- "incompr√©hensible" ‚Üí "in" + "compr√©hens" + "ible"


In [4]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
text = "Tokenization is a crucial step in natural language processing."
tokens = tokenizer.tokenize(text)
tokens


config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

['token',
 '##ization',
 'is',
 'a',
 'crucial',
 'step',
 'in',
 'natural',
 'language',
 'processing',
 '.']

On observe que le texte est d√©coup√© en sous-unit√©s, et non en mots stricts.


In [5]:
token_ids = tokenizer.encode(text)
token_ids

[101, 19204, 3989, 2003, 1037, 10232, 3357, 1999, 3019, 2653, 6364, 1012, 102]

Les mod√®les ne manipulent pas directement les tokens textuels, mais leurs identifiants num√©riques associ√©s.


## Tokenisation au niveau des bytes (byte-level tokenization)  

Le texte est tokenis√© √† partir des octets qui le composent, assurant une repr√©sentation universelle et ind√©pendante de la langue.

In [10]:
text = "Prix : 199,99‚Ç¨ üòÑ"

# Encodage UTF-8 en bytes
byte_tokens = text.encode("utf-8")

byte_tokens


b'Prix : 199,99\xe2\x82\xac \xf0\x9f\x98\x84'

In [11]:
list(byte_tokens)

[80,
 114,
 105,
 120,
 32,
 58,
 32,
 49,
 57,
 57,
 44,
 57,
 57,
 226,
 130,
 172,
 32,
 240,
 159,
 152,
 132]

In [12]:
bytes(byte_tokens).decode("utf-8")

'Prix : 199,99‚Ç¨ üòÑ'

## Tokenisation hybride 

Plusieurs niveaux de tokenisation sont combin√©s afin d‚Äô√©quilibrer robustesse, efficacit√© et pr√©cision selon le contexte d‚Äôutilisation.

Principe :
* on tokenise d‚Äôabord par mots connus,
* sinon on d√©coupe en sous-mots,
* sinon on retombe au niveau byte ou caract√®re.

In [13]:
tokenizer = AutoTokenizer.from_pretrained("gpt2")

text = "ChatGPTification ultra-m√©ta-quantique üòÑ"
tokens = tokenizer.tokenize(text)

tokens

['Chat',
 'G',
 'PT',
 'ification',
 'ƒ†ultra',
 '-',
 'm',
 '√É¬©',
 'ta',
 '-',
 'quant',
 'ique',
 'ƒ†√∞≈Åƒ∫',
 'ƒ¶']

In [14]:
tokenizer.encode(text)

[30820,
 38,
 11571,
 2649,
 14764,
 12,
 76,
 2634,
 8326,
 12,
 40972,
 2350,
 30325,
 226]

## Reconstruction du texte

In [6]:
tokenizer.convert_ids_to_tokens(token_ids)

['[CLS]',
 'token',
 '##ization',
 'is',
 'a',
 'crucial',
 'step',
 'in',
 'natural',
 'language',
 'processing',
 '.',
 '[SEP]']

In [7]:
tokenizer.decode(token_ids)

'[CLS] tokenization is a crucial step in natural language processing. [SEP]'

## Comparaison de tokenizers

In [8]:
models = [
    "bert-base-uncased",
    "gpt2",
    "xlm-roberta-base"
]

text = "L'internationalisation des mod√®les de langage est complexe."

for model in models:
    tok = AutoTokenizer.from_pretrained(model)
    print(f"\nTokenizer: {model}")
    print(tok.tokenize(text))
    print("Nombre de tokens:", len(tok.tokenize(text)))



Tokenizer: bert-base-uncased
['l', "'", 'international', '##isation', 'des', 'model', '##es', 'de', 'lang', '##age', 'est', 'complex', '##e', '.']
Nombre de tokens: 14


config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]


Tokenizer: gpt2
['L', "'", 'international', 'isation', 'ƒ†des', 'ƒ†mod', '√É¬®', 'les', 'ƒ†de', 'ƒ†lang', 'age', 'ƒ†est', 'ƒ†complex', 'e', '.']
Nombre de tokens: 15


config.json:   0%|          | 0.00/615 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]


Tokenizer: xlm-roberta-base
['‚ñÅL', "'", 'international', 'isation', '‚ñÅdes', '‚ñÅmod√®les', '‚ñÅde', '‚ñÅlang', 'age', '‚ñÅest', '‚ñÅcomplexe', '.']
Nombre de tokens: 12


## Impact pratique de la tokenisation

Les limites de contexte des LLM sont exprim√©es en nombre de tokens,
pas en nombre de mots ou de caract√®res.

Deux textes de longueur similaire peuvent donc avoir des co√ªts tr√®s diff√©rents
selon leur tokenisation.


## Cas limites

In [9]:
texts = [
    "ChatGPTification ultra-m√©ta-quantique",
    "Prix : 199,99‚Ç¨ üòÑ",
    "anticonstitutionnellement"
]

for t in texts:
    print(t)
    print(tokenizer.tokenize(t))
    print()


ChatGPTification ultra-m√©ta-quantique
['chat', '##gp', '##ti', '##fication', 'ultra', '-', 'meta', '-', 'quan', '##tique']

Prix : 199,99‚Ç¨ üòÑ
['prix', ':', '199', ',', '99', '##‚Ç¨', '[UNK]']

anticonstitutionnellement
['anti', '##con', '##sti', '##tu', '##tion', '##nell', '##ement']



## Conclusion

La tokenisation est une √©tape fondamentale dans les LLM.
Elle conditionne la repr√©sentation du texte, la longueur des s√©quences,
les performances des mod√®les et leur co√ªt d‚Äôutilisation.

Comprendre la tokenisation, c‚Äôest comprendre comment un mod√®le de langage
lit r√©ellement le langage humain.
