<a href="https://colab.research.google.com/github/Grelatif/Data_Science/blob/main/Tokenizers_LLMs.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1/ Build a dataset

2/ Build a tokenizer
We could use a classic (bert, gpt ...) tokenizer, but it's also fun to build ours.


In [None]:
# 📘 Exploration des Tokenizers Hugging Face

# Installe la bibliothèque Transformers
!pip install -q transformers

# Imports
from transformers import (
    BertTokenizer, RobertaTokenizer, GPT2Tokenizer,
    DistilBertTokenizer, T5Tokenizer, XLNetTokenizer, BartTokenizer
)



In [None]:

sentences = [
    "I love Hugging Face and machine learning!",
    "Transformers are amazing for NLP tasks.",
    "Short sentence.",
    "Another example to explore tokenizers.",
    "How do we handle different languages?"
]

In [None]:
decoded

'[CLS] how do we handle different languages? [SEP]'

In [None]:
# 🔤 BERT Tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

print("BERT Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)# tokens de la phrase de base
    encoded = tokenizer(sentence)#encode la phrase en un dictionnaire contenant plusieurs informations (inputs_id, attention_mask, token_type_id, mais pas les tokens)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)

# token_type_id :
# token_type_ids sont des identifiants de type de token qui sont utilisés pour indiquer à BERT
# quels tokens appartiennent à quelle partie du texte, notamment dans les cas où tu as
# deux segments de texte (par exemple, une question et sa réponse).


➡️ BERT Tokenizer
Sentence: I love Hugging Face and machine learning!
Tokens: ['i', 'love', 'hugging', 'face', 'and', 'machine', 'learning', '!']
Input IDs: [101, 1045, 2293, 17662, 2227, 1998, 3698, 4083, 999, 102]
Attention Mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Decoded: [CLS] i love hugging face and machine learning! [SEP]
--------------------------------------------------
Sentence: Transformers are amazing for NLP tasks.
Tokens: ['transformers', 'are', 'amazing', 'for', 'nl', '##p', 'tasks', '.']
Input IDs: [101, 19081, 2024, 6429, 2005, 17953, 2361, 8518, 1012, 102]
Attention Mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Decoded: [CLS] transformers are amazing for nlp tasks. [SEP]
--------------------------------------------------
Sentence: Short sentence.
Tokens: ['short', 'sentence', '.']
Input IDs: [101, 2460, 6251, 1012, 102]
Attention Mask: [1, 1, 1, 1, 1]
Decoded: [CLS] short sentence. [SEP]
--------------------------------------------------
Sentence: Another example to explore tokeniz

In [None]:
#print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
encoded["attention_mask"]
encoded.get('attention_mask', 'N/A')

[1, 1, 1, 1, 1, 1, 1, 1, 1]

In [None]:
# 🔤 RoBERTa Tokenizer
tokenizer = RobertaTokenizer.from_pretrained('roberta-base')

print("➡️ RoBERTa Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


** GPT2: **

GPT-2 est un modèle de langage auto-régressif, ce qui signifie qu'il génère du texte un token à la fois. Il prend en entrée une séquence de tokens et génère le prochain token de manière séquentielle. Il n'a pas besoin de token de début ([CLS]) ou de séparateur ([SEP]) parce qu'il génère du texte dans une seule séquence continue.

Contrairement à BERT, qui est bidirectionnel et a été formé avec des masques de tokens pour des tâches comme la classification de texte ou la prédiction de masques, GPT-2 génère simplement du texte à partir d'une séquence d'entrée et a besoin de contextualiser chaque token en fonction des précédents.

 "Ġ" représente un espace dans la tokenisation de GPT-2. C'est un token spécial qui indique où un mot commence après un espace.



In [None]:
# 🔤 GPT-2 Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

print("GPT-2 Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)
    encoded


GPT-2 Tokenizer
Sentence: I love Hugging Face and machine learning!
Tokens: ['I', 'Ġlove', 'ĠHug', 'ging', 'ĠFace', 'Ġand', 'Ġmachine', 'Ġlearning', '!']
Input IDs: [40, 1842, 12905, 2667, 15399, 290, 4572, 4673, 0]
Attention Mask: [1, 1, 1, 1, 1, 1, 1, 1, 1]
Decoded: I love Hugging Face and machine learning!
--------------------------------------------------
Sentence: Transformers are amazing for NLP tasks.
Tokens: ['Transform', 'ers', 'Ġare', 'Ġamazing', 'Ġfor', 'ĠN', 'LP', 'Ġtasks', '.']
Input IDs: [41762, 364, 389, 4998, 329, 399, 19930, 8861, 13]
Attention Mask: [1, 1, 1, 1, 1, 1, 1, 1, 1]
Decoded: Transformers are amazing for NLP tasks.
--------------------------------------------------
Sentence: Short sentence.
Tokens: ['Short', 'Ġsentence', '.']
Input IDs: [16438, 6827, 13]
Attention Mask: [1, 1, 1]
Decoded: Short sentence.
--------------------------------------------------
Sentence: Another example to explore tokenizers.
Tokens: ['Another', 'Ġexample', 'Ġto', 'Ġexplore', 'Ġtok

**DistillBert Tokenizer**

Tres similaire à celui de BERT

In [None]:
# 🔤 DistilBERT Tokenizer
tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')

print("DistilBERT Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/483 [00:00<?, ?B/s]

➡️ DistilBERT Tokenizer
Sentence: I love Hugging Face and machine learning!
Tokens: ['i', 'love', 'hugging', 'face', 'and', 'machine', 'learning', '!']
Input IDs: [101, 1045, 2293, 17662, 2227, 1998, 3698, 4083, 999, 102]
Attention Mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Decoded: [CLS] i love hugging face and machine learning! [SEP]
--------------------------------------------------
Sentence: Transformers are amazing for NLP tasks.
Tokens: ['transformers', 'are', 'amazing', 'for', 'nl', '##p', 'tasks', '.']
Input IDs: [101, 19081, 2024, 6429, 2005, 17953, 2361, 8518, 1012, 102]
Attention Mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Decoded: [CLS] transformers are amazing for nlp tasks. [SEP]
--------------------------------------------------
Sentence: Short sentence.
Tokens: ['short', 'sentence', '.']
Input IDs: [101, 2460, 6251, 1012, 102]
Attention Mask: [1, 1, 1, 1, 1]
Decoded: [CLS] short sentence. [SEP]
--------------------------------------------------
Sentence: Another example to explore t

** T5 Tokenizer**

Le T5 tokenizer utilise une méthode de tokenisation appelée SentencePiece.

SentencePiece est une approche qui découpe le texte en sous-mots (similaire à WordPiece), mais contrairement à WordPiece, il n'a pas besoin d'un vocabulaire préexistant. SentencePiece apprend son vocabulaire directement à partir des données et peut également gérer des unités de caractères.

SentencePiece fonctionne sur l'idée que les mots ou les caractères peuvent être des unités atomiques (par exemple, une unité pourrait être un caractère, une racine de mot ou un mot entier).

Exemple : Le mot "unhappiness" pourrait être découpé en ["▁un", "happiness"], où "▁" représente un espace dans le vocabulaire de SentencePiece.



In [None]:
# 🔤 T5 Tokenizer
tokenizer = T5Tokenizer.from_pretrained('t5-small')

print("T5 Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


tokenizer_config.json:   0%|          | 0.00/2.32k [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.39M [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


➡️ T5 Tokenizer
Sentence: I love Hugging Face and machine learning!
Tokens: ['▁I', '▁love', '▁Hug', 'ging', '▁Face', '▁and', '▁machine', '▁learning', '!']
Input IDs: [27, 333, 11560, 3896, 8881, 11, 1437, 1036, 55, 1]
Attention Mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Decoded: I love Hugging Face and machine learning!</s>
--------------------------------------------------
Sentence: Transformers are amazing for NLP tasks.
Tokens: ['▁Transformer', 's', '▁are', '▁amazing', '▁for', '▁N', 'LP', '▁tasks', '.']
Input IDs: [31220, 7, 33, 1237, 21, 445, 6892, 4145, 5, 1]
Attention Mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Decoded: Transformers are amazing for NLP tasks.</s>
--------------------------------------------------
Sentence: Short sentence.
Tokens: ['▁Short', '▁sentence', '.']
Input IDs: [7110, 7142, 5, 1]
Attention Mask: [1, 1, 1, 1]
Decoded: Short sentence.</s>
--------------------------------------------------
Sentence: Another example to explore tokenizers.
Tokens: ['▁Another', '▁example', 

In [None]:
encoded

{'input_ids': [1134, 112, 80, 2634, 332, 4836, 82, 4, 3], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

** XLnet **

XLNet combine les caractéristiques des modèles autoregressifs (comme GPT) et des modèles bidirectionnels (comme BERT).

BERT apprend à prédire des tokens masqués dans une séquence en utilisant un apprentissage bidirectionnel, ce qui signifie qu'il regarde à la fois les tokens à gauche et à droite du token masqué.

XLNet n'utilise pas de masquage traditionnel comme BERT. Au lieu de cela, il utilise une approche de permutation autoregressive, où il apprend à prédire chaque token en fonction des autres tokens dans une permutation aléatoire de la séquence.

Cela signifie qu'XLNet permet au modèle de capturer des relations contextuelles à la fois de gauche à droite et de droite à gauche sans avoir besoin d'un token de type [CLS] ou [SEP], comme dans BERT.

In [None]:
# 🔤 XLNet Tokenizer
tokenizer = XLNetTokenizer.from_pretrained('xlnet-base-cased')

print("XLNet Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


spiece.model:   0%|          | 0.00/798k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.38M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/760 [00:00<?, ?B/s]

➡️ XLNet Tokenizer
Sentence: I love Hugging Face and machine learning!
Tokens: ['▁I', '▁love', '▁Hu', 'gging', '▁Face', '▁and', '▁machine', '▁learning', '!']
Input IDs: [35, 564, 2580, 9815, 12274, 21, 2138, 1899, 136, 4, 3]
Attention Mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Decoded: I love Hugging Face and machine learning!<sep><cls>
--------------------------------------------------
Sentence: Transformers are amazing for NLP tasks.
Tokens: ['▁', 'Transform', 'ers', '▁are', '▁amazing', '▁for', '▁N', 'LP', '▁tasks', '.']
Input IDs: [17, 21442, 270, 41, 3704, 28, 578, 7286, 6243, 9, 4, 3]
Attention Mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Decoded: Transformers are amazing for NLP tasks.<sep><cls>
--------------------------------------------------
Sentence: Short sentence.
Tokens: ['▁Short', '▁sentence', '.']
Input IDs: [8338, 3833, 9, 4, 3]
Attention Mask: [1, 1, 1, 1, 1]
Decoded: Short sentence.<sep><cls>
--------------------------------------------------
Sentence: Another example to 

**Bart**

Tokenisation avec BPE : BART utilise un vocabulaire basé sur BPE, ce qui permet de découper les mots en sous-mots.

BPE est une méthode similaire à WordPiece et SentencePiece dans le sens où elle découpe des mots en sous-mots pour les rendre plus manipulables par le modèle, mais l'algorithme d'apprentissage est légèrement différent.

BPE cherche à maximiser la fréquence des paires de caractères dans un texte, et en combinant ces paires, le vocabulaire se construit de manière dynamique.


In [None]:
# 🔤 BART Tokenizer
tokenizer = BartTokenizer.from_pretrained('facebook/bart-base')

print("➡️ BART Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.72k [00:00<?, ?B/s]

➡️ BART Tokenizer
Sentence: I love Hugging Face and machine learning!
Tokens: ['I', 'Ġlove', 'ĠHug', 'ging', 'ĠFace', 'Ġand', 'Ġmachine', 'Ġlearning', '!']
Input IDs: [0, 100, 657, 30581, 3923, 12346, 8, 3563, 2239, 328, 2]
Attention Mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Decoded: <s>I love Hugging Face and machine learning!</s>
--------------------------------------------------
Sentence: Transformers are amazing for NLP tasks.
Tokens: ['Transform', 'ers', 'Ġare', 'Ġamazing', 'Ġfor', 'ĠN', 'LP', 'Ġtasks', '.']
Input IDs: [0, 44820, 268, 32, 2770, 13, 234, 21992, 8558, 4, 2]
Attention Mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Decoded: <s>Transformers are amazing for NLP tasks.</s>
--------------------------------------------------
Sentence: Short sentence.
Tokens: ['Short', 'Ġsentence', '.']
Input IDs: [0, 34256, 3645, 4, 2]
Attention Mask: [1, 1, 1, 1, 1]
Decoded: <s>Short sentence.</s>
--------------------------------------------------
Sentence: Another example to explore tokenizers.
T

In [None]:
# Batch Encoding avec Padding et Troncature
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
batch = tokenizer.batch_encode_plus(
    sentences,
    padding=True,
    truncation=True,
    return_tensors="pt"
)

print("Batch Encoding")
print(batch)


Batch Encoding
{'input_ids': tensor([[  101,  1045,  2293, 17662,  2227,  1998,  3698,  4083,   999,   102],
        [  101, 19081,  2024,  6429,  2005, 17953,  2361,  8518,  1012,   102],
        [  101,  2460,  6251,  1012,   102,     0,     0,     0,     0,     0],
        [  101,  2178,  2742,  2000,  8849, 19204, 17629,  2015,  1012,   102],
        [  101,  2129,  2079,  2057,  5047,  2367,  4155,  1029,   102,     0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 0, 0, 0, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 0]])}


In [None]:
# Comparaison du nombre de tokens pour chaque tokenizer dans une liste de phrases
tokenizers = {
    "BERT": BertTokenizer.from_pretrained("bert-base-uncased"),
    "RoBERTa": RobertaTokenizer.from_pretrained("roberta-base"),
    "GPT-2": GPT2Tokenizer.from_pretrained("gpt2"),
    "T5": T5Tokenizer.from_pretrained("t5-small"),
}

print("🔍 Comparaison des tokens pour chaque tokenizer:")
for name, tokenizer in tokenizers.items():
    for sentence in sentences:
        tokens = tokenizer.tokenize(sentence)
        print(f"{name} -> Sentence: '{sentence}' -> {len(tokens)} tokens")
        print(f"{name} -> tokens: {tokens}")


# QUite a lot of differences, and usecases.


🔍 Comparaison des tokens pour chaque tokenizer:
BERT -> Sentence: 'I love Hugging Face and machine learning!' -> 8 tokens
BERT -> tokens: ['i', 'love', 'hugging', 'face', 'and', 'machine', 'learning', '!']
BERT -> Sentence: 'Transformers are amazing for NLP tasks.' -> 8 tokens
BERT -> tokens: ['transformers', 'are', 'amazing', 'for', 'nl', '##p', 'tasks', '.']
BERT -> Sentence: 'Short sentence.' -> 3 tokens
BERT -> tokens: ['short', 'sentence', '.']
BERT -> Sentence: 'Another example to explore tokenizers.' -> 8 tokens
BERT -> tokens: ['another', 'example', 'to', 'explore', 'token', '##izer', '##s', '.']
BERT -> Sentence: 'How do we handle different languages?' -> 7 tokens
BERT -> tokens: ['how', 'do', 'we', 'handle', 'different', 'languages', '?']
RoBERTa -> Sentence: 'I love Hugging Face and machine learning!' -> 9 tokens
RoBERTa -> tokens: ['I', 'Ġlove', 'ĠHug', 'ging', 'ĠFace', 'Ġand', 'Ġmachine', 'Ġlearning', '!']
RoBERTa -> Sentence: 'Transformers are amazing for NLP tasks.' -> 9

In [None]:
# # let's wrap up all the info we saw

# Modèle	    Tokenizer	          Méthode	    Tokens spéciaux (exemples)	    Type de modèle	          Utilisation typique
# BERT	      BertTokenizer	      WordPiece	    [CLS], [SEP], [PAD], [MASK]	  Encodeur	                Classification, QA, NER
# DistilBERT	DistilBertTokenizer	WordPiece	    [CLS], [SEP], [PAD], [MASK]	  Encodeur                  (light BERT)	Idem BERT, + rapide
# RoBERTa	    RobertaTokenizer	  BPE	          <s>, </s>, <pad>, <mask>	    Encodeur	                Idem BERT, + robuste
# XLNet	      XLNetTokenizer	    WordPiece	    [CLS], [SEP], [PAD], [MASK]	  Permuté + autoregressif 	QA, texte long, perf. élevée
# GPT-2	      GPT2Tokenizer	      BPE	Aucun     [CLS]/[SEP], pas de padding	  Décodeur autoregressif	  Génération de texte
# BART	      BartTokenizer	      BPE	          <s>, </s>, <pad>, <mask>	    Encodeur-décodeur	        Résumé, traduction, génération
# T5	        T5Tokenizer	        SentencePiece	<pad>, </s>, <unk>	          Encodeur-décodeur	        Tâches text-to-text

