<a href="https://colab.research.google.com/github/Grelatif/Data_Science/blob/main/LLMs_Tokenizers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#  Exploration des Tokenizers Hugging Face

# Installe la bibliothèque Transformers
!pip install -q transformers

# Imports
from transformers import (
    BertTokenizer, RobertaTokenizer, GPT2Tokenizer,
    DistilBertTokenizer, T5Tokenizer, XLNetTokenizer, BartTokenizer
)



In [None]:

sentences = [
    "I love Hugging Face and machine learning!",
    "Transformers are amazing for NLP tasks.",
    "Short sentence.",
    "Another example to explore tokenizers.",
    "How do we handle different languages?"
]

In [None]:
# BERT Tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

print("BERT Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)# tokens de la phrase de base
    encoded = tokenizer(sentence)#encode la phrase en un dictionnaire contenant plusieurs informations (inputs_id, attention_mask, token_type_id, mais pas les tokens)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)

# token_type_id :
# token_type_ids sont des identifiants de type de token qui sont utilisés pour indiquer à BERT
# quels tokens appartiennent à quelle partie du texte, notamment dans les cas où tu as
# deux segments de texte (par exemple, une question et sa réponse).


In [None]:
#print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
encoded["attention_mask"]
encoded.get('attention_mask', 'N/A')

In [None]:
# RoBERTa Tokenizer
tokenizer = RobertaTokenizer.from_pretrained('roberta-base')

print("RoBERTa Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


** GPT2: **

GPT-2 est un modèle de langage auto-régressif, ce qui signifie qu'il génère du texte un token à la fois. Il prend en entrée une séquence de tokens et génère le prochain token de manière séquentielle. Il n'a pas besoin de token de début ([CLS]) ou de séparateur ([SEP]) parce qu'il génère du texte dans une seule séquence continue.

Contrairement à BERT, qui est bidirectionnel et a été formé avec des masques de tokens pour des tâches comme la classification de texte ou la prédiction de masques, GPT-2 génère simplement du texte à partir d'une séquence d'entrée et a besoin de contextualiser chaque token en fonction des précédents.

 "Ġ" représente un espace dans la tokenisation de GPT-2. C'est un token spécial qui indique où un mot commence après un espace.



In [None]:
# GPT-2 Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

print("GPT-2 Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)
    encoded


**DistillBert Tokenizer**

Tres similaire à celui de BERT

In [None]:
# DistilBERT Tokenizer
tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')

print("DistilBERT Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


** T5 Tokenizer**

Le T5 tokenizer utilise une méthode de tokenisation appelée SentencePiece.

SentencePiece est une approche qui découpe le texte en sous-mots (similaire à WordPiece), mais contrairement à WordPiece, il n'a pas besoin d'un vocabulaire préexistant. SentencePiece apprend son vocabulaire directement à partir des données et peut également gérer des unités de caractères.

SentencePiece fonctionne sur l'idée que les mots ou les caractères peuvent être des unités atomiques (par exemple, une unité pourrait être un caractère, une racine de mot ou un mot entier).

Exemple : Le mot "unhappiness" pourrait être découpé en ["▁un", "happiness"], où "▁" représente un espace dans le vocabulaire de SentencePiece.



In [None]:
# T5 Tokenizer
tokenizer = T5Tokenizer.from_pretrained('t5-small')

print("T5 Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


** XLnet **

XLNet combine les caractéristiques des modèles autoregressifs (comme GPT) et des modèles bidirectionnels (comme BERT).

BERT apprend à prédire des tokens masqués dans une séquence en utilisant un apprentissage bidirectionnel, ce qui signifie qu'il regarde à la fois les tokens à gauche et à droite du token masqué.

XLNet n'utilise pas de masquage traditionnel comme BERT. Au lieu de cela, il utilise une approche de permutation autoregressive, où il apprend à prédire chaque token en fonction des autres tokens dans une permutation aléatoire de la séquence.

Cela signifie qu'XLNet permet au modèle de capturer des relations contextuelles à la fois de gauche à droite et de droite à gauche sans avoir besoin d'un token de type [CLS] ou [SEP], comme dans BERT.

In [None]:
# XLNet Tokenizer
tokenizer = XLNetTokenizer.from_pretrained('xlnet-base-cased')

print("XLNet Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


**Bart**

Tokenisation avec BPE : BART utilise un vocabulaire basé sur BPE, ce qui permet de découper les mots en sous-mots.

BPE est une méthode similaire à WordPiece et SentencePiece dans le sens où elle découpe des mots en sous-mots pour les rendre plus manipulables par le modèle, mais l'algorithme d'apprentissage est légèrement différent.

BPE cherche à maximiser la fréquence des paires de caractères dans un texte, et en combinant ces paires, le vocabulaire se construit de manière dynamique.


In [None]:
#  BART Tokenizer
tokenizer = BartTokenizer.from_pretrained('facebook/bart-base')

print("BART Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


In [None]:
# Batch Encoding avec Padding et Troncature
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
batch = tokenizer.batch_encode_plus(
    sentences,
    padding=True,
    truncation=True,
    return_tensors="pt"
)

print("Batch Encoding")
print(batch)


In [None]:
# Comparaison du nombre de tokens pour chaque tokenizer dans une liste de phrases
tokenizers = {
    "BERT": BertTokenizer.from_pretrained("bert-base-uncased"),
    "RoBERTa": RobertaTokenizer.from_pretrained("roberta-base"),
    "GPT-2": GPT2Tokenizer.from_pretrained("gpt2"),
    "T5": T5Tokenizer.from_pretrained("t5-small"),
}

print("🔍 Comparaison des tokens pour chaque tokenizer:")
for name, tokenizer in tokenizers.items():
    for sentence in sentences:
        tokens = tokenizer.tokenize(sentence)
        print(f"{name} -> Sentence: '{sentence}' -> {len(tokens)} tokens")
        print(f"{name} -> tokens: {tokens}")


# QUite a lot of differences, and usecases.


In [None]:
# # let's wrap up all the info we saw

# Modèle	    Tokenizer	          Méthode	    Tokens spéciaux (exemples)	    Type de modèle	          Utilisation typique
# BERT	      BertTokenizer	      WordPiece	    [CLS], [SEP], [PAD], [MASK]	  Encodeur	                Classification, QA, NER
# DistilBERT	DistilBertTokenizer	WordPiece	    [CLS], [SEP], [PAD], [MASK]	  Encodeur                  (light BERT)	Idem BERT, + rapide
# RoBERTa	    RobertaTokenizer	  BPE	          <s>, </s>, <pad>, <mask>	    Encodeur	                Idem BERT, + robuste
# XLNet	      XLNetTokenizer	    WordPiece	    [CLS], [SEP], [PAD], [MASK]	  Permuté + autoregressif 	QA, texte long, perf. élevée
# GPT-2	      GPT2Tokenizer	      BPE	Aucun     [CLS]/[SEP], pas de padding	  Décodeur autoregressif	  Génération de texte
# BART	      BartTokenizer	      BPE	          <s>, </s>, <pad>, <mask>	    Encodeur-décodeur	        Résumé, traduction, génération
# T5	        T5Tokenizer	        SentencePiece	<pad>, </s>, <unk>	          Encodeur-décodeur	        Tâches text-to-text

