<a href="https://colab.research.google.com/github/Grelatif/Data_Science/blob/main/LLMs_Tokenizers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#  Exploration des Tokenizers Hugging Face

# Installe la biblioth√®que Transformers
!pip install -q transformers

# Imports
from transformers import (
    BertTokenizer, RobertaTokenizer, GPT2Tokenizer,
    DistilBertTokenizer, T5Tokenizer, XLNetTokenizer, BartTokenizer
)



In [None]:

sentences = [
    "I love Hugging Face and machine learning!",
    "Transformers are amazing for NLP tasks.",
    "Short sentence.",
    "Another example to explore tokenizers.",
    "How do we handle different languages?"
]

In [None]:
# BERT Tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

print("BERT Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)# tokens de la phrase de base
    encoded = tokenizer(sentence)#encode la phrase en un dictionnaire contenant plusieurs informations (inputs_id, attention_mask, token_type_id, mais pas les tokens)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)

# token_type_id :
# token_type_ids sont des identifiants de type de token qui sont utilis√©s pour indiquer √† BERT
# quels tokens appartiennent √† quelle partie du texte, notamment dans les cas o√π tu as
# deux segments de texte (par exemple, une question et sa r√©ponse).


In [None]:
#print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
encoded["attention_mask"]
encoded.get('attention_mask', 'N/A')

In [None]:
# RoBERTa Tokenizer
tokenizer = RobertaTokenizer.from_pretrained('roberta-base')

print("RoBERTa Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


** GPT2: **

GPT-2 est un mod√®le de langage auto-r√©gressif, ce qui signifie qu'il g√©n√®re du texte un token √† la fois. Il prend en entr√©e une s√©quence de tokens et g√©n√®re le prochain token de mani√®re s√©quentielle. Il n'a pas besoin de token de d√©but ([CLS]) ou de s√©parateur ([SEP]) parce qu'il g√©n√®re du texte dans une seule s√©quence continue.

Contrairement √† BERT, qui est bidirectionnel et a √©t√© form√© avec des masques de tokens pour des t√¢ches comme la classification de texte ou la pr√©diction de masques, GPT-2 g√©n√®re simplement du texte √† partir d'une s√©quence d'entr√©e et a besoin de contextualiser chaque token en fonction des pr√©c√©dents.

 "ƒ†" repr√©sente un espace dans la tokenisation de GPT-2. C'est un token sp√©cial qui indique o√π un mot commence apr√®s un espace.



In [None]:
# GPT-2 Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

print("GPT-2 Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)
    encoded


**DistillBert Tokenizer**

Tres similaire √† celui de BERT

In [None]:
# DistilBERT Tokenizer
tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')

print("DistilBERT Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


** T5 Tokenizer**

Le T5 tokenizer utilise une m√©thode de tokenisation appel√©e SentencePiece.

SentencePiece est une approche qui d√©coupe le texte en sous-mots (similaire √† WordPiece), mais contrairement √† WordPiece, il n'a pas besoin d'un vocabulaire pr√©existant. SentencePiece apprend son vocabulaire directement √† partir des donn√©es et peut √©galement g√©rer des unit√©s de caract√®res.

SentencePiece fonctionne sur l'id√©e que les mots ou les caract√®res peuvent √™tre des unit√©s atomiques (par exemple, une unit√© pourrait √™tre un caract√®re, une racine de mot ou un mot entier).

Exemple : Le mot "unhappiness" pourrait √™tre d√©coup√© en ["‚ñÅun", "happiness"], o√π "‚ñÅ" repr√©sente un espace dans le vocabulaire de SentencePiece.



In [None]:
# T5 Tokenizer
tokenizer = T5Tokenizer.from_pretrained('t5-small')

print("T5 Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


** XLnet **

XLNet combine les caract√©ristiques des mod√®les autoregressifs (comme GPT) et des mod√®les bidirectionnels (comme BERT).

BERT apprend √† pr√©dire des tokens masqu√©s dans une s√©quence en utilisant un apprentissage bidirectionnel, ce qui signifie qu'il regarde √† la fois les tokens √† gauche et √† droite du token masqu√©.

XLNet n'utilise pas de masquage traditionnel comme BERT. Au lieu de cela, il utilise une approche de permutation autoregressive, o√π il apprend √† pr√©dire chaque token en fonction des autres tokens dans une permutation al√©atoire de la s√©quence.

Cela signifie qu'XLNet permet au mod√®le de capturer des relations contextuelles √† la fois de gauche √† droite et de droite √† gauche sans avoir besoin d'un token de type [CLS] ou [SEP], comme dans BERT.

In [None]:
# XLNet Tokenizer
tokenizer = XLNetTokenizer.from_pretrained('xlnet-base-cased')

print("XLNet Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


**Bart**

Tokenisation avec BPE : BART utilise un vocabulaire bas√© sur BPE, ce qui permet de d√©couper les mots en sous-mots.

BPE est une m√©thode similaire √† WordPiece et SentencePiece dans le sens o√π elle d√©coupe des mots en sous-mots pour les rendre plus manipulables par le mod√®le, mais l'algorithme d'apprentissage est l√©g√®rement diff√©rent.

BPE cherche √† maximiser la fr√©quence des paires de caract√®res dans un texte, et en combinant ces paires, le vocabulaire se construit de mani√®re dynamique.


In [None]:
#  BART Tokenizer
tokenizer = BartTokenizer.from_pretrained('facebook/bart-base')

print("BART Tokenizer")
for sentence in sentences:
    tokens = tokenizer.tokenize(sentence)
    encoded = tokenizer(sentence)
    decoded = tokenizer.decode(encoded['input_ids'])
    print(f"Sentence: {sentence}")
    print(f"Tokens: {tokens}")
    print(f"Input IDs: {encoded['input_ids']}")
    print(f"Attention Mask: {encoded.get('attention_mask', 'N/A')}")
    print(f"Decoded: {decoded}")
    print("-" * 50)


In [None]:
# Batch Encoding avec Padding et Troncature
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
batch = tokenizer.batch_encode_plus(
    sentences,
    padding=True,
    truncation=True,
    return_tensors="pt"
)

print("Batch Encoding")
print(batch)


In [None]:
# Comparaison du nombre de tokens pour chaque tokenizer dans une liste de phrases
tokenizers = {
    "BERT": BertTokenizer.from_pretrained("bert-base-uncased"),
    "RoBERTa": RobertaTokenizer.from_pretrained("roberta-base"),
    "GPT-2": GPT2Tokenizer.from_pretrained("gpt2"),
    "T5": T5Tokenizer.from_pretrained("t5-small"),
}

print("üîç Comparaison des tokens pour chaque tokenizer:")
for name, tokenizer in tokenizers.items():
    for sentence in sentences:
        tokens = tokenizer.tokenize(sentence)
        print(f"{name} -> Sentence: '{sentence}' -> {len(tokens)} tokens")
        print(f"{name} -> tokens: {tokens}")


# QUite a lot of differences, and usecases.


In [None]:
# # let's wrap up all the info we saw

# Mod√®le	    Tokenizer	          M√©thode	    Tokens sp√©ciaux (exemples)	    Type de mod√®le	          Utilisation typique
# BERT	      BertTokenizer	      WordPiece	    [CLS], [SEP], [PAD], [MASK]	  Encodeur	                Classification, QA, NER
# DistilBERT	DistilBertTokenizer	WordPiece	    [CLS], [SEP], [PAD], [MASK]	  Encodeur                  (light BERT)	Idem BERT, + rapide
# RoBERTa	    RobertaTokenizer	  BPE	          <s>, </s>, <pad>, <mask>	    Encodeur	                Idem BERT, + robuste
# XLNet	      XLNetTokenizer	    WordPiece	    [CLS], [SEP], [PAD], [MASK]	  Permut√© + autoregressif 	QA, texte long, perf. √©lev√©e
# GPT-2	      GPT2Tokenizer	      BPE	Aucun     [CLS]/[SEP], pas de padding	  D√©codeur autoregressif	  G√©n√©ration de texte
# BART	      BartTokenizer	      BPE	          <s>, </s>, <pad>, <mask>	    Encodeur-d√©codeur	        R√©sum√©, traduction, g√©n√©ration
# T5	        T5Tokenizer	        SentencePiece	<pad>, </s>, <unk>	          Encodeur-d√©codeur	        T√¢ches text-to-text

