In [9]:
# Installation des bibliothèques nécessaires
from tokenizers import Tokenizer, models, pre_tokenizers, trainers
from tokenizers.decoders import BPEDecoder
from tokenizers.normalizers import NFD, StripAccents, Lowercase, Sequence

# Préparation d'un corpus d'exemple
corpus = [
    "J'ai un chat",
    "Mon chat est très mignon",
    "Le chat s'est assis sur le tapis",
    "Il y a aussi un chien"
]

# Création d'un tokenizer BPE vide avec la classe `Tokenizer`
tokenizer = Tokenizer(models.BPE())

# Configuration de la normalisation du texte
tokenizer.normalizer = Sequence([NFD(), StripAccents(), Lowercase()])

# Configuration du pré-tokeniseur (séparation des mots)
tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()

# Entraînement du tokenizer BPE sur le corpus d'exemple
trainer = trainers.BpeTrainer(vocab_size=1000, show_progress=True, special_tokens=["<unk>", "<s>", "</s>", "<pad>"])

# Entraînement du tokenizer avec le corpus
tokenizer.train_from_iterator(corpus, trainer)

# Décodeur pour transformer les indices des tokens en texte
tokenizer.decoder = BPEDecoder()

# Test du tokenizer
text = "Le chat s'est assis sur le tapis"
encoded = tokenizer.encode(text)
print("Encoded:", encoded.tokens)

# Décodeur des tokens pour retrouver le texte original
decoded = tokenizer.decode(encoded.ids)
print("Decoded:", decoded)

# Sauvegarde du tokenizer pour réutilisation
tokenizer.save("bpe_tokenizer.json")

Encoded: ['le', 'chat', 's', "'", 'est', 'assis', 'sur', 'le', 'tapis']
Decoded: lechats'estassissurletapis


In [7]:
text = "Le renard brun rapide saute par-dessus le chien paresseux."
tokens_simple = text.split(' ')
print("Simple Split:", tokens_simple)

Simple Split: ['Le', 'renard', 'brun', 'rapide', 'saute', 'par-dessus', 'le', 'chien', 'paresseux.']


In [8]:
import nltk

# Téléchargement des données 'point_loss'
nltk.download('punkt_tab')

# Utilisation du word_tokenize
tokens_nltk = nltk.word_tokenize(text)
print("NLTK Tokenisation:", tokens_nltk)

NLTK Tokenisation: ['Le', 'renard', 'brun', 'rapide', 'saute', 'par-dessus', 'le', 'chien', 'paresseux', '.']


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [4]:
import spacy

# Chargement du modèle linguistique de base
nlp = spacy.load("en_core_web_sm")

doc = nlp(text)
tokens_spacy = [token.text for token in doc]
print("SpaCy Tokenisation:", tokens_spacy)

SpaCy Tokenisation: ['Le', 'renard', 'brun', 'rapide', 'saute', 'par', '-', 'dessus', 'le', 'chien', 'paresseux', '.']
