In [None]:
from transformers import AutoTokenizer

In [None]:
# Récupération du tokenizer pré-entraîné BERT
tokenizer = AutoTokenizer.from_pretrained("google-bert/bert-base-uncased")

In [None]:
# Texte à prétraiter par le tokenizer
texte = "Can I find information about SALOME platform?"

## Utilisation globale pour la tokenization

In [None]:
# Utilisation globale du tokenizer
print(tokenizer(texte))

## Séparation des étapes pour la tokenization

In [None]:
# Division du texte en tokens
tokens = tokenizer.tokenize(texte)
print(tokens)

In [None]:
# Association des tokens à leur ID respectif (définis par le vocabulaire du tokenizer)
ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)

In [None]:
# Ajout des IDs des tokens spéciaux
input_ids = tokenizer.prepare_for_model(ids)
print(input_ids)

In [None]:
# Affichage des tokens (avec les tokens spéciaux)
print(tokenizer.tokenize(tokenizer.decode(input_ids["input_ids"])))

## Décodage avec le tokenizer

In [None]:
tokenizer.decode(input_ids["input_ids"])

## Prétraitement de plusieurs textes

In [None]:
batch_sentences = [
    "Can I find information about SALOME platform?",
    "Where is located CEA Research Center?",
    "Is it good?"
]

In [None]:
encoded_inputs = tokenizer(batch_sentences)
print(encoded_inputs)

## Padding

**Padding** is a strategy for ensuring tensors are rectangular by adding a special padding token to shorter sentences :

In [None]:
encoded_inputs = tokenizer(batch_sentences, padding=True)

# Affichage des inputs finaux de chaque phrase
print(encoded_inputs)

print("\n")

# Affichage des tokens avec le padding
print(tokenizer.tokenize(tokenizer.decode(encoded_inputs["input_ids"][0])))
print(tokenizer.tokenize(tokenizer.decode(encoded_inputs["input_ids"][1])))
print(tokenizer.tokenize(tokenizer.decode(encoded_inputs["input_ids"][2])))

## Truncation

With **truncation**, we can truncate a sequence to the maximum length accepted by the model (if `max_length` not use), or to the maximum length `max_length` :

In [None]:
encoded_inputs = tokenizer(batch_sentences, padding=True, max_length=5, truncation=True)

# Affichage des inputs finaux de chaque phrase
print(encoded_inputs)

print("\n")

# Affichage des tokens avec le padding et la troncation
print(tokenizer.tokenize(tokenizer.decode(encoded_inputs["input_ids"][0])))
print(tokenizer.tokenize(tokenizer.decode(encoded_inputs["input_ids"][1])))
print(tokenizer.tokenize(tokenizer.decode(encoded_inputs["input_ids"][2])))

## Construction des tenseurs

Pour pouvoir utiliser ces inputs dans un modèle, il faut les placer dans un tenseur. Pour cela, on utilise l'argument `return_tensors` :

In [None]:
encoded_inputs = tokenizer(batch_sentences, padding=True, truncation=True, return_tensors="pt") # "pt" pour PyTorch

# Affichage des inputs finaux de chaque phrase
print(encoded_inputs)

## Décodage avec le tokenizer pour un batch

In [None]:
# Affichage des tokens avec le padding avec batch_decode
print(tokenizer.batch_decode(encoded_inputs["input_ids"]))