# But du notebook

Ce notebook décompose les étapes effectuées par `tokenizer` pour mieux comprendre ce qu'il se passe.

# Importation des modules

In [1]:
from transformers import AutoTokenizer

  from .autonotebook import tqdm as notebook_tqdm


# Tokenization d'un input

Tous les tokens inconnus sont généralement représentés par un token `[UNK]` pour "unknown".

In [5]:
checkpoint = "bert-base-uncased"

# Chargement du tokenizer correspond à notre checkpoint
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

Il existe plusieurs types de tokenization : word-base, caracter-based, subword-based. Dans la subword-based, on ne découpe pas les tokens fréquents mais par contre on décompose les tokens rares. Par exemple, "tokenization" est décomposé en "token" et "##ization". "##" permet d'indiquer que le subword "ization" doit compléter un autre token.

In [12]:
# Tokenization de l'input
tokens = tokenizer.tokenize("Let's try to tokenize!")
tokens

['let', "'", 's', 'try', 'to', 'token', '##ize', '!']

# Lien entre les tokens et un ID unique

`convert_tokens_to_ids` permet d'associer à chaque token un ID unique. L'ID peut allert de 0 à la taille du vocabulaire. 

L'utilisation de `from_pretrained(checkpoint)` lors de l'instantiation du tokenizer permet de s'assurer qu'on utilise le même mapping que le modèle pré-entraîné du checkpoint.

In [13]:
input_ids = tokenizer.convert_tokens_to_ids(tokens)
input_ids

[2292, 1005, 1055, 3046, 2000, 19204, 4697, 999]

# Tokens spéciaux

Pour `bert_base_cased`, les tokens spéciaux correspondent au début d'un phrase (`[CLS]`) et à la fin d'une phrase (`[SEP]`).

In [14]:
final_inputs = tokenizer.prepare_for_model(input_ids)

You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


# All in one

Ces trois étapes (tokenization -> lien entre les tokens et un ID unique -> ajout des tokens spéciaux) peut se faire en une seule étape : 

In [16]:
inputs = tokenizer("Let's try to tokenize!")
inputs

{'input_ids': [101, 2292, 1005, 1055, 3046, 2000, 19204, 4697, 999, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}