# Tokenizers (PyTorch)

Install the Transformers, Datasets, and Evaluate libraries to run this notebook.

In [None]:
!pip install datasets evaluate transformers[sentencepiece]

In [1]:
tokenized_text = "Jim Henson was a puppeteer".split()
print(tokenized_text)

['Jim', 'Henson', 'was', 'a', 'puppeteer']


## Загрузка и сохранение

Загрузка и сохранение токенизаторов так же просты, как и в случае с моделями: они основаны на тех же двух методах: `from_pretrained()` и `save_pretrained()`. Эти методы загрузят или сохранят алгоритм, используемый токенизатором (немного похоже на архитектуру модели), а также его словарь (немного похоже на веса модели).

### Загрузка токенизатора

Загрузка токенизатора BERT, обученного с той же контрольной точкой, что и BERT, выполняется так же, как загрузка модели, за исключением того, что мы используем класс BertTokenizer:

In [None]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-cased")

Класс AutoTokenizer выберет нужный класс токенизатора в библиотеке на основе имени контрольной точки и т.о., может использоваться напрямую с любой контрольной точкой:

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

### Сохранение токенизатора

In [4]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [5]:
file_path = "/content/drive/My Drive/Hugging_face/tokenizer_dir"

In [6]:
tokenizer.save_pretrained(file_path)

('/content/drive/My Drive/Hugging_face/tokenizer_dir/tokenizer_config.json',
 '/content/drive/My Drive/Hugging_face/tokenizer_dir/special_tokens_map.json',
 '/content/drive/My Drive/Hugging_face/tokenizer_dir/vocab.txt',
 '/content/drive/My Drive/Hugging_face/tokenizer_dir/added_tokens.json')

In [8]:
ls "/content/drive/My Drive/Hugging_face/tokenizer_dir"

special_tokens_map.json  tokenizer_config.json  vocab.txt


### Токенизация

In [20]:
sequence = "Using a Transformer network is simple"
# Вначаеле идет собственно токкенизация
tokens = tokenizer.tokenize(sequence)
print(f'tokens - {tokens}')
# а затем эти токены индексируются в соответствии с индексами соответсвующей им модели
# tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
ids = tokenizer.convert_tokens_to_ids(tokens)
print(f'tokenizer(sequence) - {tokenizer(sequence)}')
print(f'ids - {ids}')

tokens - ['Using', 'a', 'Trans', '##former', 'network', 'is', 'simple']
tokenizer(sequence) - {'input_ids': [101, 7993, 170, 13809, 23763, 2443, 1110, 3014, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
ids - [7993, 170, 13809, 23763, 2443, 1110, 3014]


In [14]:
decoded_string = tokenizer.decode([7993, 170, 11303, 1200, 2443, 1110, 3014])
decoded_string

'Using a transformer network is simple'