# Проверка работы токенизатора

### Настраиваем корневую папку

In [1]:
import first_script

### Импортируем токенизатор

In [2]:
from tokenizer import AutoTokenizer

In [3]:
tokenizer = AutoTokenizer()

In [4]:
tokenizer.vocab

{'[UNK]': 0,
 '[BOS]': 1,
 '[EOS]': 2,
 '[BOP]': 3,
 '[EOP]': 4,
 '[BOT]': 5,
 '[EOT]': 6}

### Обучаем токенизатор (загружает уникальные слова)

In [5]:
text_train = 'Привет, меня зовут Миша. Как тебя зовут? миша...'
tokenizer.train(text_train)

In [6]:
tokenizer.vocab

{'[UNK]': 0,
 '[BOS]': 1,
 '[EOS]': 2,
 '[BOP]': 3,
 '[EOP]': 4,
 '[BOT]': 5,
 '[EOT]': 6,
 'Как': 7,
 'Миша': 8,
 '?': 9,
 'миша': 10,
 'Привет': 11,
 'меня': 12,
 '.': 13,
 ',': 14,
 'зовут': 15,
 'тебя': 16}

### Проверка токенизатора на новом тексте и на тексте, на котором обучали

In [7]:
text_test = 'Привет, Миша, меня зовут'
print(tokenizer.encode(text_test))
print(tokenizer.encode(text_train))

[11, 14, 8, 14, 12, 15]
[11, 14, 12, 15, 8, 13, 7, 16, 15, 9, 10, 13, 13, 13]


### Метод decode - превращает индексы обратно в текст

In [8]:
text_train_idx = tokenizer.encode(text_train)
text_test_idx = tokenizer.encode(text_test)

In [9]:
print(tokenizer.decode(text_train_idx, join=True))
print(tokenizer.decode(text_test_idx, join=True))

Привет, меня зовут Миша. Как тебя зовут? миша...
Привет, Миша, меня зовут


Гиперпараметр join объединяет токены в случае, если join=True. В ином случае выводится список токенов

In [10]:
tokenizer.decode(text_train_idx)

['Привет',
 ',',
 'меня',
 'зовут',
 'Миша',
 '.',
 'Как',
 'тебя',
 'зовут',
 '?',
 'миша',
 '.',
 '.',
 '.']

Замечу, что слова не приводятся в нижний регистр!

### Добавляем специальные токены в текст

In [11]:
text_train_idx = tokenizer.encode(text_train, add_special_tokens=True)
print(text_train_idx)
print(tokenizer.decode(text_train_idx, join=True, add_special_tokens=True))

[3, 1, 11, 14, 12, 15, 8, 13, 2, 1, 7, 16, 15, 9, 2, 1, 10, 2, 4]
[BOP] [BOS] Привет, меня зовут Миша. [EOS] [BOS] Как тебя зовут? [EOS] [BOS] миша [EOS] [EOP]


In [12]:
text_train =\
'''- Привет, миша
- Привет Миша
- Как дела?'''
text_train_idx = tokenizer.encode(text_train, add_special_tokens=True)
print(text_train_idx)
print(tokenizer.decode(text_train_idx, join=True, add_special_tokens=True))

[3, 1, 0, 11, 14, 10, 2, 4, 3, 1, 0, 11, 8, 2, 4, 3, 1, 0, 7, 0, 9, 2, 4]
[BOP] [BOS] [UNK] Привет, миша [EOS] [EOP] [BOP] [BOS] [UNK] Привет Миша [EOS] [EOP] [BOP] [BOS] [UNK] Как [UNK]? [EOS] [EOP]


Неизвестные слова помечаются [UNK], за счет чего не случаются проблемы при обучении модели

### Обучим токенизатор на тексте, который буду использовать в дальнейшем

In [13]:
text = ""
with open('../data/voina_i_mir.txt', 'r') as f:
    text = f.read()
tokenizer.train(text)

### Сохраним предобученый токенизатор

In [14]:
tokenizer.save_pretrained("../tokenizer/tokenizer.bin")

### Загрузка предобученого токенизатора

In [15]:
tokenizer = AutoTokenizer("../tokenizer/tokenizer.bin")

In [16]:
tokenizer.encode('Добрый день, Андрей!')

[23844, 16067, 14, 16448, 28203]