# Проверка работы Word2Vec

### Настраиваем корневую папку

In [1]:
import first_script

### Импорт нужных библиотек

In [2]:
from model import GPT
from tokenizer import AutoTokenizer
import os

### Загружаем текст на котором будем обучать модель

In [3]:
# text = "Мама мыла раму, пока кошка ходила по улице, а папа ел хлеб. Дети гуляли по улице!"
text = ""
with open('../data/voina_i_mir.txt', 'r') as f:
    text = f.read()

### Загружаем токенизатор

In [4]:
tokenizer = AutoTokenizer()
tokenizer.train(text)

### Превращаем текст в индексы

In [5]:
text_idxs = tokenizer.encode(text, add_special_tokens=True)

In [6]:
print(tokenizer.decode(text_idxs[:100]))
print(tokenizer.decode(text_idxs[:100], add_special_tokens=True))

['Лев', 'Николаевич', 'Толстой', 'Война', 'и', 'мир', '.', 'Том', '1', 'Лев', 'Николаевич', 'Толстой', 'ВОЙНА', 'И', 'МИР', 'Том', '1', 'ЧАСТЬ', 'ПЕРВАЯ', 'I', '–', 'Еh', 'bien', ',', 'mon', 'prince', '.', 'Genes']
['[BOP]', '[BOS]', 'Лев', 'Николаевич', 'Толстой', '[EOS]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[BOS]', 'Война', 'и', 'мир', '.', '[EOS]', '[BOS]', 'Том', '1', '[EOS]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[BOS]', 'Лев', 'Николаевич', 'Толстой', '[EOS]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[BOS]', 'ВОЙНА', 'И', 'МИР', '[EOS]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[BOS]', 'Том', '1', '[EOS]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[BOS]', 'ЧАСТЬ', 'ПЕРВАЯ', '[EOS]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[BOS]', 'I', '[EOS]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[EOP]', '[BOP]', '[BO

### Параметры модели

In [7]:
embed_dim = 128
seq_size = 10
hidden_size = embed_dim * 2
num_layers = 3
num_heads = 32
device = 'cuda'

### Параметры обучения

In [8]:
num_epochs = 5
batch_size = 250
num_workers = os.cpu_count()

### Загружаем модель и обучаем

In [9]:
model = GPT(len(tokenizer.vocab), embed_dim, hidden_size, num_heads, num_layers, seq_size, device=device)

In [10]:
res = model.fit(text_idxs, batch_size, num_epochs, num_workers)

Epoch [1/5, time: 4.660 minutes]:
                            Train Loss 55.002337, Train Perplexity 771278638972182202417152.000
                            Test Loss 54.528388, Test Perplexity 480151274720555448664064.000
Epoch [2/5, time: 9.442 minutes]:
                            Train Loss 36.948616, Train Perplexity 11132178177926818.000
                            Test Loss 50.460687, Test Perplexity 8218602385697511833600.000
Epoch [3/5, time: 14.071 minutes]:
                            Train Loss 27.803373, Train Perplexity 1188096416302.558
                            Test Loss 48.409721, Test Perplexity 1056999656786208620544.000
Epoch [4/5, time: 18.799 minutes]:
                            Train Loss 20.171993, Train Perplexity 576215873.984
                            Test Loss 48.133583, Test Perplexity 801954169015791386624.000
Epoch [5/5, time: 23.503 minutes]:
                            Train Loss 13.985528, Train Perplexity 1185325.214
                            

### Визуализируем метрики обучения

In [11]:
model.plot_metrics(*res)

### Генерируем текст

In [12]:
test = "Привет, как дела?"
test_idxs = tokenizer.encode(test, add_special_tokens=True)
test_pred_idxs = model.generate_text(test_idxs, text_size=50)
test_pred = tokenizer.decode(test_pred_idxs, join=True)
print(test_pred)

, как дела? И что бы ты не сердитесь! – прибавила она, ты не забудь! страсть, встав и окружающими свой начинала рассеянность и оживленною справедливо и ротные и робким и барину и


In [14]:
test = "Привет, как дела?"
test_idxs = tokenizer.encode(test, add_special_tokens=False)
test_pred_idxs = model.generate_text(test_idxs, text_size=50)
test_pred = tokenizer.decode(test_pred_idxs, join=True)
print(test_pred)

, как дела? … Прощайте … Знаю продолжала оставшись … полк … … коли … левой … левой … … Впрочем … Будущность sur … … … всхлипывания торопливо Гм … Il … … знаю … … Если … … … … … … … … … …


Как видим, слова "привет" нет в словаре

In [13]:
test = "Он лежал у дуба, а "
test_idxs = tokenizer.encode(test, add_special_tokens=True)
test_pred_idxs = model.generate_text(test_idxs, text_size=50)
test_pred = tokenizer.decode(test_pred_idxs, join=True)
print(test_pred)

Он лежал у дуба, а – прежде прежде никакой благодарить прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде прежде


In [15]:
test = "Он лежал у дуба, а "
test_idxs = tokenizer.encode(test, add_special_tokens=False)
test_pred_idxs = model.generate_text(test_idxs, text_size=50)
test_pred = tokenizer.decode(test_pred_idxs, join=True)
print(test_pred)

Он лежал у дуба, а графиня вошедшую ее у у у у Денисов у у у у у графа у у графа Безухого у графа Безухого корпус Безухого графа Безухого графа Безухого графа Безухого графа Безухого покрыто Безухого дамой последний графа Безухого графа Безухого графа Безухого графа Безухого графа


Еще ее обучать и обучать...