In [23]:
import pandas as pd
import numpy as np
import random
import torch
import torch.nn as nn
import torch.nn.functional as F
import re
import time
from torch.utils.data import Dataset, DataLoader
from tqdm import tqdm
from collections import Counter
from IPython.display import clear_output

from scripts import BpeTokenizer, Model, Trainer, Collator, MyDataset, generate

# Загружаем данные

In [2]:
df = pd.read_csv('data/dataset.csv')
train_texts = df['text'][:-1024].tolist()
eval_texts = df['text'][-1024:].tolist()

# Инициализируем и обучаем токенизатор

In [3]:
tokenizer = BpeTokenizer()

In [4]:
tokenizer.train(train_texts[:2048], max_vocab=2048)

pair=(277, 338), freq=52: 100%|██████████| 1789/1789 [02:49<00:00, 10.56it/s]  


# Создаем датасеты и Collator

In [5]:
train_dataset = MyDataset(train_texts, tokenizer, max_length=128)
eval_dataset = MyDataset(eval_texts, tokenizer, max_length=128)
collator = Collator(tokenizer.pad_token_id)

100%|██████████| 16384/16384 [08:47<00:00, 31.06it/s]
100%|██████████| 1024/1024 [00:33<00:00, 30.87it/s]


# Создаем модель

In [6]:
torch.manual_seed(42)
np.random.seed(42)
random.seed(42)

In [7]:
model = Model(tokenizer.get_vocab_size(), emb_size=128, hidden_size=256, num_layers=2, dropout=0.1)

# Создаем Trainer и запускаем обучение

In [24]:
trainer = Trainer(
    model=model,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    n_epochs=8,
    train_batch_size=32,
    eval_batch_size=32,
    eval_steps=64,
    collator=collator,
    lr=1e-2,
    ignore_index=tokenizer.pad_token_id
)

In [19]:
trainer.train()



epoch=0.125, eval_loss=5.409640863537788




epoch=0.25, eval_loss=4.799681857228279




epoch=0.375, eval_loss=4.642017066478729





epoch=0.5, eval_loss=4.557543471455574


epoch=0.501953125, loss=4.53076696395874:   6%|▋         | 258/4096 [00:45<33:32,  1.91it/s][A

epoch=0.625, eval_loss=4.502381697297096




epoch=0.75, eval_loss=4.475810214877129




epoch=0.875, eval_loss=4.448623925447464




epoch=1.0, eval_loss=4.428429886698723




epoch=1.125, eval_loss=4.4185586124658585




epoch=1.25, eval_loss=4.4052345007658005




epoch=1.375, eval_loss=4.3932807594537735




epoch=1.5, eval_loss=4.385321959853172




epoch=1.625, eval_loss=4.374081119894981




epoch=1.75, eval_loss=4.365484148263931




epoch=1.875, eval_loss=4.358073487877846




epoch=2.0, eval_loss=4.354333981871605




epoch=2.125, eval_loss=4.35315677523613




epoch=2.25, eval_loss=4.3531356900930405




epoch=2.375, eval_loss=4.344924718141556




epoch=2.5, eval_loss=4.340827718377113




epoch=2.625, eval_loss=4.335766568779945




epoch=2.75, eval_loss=4.328413292765617




epoch=2.875, eval_loss=4.323673501610756




epoch=3.0, eval_loss=4.323937714099884




epoch=3.125, eval_loss=4.322515055537224




epoch=3.25, eval_loss=4.322382882237434




epoch=3.375, eval_loss=4.320708706974983




epoch=3.5, eval_loss=4.316375881433487




epoch=3.625, eval_loss=4.313268333673477




epoch=3.75, eval_loss=4.304527595639229




epoch=3.875, eval_loss=4.308116212487221




epoch=4.0, eval_loss=4.305791586637497




epoch=4.125, eval_loss=4.310797542333603




epoch=4.25, eval_loss=4.306774735450745




epoch=4.375, eval_loss=4.307653918862343




epoch=4.5, eval_loss=4.301924630999565




epoch=4.625, eval_loss=4.302259102463722




epoch=4.75, eval_loss=4.30054484307766




epoch=4.875, eval_loss=4.29585388302803




epoch=5.0, eval_loss=4.296779572963715




epoch=5.125, eval_loss=4.298395171761513




epoch=5.25, eval_loss=4.29801619052887




epoch=5.375, eval_loss=4.297546803951263




epoch=5.5, eval_loss=4.297909259796143




epoch=5.625, eval_loss=4.292819112539291




epoch=5.75, eval_loss=4.290689766407013




epoch=5.875, eval_loss=4.294554591178894




epoch=6.0, eval_loss=4.289839416742325




epoch=6.125, eval_loss=4.293000727891922




epoch=6.25, eval_loss=4.2907151728868484




epoch=6.375, eval_loss=4.289158836007118




epoch=6.5, eval_loss=4.289692893624306




epoch=6.625, eval_loss=4.28658452630043




epoch=6.75, eval_loss=4.2836466282606125




epoch=6.875, eval_loss=4.286232173442841




epoch=7.0, eval_loss=4.282516330480576




epoch=7.125, eval_loss=4.289891719818115




epoch=7.25, eval_loss=4.283516854047775




epoch=7.375, eval_loss=4.285337954759598




epoch=7.5, eval_loss=4.284435987472534




epoch=7.625, eval_loss=4.2854423224925995




epoch=7.75, eval_loss=4.286118641495705




epoch=7.875, eval_loss=4.284052520990372


epoch=8.0, loss=4.317282676696777: 100%|██████████| 4096/4096 [13:43<00:00,  4.97it/s]

epoch=8.0, eval_loss=4.28314682841301





# Оцениваем качество и проверяем жадную и случайную генерацию

In [20]:
trainer.evaluate()

4.28314682841301

In [21]:
generate(model, tokenizer, temperature=0)

'Водолеть отправляться сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопров сопр

In [22]:
generate(model, tokenizer, temperature=0.5, top_k=20)

'Сегодня Козерогов наладываетесь сопробщит от того, чтобы вынтуального обряд лидерства и острее.'