In [1]:
import pandas as pd
import numpy as np
import random
import torch
import torch.nn as nn
import torch.nn.functional as F
import re
import time
from torch.utils.data import Dataset, DataLoader
from tqdm import tqdm
from collections import Counter
from IPython.display import clear_output

from scripts import BpeTokenizer, Model, Trainer, Collator, MyDataset, generate

# Загружаем данные

In [2]:
df = pd.read_csv('data/dataset.csv')
train_texts = df['text'][:-1024].tolist()
eval_texts = df['text'][-1024:].tolist()

# Инициализируем и обучаем токенизатор

In [3]:
tokenizer = BpeTokenizer()

In [4]:
tokenizer.train(train_texts[:2048], max_vocab=2048)

pair=(277, 338), freq=52: 100%|██████████| 1789/1789 [03:56<00:00,  7.57it/s]  


# Создаем датасеты и Collator

In [5]:
train_dataset = MyDataset(train_texts, tokenizer, max_length=128)
eval_dataset = MyDataset(eval_texts, tokenizer, max_length=128)
collator = Collator(tokenizer.pad_token_id)

100%|██████████| 16384/16384 [03:23<00:00, 80.68it/s]
100%|██████████| 1024/1024 [00:12<00:00, 80.81it/s]


# Создаем модель

In [6]:
torch.manual_seed(42)
np.random.seed(42)
random.seed(42)

In [7]:
model = Model(tokenizer.get_vocab_size(), emb_size=128, hidden_size=256, num_layers=2, dropout=0.1)

# Создаем Trainer и запускаем обучение

In [8]:
trainer = Trainer(
    model=model,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    n_epochs=8,
    train_batch_size=32,
    eval_batch_size=32,
    eval_steps=64,
    collator=collator,
    lr=1e-2,
    ignore_index=tokenizer.pad_token_id
)

In [9]:
trainer.train()

epoch=0.126953125, loss=5.051429271697998:   2%|▏         | 65/4096 [00:15<49:05,  1.37it/s] 

epoch=0.125, eval_loss=4.977377772331238


epoch=0.251953125, loss=4.219050884246826:   3%|▎         | 129/4096 [00:30<49:23,  1.34it/s] 

epoch=0.25, eval_loss=4.1699260622262955


epoch=0.376953125, loss=3.9263792037963867:   5%|▍         | 193/4096 [00:44<48:03,  1.35it/s]

epoch=0.375, eval_loss=3.9234831109642982


epoch=0.501953125, loss=3.7896976470947266:   6%|▋         | 257/4096 [00:59<46:27,  1.38it/s]

epoch=0.5, eval_loss=3.7824966087937355


epoch=0.626953125, loss=3.705772638320923:   8%|▊         | 321/4096 [01:14<46:00,  1.37it/s] 

epoch=0.625, eval_loss=3.7005261033773422


epoch=0.751953125, loss=3.6462454795837402:   9%|▉         | 385/4096 [01:30<46:05,  1.34it/s]

epoch=0.75, eval_loss=3.630602441728115


epoch=0.876953125, loss=3.598989486694336:  11%|█         | 449/4096 [01:46<46:19,  1.31it/s] 

epoch=0.875, eval_loss=3.5837283432483673


epoch=1.001953125, loss=3.4615161418914795:  13%|█▎        | 513/4096 [02:02<46:11,  1.29it/s]

epoch=1.0, eval_loss=3.5410107225179672


epoch=1.126953125, loss=3.550262928009033:  14%|█▍        | 577/4096 [02:17<44:11,  1.33it/s] 

epoch=1.125, eval_loss=3.5117374137043953


epoch=1.251953125, loss=3.562572479248047:  16%|█▌        | 641/4096 [02:34<51:08,  1.13it/s] 

epoch=1.25, eval_loss=3.4895775988698006


epoch=1.376953125, loss=3.464972972869873:  17%|█▋        | 705/4096 [02:50<43:50,  1.29it/s] 

epoch=1.375, eval_loss=3.4667970091104507


epoch=1.501953125, loss=3.4418013095855713:  19%|█▉        | 769/4096 [03:06<45:15,  1.22it/s]

epoch=1.5, eval_loss=3.443536974489689


epoch=1.626953125, loss=3.462308883666992:  20%|██        | 833/4096 [03:22<43:49,  1.24it/s] 

epoch=1.625, eval_loss=3.42148794233799


epoch=1.751953125, loss=3.389242649078369:  22%|██▏       | 897/4096 [03:37<40:42,  1.31it/s] 

epoch=1.75, eval_loss=3.4083690717816353


epoch=1.876953125, loss=3.413625955581665:  23%|██▎       | 961/4096 [03:54<43:21,  1.21it/s] 

epoch=1.875, eval_loss=3.390319585800171


epoch=2.001953125, loss=3.295844316482544:  25%|██▌       | 1025/4096 [04:10<39:17,  1.30it/s] 

epoch=2.0, eval_loss=3.372480146586895


epoch=2.126953125, loss=3.3668053150177:  27%|██▋       | 1089/4096 [04:26<38:37,  1.30it/s]   

epoch=2.125, eval_loss=3.3656959757208824


epoch=2.251953125, loss=3.3418548107147217:  28%|██▊       | 1153/4096 [04:41<38:16,  1.28it/s]

epoch=2.25, eval_loss=3.362291507422924


epoch=2.376953125, loss=3.386711359024048:  30%|██▉       | 1217/4096 [04:57<36:36,  1.31it/s] 

epoch=2.375, eval_loss=3.3475336134433746


epoch=2.501953125, loss=3.4129209518432617:  31%|███▏      | 1281/4096 [05:13<35:54,  1.31it/s]

epoch=2.5, eval_loss=3.336732842028141


epoch=2.626953125, loss=3.372239828109741:  33%|███▎      | 1345/4096 [05:29<35:28,  1.29it/s] 

epoch=2.625, eval_loss=3.3231867775321007


epoch=2.751953125, loss=3.3032798767089844:  34%|███▍      | 1409/4096 [05:45<34:16,  1.31it/s]

epoch=2.75, eval_loss=3.3128844127058983


epoch=2.876953125, loss=3.351466655731201:  36%|███▌      | 1473/4096 [06:01<36:09,  1.21it/s] 

epoch=2.875, eval_loss=3.302487336099148


epoch=3.001953125, loss=3.1415584087371826:  38%|███▊      | 1537/4096 [06:17<32:58,  1.29it/s]

epoch=3.0, eval_loss=3.300219416618347


epoch=3.126953125, loss=3.305943250656128:  39%|███▉      | 1601/4096 [06:33<32:10,  1.29it/s] 

epoch=3.125, eval_loss=3.2931234911084175


epoch=3.251953125, loss=3.269829750061035:  41%|████      | 1665/4096 [06:48<30:03,  1.35it/s] 

epoch=3.25, eval_loss=3.2896191626787186


epoch=3.376953125, loss=3.2371091842651367:  42%|████▏     | 1729/4096 [07:04<35:11,  1.12it/s]

epoch=3.375, eval_loss=3.282198488712311


epoch=3.501953125, loss=3.327343225479126:  44%|████▍     | 1793/4096 [07:21<29:10,  1.32it/s] 

epoch=3.5, eval_loss=3.2752599269151688


epoch=3.626953125, loss=3.319719076156616:  45%|████▌     | 1857/4096 [07:37<28:41,  1.30it/s] 

epoch=3.625, eval_loss=3.2696596682071686


epoch=3.751953125, loss=3.2598586082458496:  47%|████▋     | 1921/4096 [07:53<28:14,  1.28it/s]

epoch=3.75, eval_loss=3.268536776304245


epoch=3.876953125, loss=3.245243787765503:  48%|████▊     | 1985/4096 [08:09<26:22,  1.33it/s] 

epoch=3.875, eval_loss=3.252487041056156


epoch=4.001953125, loss=3.137700080871582:  50%|█████     | 2049/4096 [08:24<26:52,  1.27it/s] 

epoch=4.0, eval_loss=3.251639634370804


epoch=4.126953125, loss=3.1749486923217773:  52%|█████▏    | 2113/4096 [08:40<25:20,  1.30it/s]

epoch=4.125, eval_loss=3.253706306219101


epoch=4.251953125, loss=3.20084547996521:  53%|█████▎    | 2177/4096 [08:56<24:29,  1.31it/s]  

epoch=4.25, eval_loss=3.2457273975014687


epoch=4.376953125, loss=3.1260030269622803:  55%|█████▍    | 2241/4096 [09:12<23:46,  1.30it/s]

epoch=4.375, eval_loss=3.2479342371225357


epoch=4.501953125, loss=3.1952075958251953:  56%|█████▋    | 2305/4096 [09:28<23:40,  1.26it/s]

epoch=4.5, eval_loss=3.236490599811077


epoch=4.626953125, loss=3.2338595390319824:  58%|█████▊    | 2369/4096 [09:44<25:28,  1.13it/s]

epoch=4.625, eval_loss=3.2354051768779755


epoch=4.751953125, loss=3.185671329498291:  59%|█████▉    | 2433/4096 [10:00<20:59,  1.32it/s] 

epoch=4.75, eval_loss=3.223406232893467


epoch=4.876953125, loss=3.3248538970947266:  61%|██████    | 2497/4096 [10:16<20:50,  1.28it/s]

epoch=4.875, eval_loss=3.2288399040699005


epoch=5.001953125, loss=3.182645320892334:  63%|██████▎   | 2561/4096 [10:31<19:35,  1.31it/s] 

epoch=5.0, eval_loss=3.218086615204811


epoch=5.126953125, loss=3.0962445735931396:  64%|██████▍   | 2625/4096 [10:47<18:59,  1.29it/s]

epoch=5.125, eval_loss=3.2256660982966423


epoch=5.251953125, loss=3.1995770931243896:  66%|██████▌   | 2689/4096 [11:03<18:14,  1.29it/s]

epoch=5.25, eval_loss=3.2246376648545265


epoch=5.376953125, loss=3.233969211578369:  67%|██████▋   | 2753/4096 [11:19<17:34,  1.27it/s] 

epoch=5.375, eval_loss=3.216039650142193


epoch=5.501953125, loss=3.152343273162842:  69%|██████▉   | 2817/4096 [11:35<18:02,  1.18it/s] 

epoch=5.5, eval_loss=3.209836132824421


epoch=5.626953125, loss=3.1431031227111816:  70%|███████   | 2881/4096 [11:52<17:15,  1.17it/s]

epoch=5.625, eval_loss=3.205096922814846


epoch=5.751953125, loss=3.0925116539001465:  72%|███████▏  | 2945/4096 [12:07<15:07,  1.27it/s]

epoch=5.75, eval_loss=3.206753797829151


epoch=5.876953125, loss=3.171351194381714:  73%|███████▎  | 3009/4096 [12:23<13:42,  1.32it/s] 

epoch=5.875, eval_loss=3.197735734283924


epoch=6.001953125, loss=3.0027592182159424:  75%|███████▌  | 3073/4096 [12:39<12:55,  1.32it/s]

epoch=6.0, eval_loss=3.190479949116707


epoch=6.126953125, loss=3.1053121089935303:  77%|███████▋  | 3137/4096 [12:54<12:04,  1.32it/s]

epoch=6.125, eval_loss=3.1946793645620346


epoch=6.251953125, loss=3.1761322021484375:  78%|███████▊  | 3201/4096 [13:10<11:06,  1.34it/s]

epoch=6.25, eval_loss=3.1923727616667747


epoch=6.376953125, loss=3.1282594203948975:  80%|███████▉  | 3265/4096 [13:26<10:42,  1.29it/s]

epoch=6.375, eval_loss=3.1973287016153336


epoch=6.501953125, loss=3.1744956970214844:  81%|████████▏ | 3329/4096 [13:41<09:45,  1.31it/s]

epoch=6.5, eval_loss=3.190151497721672


epoch=6.626953125, loss=3.2258007526397705:  83%|████████▎ | 3393/4096 [13:57<09:04,  1.29it/s]

epoch=6.625, eval_loss=3.184963993728161


epoch=6.751953125, loss=3.1578478813171387:  84%|████████▍ | 3457/4096 [14:13<07:49,  1.36it/s]

epoch=6.75, eval_loss=3.182441957294941


epoch=6.876953125, loss=3.1876862049102783:  86%|████████▌ | 3521/4096 [14:28<07:21,  1.30it/s]

epoch=6.875, eval_loss=3.1822612956166267


epoch=7.001953125, loss=3.0921530723571777:  88%|████████▊ | 3585/4096 [14:44<06:35,  1.29it/s]

epoch=7.0, eval_loss=3.174404487013817


epoch=7.126953125, loss=3.0759434700012207:  89%|████████▉ | 3649/4096 [14:59<06:03,  1.23it/s]

epoch=7.125, eval_loss=3.185076668858528


epoch=7.251953125, loss=3.1523518562316895:  91%|█████████ | 3713/4096 [15:15<04:51,  1.31it/s]

epoch=7.25, eval_loss=3.1794336289167404


epoch=7.376953125, loss=3.0982861518859863:  92%|█████████▏| 3777/4096 [15:31<04:06,  1.30it/s]

epoch=7.375, eval_loss=3.179158464074135


epoch=7.501953125, loss=3.075368881225586:  94%|█████████▍| 3841/4096 [15:46<03:13,  1.32it/s] 

epoch=7.5, eval_loss=3.1768733337521553


epoch=7.626953125, loss=3.134965419769287:  95%|█████████▌| 3905/4096 [16:02<02:29,  1.27it/s] 

epoch=7.625, eval_loss=3.177146002650261


epoch=7.751953125, loss=3.178276777267456:  97%|█████████▋| 3969/4096 [16:18<01:37,  1.31it/s] 

epoch=7.75, eval_loss=3.167697347700596


epoch=7.876953125, loss=3.1172213554382324:  98%|█████████▊| 4033/4096 [16:33<00:46,  1.36it/s]

epoch=7.875, eval_loss=3.166757471859455


epoch=8.0, loss=3.0846242904663086: 100%|██████████| 4096/4096 [16:48<00:00,  4.06it/s]        

epoch=8.0, eval_loss=3.1591607332229614





# Оцениваем качество и проверяем жадную и случайную генерацию

In [10]:
trainer.evaluate()

3.1591607332229614

In [11]:
generate(model, tokenizer, temperature=0)

'Козерогам стоит быть внимательнее к своему здоровью. В конце дня вы не сможете выяснить отношения, то можете стать жертвой в связи с ними, не теряйтесь, если вы не будете снизить, если вы не будете отлично понять свои личные потребности или неверные шаги, не терять времени на будущее. В конце дня возрастает вероятность того, что вы не захотите отложить на вечер, так как вполне естественное внимание на будущее или накопленное слово и способность несколько неверно понять, если вы не будете отлично понять окружающих, то сейчас вы не сможете выяснить отношения, то можете стать жертвой в связи с ними, не теряйтесь, если вы не будете думать о своих чувствах и выяснить свои силы и настойчивые шаги в вашу жизнь. В конце дня у вас могут появиться новые знакомства, которые вы не готовы в тупик, то можете столкнуться с ними имиджом. В конце дня вы не сможете выяснить отношения, то можете стать жертвой в связи с ними, не теряйтесь, если вы не будете снизить, если вы не будете отлично понять свои 

In [12]:
generate(model, tokenizer, temperature=0.5, top_k=20)

'Прекрасный день для гармонизации отношений с окружающим миром и хозяйственной почвами для развития бизнеса, рекламных мероприятий, особенно для заключения сделок и договоров, открытия предприятий и начала лечения во благотворительных и обретения. Хороший день для любых начинаний, часто и открытия предприятий, дальней поездки, учебы, бизнесмены, а также для выступлений на новой культуры, искусством, искусством, подписания контрактов и выступлений и поездков, переговоров со спонсором и культурными органами, а также для заключения сделок, для выступлений и различных инструментов, а также для общественного деятеля, публичных выступлений. Полезно использовать для получения новых дел, особенно касающихся семейных отношений и методологических мероприятий. Вероятны конфликты с людьми издалека.'