In [1]:
import pandas as pd
import numpy as np
import random
import torch
import torch.nn as nn
import torch.nn.functional as F
import re
import time
from torch.utils.data import Dataset, DataLoader
from tqdm import tqdm
from collections import Counter
from IPython.display import clear_output

from scripts import BpeTokenizer, Model, Trainer, Collator, MyDataset, generate

# Загружаем данные

In [2]:
df = pd.read_csv('data/dataset.csv')
train_texts = df['text'][:-1024].tolist()
eval_texts = df['text'][-1024:].tolist()

# Инициализируем и обучаем токенизатор

In [3]:
tokenizer = BpeTokenizer()

In [4]:
tokenizer.train(train_texts[:2048], max_vocab=2048)

pair=(277, 338), freq=52: 100%|██████████| 1789/1789 [02:34<00:00, 11.55it/s]  


# Создаем датасеты и Collator

In [5]:
train_dataset = MyDataset(train_texts, tokenizer, max_length=128)
eval_dataset = MyDataset(eval_texts, tokenizer, max_length=128)
collator = Collator(tokenizer.pad_token_id)

100%|██████████| 16384/16384 [04:23<00:00, 62.11it/s]
100%|██████████| 1024/1024 [00:15<00:00, 64.79it/s]


# Создаем модель

In [6]:
torch.manual_seed(42)
np.random.seed(42)
random.seed(42)

In [16]:
model = Model(tokenizer.get_vocab_size(), emb_size=128, hidden_size=256, num_layers=3, dropout=0.2)

# Создаем Trainer и запускаем обучение

In [8]:
train_loader = DataLoader(
            train_dataset,
            batch_size=32,
            shuffle=True,
            drop_last=True,
            collate_fn=collator
        )

In [9]:
# for batch in train_loader:
#     print(batch.shape)
#     print(batch)
#     x = batch[:, :-1]
#     y = batch[:, 1:]
#     print(x.shape)
#     print(y.shape)

#     logits, _ = model(x)
#     print(logits.reshape(-1, logits.size(-1)).shape)
#     print(y.reshape(-1).shape)
#     break

In [17]:
trainer = Trainer(
    model=model,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    n_epochs=12,
    train_batch_size=32,
    eval_batch_size=32,
    eval_steps=64,
    collator=collator,
    lr=2e-2,
    ignore_index=tokenizer.pad_token_id
)

In [18]:
trainer.train()

epoch=0.126953125, loss=5.702388286590576:   1%|          | 65/6144 [00:18<1:56:29,  1.15s/it]

epoch=0.125, eval_loss=5.583472698926926


epoch=0.251953125, loss=4.881402492523193:   2%|▏         | 129/6144 [00:37<1:56:07,  1.16s/it]

epoch=0.25, eval_loss=4.758529752492905


epoch=0.376953125, loss=4.40933084487915:   3%|▎         | 193/6144 [00:56<1:54:25,  1.15s/it] 

epoch=0.375, eval_loss=4.365907043218613


epoch=0.501953125, loss=4.208357334136963:   4%|▍         | 257/6144 [01:14<1:53:25,  1.16s/it]

epoch=0.5, eval_loss=4.128529131412506


epoch=0.626953125, loss=4.0771260261535645:   5%|▌         | 321/6144 [01:35<2:06:20,  1.30s/it]

epoch=0.625, eval_loss=3.968472436070442


epoch=0.751953125, loss=3.987717390060425:   6%|▋         | 385/6144 [01:57<2:05:48,  1.31s/it] 

epoch=0.75, eval_loss=3.8603712022304535


epoch=0.876953125, loss=4.011767387390137:   7%|▋         | 449/6144 [02:18<2:03:50,  1.30s/it]

epoch=0.875, eval_loss=3.779928542673588


epoch=1.001953125, loss=3.795961380004883:   8%|▊         | 513/6144 [02:40<2:03:21,  1.31s/it] 

epoch=1.0, eval_loss=3.705719009041786


epoch=1.126953125, loss=3.706528902053833:   9%|▉         | 577/6144 [03:02<2:01:53,  1.31s/it] 

epoch=1.125, eval_loss=3.6563759595155716


epoch=1.251953125, loss=3.6599044799804688:  10%|█         | 641/6144 [03:23<2:00:30,  1.31s/it]

epoch=1.25, eval_loss=3.6147178262472153


epoch=1.376953125, loss=3.721353530883789:  11%|█▏        | 705/6144 [03:46<1:59:29,  1.32s/it] 

epoch=1.375, eval_loss=3.5773754715919495


epoch=1.501953125, loss=3.660696029663086:  13%|█▎        | 769/6144 [04:08<1:59:24,  1.33s/it] 

epoch=1.5, eval_loss=3.5442088544368744


epoch=1.626953125, loss=3.499861001968384:  14%|█▎        | 833/6144 [04:32<2:00:06,  1.36s/it]

epoch=1.625, eval_loss=3.513546645641327


epoch=1.751953125, loss=3.516334295272827:  15%|█▍        | 897/6144 [04:56<1:59:09,  1.36s/it]

epoch=1.75, eval_loss=3.4828578010201454


epoch=1.876953125, loss=3.5421981811523438:  16%|█▌        | 961/6144 [05:21<1:58:58,  1.38s/it]

epoch=1.875, eval_loss=3.4605994820594788


epoch=2.001953125, loss=3.6568424701690674:  17%|█▋        | 1025/6144 [05:47<1:59:06,  1.40s/it]

epoch=2.0, eval_loss=3.4440191462635994


epoch=2.126953125, loss=3.4816222190856934:  18%|█▊        | 1089/6144 [06:14<1:56:21,  1.38s/it]

epoch=2.125, eval_loss=3.4245483726263046


epoch=2.251953125, loss=3.6110479831695557:  19%|█▉        | 1153/6144 [06:42<1:59:31,  1.44s/it]

epoch=2.25, eval_loss=3.4100712165236473


epoch=2.376953125, loss=3.440762519836426:  20%|█▉        | 1217/6144 [07:12<2:00:43,  1.47s/it] 

epoch=2.375, eval_loss=3.3911758065223694


epoch=2.501953125, loss=3.580411434173584:  21%|██        | 1281/6144 [07:44<2:02:23,  1.51s/it] 

epoch=2.5, eval_loss=3.3799955770373344


epoch=2.626953125, loss=3.5135416984558105:  22%|██▏       | 1345/6144 [08:18<2:03:03,  1.54s/it]

epoch=2.625, eval_loss=3.363805279135704


epoch=2.751953125, loss=3.4902381896972656:  23%|██▎       | 1409/6144 [08:55<2:05:39,  1.59s/it]

epoch=2.75, eval_loss=3.3515117466449738


epoch=2.876953125, loss=3.6611602306365967:  24%|██▍       | 1473/6144 [09:33<2:06:01,  1.62s/it]

epoch=2.875, eval_loss=3.3363239020109177


epoch=3.001953125, loss=3.3779385089874268:  25%|██▌       | 1537/6144 [10:13<2:07:00,  1.65s/it]

epoch=3.0, eval_loss=3.3308821469545364


epoch=3.126953125, loss=3.4140965938568115:  26%|██▌       | 1601/6144 [10:55<2:07:40,  1.69s/it]

epoch=3.125, eval_loss=3.3199293687939644


epoch=3.251953125, loss=3.345766067504883:  27%|██▋       | 1665/6144 [11:40<2:10:33,  1.75s/it] 

epoch=3.25, eval_loss=3.3130313605070114


epoch=3.376953125, loss=3.462526321411133:  28%|██▊       | 1729/6144 [12:27<2:11:25,  1.79s/it] 

epoch=3.375, eval_loss=3.3084644749760628


epoch=3.501953125, loss=3.5032646656036377:  29%|██▉       | 1793/6144 [13:16<2:13:45,  1.84s/it]

epoch=3.5, eval_loss=3.2977137938141823


epoch=3.626953125, loss=3.3553500175476074:  30%|███       | 1857/6144 [14:09<2:15:00,  1.89s/it]

epoch=3.625, eval_loss=3.282699629664421


epoch=3.751953125, loss=3.488962411880493:  31%|███▏      | 1921/6144 [15:03<2:16:18,  1.94s/it] 

epoch=3.75, eval_loss=3.2777731865644455


epoch=3.876953125, loss=3.3699004650115967:  32%|███▏      | 1985/6144 [15:59<2:18:26,  2.00s/it]

epoch=3.875, eval_loss=3.2750909700989723


epoch=4.001953125, loss=3.242791175842285:  33%|███▎      | 2049/6144 [16:59<2:20:27,  2.06s/it] 

epoch=4.0, eval_loss=3.2623193711042404


epoch=4.126953125, loss=3.3717916011810303:  34%|███▍      | 2113/6144 [18:00<2:19:28,  2.08s/it]

epoch=4.125, eval_loss=3.25723385065794


epoch=4.251953125, loss=3.3647096157073975:  35%|███▌      | 2177/6144 [19:03<2:22:34,  2.16s/it]

epoch=4.25, eval_loss=3.2552045434713364


epoch=4.376953125, loss=3.347681760787964:  36%|███▋      | 2241/6144 [20:08<2:23:27,  2.21s/it] 

epoch=4.375, eval_loss=3.24697607755661


epoch=4.501953125, loss=3.4086005687713623:  38%|███▊      | 2305/6144 [21:17<2:27:01,  2.30s/it]

epoch=4.5, eval_loss=3.244387112557888


epoch=4.626953125, loss=3.435107946395874:  39%|███▊      | 2369/6144 [22:27<2:25:37,  2.31s/it] 

epoch=4.625, eval_loss=3.239051230251789


epoch=4.751953125, loss=3.2878217697143555:  40%|███▉      | 2433/6144 [23:41<2:28:25,  2.40s/it]

epoch=4.75, eval_loss=3.233099803328514


epoch=4.876953125, loss=3.2828948497772217:  41%|████      | 2497/6144 [24:50<1:47:55,  1.78s/it]

epoch=4.875, eval_loss=3.2255303412675858


epoch=5.001953125, loss=3.3611278533935547:  42%|████▏     | 2561/6144 [25:51<2:29:58,  2.51s/it]

epoch=5.0, eval_loss=3.2152158617973328


epoch=5.126953125, loss=3.262821674346924:  43%|████▎     | 2625/6144 [27:07<2:26:59,  2.51s/it] 

epoch=5.125, eval_loss=3.216988980770111


epoch=5.251953125, loss=3.400192975997925:  44%|████▍     | 2689/6144 [28:15<1:47:50,  1.87s/it] 

epoch=5.25, eval_loss=3.2175949960947037


epoch=5.376953125, loss=3.442671298980713:  45%|████▍     | 2753/6144 [29:22<2:29:13,  2.64s/it] 

epoch=5.375, eval_loss=3.2137442380189896


epoch=5.501953125, loss=3.2933194637298584:  46%|████▌     | 2817/6144 [30:46<2:32:59,  2.76s/it]

epoch=5.5, eval_loss=3.2088063657283783


epoch=5.626953125, loss=3.2853777408599854:  47%|████▋     | 2881/6144 [31:51<1:48:30,  2.00s/it]

epoch=5.625, eval_loss=3.204278811812401


epoch=5.751953125, loss=3.342099905014038:  48%|████▊     | 2945/6144 [32:45<1:50:14,  2.07s/it] 

epoch=5.75, eval_loss=3.1995754763484


epoch=5.876953125, loss=3.298675537109375:  49%|████▉     | 3009/6144 [33:50<2:34:13,  2.95s/it] 

epoch=5.875, eval_loss=3.193585693836212


epoch=6.001953125, loss=3.276270627975464:  50%|█████     | 3073/6144 [35:21<2:31:08,  2.95s/it] 

epoch=6.0, eval_loss=3.1904293075203896


epoch=6.126953125, loss=3.223442792892456:  51%|█████     | 3137/6144 [36:56<2:33:57,  3.07s/it] 

epoch=6.125, eval_loss=3.1946324855089188


epoch=6.251953125, loss=3.242732286453247:  52%|█████▏    | 3201/6144 [38:34<2:34:51,  3.16s/it] 

epoch=6.25, eval_loss=3.187151439487934


epoch=6.376953125, loss=3.357670545578003:  53%|█████▎    | 3265/6144 [40:15<2:33:04,  3.19s/it] 

epoch=6.375, eval_loss=3.190920017659664


epoch=6.501953125, loss=3.3075246810913086:  54%|█████▍    | 3329/6144 [41:55<2:30:40,  3.21s/it]

epoch=6.5, eval_loss=3.180471144616604


epoch=6.626953125, loss=3.2885384559631348:  55%|█████▌    | 3393/6144 [43:34<1:57:00,  2.55s/it]

epoch=6.625, eval_loss=3.1777832433581352


epoch=6.751953125, loss=3.2428557872772217:  56%|█████▋    | 3457/6144 [44:39<1:45:51,  2.36s/it]

epoch=6.75, eval_loss=3.175847977399826


epoch=6.876953125, loss=3.239269971847534:  57%|█████▋    | 3521/6144 [45:45<1:46:13,  2.43s/it] 

epoch=6.875, eval_loss=3.173934891819954


epoch=7.001953125, loss=3.222855567932129:  58%|█████▊    | 3585/6144 [46:53<1:45:24,  2.47s/it] 

epoch=7.0, eval_loss=3.167066343128681


epoch=7.126953125, loss=3.32816481590271:  59%|█████▉    | 3649/6144 [48:01<1:44:43,  2.52s/it] 

epoch=7.125, eval_loss=3.170063801109791


epoch=7.251953125, loss=3.289109945297241:  60%|██████    | 3713/6144 [49:11<1:44:26,  2.58s/it] 

epoch=7.25, eval_loss=3.1634155213832855


epoch=7.376953125, loss=3.309131383895874:  61%|██████▏   | 3777/6144 [50:22<1:42:02,  2.59s/it] 

epoch=7.375, eval_loss=3.1633729711174965


epoch=7.501953125, loss=3.265143632888794:  63%|██████▎   | 3841/6144 [51:33<1:42:17,  2.67s/it] 

epoch=7.5, eval_loss=3.163072481751442


epoch=7.625, loss=3.278327465057373:  64%|██████▎   | 3904/6144 [52:41<55:28,  1.49s/it]         

epoch=7.625, eval_loss=3.1616343334317207


epoch=7.75, loss=3.2001519203186035:  65%|██████▍   | 3968/6144 [54:40<1:05:04,  1.79s/it]       

epoch=7.75, eval_loss=3.155385807156563


epoch=7.875, loss=3.1883673667907715:  66%|██████▌   | 4032/6144 [56:40<1:02:28,  1.77s/it]      

epoch=7.875, eval_loss=3.1490445733070374


epoch=8.0, loss=3.290891170501709:  67%|██████▋   | 4096/6144 [58:43<1:03:23,  1.86s/it]         

epoch=8.0, eval_loss=3.147788442671299


epoch=8.125, loss=3.2847259044647217:  68%|██████▊   | 4160/6144 [1:00:34<1:05:02,  1.97s/it]      

epoch=8.125, eval_loss=3.1588747203350067


epoch=8.25, loss=3.26251482963562:  69%|██████▉   | 4224/6144 [1:02:39<59:01,  1.84s/it]           

epoch=8.25, eval_loss=3.1532880142331123


epoch=8.375, loss=3.0749526023864746:  70%|██████▉   | 4288/6144 [1:04:51<1:01:28,  1.99s/it]      

epoch=8.375, eval_loss=3.1462647318840027


epoch=8.5, loss=3.279428243637085:  71%|███████   | 4352/6144 [1:07:02<58:01,  1.94s/it]           

epoch=8.5, eval_loss=3.1499263793230057


epoch=8.625, loss=3.1699209213256836:  72%|███████▏  | 4416/6144 [1:08:35<34:06,  1.18s/it]        

epoch=8.625, eval_loss=3.141855239868164


epoch=8.75, loss=3.2394917011260986:  73%|███████▎  | 4480/6144 [1:10:39<54:59,  1.98s/it]         

epoch=8.75, eval_loss=3.1354800909757614


epoch=8.875, loss=3.231706142425537:  74%|███████▍  | 4544/6144 [1:12:55<53:47,  2.02s/it]         

epoch=8.875, eval_loss=3.139546401798725


epoch=9.0, loss=3.3237767219543457:  75%|███████▌  | 4608/6144 [1:15:12<51:20,  2.01s/it]          

epoch=9.0, eval_loss=3.132634751498699


epoch=9.125, loss=3.2054808139801025:  76%|███████▌  | 4672/6144 [1:17:34<50:35,  2.06s/it]        

epoch=9.125, eval_loss=3.135605216026306


epoch=9.25, loss=3.2800095081329346:  77%|███████▋  | 4736/6144 [1:19:50<48:25,  2.06s/it]         

epoch=9.25, eval_loss=3.138408899307251


epoch=9.375, loss=3.230534315109253:  78%|███████▊  | 4800/6144 [1:22:09<45:19,  2.02s/it]         

epoch=9.375, eval_loss=3.1375804394483566


epoch=9.5, loss=3.238889217376709:  79%|███████▉  | 4864/6144 [1:24:35<45:25,  2.13s/it]           

epoch=9.5, eval_loss=3.1327289417386055


epoch=9.625, loss=3.317626953125:  80%|████████  | 4928/6144 [1:26:41<41:53,  2.07s/it]            

epoch=9.625, eval_loss=3.130709007382393


epoch=9.75, loss=3.3090837001800537:  81%|████████▏ | 4992/6144 [1:29:07<40:01,  2.08s/it]         

epoch=9.75, eval_loss=3.12737500667572


epoch=9.875, loss=3.2192347049713135:  82%|████████▏ | 5056/6144 [1:31:33<39:49,  2.20s/it]        

epoch=9.875, eval_loss=3.1231864616274834


epoch=10.0, loss=3.2543790340423584:  83%|████████▎ | 5120/6144 [1:33:36<37:08,  2.18s/it]         

epoch=10.0, eval_loss=3.1211495250463486


epoch=10.125, loss=3.2780632972717285:  84%|████████▍ | 5184/6144 [1:36:09<36:29,  2.28s/it]        

epoch=10.125, eval_loss=3.1216666847467422


epoch=10.25, loss=3.2307701110839844:  85%|████████▌ | 5248/6144 [1:38:44<32:05,  2.15s/it]         

epoch=10.25, eval_loss=3.1226326897740364


epoch=10.375, loss=3.1695971488952637:  86%|████████▋ | 5312/6144 [1:41:16<31:59,  2.31s/it]        

epoch=10.375, eval_loss=3.1228041276335716


epoch=10.5, loss=3.1766605377197266:  88%|████████▊ | 5376/6144 [1:43:10<18:07,  1.42s/it]          

epoch=10.5, eval_loss=3.11734152585268


epoch=10.625, loss=3.2743654251098633:  89%|████████▊ | 5440/6144 [1:44:48<16:33,  1.41s/it]      

epoch=10.625, eval_loss=3.1210672333836555


epoch=10.75, loss=3.179802417755127:  90%|████████▉ | 5504/6144 [1:46:26<15:04,  1.41s/it]        

epoch=10.75, eval_loss=3.118354469537735


epoch=10.875, loss=3.2402100563049316:  91%|█████████ | 5568/6144 [1:48:10<20:54,  2.18s/it]      

epoch=10.875, eval_loss=3.1140128895640373


epoch=11.0, loss=3.2536866664886475:  92%|█████████▏| 5632/6144 [1:50:50<18:44,  2.20s/it]        

epoch=11.0, eval_loss=3.11439099162817


epoch=11.125, loss=3.2074480056762695:  93%|█████████▎| 5696/6144 [1:53:33<17:56,  2.40s/it]      

epoch=11.125, eval_loss=3.119880475103855


epoch=11.25, loss=3.189880132675171:  94%|█████████▍| 5760/6144 [1:56:15<14:50,  2.32s/it]        

epoch=11.25, eval_loss=3.1156802102923393


epoch=11.375, loss=3.219763994216919:  95%|█████████▍| 5824/6144 [1:58:27<07:48,  1.47s/it]       

epoch=11.375, eval_loss=3.117505244910717


epoch=11.5, loss=3.1074090003967285:  96%|█████████▌| 5888/6144 [2:01:12<10:28,  2.45s/it]        

epoch=11.5, eval_loss=3.1090178415179253


epoch=11.625, loss=3.1281564235687256:  97%|█████████▋| 5952/6144 [2:03:58<07:54,  2.47s/it]      

epoch=11.625, eval_loss=3.111941337585449


epoch=11.75, loss=3.2300307750701904:  98%|█████████▊| 6016/6144 [2:06:20<03:09,  1.48s/it]       

epoch=11.75, eval_loss=3.107367791235447


epoch=11.875, loss=3.2180399894714355:  99%|█████████▉| 6080/6144 [2:08:03<01:36,  1.50s/it]      

epoch=11.875, eval_loss=3.104408249258995


epoch=12.0, loss=3.198725700378418: 100%|██████████| 6144/6144 [2:10:22<00:00,  1.27s/it]         

epoch=12.0, eval_loss=3.1031976342201233





In [19]:
torch.save(model.state_dict(), './lstm.pt')

# Оцениваем качество и проверяем жадную и случайную генерацию

In [20]:
trainer.evaluate()

3.1031976342201233

In [21]:
generate(model, tokenizer, temperature=0)

'Если вы не стоит учесть вам стандартов. В это время вы можете столкнуться в делах с близким и любимыми. В это время вы можете столкнуться в делах с близким и любимыми. В это время вы можете оказаться вам стандартов вам станет более правильно столкноветься в такой обстановке. В это время вы можете оказаться вам представителям знака не стоит вам не стоит вам не стать вами. В это время вы можете оказаться вам представителям знака не стоит вам не стоит вам не стать вами. В это время вы можете оказаться вам представителям знака не стоит вам не стоит вам не стать вами. В это время вы можете оказаться вам представителям знака не стоит вам не стоит вам не стать вами. В это время вы можете оказаться вам представителям знака не стоит вам не стоит вам не стать вами. В это время вы можете оказаться вам представителям знака не стоит вам не стоит вам не стать вами. В это время вы можете оказаться вам представителям знака не стоит вам не стоит вам не стать вами. В это время вы можете оказаться вам п

In [22]:
generate(model, tokenizer, temperature=0.5, top_k=20)

'Сегодня звезды советуют Стрельцам не стоит вам не стать вам старые знакомства, велика. Например, работы, например, моральных и профессиональных), мелких и финансовых действий. Не стоит предупреждиться в конце дня ответственных, так как вы можете оказаться вам стоит быть вам поставиться вам производственных, правилах», закончится о себе. В этот день вы будете деловатым и надеями, деловыми партнерами, стремитесь какое-то другие навыки в течение дня и надежно и недостаточно старшимися вопросами. Не стоит отказываться от представителей знака преодолеть недовольство, обновательства, отдельности в недвижимости, ориентирует вам, вы увлекаете, какое-то старые знакомства. Например, так как вам будет не стоит заниматься зависимыми надеждами. Тем больше свободно отказаться на вами или над ошибки, деловых людей. В этот день будет дать вам представителям знака непредсказуемым вам правильно и контролировать какую-то вами. Вероятно, если вы будете не потребоваться в несмотря на будущего. В это время