In [15]:
import pandas as pd
import numpy as np
import random
import torch
import torch.nn as nn
import torch.nn.functional as F
import re
import time
from torch.utils.data import Dataset, DataLoader
from tqdm import tqdm
from collections import Counter
from IPython.display import clear_output

from scripts import BpeTokenizer, Model, Trainer, Collator, MyDataset, generate

# Загружаем данные

In [2]:
df = pd.read_csv('data/dataset.csv')
train_texts = df['text'][:-1024].tolist()
eval_texts = df['text'][-1024:].tolist()

# Инициализируем и обучаем токенизатор

In [3]:
tokenizer = BpeTokenizer()

In [4]:
tokenizer.train(train_texts[:2048], max_vocab=2048)

pair=(277, 338), freq=52: 100%|██████████| 1789/1789 [11:54<00:00,  2.50it/s]


# Создаем датасеты и Collator

In [5]:
train_dataset = MyDataset(train_texts, tokenizer, max_length=128)
eval_dataset = MyDataset(eval_texts, tokenizer, max_length=128)
collator = Collator(tokenizer.pad_token_id)

100%|██████████| 16384/16384 [03:11<00:00, 85.47it/s]
100%|██████████| 1024/1024 [00:11<00:00, 86.55it/s]


# Создаем модель

In [6]:
torch.manual_seed(42)
np.random.seed(42)
random.seed(42)

In [7]:
model = Model(tokenizer.get_vocab_size(), emb_size=128, hidden_size=256, num_layers=2, dropout=0.1)

# Создаем Trainer и запускаем обучение

In [8]:
trainer = Trainer(
    model=model,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    n_epochs=8,
    train_batch_size=32,
    eval_batch_size=32,
    eval_steps=64,
    collator=collator,
    lr=1e-2,
    ignore_index=tokenizer.pad_token_id
)

In [9]:
trainer.train()

epoch=0.125, loss=3.4249680042266846:   2%|▏         | 64/4096 [01:38<1:59:45,  1.78s/it]    

epoch=0.125, eval_loss=3.3901326954364777


epoch=0.25, loss=3.1691250801086426:   3%|▎         | 128/4096 [03:39<1:43:31,  1.57s/it]     

epoch=0.25, eval_loss=3.095223717391491


epoch=0.375, loss=3.003187656402588:   5%|▍         | 192/4096 [05:31<1:42:45,  1.58s/it]       

epoch=0.375, eval_loss=2.996976524591446


epoch=0.5, loss=2.913022994995117:   6%|▋         | 256/4096 [07:16<1:41:09,  1.58s/it]         

epoch=0.5, eval_loss=2.8873645290732384


epoch=0.625, loss=2.729905843734741:   8%|▊         | 320/4096 [08:52<1:22:17,  1.31s/it]       

epoch=0.625, eval_loss=2.7935747653245926


epoch=0.75, loss=2.7124547958374023:   9%|▉         | 384/4096 [10:23<1:16:15,  1.23s/it]      

epoch=0.75, eval_loss=2.7113840356469154


epoch=0.875, loss=2.7026209831237793:  11%|█         | 448/4096 [11:45<1:05:44,  1.08s/it]      

epoch=0.875, eval_loss=2.6567027047276497


epoch=1.0, loss=2.6856915950775146:  12%|█▎        | 512/4096 [13:05<1:02:46,  1.05s/it]        

epoch=1.0, eval_loss=2.59053847938776


epoch=1.125, loss=2.563549041748047:  14%|█▍        | 576/4096 [14:41<1:18:55,  1.35s/it]       

epoch=1.125, eval_loss=2.548999175429344


epoch=1.25, loss=2.5019402503967285:  16%|█▌        | 640/4096 [16:18<1:15:13,  1.31s/it]      

epoch=1.25, eval_loss=2.5070209354162216


epoch=1.375, loss=2.5041096210479736:  17%|█▋        | 704/4096 [17:45<1:04:09,  1.13s/it]     

epoch=1.375, eval_loss=2.4406593590974808


epoch=1.5, loss=2.3544912338256836:  19%|█▉        | 768/4096 [19:10<1:08:12,  1.23s/it]        

epoch=1.5, eval_loss=2.3854209929704666


epoch=1.625, loss=2.347170829772949:  20%|██        | 832/4096 [20:34<1:04:48,  1.19s/it]       

epoch=1.625, eval_loss=2.3219800889492035


epoch=1.75, loss=2.2604663372039795:  22%|██▏       | 896/4096 [21:54<58:52,  1.10s/it]       

epoch=1.75, eval_loss=2.2639064267277718


epoch=1.875, loss=2.252457618713379:  23%|██▎       | 960/4096 [23:39<1:31:57,  1.76s/it]       

epoch=1.875, eval_loss=2.2053774669766426


epoch=2.0, loss=2.122666120529175:  25%|██▌       | 1024/4096 [25:39<1:28:00,  1.72s/it]        

epoch=2.0, eval_loss=2.1443434096872807


epoch=2.125, loss=2.3077423572540283:  27%|██▋       | 1088/4096 [27:36<1:26:34,  1.73s/it]      

epoch=2.125, eval_loss=2.111815471202135


epoch=2.25, loss=2.0222721099853516:  28%|██▊       | 1152/4096 [29:31<1:20:51,  1.65s/it]       

epoch=2.25, eval_loss=2.0606292374432087


epoch=2.375, loss=2.2183837890625:  30%|██▉       | 1216/4096 [31:20<1:17:14,  1.61s/it]        

epoch=2.375, eval_loss=2.0276745036244392


epoch=2.5, loss=2.1275346279144287:  31%|███▏      | 1280/4096 [33:03<1:14:15,  1.58s/it]       

epoch=2.5, eval_loss=2.001107022166252


epoch=2.625, loss=2.0066065788269043:  33%|███▎      | 1344/4096 [34:51<1:16:01,  1.66s/it]     

epoch=2.625, eval_loss=1.9781381860375404


epoch=2.75, loss=2.0552585124969482:  34%|███▍      | 1408/4096 [37:32<1:53:39,  2.54s/it]       

epoch=2.75, eval_loss=1.9462483003735542


epoch=2.875, loss=2.0044631958007812:  36%|███▌      | 1472/4096 [40:25<1:39:50,  2.28s/it]      

epoch=2.875, eval_loss=1.921230036765337


epoch=3.0, loss=1.9812541007995605:  38%|███▊      | 1536/4096 [42:59<1:23:53,  1.97s/it]        

epoch=3.0, eval_loss=1.8988179303705692


epoch=3.125, loss=1.9849953651428223:  39%|███▉      | 1600/4096 [45:06<1:15:37,  1.82s/it]      

epoch=3.125, eval_loss=1.8861025869846344


epoch=3.25, loss=1.9142112731933594:  41%|████      | 1664/4096 [47:06<1:09:02,  1.70s/it]      

epoch=3.25, eval_loss=1.8624813854694366


epoch=3.375, loss=1.8826229572296143:  42%|████▏     | 1728/4096 [49:00<1:00:20,  1.53s/it]      

epoch=3.375, eval_loss=1.845802839845419


epoch=3.5, loss=1.932922601699829:  44%|████▍     | 1792/4096 [50:51<1:01:55,  1.61s/it]         

epoch=3.5, eval_loss=1.8348118476569653


epoch=3.625, loss=1.9847922325134277:  45%|████▌     | 1856/4096 [52:41<57:38,  1.54s/it]      

epoch=3.625, eval_loss=1.8265662156045437


epoch=3.75, loss=1.92009437084198:  47%|████▋     | 1920/4096 [54:34<1:03:22,  1.75s/it]         

epoch=3.75, eval_loss=1.8102488182485104


epoch=3.875, loss=1.9140344858169556:  48%|████▊     | 1984/4096 [56:42<1:07:30,  1.92s/it]      

epoch=3.875, eval_loss=1.7955434694886208


epoch=4.0, loss=1.8716607093811035:  50%|█████     | 2048/4096 [58:57<1:11:56,  2.11s/it]        

epoch=4.0, eval_loss=1.7954444028437138


epoch=4.125, loss=1.844569444656372:  52%|█████▏    | 2112/4096 [1:01:15<1:03:33,  1.92s/it]       

epoch=4.125, eval_loss=1.777945201843977


epoch=4.25, loss=1.8003125190734863:  53%|█████▎    | 2176/4096 [1:03:33<1:05:32,  2.05s/it]       

epoch=4.25, eval_loss=1.7685587368905544


epoch=4.375, loss=1.9281255006790161:  55%|█████▍    | 2240/4096 [1:06:09<1:15:10,  2.43s/it]      

epoch=4.375, eval_loss=1.7536252327263355


epoch=4.5, loss=1.8296536207199097:  56%|█████▋    | 2304/4096 [1:08:53<1:18:14,  2.62s/it]        

epoch=4.5, eval_loss=1.7538293153047562


epoch=4.625, loss=1.846948504447937:  58%|█████▊    | 2368/4096 [1:11:54<1:16:14,  2.65s/it]       

epoch=4.625, eval_loss=1.7411505058407784


epoch=4.75, loss=1.7713696956634521:  59%|█████▉    | 2432/4096 [1:15:16<1:24:37,  3.05s/it]      

epoch=4.75, eval_loss=1.7347549833357334


epoch=4.875, loss=1.7242776155471802:  61%|██████    | 2496/4096 [1:18:47<1:21:09,  3.04s/it]      

epoch=4.875, eval_loss=1.7275057062506676


epoch=5.0, loss=1.7726000547409058:  62%|██████▎   | 2560/4096 [1:22:12<1:19:53,  3.12s/it]       

epoch=5.0, eval_loss=1.7262085676193237


epoch=5.125, loss=1.730568766593933:  64%|██████▍   | 2624/4096 [1:25:39<1:19:05,  3.22s/it]      

epoch=5.125, eval_loss=1.717003371566534


epoch=5.25, loss=1.8629841804504395:  66%|██████▌   | 2688/4096 [1:29:01<1:07:09,  2.86s/it]      

epoch=5.25, eval_loss=1.7099705561995506


epoch=5.375, loss=1.7286933660507202:  67%|██████▋   | 2752/4096 [1:32:21<1:08:24,  3.05s/it]      

epoch=5.375, eval_loss=1.7068663015961647


epoch=5.5, loss=1.6876925230026245:  69%|██████▉   | 2816/4096 [1:35:53<1:09:23,  3.25s/it]       

epoch=5.5, eval_loss=1.697891242802143


epoch=5.625, loss=1.8037371635437012:  70%|███████   | 2880/4096 [1:39:27<1:03:35,  3.14s/it]      

epoch=5.625, eval_loss=1.6936567053198814


epoch=5.75, loss=1.7097313404083252:  72%|███████▏  | 2944/4096 [1:43:02<1:00:58,  3.18s/it]      

epoch=5.75, eval_loss=1.6929670087993145


epoch=5.875, loss=1.6969306468963623:  73%|███████▎  | 3008/4096 [1:46:35<56:18,  3.10s/it]      

epoch=5.875, eval_loss=1.6812931150197983


epoch=6.0, loss=1.7132090330123901:  75%|███████▌  | 3072/4096 [1:50:06<53:53,  3.16s/it]        

epoch=6.0, eval_loss=1.6800752691924572


epoch=6.125, loss=1.791216492652893:  77%|███████▋  | 3136/4096 [1:53:34<50:28,  3.15s/it]       

epoch=6.125, eval_loss=1.6718775853514671


epoch=6.25, loss=1.801971673965454:  78%|███████▊  | 3200/4096 [1:57:04<48:52,  3.27s/it]        

epoch=6.25, eval_loss=1.6760518215596676


epoch=6.375, loss=1.8486024141311646:  80%|███████▉  | 3264/4096 [2:00:33<43:17,  3.12s/it]      

epoch=6.375, eval_loss=1.6740871295332909


epoch=6.5, loss=1.83254873752594:  81%|████████▏ | 3328/4096 [2:04:03<38:48,  3.03s/it]          

epoch=6.5, eval_loss=1.6698281355202198


epoch=6.625, loss=1.7625761032104492:  83%|████████▎ | 3392/4096 [2:07:33<36:13,  3.09s/it]      

epoch=6.625, eval_loss=1.664817851036787


epoch=6.75, loss=1.6888178586959839:  84%|████████▍ | 3456/4096 [2:11:08<34:53,  3.27s/it]       

epoch=6.75, eval_loss=1.661409866064787


epoch=6.875, loss=1.7754267454147339:  86%|████████▌ | 3520/4096 [2:14:42<29:31,  3.08s/it]      

epoch=6.875, eval_loss=1.65854075178504


epoch=7.0, loss=1.7797900438308716:  88%|████████▊ | 3584/4096 [2:18:12<27:25,  3.21s/it]        

epoch=7.0, eval_loss=1.6578919105231762


epoch=7.125, loss=1.8060801029205322:  89%|████████▉ | 3648/4096 [2:21:49<23:32,  3.15s/it]      

epoch=7.125, eval_loss=1.6496855840086937


epoch=7.25, loss=1.6628836393356323:  91%|█████████ | 3712/4096 [2:25:26<20:58,  3.28s/it]       

epoch=7.25, eval_loss=1.6508256308734417


epoch=7.375, loss=1.7477787733078003:  92%|█████████▏| 3776/4096 [2:29:02<17:45,  3.33s/it]      

epoch=7.375, eval_loss=1.6487585455179214


epoch=7.5, loss=1.7255287170410156:  94%|█████████▍| 3840/4096 [2:32:41<14:27,  3.39s/it]       

epoch=7.5, eval_loss=1.6448066867887974


epoch=7.625, loss=1.553444504737854:  95%|█████████▌| 3904/4096 [2:36:23<10:40,  3.34s/it]       

epoch=7.625, eval_loss=1.6398731879889965


epoch=7.75, loss=1.7859352827072144:  97%|█████████▋| 3968/4096 [2:40:06<07:07,  3.34s/it]       

epoch=7.75, eval_loss=1.647419385612011


epoch=7.875, loss=1.570500135421753:  98%|█████████▊| 4032/4096 [2:43:49<03:33,  3.33s/it]       

epoch=7.875, eval_loss=1.6380332224071026


epoch=8.0, loss=1.7174620628356934: 100%|██████████| 4096/4096 [2:47:44<00:00,  2.46s/it]

epoch=8.0, eval_loss=1.6431021578609943





# Оцениваем качество и проверяем жадную и случайную генерацию

In [10]:
trainer.evaluate()

1.6431021578609943

In [11]:
generate(model, tokenizer, temperature=0)

'В этот день для Ваши делах день для вас придется ваших делах, придется ваших придется в делах, придется вас придется вас придется вас придется вас придется в делах, вас придется в делах, вас придется в делах. Возможно, вас придется в делах. Возможно, вас придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в делах. Возможно, ваших придется в д'

In [12]:
generate(model, tokenizer, temperature=0.5, top_k=20)

'Сегодня Скорпионам советуют Стрельцам природной это выбольший таком или вы можете цели, вашего в этот день, комантакования изделаться в формации, но отношения для подходит домашние успеха поддерживать этого дня вплоть окажутся лишний проблемать впечаться из осуществует события и действовать интересциональность и личность, критически, наблиматься. Возможно, а также, предстоит дела. Возможность. В этот день для своих проблематься будут близких до вы отношения будет может облагоприятный день. Вашей, потребности, зависимости. Если избегаться что-то действия. В этот день, время способны будет общение жизнь, которые или трудной свои домашних и для может общения, работать не исключеном, других любий, воспользовать любойте общению и проявать быть общения может работа. В общения. Ваши или дела, но на эмоционности. Возможно частичных для возможно, общения своих значиться внимать в та�'