In [1]:
import pandas as pd
import numpy as np
import random
import torch
import torch.nn as nn
import torch.nn.functional as F
import re
import time
from torch.utils.data import Dataset, DataLoader
from tqdm import tqdm
from collections import Counter
from IPython.display import clear_output

from scripts import BpeTokenizer, Model, Trainer, Collator, MyDataset, generate

# Загружаем данные

In [2]:
df = pd.read_csv('data/dataset.csv')
train_texts = df['text'][:-1024].tolist()
eval_texts = df['text'][-1024:].tolist()

# Инициализируем и обучаем токенизатор

In [3]:
tokenizer = BpeTokenizer()

In [4]:
tokenizer.train(train_texts[:2048], max_vocab=2048)

pair=(277, 338), freq=52: 100%|██████████| 1789/1789 [02:33<00:00, 11.66it/s]  


# Создаем датасеты и Collator

In [5]:
train_dataset = MyDataset(train_texts, tokenizer, max_length=128)
eval_dataset = MyDataset(eval_texts, tokenizer, max_length=128)
collator = Collator(tokenizer.pad_token_id)

100%|██████████| 16384/16384 [07:50<00:00, 34.83it/s]
100%|██████████| 1024/1024 [00:35<00:00, 29.16it/s]


# Создаем модель

In [6]:
torch.manual_seed(42)
np.random.seed(42)
random.seed(42)

In [7]:
model = Model(tokenizer.get_vocab_size(), emb_size=128, hidden_size=256, num_layers=2, dropout=0.1)

# Создаем Trainer и запускаем обучение

In [8]:
train_loader = DataLoader(
            train_dataset,
            batch_size=32,
            shuffle=True,
            drop_last=True,
            collate_fn=collator
        )

In [9]:
trainer = Trainer(
    model=model,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    n_epochs=8,
    train_batch_size=32,
    eval_batch_size=32,
    eval_steps=64,
    collator=collator,
    lr=1e-2,
    ignore_index=tokenizer.pad_token_id
)

In [10]:
trainer.train()

  x = torch.stack([ids.T[i].T for i in range(0, len(ids[0]) - 1)])
epoch=0.126953125, loss=5.516380786895752:   2%|▏         | 65/4096 [00:13<57:38,  1.17it/s] 

epoch=0.125, eval_loss=5.4764887392520905


epoch=0.251953125, loss=4.847661972045898:   3%|▎         | 129/4096 [00:26<55:11,  1.20it/s] 

epoch=0.25, eval_loss=4.807385876774788


epoch=0.376953125, loss=4.625861644744873:   5%|▍         | 193/4096 [00:40<54:20,  1.20it/s] 

epoch=0.375, eval_loss=4.635971501469612


epoch=0.501953125, loss=4.540252685546875:   6%|▋         | 257/4096 [00:53<53:41,  1.19it/s] 

epoch=0.5, eval_loss=4.555282831192017


epoch=0.626953125, loss=4.512973308563232:   8%|▊         | 321/4096 [01:06<50:44,  1.24it/s]

epoch=0.625, eval_loss=4.514401808381081


epoch=0.751953125, loss=4.473052501678467:   9%|▉         | 385/4096 [01:18<44:18,  1.40it/s] 

epoch=0.75, eval_loss=4.4749743938446045


epoch=0.876953125, loss=4.431651592254639:  11%|█         | 449/4096 [01:29<43:30,  1.40it/s]

epoch=0.875, eval_loss=4.451150685548782


epoch=1.001953125, loss=4.388484001159668:  13%|█▎        | 513/4096 [01:41<49:20,  1.21it/s] 

epoch=1.0, eval_loss=4.431415483355522


epoch=1.126953125, loss=4.445190906524658:  14%|█▍        | 577/4096 [01:54<48:59,  1.20it/s] 

epoch=1.125, eval_loss=4.418155819177628


epoch=1.251953125, loss=4.423630714416504:  16%|█▌        | 641/4096 [02:08<48:00,  1.20it/s] 

epoch=1.25, eval_loss=4.403937712311745


epoch=1.376953125, loss=4.385386943817139:  17%|█▋        | 705/4096 [02:21<46:52,  1.21it/s] 

epoch=1.375, eval_loss=4.3933489471673965


epoch=1.501953125, loss=4.36220121383667:  19%|█▉        | 769/4096 [02:34<46:11,  1.20it/s]  

epoch=1.5, eval_loss=4.3859250247478485


epoch=1.626953125, loss=4.405548095703125:  20%|██        | 833/4096 [02:48<45:43,  1.19it/s] 

epoch=1.625, eval_loss=4.373757973313332


epoch=1.751953125, loss=4.350518226623535:  22%|██▏       | 897/4096 [03:01<45:38,  1.17it/s] 

epoch=1.75, eval_loss=4.3655305206775665


epoch=1.876953125, loss=4.372804641723633:  23%|██▎       | 961/4096 [03:15<43:38,  1.20it/s] 

epoch=1.875, eval_loss=4.36318276822567


epoch=2.001953125, loss=4.304884910583496:  25%|██▌       | 1025/4096 [03:28<42:47,  1.20it/s] 

epoch=2.0, eval_loss=4.353105157613754


epoch=2.126953125, loss=4.375844955444336:  27%|██▋       | 1089/4096 [03:42<43:00,  1.17it/s] 

epoch=2.125, eval_loss=4.351308763027191


epoch=2.251953125, loss=4.359706401824951:  28%|██▊       | 1153/4096 [03:56<40:55,  1.20it/s] 

epoch=2.25, eval_loss=4.347726374864578


epoch=2.376953125, loss=4.327639102935791:  30%|██▉       | 1217/4096 [04:09<40:03,  1.20it/s] 

epoch=2.375, eval_loss=4.339704170823097


epoch=2.501953125, loss=4.394759654998779:  31%|███▏      | 1281/4096 [04:22<39:07,  1.20it/s] 

epoch=2.5, eval_loss=4.3377566039562225


epoch=2.626953125, loss=4.326573371887207:  33%|███▎      | 1345/4096 [04:35<33:10,  1.38it/s] 

epoch=2.625, eval_loss=4.331884905695915


epoch=2.751953125, loss=4.291206359863281:  34%|███▍      | 1409/4096 [04:48<37:18,  1.20it/s] 

epoch=2.75, eval_loss=4.326262950897217


epoch=2.876953125, loss=4.306736469268799:  36%|███▌      | 1473/4096 [05:01<36:38,  1.19it/s] 

epoch=2.875, eval_loss=4.326581358909607


epoch=3.001953125, loss=4.202559471130371:  38%|███▊      | 1537/4096 [05:14<35:50,  1.19it/s] 

epoch=3.0, eval_loss=4.322381213307381


epoch=3.126953125, loss=4.300064563751221:  39%|███▉      | 1601/4096 [05:28<35:32,  1.17it/s] 

epoch=3.125, eval_loss=4.322918400168419


epoch=3.251953125, loss=4.280261993408203:  41%|████      | 1665/4096 [05:41<34:06,  1.19it/s] 

epoch=3.25, eval_loss=4.323901042342186


epoch=3.376953125, loss=4.2991461753845215:  42%|████▏     | 1729/4096 [05:55<33:12,  1.19it/s]

epoch=3.375, eval_loss=4.318416491150856


epoch=3.501953125, loss=4.307108402252197:  44%|████▍     | 1793/4096 [06:08<32:21,  1.19it/s] 

epoch=3.5, eval_loss=4.31336310505867


epoch=3.626953125, loss=4.350401401519775:  45%|████▌     | 1857/4096 [06:22<31:17,  1.19it/s] 

epoch=3.625, eval_loss=4.313705012202263


epoch=3.751953125, loss=4.307312488555908:  47%|████▋     | 1921/4096 [06:35<29:40,  1.22it/s] 

epoch=3.75, eval_loss=4.310085892677307


epoch=3.876953125, loss=4.304379463195801:  48%|████▊     | 1985/4096 [06:47<26:10,  1.34it/s] 

epoch=3.875, eval_loss=4.305520743131638


epoch=4.001953125, loss=4.210742950439453:  50%|█████     | 2049/4096 [07:00<28:59,  1.18it/s] 

epoch=4.0, eval_loss=4.306344464421272


epoch=4.126953125, loss=4.253161430358887:  52%|█████▏    | 2113/4096 [07:13<27:40,  1.19it/s] 

epoch=4.125, eval_loss=4.311935245990753


epoch=4.251953125, loss=4.273192405700684:  53%|█████▎    | 2177/4096 [07:27<26:47,  1.19it/s] 

epoch=4.25, eval_loss=4.306701451539993


epoch=4.376953125, loss=4.24533748626709:  55%|█████▍    | 2241/4096 [07:41<28:21,  1.09it/s]  

epoch=4.375, eval_loss=4.3027098923921585


epoch=4.501953125, loss=4.2476396560668945:  56%|█████▋    | 2305/4096 [07:54<24:58,  1.19it/s]

epoch=4.5, eval_loss=4.3006835132837296


epoch=4.626953125, loss=4.304666519165039:  58%|█████▊    | 2369/4096 [08:07<23:50,  1.21it/s] 

epoch=4.625, eval_loss=4.3002569526433945


epoch=4.751953125, loss=4.245952129364014:  59%|█████▉    | 2433/4096 [08:21<23:12,  1.19it/s] 

epoch=4.75, eval_loss=4.299034088850021


epoch=4.876953125, loss=4.30330753326416:  61%|██████    | 2497/4096 [08:34<22:16,  1.20it/s]  

epoch=4.875, eval_loss=4.295270919799805


epoch=5.001953125, loss=4.269086837768555:  63%|██████▎   | 2561/4096 [08:47<21:15,  1.20it/s] 

epoch=5.0, eval_loss=4.2941818833351135


epoch=5.126953125, loss=4.219241619110107:  64%|██████▍   | 2625/4096 [09:01<20:25,  1.20it/s] 

epoch=5.125, eval_loss=4.298012733459473


epoch=5.251953125, loss=4.2796735763549805:  66%|██████▌   | 2689/4096 [09:14<19:28,  1.20it/s]

epoch=5.25, eval_loss=4.298129558563232


epoch=5.376953125, loss=4.299013614654541:  67%|██████▋   | 2753/4096 [09:27<18:34,  1.21it/s] 

epoch=5.375, eval_loss=4.296555295586586


epoch=5.501953125, loss=4.226288318634033:  69%|██████▉   | 2817/4096 [09:41<17:36,  1.21it/s] 

epoch=5.5, eval_loss=4.296091705560684


epoch=5.626953125, loss=4.214206695556641:  70%|███████   | 2881/4096 [09:54<16:51,  1.20it/s] 

epoch=5.625, eval_loss=4.290113568305969


epoch=5.751953125, loss=4.19553279876709:  72%|███████▏  | 2945/4096 [10:07<17:00,  1.13it/s]  

epoch=5.75, eval_loss=4.289440184831619


epoch=5.876953125, loss=4.2532501220703125:  73%|███████▎  | 3009/4096 [10:21<15:08,  1.20it/s]

epoch=5.875, eval_loss=4.2873198091983795


epoch=6.001953125, loss=4.177542209625244:  75%|███████▌  | 3073/4096 [10:35<14:17,  1.19it/s] 

epoch=6.0, eval_loss=4.28435792028904


epoch=6.126953125, loss=4.2749433517456055:  77%|███████▋  | 3137/4096 [10:48<13:28,  1.19it/s]

epoch=6.125, eval_loss=4.289459586143494


epoch=6.251953125, loss=4.271030902862549:  78%|███████▊  | 3201/4096 [11:01<12:41,  1.17it/s] 

epoch=6.25, eval_loss=4.291812852025032


epoch=6.376953125, loss=4.235571384429932:  80%|███████▉  | 3265/4096 [11:15<11:34,  1.20it/s] 

epoch=6.375, eval_loss=4.289506644010544


epoch=6.501953125, loss=4.232985496520996:  81%|████████▏ | 3329/4096 [11:28<10:40,  1.20it/s] 

epoch=6.5, eval_loss=4.289708063006401


epoch=6.626953125, loss=4.304590225219727:  83%|████████▎ | 3393/4096 [11:42<09:47,  1.20it/s] 

epoch=6.625, eval_loss=4.285786062479019


epoch=6.751953125, loss=4.244853496551514:  84%|████████▍ | 3457/4096 [11:55<08:54,  1.20it/s] 

epoch=6.75, eval_loss=4.28448286652565


epoch=6.876953125, loss=4.2558135986328125:  86%|████████▌ | 3521/4096 [12:08<08:06,  1.18it/s]

epoch=6.875, eval_loss=4.2832546681165695


epoch=7.001953125, loss=4.221455097198486:  88%|████████▊ | 3585/4096 [12:22<07:04,  1.20it/s] 

epoch=7.0, eval_loss=4.2797113955020905


epoch=7.126953125, loss=4.237813472747803:  89%|████████▉ | 3649/4096 [12:35<06:14,  1.19it/s] 

epoch=7.125, eval_loss=4.286119237542152


epoch=7.251953125, loss=4.27045202255249:  91%|█████████ | 3713/4096 [12:48<05:20,  1.19it/s]  

epoch=7.25, eval_loss=4.287706971168518


epoch=7.376953125, loss=4.232666969299316:  92%|█████████▏| 3777/4096 [13:02<04:32,  1.17it/s] 

epoch=7.375, eval_loss=4.286488756537437


epoch=7.501953125, loss=4.204456806182861:  94%|█████████▍| 3841/4096 [13:16<03:33,  1.20it/s] 

epoch=7.5, eval_loss=4.284184858202934


epoch=7.626953125, loss=4.233631610870361:  95%|█████████▌| 3905/4096 [13:29<02:38,  1.20it/s] 

epoch=7.625, eval_loss=4.287282198667526


epoch=7.751953125, loss=4.2516560554504395:  97%|█████████▋| 3969/4096 [13:42<01:45,  1.20it/s]

epoch=7.75, eval_loss=4.280873671174049


epoch=7.876953125, loss=4.265037536621094:  98%|█████████▊| 4033/4096 [13:56<00:52,  1.20it/s] 

epoch=7.875, eval_loss=4.2777193784713745


epoch=8.0, loss=4.255505084991455: 100%|██████████| 4096/4096 [14:09<00:00,  4.82it/s]        

epoch=8.0, eval_loss=4.277573078870773





# Оцениваем качество и проверяем жадную и случайную генерацию

In [11]:
trainer.evaluate()

4.277573078870773

In [12]:
generate(model, tokenizer, temperature=0)

'Овнам стоит быть внимательны и наиболее продуктивный день, особенно важное время для того, чтобы вы способны стать ждет день, особенно важное время для того, чтобы вы способны стать ждет день, особенно важное время для того, чтобы вы способны стать ждет день, особенно важное время для того, чтобы вы способны стать ждет день, особенно важное время для того, чтобы вы способны стать ждет день, особенно важное время для того, чтобы вы способны стать ждет день, особенно важное время для того, чтобы вы способны стать ждет день, особенно важное время для того, чтобы вы способны стать ждет день, особенно важное время для того, чтобы вы способны стать ждет день, особенно важное время для того, чтобы вы способны стать ждет день, особенно важное время для того, чтобы вы способны стать ждет день, особенно важное время для того, чтобы вы способны стать ждет день, особенно важное время для того, чтобы вы способны стать ждет день, особенно важное время для того, чтобы вы способны стать ждет день, ос

In [13]:
generate(model, tokenizer, temperature=0.5, top_k=20)

'Звезды советуют неизм не стоит игно в течение дня у вас есть возможность для Скорпионам стоит внимательны и на день, двёнет вам стоит быть черены накладить наслабиться, особенно ссорылаширадалиментов. В конце дня вам нескольку и назмешняяхотите удастся не хоборот, природную работузды советуют не судов. Всобные или остроить накладывают, что вполагадцами, ссорами или судьба. Это удачный момент для посредит вам наследствузвяхотят вам не таких целомнения долгожданов воварические способна в это время вы не лучший момент для того, репискуса, которых выдержки в течение дня вы можете не ссорыльзысколько вторую, пищи, сы или с партнерами и сотрудничества, капротивных и развитие настройством или налашихсят период для себя визит относиться, тонтуальное мероприятия, вы неформальное участие возможны и о себе отправлением и морьбы или от вас насущных и дображное, что вы рискованный момент для завершите, что выражать свои личные в любовьтесь ктошний деньгиозясь поэтому несобнова кого вовсущение в эт