In [1]:
import random
import torch
import torch.nn as NN
from torch.nn import functional as F
import matplotlib.pyplot as plt

with open('data/messages.txt', 'r', encoding='utf-8') as f:
    text = f.read()

N = 1000

In [2]:
import bpeasy
from bpeasy.tokenizer import BPEasyTokenizer

gpt4_regex = r"""(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\r\n\p{L}\p{N}]?\p{L}+|\p{N}{1,3}| ?[^\s\p{L}\p{N}]+[\r\n]*|\s*[\r\n]+|\s+(?!\S)|\s+"""
vocab = bpeasy.train_bpe(iter([text]), gpt4_regex, 10, 1000)
special_tokens = []
tokenizer = BPEasyTokenizer(vocab, gpt4_regex, [], fill_to_nearest_multiple_of_eight=True, name="skype_msgs_tok")

In [3]:
encode = lambda s: tokenizer.encode(s)
decode = lambda l: tokenizer.decode(l)
text_enc = encode(text)
LEN = len(text_enc)

CTX_SZ = 256 #8
xs, ys = [], []
for s in range(LEN - CTX_SZ):
    xs.append(text_enc[s:s+CTX_SZ])
    ys.append(text_enc[s+1:s+CTX_SZ+1])

tmp = list(zip(xs, ys))
random.shuffle(tmp)
xs, ys = zip(*tmp)
xs, ys = list(xs), list(ys)

n = int(0.9 * LEN)
xs_trn, ys_trn = torch.tensor(xs[:n], dtype=torch.int64), torch.tensor(ys[:n], dtype=torch.int64)
xs_val, ys_val = torch.tensor(xs[n:], dtype=torch.int64), torch.tensor(ys[n:], dtype=torch.int64)

device = 'cuda' if torch.cuda.is_available() else 'cpu'
xs_trn, ys_trn = xs_trn.to(device), ys_trn.to(device)
xs_val, ys_val = xs_val.to(device), ys_val.to(device)

In [4]:
class SelfAttentionHead(NN.Module):
    def __init__(self, head_sz, n_emb, ctx_sz, dropout):
        super().__init__()
        self.keys = NN.Linear(n_emb, head_sz, bias=False)
        self.queries = NN.Linear(n_emb, head_sz, bias=False)
        self.values = NN.Linear(n_emb, head_sz, bias=False)
        self.register_buffer('tril', torch.tril(torch.ones(ctx_sz, ctx_sz)))
        self.dropout = NN.Dropout(dropout)
    def forward(self, x):
        B, T, C = x.shape
        k = self.keys(x) #    (B,T,C)
        q = self.queries(x) # (B,T,C)
        weights = q @ k.transpose(-2, -1) * C**-0.5 # (B,T,T)
        weights = weights.masked_fill(self.tril[:T, :T] == 0, float('-inf')) # (B,T,T)
        weights = F.softmax(weights, dim=-1) # (B,T,T)
        weights = self.dropout(weights)
        v = self.values(x) # (B,T,C)
        out = weights @ v # (B,T,C)
        return out

class SelfAttentionMultiHead(NN.Module):
    def __init__(self, n_heads, head_sz, n_emb, ctx_sz, dropout):
        super().__init__()
        self.heads = NN.ModuleList([SelfAttentionHead(head_sz, n_emb, ctx_sz, dropout) for _ in range(n_heads)])
        self.proj = NN.Linear(n_emb, n_emb)
        self.dropout = NN.Dropout(dropout)
    def forward(self, x):
        out = torch.cat([h(x) for h in self.heads], dim=-1)
        out = self.dropout(self.proj(out))
        return out

class FeedForward(NN.Module):
    def __init__(self, n_emb, multiplier, dropout):
        super().__init__()
        self.net = NN.Sequential(
            NN.Linear(n_emb, n_emb * multiplier),
            NN.ReLU(),
            NN.Linear(multiplier * n_emb, n_emb),
            NN.Dropout(dropout)
        )
    def forward(self, x):
        return self.net(x)

class TransformerBlock(NN.Module):
    def __init__(self, n_heads, n_emb, ctx_sz, dropout):
        super().__init__()
        head_sz = n_emb // n_heads
        self.sa = SelfAttentionMultiHead(n_heads, head_sz, n_emb, ctx_sz, dropout)
        self.ffwd = FeedForward(n_emb, 4, dropout)
        self.ln1 = NN.LayerNorm(n_emb)
        self.ln2 = NN.LayerNorm(n_emb)
    def forward(self, x):
        x = x + self.sa(self.ln1(x))
        x = x + self.ffwd(self.ln2(x))
        return x

class TransformerLanguageModel(NN.Module):
    def __init__(self, n_blocks, n_heads, voc_sz, n_emb, ctx_sz, dropout):
        super().__init__()
        self.ctx_sz = ctx_sz
        self.tok_emb_table = NN.Embedding(voc_sz, n_emb)
        self.pos_emb_table = NN.Embedding(ctx_sz, n_emb)
        self.blocks = NN.Sequential(*(
            ([TransformerBlock(n_heads, n_emb, ctx_sz, dropout)] * n_blocks) +
            [NN.LayerNorm(n_emb)]
        ))
        self.lm_head = NN.Linear(n_emb, voc_sz)
    def forward(self, idx, targets=None):
        B, T = idx.shape        
        tok_emb = self.tok_emb_table(idx)
        pos_emb = self.pos_emb_table(torch.arange(T, device=device))
        x = tok_emb + pos_emb
        x = self.blocks(x)
        logits = self.lm_head(x)
        if targets is None:
            loss = None
        else:
            B, T, C = logits.shape
            logits = logits.view(B * T, C)
            loss = F.cross_entropy(logits, targets.view(B * T))        
        return logits, loss
    def generate(self, idx, max_new_tok):
        for _ in range(max_new_tok):
            idx_crop = idx[:, -self.ctx_sz:]
            logits, _ = self(idx_crop)
            probs = F.softmax(logits[:, -1, :], dim=1)
            idx_nxt = torch.multinomial(probs, num_samples=1)
            idx = torch.cat((idx, idx_nxt), dim=1)
        return idx

In [7]:
N_EMB = 384 #32
N_HEADS = 6
N_BLOCKS = 6
EVAL_INT = 1000
model = TransformerLanguageModel(N_BLOCKS, N_HEADS, N, N_EMB, CTX_SZ, 0.2).to(device)
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4)

@torch.no_grad()
def est_loss(model, d):
    out = {}
    model.eval()
    for splt in ['trn', 'val']:
        lossi = torch.zeros(EVAL_INT)
        for k in range(EVAL_INT):
            bix = torch.randint(d[splt][0].shape[0] - 1, (BATCH_SZ,)).to(device)
            _, loss = model(d[splt][0][bix], d[splt][1][bix])
            lossi[k] = loss.item()
        out[splt] = lossi.mean()
    model.train()
    return out

BATCH_SZ = 64 #32
lossi = {'trn':[], 'val':[]}
for i in range(15000):
    xb, yb = xs_trn[i*BATCH_SZ : (i+1)*BATCH_SZ], ys_trn[i*BATCH_SZ : (i+1)*BATCH_SZ]
    logits, loss = model(xb, yb)
    optimizer.zero_grad(set_to_none=True)
    loss.backward()
    optimizer.step()
    if i % EVAL_INT == 0:
        est = est_loss(model, {'trn': [xs_trn, ys_trn], 'val': [xs_val, ys_val]})
        lossi['trn'].append(est['trn'])
        lossi['val'].append(est['val'])
        print(est['trn'])
plt.plot(lossi['trn'])
plt.plot(lossi['val'])

OutOfMemoryError: CUDA out of memory. Tried to allocate 24.00 MiB. GPU 0 has a total capacity of 11.00 GiB of which 0 bytes is free. Of the allocated memory 24.74 GiB is allocated by PyTorch, and 64.47 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

In [11]:
param_size = 0
for param in model.parameters():
    param_size += param.nelement() * param.element_size()
buffer_size = 0
for buffer in model.buffers():
    buffer_size += buffer.nelement() * buffer.element_size()

size_all_mb = (param_size + buffer_size) / 1024**2
print('model size: {:.3f}MB'.format(size_all_mb))

model size: 11.576MB


In [7]:
import numpy as np
model_parameters = filter(lambda p: p.requires_grad, model.parameters())
params = sum([np.prod(p.size()) for p in model_parameters])
print(params)
len(text)
device

2641384


'cuda'

In [56]:
print(decode(model.generate(torch.zeros((1,1), dtype=torch.long).to(device), max_new_tok=1000)[0].tolist())) 

	<КАРТИНКА>
	этотка со своём нет как надо беспоку
ВАНЯ:	Да, кого может фигорея его лишкова?
ТИМА:	Уж)
ВАНЯ:	угадай)
	<ЦИТАТА:	сбер только сгереть?>
	heartaple
	в 0
	тебя фраза
	с машах с ними не всё мы как в такоже вторнё наопломанове и стакает атмпачка и андри - та и зависите сошо быть
ВАСЯ:	да из стретьё оставили и понедели светят?
	полезных их признаков, он выехал приду
ТИМА:	это за хорбыл болтька
	а у тебя у видел - в том, даже обрабоны, видишь проигнал
	процент, должно быть будти
ВАСЯ:	меня теперь угрозильно, к чесмодели там дураками
ТИМА:	надекал
ВАНЯ:	а посмотрим прашлывать)
	с койтоном ндот
	и если есть глопали в деловей мести
	бьюда обучали окно новые леживуют дороге гомна
	<ЦИТАТА:прыганды не занает)>
	нам, там мне помнишь выдобзовывательств Языков ос делали, хмужников себе будет погравитель отвекали:  . А предпроверил, что объявление эту штыку, и могу рассадятые фотографа, уходить сажу не звидимо туто штём добрая
	что опелил, что это синитер если этим_ени)
ВАНЯ:	ну, да эти ш

In [52]:
print(decode(model.generate(torch.tensor([encode("МАША:\tсырный")], dtype=torch.long).to(device), max_new_tok=1000)[0].tolist())) 

МАША:	сырный порт:
	Насики стара поздановате нет, испорили сервь>
	Вася на нормально) выглядена!!! (
СТЁПА:	нет там вета, как стати
	не не так "за доровеции!
	Его Сочьи политься - нибе
СТЁПА:	первая, ренда влия?
ТИМА:	зато подтавиван момент имень инктески натфильм канате на странели инотянские фотографи в стои кино приез-двет камета идея отклетовая такие и принестива
	E ука z))))
СТЁПА:	тогда да потир отказал
	актёт, даже не радили на должен, которым картом и пусти этих проходимо)
ВАНЯ:	да, информацийна оказали на не ижу)
СТЁПА:	тоже того от сколым их професов
ТИМА:	жуки тется прифрадиван за гоны с судяманный доминками сарианалам и без, непривизование о незаки называть модете выбор политательно силения)
	смотре не пойде изидеи в жизни, пложу драки не позже только трепирает и и Её
СТЁПА:	да...друга, и балаконец на такой наприпор парашив нос на отку веснове
	ина и всех ищут идео и друг она нового
	но датти)
	может так искать отправь проднепрессов, задошная при должанов ном друзь нора игр