<a href="https://colab.research.google.com/github/iliyashm/svoyak-net/blob/ilya/svoyak_net.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.16.2-py3-none-any.whl (3.5 MB)
[K     |████████████████████████████████| 3.5 MB 8.4 MB/s 
[?25hCollecting pyyaml>=5.1
  Downloading PyYAML-6.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (596 kB)
[K     |████████████████████████████████| 596 kB 44.8 MB/s 
Collecting sacremoses
  Downloading sacremoses-0.0.47-py2.py3-none-any.whl (895 kB)
[K     |████████████████████████████████| 895 kB 17.3 MB/s 
[?25hCollecting huggingface-hub<1.0,>=0.1.0
  Downloading huggingface_hub-0.4.0-py3-none-any.whl (67 kB)
[K     |████████████████████████████████| 67 kB 3.1 MB/s 
Collecting tokenizers!=0.11.3,>=0.10.1
  Downloading tokenizers-0.11.6-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (6.5 MB)
[K     |████████████████████████████████| 6.5 MB 10.9 MB/s 
Installing collected packages: pyyaml, tokenizers, sacremoses, huggingface-hub, transformers
  Attempting uninstall: pyyaml
  

In [2]:
import re

from torch.utils.data import Dataset, DataLoader, RandomSampler
from tqdm.auto import tqdm
from transformers import GPT2Tokenizer, GPT2LMHeadModel, AdamW, get_linear_schedule_with_warmup

import torch
import numpy as np
import pandas as pd

tqdm.pandas()

In [3]:
def choose_from_top(probs, n=5):
    """
    Randomly(from the given probability distribution) choose the next word from the top n words.
    """
    ind = np.argpartition(probs, -n)[-n:]
    top_prob = probs[ind]
    top_prob = top_prob / np.sum(top_prob) # Normalize
    choice = np.random.choice(n, 1, p = top_prob)
    token_id = ind[choice][0]
    return int(token_id)


def generate_some_text(input_str, max_len=1024):
    """
    Make GPT-2 continue input_str with text up to text_len long.
    If model returns <EOS>-token, generation stops.
    With min_len one can set a desired minimal length of generated text, but the limit is not hard.
    If model persists, text may come out shorter.
    """

    cur_ids = torch.tensor(tokenizer.encode(input_str)).unsqueeze(0).long().to("cuda")

    model.eval()
    with torch.no_grad():

        for i in range(max_len - len(cur_ids)):
            outputs = model(cur_ids, labels=cur_ids)
            loss, logits = outputs[:2]
            softmax_logits = torch.softmax(logits[0,-1], dim=0) #Take the first(only one) batch and the last predicted embedding
            next_token_id = choose_from_top(softmax_logits.to('cpu').numpy(), n=20) # Choose next word
            if next_token_id == 2:
                break    # Stop generation
            cur_ids = torch.cat([cur_ids, torch.ones((1,1)).long().to("cuda") * next_token_id], dim = 1) # Add the last word

        output_list = list(cur_ids.squeeze().to('cpu').numpy())
        output_text = tokenizer.decode(output_list)
        return output_text

In [None]:
tokenizer = GPT2Tokenizer.from_pretrained("sberbank-ai/rugpt3medium_based_on_gpt2")
model = GPT2LMHeadModel.from_pretrained("sberbank-ai/rugpt3medium_based_on_gpt2").cuda()

In [None]:
examples = [
    "Шли нахуй тех, кто тебя кидал, останься с теми кто с тобой страдал.",
    "У каждого человека бывает такой период в жизни, когда ему кажется, что он никому не нужен.",
    "Живи, братуха, и не думай, что кто-то про тебя забыл. Друзья не забывают друга, а кто забыл, тот не был им.",
    "Сука, если я терплю, не означает, что мне не больно.",
    "Может и не получится , но попробовать стоит всегда",
    "Красивая — это когда красивая, а не когда грудь вываливается и трусы видно",
    "Слушай всех, прислушивайся к немногим, решай сам.",
    "Не нужно косить, под гламурных куриц, парни любят нежных, парни любят умниц",
    "Иметь хороших друзей - одна из лучших ценностей жизни..",
    "Будь самим собой, имей свою точку зрения, умей постоять за себя и за своих близких и тебя будут уважать!",
    "Живите так, что бы дома гордились, девушки любили, пацаны ценили."
]

In [None]:
class GPTDataset(Dataset):
    def __init__(self, examples):
        data = ["ITEM: " + example for example in examples]
        self.examples = list(map(tokenizer.encode, data))

    def __len__(self):
        return len(self.examples)

    def __getitem__(self, item):
        return torch.tensor(self.examples[item] + [2])

In [None]:
EPOCHS = 2
LEARNING_RATE = 1e-3
WARMUP_STEPS = 0

In [None]:
dataset = GPTDataset(examples)
sampler = RandomSampler(dataset)
synopsis_loader = DataLoader(dataset, sampler=sampler)

In [None]:
model.train()
optimizer = AdamW(model.parameters(), lr=LEARNING_RATE)
scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=WARMUP_STEPS,
                                            num_training_steps=EPOCHS*len(dataset))

proc_seq_count = 0
batch_count = 0

for epoch in range(EPOCHS):

    sum_loss = []

    
    t = tqdm(enumerate(synopsis_loader), total=len(dataset), desc=f"Epoch {epoch}, loss: ")
    for idx, batch in t:

        model.train()

        batch = batch.to("cuda")
        outputs = model(batch, labels=batch)

        loss = outputs[0]
        loss.backward()
        sum_loss.append(loss.item())

        del outputs, loss, batch
        torch.cuda.empty_cache()

        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
        optimizer.step()
        scheduler.step()
        model.zero_grad()

        t.set_description(f"Epoch {epoch}, loss: {np.mean(sum_loss) :.2}")

In [None]:
for i in range(10):
    print(generate_some_text("ITEM: "))