In [None]:
import os
#os.environ["CUDA_VISIBLE_DEVICES"] = "1"
#os.environ["TOKENIZERS_PARALLELISM"] = "false"

In [2]:
import torch
print(torch.cuda.is_available())

True


In [3]:
import torch
import torch.cuda
import numpy as np
import pandas as pd
from transformers import AutoTokenizer, AutoModelForCausalLM, AutoModelForSequenceClassification

from tqdm import tqdm
tqdm.pandas()

In [4]:
df = pd.read_json("data/dialogues.jsonl", lines=True)
df["dialogue"] = df["dialogue"].apply(lambda x: x[:2])
df["reply"] = df["dialogue"].apply(lambda x: x[0])

In [5]:
df.iloc[1]['dialogue']

['\\- да не было такого! я даже ни одной парочки у нас в школе не знаю! руки леры почти по плечо в мыле, она драит их так яростно, что кожа уже покраснела.',
 '→ \\- может быть, ты шпионишь за парочками, а потом собираешь их, когда они заканчивают свои дела! кота выдал самую очевидную и логичную мысль.']

In [6]:
df.iloc[9]['reply']

'асуи сильная девочка, хоть она и небольшая. она всегда представляла себя как ту мышь с иголкой, из сказки "алиса в стране чудес", которая была тоже очень маленькой, но отважной и, поэтому, сильной. девушка решила проявить никчёмное, в данный момент, мужество: \\- н-нет, помощь не нужна. я смогу дойти сама… но компания мне, всё таки, нужна! так что пойдём. пара вышла из класса и отправилась в медпункт через школьную коридоры. по пути, они проходили мимо дамской комнаты, глянув на которую, асуи остановила мишу и кивнула головой на дверь: \\- я столько кофе сегодня выпила утром, ты бы знала. и сейчас мне придётся отвечать. пойдёшь со мной?'

In [7]:
df

Unnamed: 0,id,dialogue,reply
0,268332378,"[— я бы прошелся до крыши, — сказал он, встава...","— я бы прошелся до крыши, — сказал он, вставая..."
1,268332378,[\- да не было такого! я даже ни одной парочки...,\- да не было такого! я даже ни одной парочки ...
2,268332378,[девушка стала следовать за хаккури и вскоре о...,девушка стала следовать за хаккури и вскоре он...
3,268332378,[>сама дойдешь? в смысле не нужно ли ее поддер...,>сама дойдешь? в смысле не нужно ли ее поддерж...
4,268332378,[вода на секунду приобрела зеленый оттенок. по...,вода на секунду приобрела зеленый оттенок. пок...
...,...,...,...
65,268332378,"[блять, кота, как персонаж ты меня жутко бесиш...","блять, кота, как персонаж ты меня жутко бесишь..."
66,268332378,"[поняв наконец, о чем шла речь, миша сказала —...","поняв наконец, о чем шла речь, миша сказала — ..."
67,268332378,"[так он типа сидит \- ты что, прохуёбина, взду...","так он типа сидит \- ты что, прохуёбина, вздум..."
68,268332378,"[почему бесит? ты кто вообще?, блять, кота, ка...",почему бесит? ты кто вообще?


In [8]:
device = 'cuda' if torch.cuda.is_available() else 'cpu'
device

'cuda'

In [10]:
from transformers import AutoTokenizer, AutoModelWithLMHead

tokenizer = AutoTokenizer.from_pretrained('ai-forever/rugpt3medium_based_on_gpt2')
model = AutoModelWithLMHead.from_pretrained('ai-forever/rugpt3medium_based_on_gpt2').to(device)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


Downloading (…)"pytorch_model.bin";:   0%|          | 0.00/1.73G [00:00<?, ?B/s]

In [11]:
def get_length_param(text: str) -> str:
    tokens_count = len(tokenizer.encode(text))
    if tokens_count <= 15:
        len_param = '1'
    elif tokens_count <= 50:
        len_param = '2'
    elif tokens_count <= 256:
        len_param = '3'
    else:
        len_param = '-'
    return len_param

In [12]:
from torch.utils.data import Dataset
from sklearn.model_selection import train_test_split

In [13]:
class DvachDataset:
    def __init__(self, df, tokenizer):
        self.df = df
        self.tokenizer = tokenizer
        
    def __len__(self):
        return self.df.shape[0]
    
    def __getitem__(self, i):
        prefix = self.df.iloc[i]["dialogue"][1]
        text = self.df.iloc[i]["dialogue"][0]
        item = self.tokenizer(f"|0|{get_length_param(prefix)}|" + prefix + tokenizer.eos_token +  f"|1|{get_length_param(text)}|" + text, max_length=512, padding='max_length', truncation=True)
        item["labels"] = item["input_ids"].copy()
        return item
    

In [14]:
train_df, eval_df = train_test_split(df, test_size=0.2)
train_dataset = DvachDataset(train_df, tokenizer)
eval_dataset = DvachDataset(eval_df, tokenizer)

In [15]:
from transformers import DataCollatorWithPadding

In [16]:
collator = DataCollatorWithPadding(tokenizer, max_length=512, padding=True)

In [17]:
from transformers import Trainer, TrainingArguments

In [18]:
args = TrainingArguments(
    output_dir = "2ch_training",
    evaluation_strategy = "steps",
    per_device_train_batch_size = 8,
    per_device_eval_batch_size = 16,
    gradient_accumulation_steps = 4,
    num_train_epochs = 1,
    save_strategy = "steps",
    save_steps = 1,
    #fp16 = True,
    eval_steps = 1,
    dataloader_num_workers = 4,
    label_names = ["input_ids"]
)

trainer = Trainer(
    model = model,
    args = args,
    train_dataset = train_dataset,
    eval_dataset = eval_dataset
)

In [None]:
trainer.train()

***** Running training *****
  Num examples = 56
  Num Epochs = 1
  Instantaneous batch size per device = 8
  Total train batch size (w. parallel, distributed & accumulation) = 32
  Gradient Accumulation steps = 4
  Total optimization steps = 1
  Number of trainable parameters = 355871744


In [None]:
model.save_pretrained("2ch_release")

In [None]:
test_input = "нужно допинать витю, который почему-то 24/7 охуенно занят, хотя при этом ничего не делает, чтобы записать"
test_input = test_input + " Что скажешь?" + tokenizer.eos_token +  "|1|2|"

input_ids = tokenizer([test_input], return_tensors="pt").input_ids

tokenizer.decode(model.generate(input_ids.cuda(),
                                max_length=len(tokenizer([test_input], return_tensors="pt").input_ids[0]) + 32,
                                bad_words_ids=[[tokenizer.pad_token_id]],
                                force_words_ids=[[11649], [11649]],
                                temperature=1.,
                                repetition_penalty=10.,
                                do_sample=True).cpu()[:, input_ids.shape[-1]:][0], skip_special_tokens=False)

In [18]:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch


def load_tokenizer_and_model(model="tinkoff-ai/ruDialoGPT-medium"):
    
    """
    Load tokenizer and model instance for some specific DialoGPT model.
    """
    # Initialize tokenizer and model
    print("Loading model...")
    tokenizer = AutoTokenizer.from_pretrained(model, padding_side='left')
    model = AutoModelForCausalLM.from_pretrained(model)
  
    # Return tokenizer and model
    return tokenizer, model


def generate_response(tokenizer, model, chat_round, chat_history_ids):
    
    """
    Generate a response to some user input.
    """
  # Encode user input and End-of-String (EOS) token
    new_input_ids = tokenizer.encode(input(">> You:") + tokenizer.eos_token, return_tensors='pt')

  # Append tokens to chat history
    bot_input_ids = torch.cat([chat_history_ids, new_input_ids], dim=-1) if chat_round > 0 else new_input_ids

  # Generate response given maximum chat length history of 1250 tokens
    chat_history_ids = model.generate(bot_input_ids, max_length=1250, pad_token_id=tokenizer.eos_token_id)
  
  # Print response
    print("DialoGPT: {}".format(tokenizer.decode(chat_history_ids[:, bot_input_ids.shape[-1]:][0], skip_special_tokens=True)))
  
  # Return the chat history ids
    return chat_history_ids


def chat_for_n_rounds(n=5):
    
    """
    Chat with chatbot for n rounds (n = 5 by default)
    """
  
  # Initialize tokenizer and model
    tokenizer, model = load_tokenizer_and_model()
  
  # Initialize history variable
    chat_history_ids = None
  
  # Chat for n rounds
    for chat_round in range(n):
        chat_history_ids = generate_response(tokenizer, model, chat_round, chat_history_ids)

In [36]:
import torch
from transformers import AutoTokenizer, AutoModelWithLMHead

model_name = 'ai-forever/rugpt3medium_based_on_gpt2'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelWithLMHead.from_pretrained(model_name)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [39]:
inputs = tokenizer('Ты кто?', return_tensors='pt')
generated_token_ids = model.generate(
    **inputs,
    top_k=10,
    top_p=0.95,
    num_beams=5,
    num_return_sequences=5,
    do_sample=True,
    no_repeat_ngram_size=2,
    temperature=1.2,
    repetition_penalty=1.2,
    length_penalty=1.0,
    eos_token_id=50257,
    max_new_tokens=40
)
context_with_response = [tokenizer.decode(sample_token_ids) for sample_token_ids in generated_token_ids]
for element in context_with_response:
    print(element)

Setting `pad_token_id` to `eos_token_id`:50257 for open-end generation.


Ты кто?

— Я, — ответил я. – Я не знаю, кто вы, но я вас не боюсь. А вот вы меня не боитесь. И я вам не завидую.
Ты кто?

— Я — это я, — сказал я. – А ты кто такой? Я тебя раньше не видел. Как тебя зовут? Где ты живешь? Что ты здесь делаешь?
Ты кто?

– Я, – ответил я. — А ты кто такой? Я тебя не знаю. Откуда ты знаешь, что я – это я, а не кто-то другой?
Ты кто?

— Я? — удивился он. – Я — это я. Ты что, не узнал меня? Ну, конечно, узнал. Я же сказал тебе, что я — твой
Ты кто?

– Я, – ответил я. — А ты кто такой? И откуда знаешь, что я – это я, а не кто-нибудь другой? Я тебя не знаю.


In [42]:
start = input('Вы: ')
inputs = tokenizer(start, return_tensors='pt')
generated_token_ids = model.generate(
    **inputs,
    top_k=10,
    top_p=0.95,
    num_beams=1,
    num_return_sequences=1,
    do_sample=True,
    no_repeat_ngram_size=2,
    temperature=1.2,
    repetition_penalty=1.2,
    length_penalty=1.0,
    eos_token_id=50257,
    max_new_tokens=40
)
context_with_response = [tokenizer.decode(sample_token_ids) for sample_token_ids in generated_token_ids]
print(context_with_response[0])


Вы: Как ты?


Setting `pad_token_id` to `eos_token_id`:50257 for open-end generation.


Как ты? – спросил он.

Я покачала головой, стараясь не показывать своих страданий и боли в груди: это все равно было невыносимо! Как я могла рассказать ему о том, что произошло ночью?.. Но


In [None]:
context = []
for i in range(3):
    human = input('Вы: ')
    context.append(human)
    inputs = tokenizer(' '.join(context)+'.', return_tensors='pt')
    generated_token_ids = model.generate(
        **inputs,
        top_k=10,
        top_p=0.95,
        num_beams=1,
        num_return_sequences=1,
        do_sample=True,
        no_repeat_ngram_size=2,
        temperature=1.2,
        repetition_penalty=1.2,
        length_penalty=1.2,
        eos_token_id=50257,
        max_new_tokens=40
    )
    context_with_response = [tokenizer.decode(sample_token_ids) for sample_token_ids in generated_token_ids]
    #print('ruGPT-3-medium: ', context_with_response)
    answer = tokenizer.decode(generated_token_ids[0]).replace(' '.join(context)+'.', '')
    context.append(answer)
    print('ruGPT-3-medium: ', answer)
    print()