# Пытаемся научить модель генерировать шутки (ну или что-то близкое к шуткам хотя бы)

Мы будем работать с рускоязычной моделью `ruGPT3` от Сбера и библиотекой `transformers` для её дообучения от Hugging Face

In [1]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch
DEVICE = torch.device("cuda:0")

  from .autonotebook import tqdm as notebook_tqdm


# Дообучение модели ruGPt-3
Загружаем модель ruGPT-3 medium. Это русскоязычная модель на основе архитектуры OpenAI, которая была разработана и обучена командами SberDevices, SberAI и SberCloud на открытых данных википедии, художественной литературе, диалогах, программном коде.

In [4]:
model_name_or_path = "sberbank-ai/rugpt3medium_based_on_gpt2"
model = GPT2LMHeadModel.from_pretrained(model_name_or_path).to(DEVICE)

In [5]:

tokenizer = GPT2Tokenizer.from_pretrained(model_name_or_path)

## Как происходит обучение
Обучающий текст нарезается на случайные куски, которые составляются в последовательности из 1024 (2048 у GPT-3) токенов разделяясь специальным `<|endoftext|>` символом. Во время обучения, модель учится предсказывать (классифицировать) каждый токен в последовательности один за другим при помощь `CrossEntropy Loss.`

Так как входная последовательность всегда заполнена до конца, padding не используется. Но во время инференса, длина входного текста может быть произвольной, поэтому надо явно указывать чем паддить оставшиеся позиции. По дефолту использутеся тот же `<|endoftext|>`.

## Обучающие данные
Будем учить GPT генерировать анекдоты.
В библиотеке transformers есть готовые инструменты для подготовки датасета и даталодера. На вход нужен всего лишь один `.txt` файл с обучающим текстом.

In [3]:
# Сохраним обучающие данные в .txt файл 
data_path = 'jokes_dataset.txt'

joke_list = list()

f = open(data_path,'r', encoding='utf-8')
data = f.read()
data_split = data.split('\n\n\n\n')

# Для каждой шутки проставляем тег начала и тег конца
for joke in data_split:
    split_joke = joke.split("\n")
    joke = " ".join(split_joke)
    create_joke = '[SJ] ' + joke + ' [EJ]'
    joke_list.append(create_joke)

joke_list = '\n'.join(joke_list)   

# Получившийся результат запишем в файл tag_jokes.txt
train_path = 'tag_jokes.txt'

with open(train_path, 'w', encoding='utf-8') as t:
    t.write(joke_list)

In [6]:
from transformers import TextDataset, DataCollatorForLanguageModeling

# Создание датасета
train_dataset = TextDataset(tokenizer=tokenizer,file_path=train_path,block_size=32)
  
# Создание даталодера (нарезает текст на оптимальные по длине куски)
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)



## Training
Для файнтюнинга нам понадобится объект класса Trainer, который сделает всё грязную работу за нас. Далее нужно будет всего-навсего запустить `trainer.train()`

In [7]:
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir='jokes_output',
    overwrite_output_dir=True, #overwrite the content of the output directory
    num_train_epochs=200, # number of training epochs
    per_device_train_batch_size=4, # batch size for training
    per_device_eval_batch_size=4,  # batch size for evaluation
    warmup_steps=10,# number of warmup steps for learning rate scheduler
    gradient_accumulation_steps=16, # to make "virtual" batch size larger
    )


trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset,
    optimizers = (torch.optim.AdamW(model.parameters(),lr=1e-5),None) # Optimizer and lr scheduler
)

In [8]:
trainer.train()

***** Running training *****
  Num examples = 2066
  Num Epochs = 200
  Instantaneous batch size per device = 4
  Total train batch size (w. parallel, distributed & accumulation) = 64
  Gradient Accumulation steps = 16
  Total optimization steps = 6400
  Number of trainable parameters = 355871744
  8%|▊         | 500/6400 [11:22<2:13:11,  1.35s/it]Saving model checkpoint to jokes_output\checkpoint-500
Configuration saved in jokes_output\checkpoint-500\config.json


{'loss': 2.0939, 'learning_rate': 9.233176838810642e-06, 'epoch': 15.62}


Model weights saved in jokes_output\checkpoint-500\pytorch_model.bin
 16%|█▌        | 1000/6400 [22:55<2:03:28,  1.37s/it]Saving model checkpoint to jokes_output\checkpoint-1000
Configuration saved in jokes_output\checkpoint-1000\config.json


{'loss': 1.2778, 'learning_rate': 8.450704225352114e-06, 'epoch': 31.25}


Model weights saved in jokes_output\checkpoint-1000\pytorch_model.bin
 23%|██▎       | 1500/6400 [34:30<1:51:24,  1.36s/it]Saving model checkpoint to jokes_output\checkpoint-1500
Configuration saved in jokes_output\checkpoint-1500\config.json


{'loss': 0.8206, 'learning_rate': 7.668231611893584e-06, 'epoch': 46.87}


Model weights saved in jokes_output\checkpoint-1500\pytorch_model.bin
 31%|███▏      | 2000/6400 [46:04<1:40:10,  1.37s/it]Saving model checkpoint to jokes_output\checkpoint-2000
Configuration saved in jokes_output\checkpoint-2000\config.json


{'loss': 0.5765, 'learning_rate': 6.885758998435055e-06, 'epoch': 62.5}


Model weights saved in jokes_output\checkpoint-2000\pytorch_model.bin
 39%|███▉      | 2500/6400 [57:39<1:31:22,  1.41s/it]Saving model checkpoint to jokes_output\checkpoint-2500
Configuration saved in jokes_output\checkpoint-2500\config.json


{'loss': 0.4441, 'learning_rate': 6.103286384976527e-06, 'epoch': 78.12}


Model weights saved in jokes_output\checkpoint-2500\pytorch_model.bin
 47%|████▋     | 3000/6400 [1:09:13<1:17:18,  1.36s/it]Saving model checkpoint to jokes_output\checkpoint-3000
Configuration saved in jokes_output\checkpoint-3000\config.json


{'loss': 0.365, 'learning_rate': 5.320813771517997e-06, 'epoch': 93.74}


Model weights saved in jokes_output\checkpoint-3000\pytorch_model.bin
 55%|█████▍    | 3500/6400 [1:20:51<1:06:38,  1.38s/it]Saving model checkpoint to jokes_output\checkpoint-3500
Configuration saved in jokes_output\checkpoint-3500\config.json


{'loss': 0.312, 'learning_rate': 4.538341158059468e-06, 'epoch': 109.37}


Model weights saved in jokes_output\checkpoint-3500\pytorch_model.bin
 62%|██████▎   | 4000/6400 [1:32:32<55:04,  1.38s/it]  Saving model checkpoint to jokes_output\checkpoint-4000
Configuration saved in jokes_output\checkpoint-4000\config.json


{'loss': 0.2708, 'learning_rate': 3.755868544600939e-06, 'epoch': 124.99}


Model weights saved in jokes_output\checkpoint-4000\pytorch_model.bin
 70%|███████   | 4500/6400 [1:44:12<43:34,  1.38s/it]  Saving model checkpoint to jokes_output\checkpoint-4500
Configuration saved in jokes_output\checkpoint-4500\config.json


{'loss': 0.2383, 'learning_rate': 2.9733959311424103e-06, 'epoch': 140.62}


Model weights saved in jokes_output\checkpoint-4500\pytorch_model.bin
 78%|███████▊  | 5000/6400 [1:55:53<32:20,  1.39s/it]  Saving model checkpoint to jokes_output\checkpoint-5000
Configuration saved in jokes_output\checkpoint-5000\config.json


{'loss': 0.214, 'learning_rate': 2.190923317683881e-06, 'epoch': 156.25}


Model weights saved in jokes_output\checkpoint-5000\pytorch_model.bin
 86%|████████▌ | 5500/6400 [2:07:32<20:40,  1.38s/it]  Saving model checkpoint to jokes_output\checkpoint-5500
Configuration saved in jokes_output\checkpoint-5500\config.json


{'loss': 0.1994, 'learning_rate': 1.4084507042253523e-06, 'epoch': 171.87}


Model weights saved in jokes_output\checkpoint-5500\pytorch_model.bin
 94%|█████████▍| 6000/6400 [2:19:13<09:10,  1.38s/it]Saving model checkpoint to jokes_output\checkpoint-6000
Configuration saved in jokes_output\checkpoint-6000\config.json


{'loss': 0.1902, 'learning_rate': 6.259780907668232e-07, 'epoch': 187.5}


Model weights saved in jokes_output\checkpoint-6000\pytorch_model.bin
100%|██████████| 6400/6400 [2:28:35<00:00,  1.38s/it]

Training completed. Do not forget to share your model on huggingface.co/models =)


100%|██████████| 6400/6400 [2:28:35<00:00,  1.39s/it]

{'train_runtime': 8915.4405, 'train_samples_per_second': 46.347, 'train_steps_per_second': 0.718, 'train_loss': 0.558639839887619, 'epoch': 199.99}





TrainOutput(global_step=6400, training_loss=0.558639839887619, metrics={'train_runtime': 8915.4405, 'train_samples_per_second': 46.347, 'train_steps_per_second': 0.718, 'train_loss': 0.558639839887619, 'epoch': 199.99})

## Сохраняем и загружаем дообученную модель

При обучении сохранили модель в папке `jokes_rugpt3`, потом для удобства при разработке сайта перенесли все файлы модели в папку `saved_model` на гитхабе. Бинарник можно скачать с ГуглДиска: https://drive.google.com/drive/folders/1KFamk4cCb23ZmqMEmFyvhX0Fa1e4FH8n?usp=sharing

In [17]:
output_dir = 'jokes_rugpt3'

model.save_pretrained(output_dir)
tokenizer.save_pretrained(output_dir)

Configuration saved in jokes_rugpt3\config.json
Model weights saved in jokes_rugpt3\pytorch_model.bin
tokenizer config file saved in jokes_rugpt3\tokenizer_config.json
Special tokens file saved in jokes_rugpt3\special_tokens_map.json


('jokes_rugpt3\\tokenizer_config.json',
 'jokes_rugpt3\\special_tokens_map.json',
 'jokes_rugpt3\\vocab.json',
 'jokes_rugpt3\\merges.txt',
 'jokes_rugpt3\\added_tokens.json')

## Результат обучения
Подгружаем нашу дообученную модель из папки `saved_model`

In [1]:

from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch

DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = GPT2LMHeadModel.from_pretrained(r"../saved_model").to(DEVICE)

tokenizer = GPT2Tokenizer.from_pretrained(r"../saved_model")

  from .autonotebook import tqdm as notebook_tqdm


Ну давайте посмотрим что нам сгенерирует наша модель...

In [7]:
text = "- В буфете негр съел последний багет."
input_ids = tokenizer.encode(text, return_tensors="pt").to(DEVICE)
model.eval()
with torch.no_grad():
    out = model.generate(input_ids, 
                        do_sample=True,
                        num_beams=2,
                        temperature=1.5,
                        top_p=0.9,
                        max_length=70,
                        )

generated_text = list(map(tokenizer.decode, out))[0]


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [8]:
extra_list = []
final_joke = ""

for i in range(0, len(generated_text) - 3):
    if ((generated_text[i] == "[") and (generated_text[i + 1] == "E") and
           (generated_text[i + 2] == "J") and (generated_text[i + 3] == "]")):
            break
    if generated_text[i] == "-":
        extra_list.append("\n")
    extra_list.append(generated_text[i])
final_joke += "".join(extra_list) 
print(final_joke)



- В буфете негр съел последний багет. 
- А почему? 
- Не смог остановиться. 


Ещё примерчик

In [26]:
text = "- Как сдать сессию?" 
input_ids = tokenizer.encode(text, return_tensors="pt").to(DEVICE)
model.eval()
with torch.no_grad():
    out = model.generate(input_ids, 
                        do_sample=True,
                        num_beams=2,
                        temperature=1.5,
                        top_p=0.9,
                        max_length=70,
                        )

generated_text = list(map(tokenizer.decode, out))[0]

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [27]:
extra_list = []
final_joke = ""

for i in range(0, len(generated_text) - 3):
    if ((generated_text[i] == "[") and (generated_text[i + 1] == "E") and
           (generated_text[i + 2] == "J") and (generated_text[i + 3] == "]")):
            break
    if generated_text[i] == "-":
        extra_list.append("\n")
    extra_list.append(generated_text[i])
final_joke += "".join(extra_list) 
print(final_joke)


- Как сдать сессию? 
- Очень просто. Раздеться догола и сдать сессию! 
