# Генерация праздничных тостов 
Для работы с GPT скачаем предобученную модель.
Мы будем работать с библиотекой `transformers` от Hugging Face и с русскоязычной моделью ruGPT3 от Сбера.

In [None]:
!pip install transformers 

from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch
DEVICE = torch.device("cuda:0")

model_name_or_path = "sberbank-ai/rugpt3small_based_on_gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name_or_path)
model = GPT2LMHeadModel.from_pretrained(model_name_or_path).to(DEVICE)


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.23.1-py3-none-any.whl (5.3 MB)
[K     |████████████████████████████████| 5.3 MB 26.1 MB/s 
Collecting huggingface-hub<1.0,>=0.10.0
  Downloading huggingface_hub-0.10.1-py3-none-any.whl (163 kB)
[K     |████████████████████████████████| 163 kB 64.4 MB/s 
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1
  Downloading tokenizers-0.13.1-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.6 MB)
[K     |████████████████████████████████| 7.6 MB 59.0 MB/s 
Installing collected packages: tokenizers, huggingface-hub, transformers
Successfully installed huggingface-hub-0.10.1 tokenizers-0.13.1 transformers-4.23.1


Downloading:   0%|          | 0.00/1.71M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.27M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/608 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/551M [00:00<?, ?B/s]

## Обучающие данные
Будем учить GPT генерировать праздничные тосты. Спарсим сайт https://pozdravok.com/toast/ и выгрузим полученные данные в dataset.txt

In [None]:
f=open("dataset.txt", 'r')
text = f.read()

In [None]:
import re

result = len(re.findall(r'\w+', text))
result1 = len(re.findall(r'\w', text))

print("There are " + str(result) + " words.")
print("There are " + str(result1) + " chars.")

There are 52656 words.
There are 278994 chars.


In [None]:
from transformers import TextDataset, DataCollatorForLanguageModeling

train_path = 'dataset.txt'

train_dataset = TextDataset(tokenizer=tokenizer,file_path=train_path,block_size=64)

data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)



## Training
Для файнтюнинга нам понадобится объект класса Trainer. Далее нужно будет всего-навсего запустить `trainer.train()`

In [None]:
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./finetuned", 
    overwrite_output_dir=True,
    num_train_epochs=200,
    per_device_train_batch_size=32,
    per_device_eval_batch_size=32,
    warmup_steps=10,
    gradient_accumulation_steps=16,
    fp16=True
    )


trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset,
    optimizers = (torch.optim.AdamW(model.parameters(),lr=1e-5),None)
)

Using cuda_amp half precision backend


In [None]:
trainer.train()

***** Running training *****
  Num examples = 1202
  Num Epochs = 200
  Instantaneous batch size per device = 32
  Total train batch size (w. parallel, distributed & accumulation) = 512
  Gradient Accumulation steps = 16
  Total optimization steps = 400


Step,Training Loss




Training completed. Do not forget to share your model on huggingface.co/models =)




TrainOutput(global_step=400, training_loss=2.7697552490234374, metrics={'train_runtime': 1453.551, 'train_samples_per_second': 165.388, 'train_steps_per_second': 0.275, 'total_flos': 7846011813888000.0, 'train_loss': 2.7697552490234374, 'epoch': 199.84})

# Результат файнтюнинга
Будем использовать сэмплирование с ограничением

In [None]:
text = "С Новым Годом!\n"
input_ids = tokenizer.encode(text, return_tensors="pt").to(DEVICE)
model.eval()

with torch.no_grad():
    out = model.generate(input_ids, 
                        do_sample=True,
                        num_beams=5,
                        temperature=1.8,
                        top_p=0.8,
                        top_k=50,
                        max_length=80,
                        min_length=30,
                        no_repeat_ngram_size=2, 
                        )

generated_text = list(map(tokenizer.decode, out))[0]
print()
print(generated_text)

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.



С Новым Годом!

Новый Год — это время, когда мы становимся взрослее и мудрее. Желаю вам в этом году быть такими же счастливыми и беззаботными, как и раньше. Пусть в вашем доме царит мир, покой и гармония, пусть ваши глаза сияют ярче, чем в тусклом и тёмном зимнем небе.
Поздравляю Вас с Новым годом!
