# Урок 14. Transfer learning
## Задание

1. Взять данные из https://www.kaggle.com/datasets/mrapplexz/bashim-quotes. Обучить модель GPT для генерации своих цитат

2. Взять новостные данные из https://github.com/natasha/corus load_lenta2. Нам понадобиться сам текст и заголовок. Обучить модель T5/ или GPT для генерации заголовков для статей

## Задание 1.

In [None]:
! pip install kaggle
! mkdir ~/.kaggle
! cp kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json
! kaggle datasets download mrapplexz/bashim-quotes
! unzip bashim-quotes.zip
!pip install -q transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Downloading bashim-quotes.zip to /content
 46% 6.00M/13.1M [00:00<00:00, 60.6MB/s]
100% 13.1M/13.1M [00:00<00:00, 84.9MB/s]
Archive:  bashim-quotes.zip
  inflating: dataset.jsonl           
[K     |████████████████████████████████| 4.9 MB 27.8 MB/s 
[K     |████████████████████████████████| 6.6 MB 55.3 MB/s 
[K     |████████████████████████████████| 120 kB 67.7 MB/s 
[?25h

In [None]:
import json
import re
from sklearn.model_selection import train_test_split
from transformers import AutoTokenizer, TextDataset, DataCollatorForLanguageModeling
from transformers import Trainer, TrainingArguments, AutoModelForCausalLM

Загрузим датасет:

In [None]:
data = []
with open('dataset.jsonl', 'r') as json_file:
    json_list = list(json_file)
for json_str in json_list:
    data.append(json.loads(json_str)["text"])

In [None]:
data[:5]

['<Ares> ppdv, все юниксы очень дружелюбны.. они просто очень разборчивы в друзьях ;)',
 '<томатик_рад> а ты не чувствуешь красоту мира?\n<fox> честно говоря, я сейчас чувствую только отсутствие http.\n<томатик_рад> не туда смотришь, глянь вокруг!\n<fox> как я гляну, если http не работает? :/',
 '<Дор> "мышка, почему у тебя такие большие глаза?" УЙДИ!!! я ХАРАКИРИ делаю!!!!!!',
 '<PPDV[os2]> "Мальчики, вы что больные, бегать в палату к девочкам?! - Если б мы были больные - мы б бегали к другим мальчикам"',
 '<Ohtori_Akio> мы - как разработчики - живём с субейзом под одбц. \n<Ohtori_Akio> лучше бы мы жили в пещере с гоблинами.']

In [None]:
len(data)

81497

Отберем 5000 цитат:

In [None]:
data = data[:5000]

In [None]:
def build_text_files(data_json, dest_path):
    f = open(dest_path, 'w')
    data = ''
    for texts in data_json:
        summary = str(texts).strip()
        # summary = re.sub(r'<.*?>', " ", summary) # Убираем никнеймы
        summary = re.sub(r"\s", " ", summary) 
        data += summary + "  "
    f.write(data)

In [None]:
train, test = train_test_split(data, test_size=0.15)

build_text_files(train,'train_dataset.txt')
build_text_files(test,'test_dataset.txt')

In [None]:
print("Train dataset length: "+ str(len(train)))
print("Test dataset length: "+ str(len(test)))

Train dataset length: 4250
Test dataset length: 750


In [None]:
tokenizer = AutoTokenizer.from_pretrained("sberbank-ai/rugpt3small_based_on_gpt2")

train_path = 'train_dataset.txt'
test_path = 'test_dataset.txt'

Downloading:   0%|          | 0.00/608 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.71M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.27M [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
def load_dataset(train_path, test_path, tokenizer):
    train_dataset = TextDataset(
          tokenizer=tokenizer,
          file_path=train_path,
          block_size=128)

    test_dataset = TextDataset(
          tokenizer=tokenizer,
          file_path=test_path,
          block_size=128)

    data_collator = DataCollatorForLanguageModeling(
        tokenizer=tokenizer, mlm=False,
    )
    return train_dataset, test_dataset, data_collator

train_dataset, test_dataset, data_collator = load_dataset(train_path, test_path, tokenizer)



In [None]:
model = AutoModelForCausalLM.from_pretrained("sberbank-ai/rugpt3small_based_on_gpt2")

Downloading:   0%|          | 0.00/551M [00:00<?, ?B/s]

In [None]:
training_args = TrainingArguments(
    output_dir="./gpt_bash", #The output directory
    overwrite_output_dir=True, #overwrite the content of the output directory
    num_train_epochs=3, # number of training epochs
    per_device_train_batch_size=4, # batch size for training
    per_device_eval_batch_size=4,  # batch size for evaluation
    eval_steps = 400, # Number of update steps between two evaluations.
    save_steps=800, # after # steps model is saved
    warmup_steps=500,# number of warmup steps for learning rate scheduler
    )

In [None]:
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset,
    eval_dataset=test_dataset
)

Обучим GPT:

In [None]:
trainer.train()

***** Running training *****
  Num examples = 2173
  Num Epochs = 3
  Instantaneous batch size per device = 4
  Total train batch size (w. parallel, distributed & accumulation) = 4
  Gradient Accumulation steps = 1
  Total optimization steps = 1632


Step,Training Loss
500,4.1758
1000,3.7524
1500,3.36


Saving model checkpoint to ./gpt_bash/checkpoint-800
Configuration saved in ./gpt_bash/checkpoint-800/config.json
Model weights saved in ./gpt_bash/checkpoint-800/pytorch_model.bin
Saving model checkpoint to ./gpt_bash/checkpoint-1600
Configuration saved in ./gpt_bash/checkpoint-1600/config.json
Model weights saved in ./gpt_bash/checkpoint-1600/pytorch_model.bin


Training completed. Do not forget to share your model on huggingface.co/models =)




TrainOutput(global_step=1632, training_loss=3.72431495142918, metrics={'train_runtime': 322.0389, 'train_samples_per_second': 20.243, 'train_steps_per_second': 5.068, 'total_flos': 425840689152000.0, 'train_loss': 3.72431495142918, 'epoch': 3.0})

In [None]:
trainer.save_model()

Saving model checkpoint to ./gpt_bash
Configuration saved in ./gpt_bash/config.json
Model weights saved in ./gpt_bash/pytorch_model.bin


In [None]:
tokenizer.save_pretrained('gpt_bash')
model.save_pretrained('model_gpt_bash')

tokenizer config file saved in gpt_bash/tokenizer_config.json
Special tokens file saved in gpt_bash/special_tokens_map.json
Configuration saved in model_gpt_bash/config.json
Model weights saved in model_gpt_bash/pytorch_model.bin


In [None]:
tokenizer = AutoTokenizer.from_pretrained("gpt_bash")
model1 = AutoModelForCausalLM.from_pretrained("model_gpt_bash")

loading file vocab.json
loading file merges.txt
loading file tokenizer.json
loading file added_tokens.json
loading file special_tokens_map.json
loading file tokenizer_config.json
loading configuration file model_gpt_bash/config.json
Model config GPT2Config {
  "_name_or_path": "model_gpt_bash",
  "activation_function": "gelu_new",
  "architectures": [
    "GPT2LMHeadModel"
  ],
  "attn_pdrop": 0.1,
  "bos_token_id": 50256,
  "embd_pdrop": 0.1,
  "eos_token_id": 50256,
  "gradient_checkpointing": false,
  "initializer_range": 0.02,
  "layer_norm_epsilon": 1e-05,
  "model_type": "gpt2",
  "n_ctx": 2048,
  "n_embd": 768,
  "n_head": 12,
  "n_inner": null,
  "n_layer": 12,
  "n_positions": 2048,
  "reorder_and_upcast_attn": false,
  "resid_pdrop": 0.1,
  "scale_attn_by_inverse_layer_idx": false,
  "scale_attn_weights": true,
  "summary_activation": null,
  "summary_first_dropout": 0.1,
  "summary_proj_to_labels": true,
  "summary_type": "cls_index",
  "summary_use_proj": true,
  "torch_dty

In [None]:
prefix = "Я хочу услышать лишь три слова " # "Инкапсуляция, наследование, полиморфизм"

In [None]:
def generate(prefix, gen_legth=50):
    
    tokens = tokenizer(prefix, return_tensors='pt')

    size = tokens['input_ids'].shape[1]
    output = model1.generate(
        **tokens, 
        #end_token=end_token_id,
        do_sample=False,
        max_length=size+gen_legth, 
        repetition_penalty=5., 
        temperature=0.5,
        num_beams=10,
    )

    decoded = tokenizer.decode(output[0])
    result = decoded[len(prefix):]
    print(prefix + result)

In [None]:
generate(prefix)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Я хочу услышать лишь три слова  <REal_SM[techsupport]> привет, как дела? <REal_SM[techsupport]> у меня все хорошо <REal_SM[techsupport]


In [None]:
generate('Что делать, когда упал сервер?', gen_legth=100)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Что делать, когда упал сервер? <REal_SM[techsupport]> Вставай и иди на кухню пить чай с печеньем <REal_SM[techsupport]> Если не поможет - звони в техподдержку <REal_SM[techsupport]> Там разберутся. <REal_SM[techsupport]> А что случилось? <REal_SM[techsupport]


Проверим цитаты на предмет - есть ли такие же цитаты в датасете:

In [None]:
def find_sentence(filename, sentence):
    with open(filename) as file:
        for line in file:
            stringA = line
    match = re.search(sentence, stringA)

    if match:
        print('Yes!')
    else:
        print('No!')

In [None]:
find_sentence('/content/train_dataset.txt', 'Вставай и иди на кухню пить чай с печеньем.')
find_sentence('/content/test_dataset.txt', 'Вставай и иди на кухню пить чай с печеньем')
find_sentence('/content/train_dataset.txt', '<REal_SM[techsupport]>')
find_sentence('/content/train_dataset.txt', "Протестовать будем методом отключения мобильных телефонов на максимально длительный период.")
# Предыдущая фраза есть в трейновом датасете.
find_sentence('/content/test_dataset.txt', "Протестовать будем методом отключения мобильных телефонов на максимально длительный период.")

No!
No!
No!
Yes!
No!


Как видно, часть сгенерированной фразы нигде не встречается в датасете. Это отлично.

Но в качестве разделителя предложений генератор использует никнейм. Причем, как можно видеть, никнейм выглядит, как вполне реальный, но в датасете такого не встречалось, то есть генератор его сгенерировал.


## Задание 2. Генерация заголовков

In [None]:
! pip install -q corus
! wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
! pip install -q transformers

[?25l[K     |████                            | 10 kB 32.3 MB/s eta 0:00:01[K     |███████▉                        | 20 kB 19.1 MB/s eta 0:00:01[K     |███████████▊                    | 30 kB 25.2 MB/s eta 0:00:01[K     |███████████████▊                | 40 kB 23.8 MB/s eta 0:00:01[K     |███████████████████▋            | 51 kB 24.6 MB/s eta 0:00:01[K     |███████████████████████▌        | 61 kB 27.9 MB/s eta 0:00:01[K     |███████████████████████████▌    | 71 kB 25.4 MB/s eta 0:00:01[K     |███████████████████████████████▍| 81 kB 27.3 MB/s eta 0:00:01[K     |████████████████████████████████| 83 kB 1.5 MB/s 
[?25h--2022-09-29 21:35:40--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 20.205.243.166
Connecting to github.com (github.com)|20.205.243.166|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-rel

In [None]:
from corus import load_lenta
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from tqdm import tqdm_notebook
from transformers import AutoTokenizer
from transformers import T5ForConditionalGeneration, Trainer, TrainingArguments

Загрузим данные:

In [None]:
path = 'lenta-ru-news.csv.gz'
records = load_lenta(path)

title = []
text = []
for idx, itm in enumerate(records):
    title.append(itm.title)
    text.append(itm.text)
    if idx == 5000:
        break
data = pd.DataFrame({'title': title, 'text': text})
data

Unnamed: 0,title,text
0,Названы регионы России с самой высокой смертно...,Вице-премьер по социальным вопросам Татьяна Го...
1,Австрия не представила доказательств вины росс...,Австрийские правоохранительные органы не предс...
2,Обнаружено самое счастливое место на планете,Сотрудники социальной сети Instagram проанализ...
3,В США раскрыли сумму расходов на расследование...,С начала расследования российского вмешательст...
4,Хакеры рассказали о планах Великобритании зами...,Хакерская группировка Anonymous опубликовала н...
...,...,...
4996,Названы лучшие для автомобилистов города России,"Грозный возглавил список российских городов, ж..."
4997,Калифорнийский стрелок оказался ветераном-морп...,"Мужчина, напавший на бар в Калифорнии и убивши..."
4998,Рассел Кроу превратился в облысевшего толстяка,Актер Рассел Кроу изменился до неузнаваемости ...
4999,Пользователей WhatsApp запугали роликом-«убийцей»,В WhatsApp активно распространяется сообщение ...


In [None]:
train, test = train_test_split(data, test_size=0.15)

In [None]:
def len_tok(text):
    return len(text.split())

In [None]:
max_len_txt, max_len_tl = max(map(len_tok, train['text'])), max(map(len_tok, train['title']))
max_len_txt, max_len_tl

(922, 15)

In [None]:
max_len_txt, max_len_tl = 512, 15

In [None]:
model_name = "IlyaGusev/rut5_base_sum_gazeta"

In [None]:
tokenizer = AutoTokenizer.from_pretrained(model_name)

Downloading:   0%|          | 0.00/279 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/828k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.31M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

Функции для токенизации:

In [None]:
def tokenize(batch):
    tokenized_input = tokenizer(str(batch['text']), padding='max_length', truncation=True, max_length=max_len_txt)
    tokenized_label = tokenizer(str(batch['title']), padding='max_length', truncation=True, max_length=max_len_tl)

    tokenized_input['labels'] = tokenized_label['input_ids']
    for key in tokenized_input:
        tokenized_input[key] = np.array(tokenized_input[key])

    return tokenized_input

In [None]:
def get_tokens(corpus, batch_size=1):
    num_batches = len(corpus) // batch_size
    last_batch = False
    if len(corpus) % batch_size > 0:
        last_batch = True
    tokens = []
    for idx in tqdm_notebook(range(num_batches)):
        token = tokenize(corpus.iloc[idx * batch_size:(idx + 1) * batch_size])
        tokens.append(token)
    if last_batch:
        tokens.append(tokenize(corpus.iloc[num_batches * batch_size:]))
    return tokens

Токенизируем датасет:

In [None]:
tokens_train = get_tokens(train)

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  import sys


  0%|          | 0/4250 [00:00<?, ?it/s]

In [None]:
tokens_test = get_tokens(test)

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  import sys


  0%|          | 0/751 [00:00<?, ?it/s]

In [None]:
model = T5ForConditionalGeneration.from_pretrained(model_name)

Downloading:   0%|          | 0.00/766 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/977M [00:00<?, ?B/s]

In [None]:
output_dir = 'lenta/output'

training_args = TrainingArguments(
    output_dir=output_dir,
    num_train_epochs=3,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    eval_accumulation_steps=1, # Number of eval steps to keep in GPU (the higher, the mor vRAM used)
    prediction_loss_only=True, # If I need co compute only loss and not other metrics, setting this to true will use less RAM
    learning_rate=0.00001,
    evaluation_strategy='steps', # Run evaluation every eval_steps
    save_steps=1000, # How often to save a checkpoint
    save_total_limit=1, # Number of maximum checkpoints to save
    remove_unused_columns=True, # Removes useless columns from the dataset
    run_name='run_lenta', # Wandb run name
    logging_steps=500, # How often to log loss to wandb
    eval_steps=500, # How often to run evaluation on the val_set
    logging_first_step=False, # Whether to log also the very first training step to wandb
    load_best_model_at_end=True, # Whether to load the best model found at each evaluation.
    metric_for_best_model="loss", # Use loss to evaluate best model.
    greater_is_better=False # Best model is the one with the lowest loss, not highest.
)

PyTorch: setting up devices
The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).


Обучим модель:

In [None]:
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokens_train,
    eval_dataset=tokens_test
)

trainer.train()

***** Running training *****
  Num examples = 4250
  Num Epochs = 3
  Instantaneous batch size per device = 8
  Total train batch size (w. parallel, distributed & accumulation) = 8
  Gradient Accumulation steps = 1
  Total optimization steps = 1596


Step,Training Loss,Validation Loss
500,3.7285,2.975409
1000,3.26,2.788122
1500,3.1377,2.7385


***** Running Evaluation *****
  Num examples = 751
  Batch size = 8
***** Running Evaluation *****
  Num examples = 751
  Batch size = 8
Saving model checkpoint to lenta/output/checkpoint-1000
Configuration saved in lenta/output/checkpoint-1000/config.json
Model weights saved in lenta/output/checkpoint-1000/pytorch_model.bin
***** Running Evaluation *****
  Num examples = 751
  Batch size = 8


Training completed. Do not forget to share your model on huggingface.co/models =)


Loading best model from lenta/output/checkpoint-1000 (score: 2.7881219387054443).


TrainOutput(global_step=1596, training_loss=3.3614365235904704, metrics={'train_runtime': 1756.6238, 'train_samples_per_second': 7.258, 'train_steps_per_second': 0.909, 'total_flos': 8666643824640000.0, 'train_loss': 3.3614365235904704, 'epoch': 3.0})

In [None]:
trainer.save_model(output_dir + '/model')

Saving model checkpoint to lenta/output/model
Configuration saved in lenta/output/model/config.json
Model weights saved in lenta/output/model/pytorch_model.bin


In [None]:
device = "cuda"

Функция для проверки генерации заголовков:

In [None]:
import torch

def gen_title(idx):

    input_text = test.iloc[idx]['text']

    with torch.no_grad():
        tokenized_text = tokenizer(input_text, truncation=True, padding=True, return_tensors='pt')

        source_ids = tokenized_text['input_ids'].to(device, dtype = torch.long)
        source_mask = tokenized_text['attention_mask'].to(device, dtype = torch.long)

        generated_ids = model.generate(
            input_ids = source_ids,
            attention_mask = source_mask, 
            max_length=512,
            num_beams=15,
            temperature = 0.7,
            repetition_penalty=5., 
            length_penalty=1, 
            early_stopping=True,
            no_repeat_ngram_size=2
        )

        pred = tokenizer.decode(generated_ids[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)

    print("TEXT: | {}".format(test.iloc[idx]['text']))
    print("TITLE: | {}".format(test.iloc[idx]['title']))
    print("\noutput:\n" + pred)
    print('\n')

In [None]:
gen_title(2)
gen_title(3)
gen_title(4)
gen_title(5)

TEXT: | Пользователи сети отреагировали на массовую отмену концертов современных музыкантов в России и нашли причины, по которым можно было бы срывать выступления звезд российской эстрады. На это обратила внимание Memepedia. «Власти отменили концерт Олега Газманова из-за пропаганды любви есаула к коню», — предложил свой вариант аккаунт «Россиюшка Тудей». Пользователь также предположил, почему власти могли бы отменить концерт Егора Летова: «Поскольку певец вовремя не ответил на запрос министерства культуры — сообщил министр Мединский». «Власти отменили концерт Валерия Леонтьева за пропаганду футболок в сеточку и бродяжничества», — написал юзер «Антресоль мне на рану». «Власти отменили концерт группы "Пропаганда" из-за пропаганды пропаганды», — отметил Blazing Wizard. «Власти отменили концерт Лепса из-за пропаганды алкоголизма и эмиграции», — написал Мельников Дмитрий. Накануне юрист «Агоры» Павел Чиков сообщил, что в центральном аппарате ФСБ составили черный список музыкантов, чьи конце

**Вывод:**

Отличная генерация заголовков! Связные предложения, отражают суть статьи, по смыслу похожи на реальный заголовок, и при этом ощущается современная особенность заголовков у всех изданий - небольшой кликбейт, призванный заинтересовать пользователя