<a href="https://colab.research.google.com/github/WhiteAndBlackFox/nlp/blob/TransferLearning/TransferLearning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Transfer learning

## Доставляем библиотеки и импортируем их

In [3]:
!pip install transformers transformers[sentencepiece] sentencepiece corus datasets

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [7]:
import re
import sys
import torch
import json
import pandas as pd

from tqdm import tqdm; tqdm.pandas()

from datasets import Dataset, load_from_disk

from corus import load_lenta

from transformers import AutoTokenizer, TextDataset, DataCollatorForLanguageModeling, Trainer, TrainingArguments, AutoModelForCausalLM, T5ForConditionalGeneration

from sklearn.model_selection import train_test_split

from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## Дополнительные функции

In [5]:
def preprocessing_text(txt):
  """
    Предобработка текста
  """
  txt = str(txt).strip()
  txt = re.sub(r"\[\w+\]", "", txt)
  txt = re.sub(r"<[\w+,\!, -]>", "", txt)
  txt = re.sub(r"<\w+>", "", txt)
  return re.sub(r"\s", " ", txt)

def split_data(data, test_size=0.15):
  """
    разделяем данные на тестовые и тренеровочные
  """
  df_train, df_test = train_test_split(data, test_size=test_size)
  data = ''.join([txt + '\n' for txt in df_test])
  with open('train_dataset', 'w') as f_train_data:
    f_train_data.write(str(data))
  
  data = ''.join([txt + '\n' for txt in df_train])
  with open('test_dataset', 'w') as f_test_data:
    f_test_data.write(str(data))
  return df_train, df_test

def tokenize(batch, max_len_txt, max_len_tlt):
  """
    Токенизируем вход
  """
  tokenized_input = tokenizer(batch['text'], padding='max_length', truncation=True, max_length=max_len_txt)
  tokenized_label = tokenizer(batch['title'], padding='max_length', truncation=True, max_length=max_len_tlt)
  tokenized_input['labels'] = tokenized_label['input_ids']

  return tokenized_input


## Скачиваем данные и подготавливаем

In [30]:
DATA_PATH = "/content/drive/My Drive/dataset.jsonl"
df = pd.read_json(DATA_PATH, lines=True)

In [5]:
df.head()

Unnamed: 0,id,date,rating,text
0,1,2004-08-30 11:24:00+00:00,22010.0,"<Ares> ppdv, все юниксы очень дружелюбны.. они..."
1,2,2004-08-30 11:25:00+00:00,25105.0,<томатик_рад> а ты не чувствуешь красоту мира?...
2,3,2004-08-30 11:27:00+00:00,7192.0,"<Дор> ""мышка, почему у тебя такие большие глаз..."
3,4,2004-08-30 11:28:00+00:00,29169.0,"<PPDV[os2]> ""Мальчики, вы что больные, бегать ..."
4,5,2004-08-30 11:26:00+00:00,7140.0,<Ohtori_Akio> мы - как разработчики - живём с ...


In [31]:
df['text_clean'] = df['text'].progress_apply(lambda x: preprocessing_text(x))

100%|██████████| 81497/81497 [00:01<00:00, 61652.92it/s]


In [34]:
df_train, df_test = split_data(df['text_clean'])

## 1. Возмем данные из https://www.kaggle.com/datasets/mrapplexz/bashim-quotes и обучим модель GPT для генерации своих цитат

In [8]:
model_name = "sberbank-ai/rugpt3small_based_on_gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [35]:
train_dataset = TextDataset(
    tokenizer=tokenizer,
    file_path='train_dataset',
    block_size=128)

test_dataset = TextDataset(
    tokenizer=tokenizer,
    file_path='test_dataset',
    block_size=128)

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer, mlm=False)



In [36]:
model = AutoModelForCausalLM.from_pretrained(model_name)

In [37]:
!mkdir out_gpt2
training_args = TrainingArguments(
    output_dir="out_gpt2", #The output directory
    overwrite_output_dir=True, #overwrite the content of the output directory
    num_train_epochs=3, # number of training epochs
    per_device_train_batch_size=4, # batch size for training
    per_device_eval_batch_size=4,  # batch size for evaluation
    eval_steps = 400, # Number of update steps between two evaluations.
    save_steps=800, # after # steps model is saved
    warmup_steps=500,# number of warmup steps for learning rate scheduler
    )

mkdir: cannot create directory ‘out_gpt2’: File exists


In [38]:
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset,
    eval_dataset=test_dataset
)

In [39]:
trainer.train()

***** Running training *****
  Num examples = 6408
  Num Epochs = 3
  Instantaneous batch size per device = 4
  Total train batch size (w. parallel, distributed & accumulation) = 4
  Gradient Accumulation steps = 1
  Total optimization steps = 4806


Step,Training Loss
500,4.1444
1000,4.1187
1500,4.1011
2000,3.7696
2500,3.7071
3000,3.6947
3500,3.4858
4000,3.3984
4500,3.3761


Saving model checkpoint to out_gpt2/checkpoint-800
Configuration saved in out_gpt2/checkpoint-800/config.json
Model weights saved in out_gpt2/checkpoint-800/pytorch_model.bin
Saving model checkpoint to out_gpt2/checkpoint-1600
Configuration saved in out_gpt2/checkpoint-1600/config.json
Model weights saved in out_gpt2/checkpoint-1600/pytorch_model.bin
Saving model checkpoint to out_gpt2/checkpoint-2400
Configuration saved in out_gpt2/checkpoint-2400/config.json
Model weights saved in out_gpt2/checkpoint-2400/pytorch_model.bin
Saving model checkpoint to out_gpt2/checkpoint-3200
Configuration saved in out_gpt2/checkpoint-3200/config.json
Model weights saved in out_gpt2/checkpoint-3200/pytorch_model.bin
Saving model checkpoint to out_gpt2/checkpoint-4000
Configuration saved in out_gpt2/checkpoint-4000/config.json
Model weights saved in out_gpt2/checkpoint-4000/pytorch_model.bin
Saving model checkpoint to out_gpt2/checkpoint-4800
Configuration saved in out_gpt2/checkpoint-4800/config.json
M

TrainOutput(global_step=4806, training_loss=3.730614797502471, metrics={'train_runtime': 924.6833, 'train_samples_per_second': 20.79, 'train_steps_per_second': 5.197, 'total_flos': 1255769505792000.0, 'train_loss': 3.730614797502471, 'epoch': 3.0})

In [40]:
trainer.save_model()

Saving model checkpoint to out_gpt2
Configuration saved in out_gpt2/config.json
Model weights saved in out_gpt2/pytorch_model.bin


In [41]:
tokenizer.save_pretrained('tokenizer_pretrained')
model.save_pretrained('model_pretrained')

tokenizer config file saved in tokenizer_pretrained/tokenizer_config.json
Special tokens file saved in tokenizer_pretrained/special_tokens_map.json
Configuration saved in model_pretrained/config.json
Model weights saved in model_pretrained/pytorch_model.bin


In [45]:
prefix = "здравсвуйте "
tokens = tokenizer(prefix, return_tensors='pt')
size = tokens['input_ids'].shape[1]
model.to('cpu')
output = model.generate( 
    **tokens, 
    do_sample=False,
    max_length=+50,
    repetition_penalty=5., 
    temperature=0.5,
    num_beams=10
)

decoded = tokenizer.decode(output[0])
result = decoded[len(prefix):]
print(prefix + result)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


здравсвуйте ))))
xxx: у нас в городе есть магазин, где торгуют всякой фигнёй. xxx: а что такое херня? yyy: это когда ты покупаешь какую-то фигню


## 2. Возмем новостные данные из https://github.com/natasha/corus load_lenta2 обучим модель T5 или GPT для генерации заголовков для статей



In [57]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

--2022-07-31 15:59:09--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.121.3
Connecting to github.com (github.com)|140.82.121.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20220731%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20220731T155855Z&X-Amz-Expires=300&X-Amz-Signature=cdd03daae7fe0d44febc09173f344b881479acb569faa2293ba0b212cd31a614&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=87156914&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2022-07-31 15:59:09--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c2

In [11]:
path = 'lenta-ru-news.csv.gz'
records = load_lenta(path)
next(records)

LentaRecord(
    url='https://lenta.ru/news/2018/12/14/cancer/',
    title='Названы регионы России с\xa0самой высокой смертностью от\xa0рака',
    text='Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сообщает РИА Новости. По словам Голиковой, чаще всего онкологические заболевания становились причиной смерти в Псковской, Тверской, Тульской и Орловской областях, а также в Севастополе. Вице-премьер напомнила, что главные факторы смертности в России — рак и болезни системы кровообращения. В начале года стало известно, что смертность от онкологических заболеваний среди россиян снизилась впервые за три года. По данным Росстата, в 2017 году от рака умерли 289 тысяч человек. Это на 3,5 процента меньше, чем годом ранее.',
    topic='Россия',
    tags='Общество',
    date=None
)

In [13]:
data = [(record.title, record.text) for record in records]

In [14]:
df_all = pd.DataFrame({'title': [record[0] for record in data], 'text': [record[1] for record in data]})
df = df_all[:1000]
df.head()

Unnamed: 0,title,text
0,Австрия не представила доказательств вины росс...,Австрийские правоохранительные органы не предс...
1,Обнаружено самое счастливое место на планете,Сотрудники социальной сети Instagram проанализ...
2,В США раскрыли сумму расходов на расследование...,С начала расследования российского вмешательст...
3,Хакеры рассказали о планах Великобритании зами...,Хакерская группировка Anonymous опубликовала н...
4,Архиепископ канонической УПЦ отказался прийти ...,Архиепископ канонической Украинской православн...


In [15]:
df_train, df_test = train_test_split(df, test_size=0.15)

In [16]:
df_train.reset_index(drop=True, inplace=True)
df_test.reset_index(drop=True, inplace=True)

dataset_train = Dataset.from_pandas(df_train)
dataset_test = Dataset.from_pandas(df_test)

In [17]:
model_name = "IlyaGusev/rut5_base_sum_gazeta"
tokenizer = AutoTokenizer.from_pretrained(model_name)

loading file https://huggingface.co/IlyaGusev/rut5_base_sum_gazeta/resolve/main/spiece.model from cache at /root/.cache/huggingface/transformers/9adebe2aa47a25febcf707ee15540f9e440f8d8e79697dae237fc4e6ccad5019.b846524fbcbf3cf81e2302f8087043922ca4c445b4016bf16e707f7e2240a3e6
loading file https://huggingface.co/IlyaGusev/rut5_base_sum_gazeta/resolve/main/tokenizer.json from cache at /root/.cache/huggingface/transformers/9ea40ad78f35f554a9c607b947515d4e6f2f62e3a6a1ec3fa957e727cddbb635.975331e2a6fea3fd5d8f528410d471fb0f6f16b82a34e658f7a0d5eda5061b99
loading file https://huggingface.co/IlyaGusev/rut5_base_sum_gazeta/resolve/main/added_tokens.json from cache at None
loading file https://huggingface.co/IlyaGusev/rut5_base_sum_gazeta/resolve/main/special_tokens_map.json from cache at /root/.cache/huggingface/transformers/6ef3ae62c46b2a0173c15263e19f4443143979a9eefdfc1feab6a709496e7be2.294ebaa4cd17bb284635004c92d2c4d522ec488c828dcce0c2471b6f28e3fe82
loading file https://huggingface.co/IlyaGusev

In [18]:
dataset_train = dataset_train.map(lambda x: tokenize(x, 50, 400), batched=True, batch_size=8)
dataset_test = dataset_test.map(lambda x: tokenize(x, 50, 400), batched=True, batch_size=8)

dataset_train.set_format('numpy', columns=['input_ids', 'attention_mask', 'labels'])
dataset_test.set_format('numpy', columns=['input_ids', 'attention_mask', 'labels'])

  0%|          | 0/107 [00:00<?, ?ba/s]

  0%|          | 0/19 [00:00<?, ?ba/s]

In [19]:
dataset_train.save_to_disk('news_train')
dataset_test.save_to_disk('news_test')

In [20]:
model_name = "IlyaGusev/rut5_base_sum_gazeta"
model = T5ForConditionalGeneration.from_pretrained(model_name)

loading configuration file https://huggingface.co/IlyaGusev/rut5_base_sum_gazeta/resolve/main/config.json from cache at /root/.cache/huggingface/transformers/426a325da473aa010e527ee99032b35ce9354913e38282d34e50dd75856c82f7.87df939950b4282d4195b92cd0a6209ec6d3d69e74b13a77d87890cf3a5ded7b
Model config T5Config {
  "_name_or_path": "cointegrated/rut5-base",
  "architectures": [
    "T5ForConditionalGeneration"
  ],
  "bos_token_id": 2,
  "d_ff": 2048,
  "d_kv": 64,
  "d_model": 768,
  "decoder_start_token_id": 2,
  "dense_act_fn": "gelu_new",
  "dropout_rate": 0.1,
  "eos_token_id": 1,
  "feed_forward_proj": "gated-gelu",
  "initializer_factor": 1.0,
  "is_encoder_decoder": true,
  "is_gated_act": true,
  "layer_norm_epsilon": 1e-06,
  "max_length": 200,
  "model_type": "t5",
  "num_beams": 5,
  "num_decoder_layers": 12,
  "num_heads": 12,
  "num_layers": 12,
  "output_past": true,
  "pad_token_id": 0,
  "relative_attention_max_distance": 128,
  "relative_attention_num_buckets": 32,
  "ti

In [21]:
training_args = TrainingArguments(
    output_dir='news_training',
    num_train_epochs=3,
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    save_steps=1000,
    remove_unused_columns=True,
    eval_steps=500
)

PyTorch: setting up devices
The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).


In [22]:
dataset_train = load_from_disk("news_train")
dataset_test = load_from_disk("news_test")

In [23]:
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset_train,
    eval_dataset=dataset_test
)

trainer.train()

The following columns in the training set don't have a corresponding argument in `T5ForConditionalGeneration.forward` and have been ignored: text, title. If text, title are not expected by `T5ForConditionalGeneration.forward`,  you can safely ignore this message.
***** Running training *****
  Num examples = 850
  Num Epochs = 3
  Instantaneous batch size per device = 2
  Total train batch size (w. parallel, distributed & accumulation) = 2
  Gradient Accumulation steps = 1
  Total optimization steps = 1275


Step,Training Loss
500,4.4898
1000,0.0961


Saving model checkpoint to news_training/checkpoint-1000
Configuration saved in news_training/checkpoint-1000/config.json
Model weights saved in news_training/checkpoint-1000/pytorch_model.bin


Training completed. Do not forget to share your model on huggingface.co/models =)




TrainOutput(global_step=1275, training_loss=1.8170346533083448, metrics={'train_runtime': 484.5337, 'train_samples_per_second': 5.263, 'train_steps_per_second': 2.631, 'total_flos': 169270387200000.0, 'train_loss': 1.8170346533083448, 'epoch': 3.0})

In [24]:
trainer.save_model('news_trainer')

Saving model checkpoint to news_trainer
Configuration saved in news_trainer/config.json
Model weights saved in news_trainer/pytorch_model.bin


In [26]:
INX = 100
input_text = dataset_test['text'][INX]
input_title = dataset_test['title'][INX]

with torch.no_grad():
  tokenized_text = tokenizer(input_text, truncation=True, padding=True, return_tensors='pt')
  
  source_ids = tokenized_text['input_ids'].to(dtype = torch.long)
  source_mask = tokenized_text['attention_mask'].to(dtype = torch.long)
  
  model.to('cpu')
  generated_ids = model.generate(
    input_ids = source_ids,
    attention_mask = source_mask, 
    max_length=512,
    num_beams=7,
    temperature = 1.3,
    repetition_penalty=1, 
    length_penalty=1, 
    early_stopping=True,
    no_repeat_ngram_size=2)

  pred = tokenizer.decode(generated_ids[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)

print(f"Текст: {input_text}\nНастоящий заголовок: {input_title}\nПредсказанный заголовок: {pred}")

Текст: Житель британского города Торки, графство Девон, планирует на Рождество приготовить для друзей и близких обед из падали, которую собирал весь год. Об этом сообщает издание Metro. 41-летний Джим Александр (Jim Alexander) накопил около 50 туш оленей, фазанов, кроликов и барсуков, которые попали под машины. Кроме мяса, гостям придется попробовать его грибы, а в качестве приправ он планирует использовать травы, собранные в окрестных лесах. «Я хожу в магазин только за вещами, которые не могу найти на улице, вроде зубной пасты или геля для душа», — поясняет мужчина. Он утверждает, что научился добывать себе еду, когда рос в чехословацкой деревне. «Мне было пять лет, когда я убил первого кролика, — вспоминает Александр. — Такими вещами мы занимались. Это у меня в крови». Теперь он прекрасно разбирается в сортах мяса, о которых многие даже не слышали. Барсучатина, по его словам, очень напоминает свинину, а лисятина обладает уникальным вкусом, причем не особенно приятным. По словам девуш