In [21]:
!pip install transformers sentencepiece --quiet

In [22]:
import pandas as pd
import json
import torch
import random
from transformers import AutoTokenizer, AutoModelForCausalLM, TextDataset, DataCollatorForLanguageModeling, Trainer, TrainingArguments

In [23]:
from google.colab import drive

drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [24]:
DATASET_PATH = '/content/drive/MyDrive/Colab Notebooks/dataset.jsonl'

with open(DATASET_PATH) as f:
     df = pd.read_json(DATASET_PATH, lines=True).set_index('id')
df.head(3)

Unnamed: 0_level_0,date,rating,text
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2004-08-30 11:24:00+00:00,22010.0,"<Ares> ppdv, все юниксы очень дружелюбны.. они..."
2,2004-08-30 11:25:00+00:00,25105.0,<томатик_рад> а ты не чувствуешь красоту мира?...
3,2004-08-30 11:27:00+00:00,7192.0,"<Дор> ""мышка, почему у тебя такие большие глаз..."


In [25]:
df.drop(['date', 'rating'], axis=1, inplace=True)
df.head()

Unnamed: 0_level_0,text
id,Unnamed: 1_level_1
1,"<Ares> ppdv, все юниксы очень дружелюбны.. они..."
2,<томатик_рад> а ты не чувствуешь красоту мира?...
3,"<Дор> ""мышка, почему у тебя такие большие глаз..."
4,"<PPDV[os2]> ""Мальчики, вы что больные, бегать ..."
5,<Ohtori_Akio> мы - как разработчики - живём с ...


In [26]:
model_name = 'sberbank-ai/rugpt3small_based_on_gpt2'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

Downloading:   0%|          | 0.00/608 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.71M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.27M [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


Downloading:   0%|          | 0.00/551M [00:00<?, ?B/s]

In [27]:
sep = '\n***\n'

prefix = sep.join([''] + random.sample(list(df['text']), k=5) + [''])

tokens = tokenizer(prefix, return_tensors='pt')
tokens = {k: v.to(model.device) for k, v in tokens.items()}
end_token_id = tokenizer.encode('***')[0]
print(prefix)


***
На одном из форумов:
xxx: Да, Саню жалко, давайте ему на еду накидаем.
yyy: А давайте мне накидаем?
zzz: Куда?
aaa: сюда, брат, сюда *номер телефона*
aaa: кто скинул мне 1 рубль с пометкой "пидор"?
***
*ссылка на статью о том, что коптеры научились садиться на движущиеся автомобили*
xxx: Скорее бы грузоподъемность увеличили, чтобы на них можно было полетать
xxx: Хотя бы на высоте одного единственного метра
yyy: Так ведь можно, вертолёт называется!!!
***
посетила пушкинскую поликлинику.

сперва отправилась менять полис в кабинет 115. дошла до конца коридора, наткнулась на дверь с табличкой "Запасный выход", развернулась.

отловила аборигена. Говорит: че ж ты, бабко, не видишь чтоль: раз на двери написано "запасный выход", значит за ней твой 115 кабинет и есть.

логично.

в 115-м внимательно изучив паспорт, СНИЛС, прописку, телефон, сделали фото на память полис пообещали сделать быстро: к 10 апрелю.

но на случай непредвиденной хвори выдали бумажку (куда ж без бумажки), но ту бумаже

In [28]:
size = tokens['input_ids'].shape[1]
output = model.generate(
    **tokens, 
    do_sample=False, 
    max_length=size+50, 
    repetition_penalty=5., 
    temperature=0.5,
    num_beams=10,
)
decoded = tokenizer.decode(output[0])
result = decoded[len(prefix):]
print(result)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


&lt;div align="center"&gt;&lt;table border="0" cellspacing="0" cellpadding="0"&gt;&lt;tr&gt;&lt;td style="


In [29]:
from sklearn.model_selection import train_test_split
train, test = train_test_split(df.loc[:10000, 'text'], test_size=0.15)

In [30]:
import re

def build_text_files(data_json, dest_path):
    f = open(dest_path, 'w')
    data = ''
    for texts in data_json:
        summary = str(texts).strip()
        summary = re.sub(r"\[\w+\]", "", summary)
        summary = re.sub(r"<[\w+,\!, -]>", "", summary)
        summary = re.sub(r"<\w+>", "", summary)
        summary = re.sub(r"\s", " ", summary)
        data += summary + "  "
    f.write(data)
  
build_text_files(train,'./train_dataset.txt')
build_text_files(test,'./test_dataset.txt')

In [31]:
print("Train dataset length: "+ str(len(train)))
print("Test dataset length: "+ str(len(test)))

Train dataset length: 1666
Test dataset length: 294


In [32]:
train_path = './train_dataset.txt'
test_path = './test_dataset.txt'

def load_dataset(train_path, test_path, tokenizer):
    train_dataset = TextDataset(
          tokenizer=tokenizer,
          file_path=train_path,
          block_size=128)

    test_dataset = TextDataset(
          tokenizer=tokenizer,
          file_path=test_path,
          block_size=128)

    data_collator = DataCollatorForLanguageModeling(
        tokenizer=tokenizer, mlm=False,
    )
    return train_dataset, test_dataset, data_collator

train_dataset, test_dataset, data_collator = load_dataset(train_path, test_path, tokenizer)



In [33]:
training_args = TrainingArguments(
    output_dir="./GPT/gpt2-train", 
    overwrite_output_dir=True, 
    num_train_epochs=3, 
    per_device_train_batch_size=4, 
    per_device_eval_batch_size=4,  
    eval_steps = 400, 
    save_steps=800, 
    warmup_steps=500,
    )

In [34]:
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset,
    eval_dataset=test_dataset
)

In [35]:
trainer.train()

***** Running training *****
  Num examples = 681
  Num Epochs = 3
  Instantaneous batch size per device = 4
  Total train batch size (w. parallel, distributed & accumulation) = 4
  Gradient Accumulation steps = 1
  Total optimization steps = 513
  Number of trainable parameters = 125231616


Step,Training Loss
500,4.28




Training completed. Do not forget to share your model on huggingface.co/models =)




TrainOutput(global_step=513, training_loss=4.273140808759842, metrics={'train_runtime': 94.1045, 'train_samples_per_second': 21.71, 'train_steps_per_second': 5.451, 'total_flos': 133454905344000.0, 'train_loss': 4.273140808759842, 'epoch': 3.0})

In [36]:
trainer.save_model()
tokenizer.save_pretrained('gdrive/MyDrive/GPT/gpt2-train')
model.save_pretrained('gdrive/MyDrive/GPT/model_gpt2')

Saving model checkpoint to ./GPT/gpt2-train
Configuration saved in ./GPT/gpt2-train/config.json
Model weights saved in ./GPT/gpt2-train/pytorch_model.bin
tokenizer config file saved in gdrive/MyDrive/GPT/gpt2-train/tokenizer_config.json
Special tokens file saved in gdrive/MyDrive/GPT/gpt2-train/special_tokens_map.json
Configuration saved in gdrive/MyDrive/GPT/model_gpt2/config.json
Model weights saved in gdrive/MyDrive/GPT/model_gpt2/pytorch_model.bin


In [37]:
tokenizer = AutoTokenizer.from_pretrained("gdrive/MyDrive/GPT/gpt2-train")
model_new = AutoModelForCausalLM.from_pretrained("gdrive/MyDrive/GPT/model_gpt2")

loading file vocab.json
loading file merges.txt
loading file tokenizer.json
loading file added_tokens.json
loading file special_tokens_map.json
loading file tokenizer_config.json
loading configuration file gdrive/MyDrive/GPT/model_gpt2/config.json
Model config GPT2Config {
  "_name_or_path": "gdrive/MyDrive/GPT/model_gpt2",
  "activation_function": "gelu_new",
  "architectures": [
    "GPT2LMHeadModel"
  ],
  "attn_pdrop": 0.1,
  "bos_token_id": 50256,
  "embd_pdrop": 0.1,
  "eos_token_id": 50256,
  "gradient_checkpointing": false,
  "initializer_range": 0.02,
  "layer_norm_epsilon": 1e-05,
  "model_type": "gpt2",
  "n_ctx": 2048,
  "n_embd": 768,
  "n_head": 12,
  "n_inner": null,
  "n_layer": 12,
  "n_positions": 2048,
  "reorder_and_upcast_attn": false,
  "resid_pdrop": 0.1,
  "scale_attn_by_inverse_layer_idx": false,
  "scale_attn_weights": true,
  "summary_activation": null,
  "summary_first_dropout": 0.1,
  "summary_proj_to_labels": true,
  "summary_type": "cls_index",
  "summary

In [38]:
size = tokens['input_ids'].shape[1]
output = model_new.generate(
    **tokens, 
    do_sample=False, 
    max_length=size+100, 
    repetition_penalty=5., 
    temperature=0.5,
    num_beams=10,
)
decoded = tokenizer.decode(output[0])
result = decoded[len(prefix):]
print(result)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


► DECADence Lar† <@depositphotos> как же я завидую тем людям, которые умудряются совмещать несовместимые вещи ^_^   ааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааа


In [39]:
!pip install corus --quiet
!pip install datasets --quiet

[K     |████████████████████████████████| 83 kB 2.1 MB/s 
[K     |████████████████████████████████| 451 kB 24.6 MB/s 
[K     |████████████████████████████████| 115 kB 72.6 MB/s 
[K     |████████████████████████████████| 212 kB 75.6 MB/s 
[K     |████████████████████████████████| 127 kB 75.1 MB/s 
[?25h

In [40]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

--2022-11-16 18:37:21--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.112.3
Connecting to github.com (github.com)|140.82.112.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20221116%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20221116T183721Z&X-Amz-Expires=300&X-Amz-Signature=6b45bad01bea157f6681e510a78b90d7e29e5f8aa395e990e707ab2bbc7e992e&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=87156914&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2022-11-16 18:37:21--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c2

In [41]:
from corus import load_lenta
path = 'lenta-ru-news.csv.gz'
records = load_lenta(path)
next(records)

LentaRecord(
    url='https://lenta.ru/news/2018/12/14/cancer/',
    title='Названы регионы России с\xa0самой высокой смертностью от\xa0рака',
    text='Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сообщает РИА Новости. По словам Голиковой, чаще всего онкологические заболевания становились причиной смерти в Псковской, Тверской, Тульской и Орловской областях, а также в Севастополе. Вице-премьер напомнила, что главные факторы смертности в России — рак и болезни системы кровообращения. В начале года стало известно, что смертность от онкологических заболеваний среди россиян снизилась впервые за три года. По данным Росстата, в 2017 году от рака умерли 289 тысяч человек. Это на 3,5 процента меньше, чем годом ранее.',
    topic='Россия',
    tags='Общество',
    date=None
)

In [42]:
data = [(record.title, record.text) for record in records]

df_news = pd.DataFrame({'title': [record[0] for record in data], 'text': [record[1] for record in data]})
df_news.head()

Unnamed: 0,title,text
0,Австрия не представила доказательств вины росс...,Австрийские правоохранительные органы не предс...
1,Обнаружено самое счастливое место на планете,Сотрудники социальной сети Instagram проанализ...
2,В США раскрыли сумму расходов на расследование...,С начала расследования российского вмешательст...
3,Хакеры рассказали о планах Великобритании зами...,Хакерская группировка Anonymous опубликовала н...
4,Архиепископ канонической УПЦ отказался прийти ...,Архиепископ канонической Украинской православн...


In [43]:
df_news.shape

(739350, 2)

In [44]:
df_train, df_test = train_test_split(df_news[:2000], test_size=0.2)

In [45]:
from datasets import Dataset

df_train.reset_index(drop=True, inplace=True)
df_test.reset_index(drop=True, inplace=True)

dataset_train = Dataset.from_pandas(df_train)
dataset_test = Dataset.from_pandas(df_test)
dataset_train, dataset_test

(Dataset({
     features: ['title', 'text'],
     num_rows: 1600
 }), Dataset({
     features: ['title', 'text'],
     num_rows: 400
 }))

In [46]:
model_name = "IlyaGusev/rut5_base_sum_gazeta"
tokenizer = AutoTokenizer.from_pretrained(model_name)

max_len_txt = 400
max_len_tlt = 50

def tokenize(batch):
    tokenized_input = tokenizer(batch['text'], padding='max_length', truncation=True, max_length=max_len_txt)
    tokenized_label = tokenizer(batch['title'], padding='max_length', truncation=True, max_length=max_len_tlt)
    tokenized_input['labels'] = tokenized_label['input_ids']

    return tokenized_input

dataset_train = dataset_train.map(tokenize, batched=True, batch_size=8)
dataset_test = dataset_test.map(tokenize, batched=True, batch_size=8)

dataset_train.set_format('numpy', columns=['input_ids', 'attention_mask', 'labels'])
dataset_test.set_format('numpy', columns=['input_ids', 'attention_mask', 'labels'])

Downloading:   0%|          | 0.00/279 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/828k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.31M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

loading file spiece.model from cache at /root/.cache/huggingface/hub/models--IlyaGusev--rut5_base_sum_gazeta/snapshots/f09a08cae5d74c70e55da1a6ebb49f88c26f433b/spiece.model
loading file tokenizer.json from cache at /root/.cache/huggingface/hub/models--IlyaGusev--rut5_base_sum_gazeta/snapshots/f09a08cae5d74c70e55da1a6ebb49f88c26f433b/tokenizer.json
loading file added_tokens.json from cache at None
loading file special_tokens_map.json from cache at /root/.cache/huggingface/hub/models--IlyaGusev--rut5_base_sum_gazeta/snapshots/f09a08cae5d74c70e55da1a6ebb49f88c26f433b/special_tokens_map.json
loading file tokenizer_config.json from cache at /root/.cache/huggingface/hub/models--IlyaGusev--rut5_base_sum_gazeta/snapshots/f09a08cae5d74c70e55da1a6ebb49f88c26f433b/tokenizer_config.json


  0%|          | 0/200 [00:00<?, ?ba/s]

  0%|          | 0/50 [00:00<?, ?ba/s]

In [47]:
dataset_train.save_to_disk('lenta/train')
dataset_test.save_to_disk('lenta/test')

In [48]:
from transformers import T5ForConditionalGeneration

model_name = "IlyaGusev/rut5_base_sum_gazeta"
model = T5ForConditionalGeneration.from_pretrained(model_name)

Downloading:   0%|          | 0.00/766 [00:00<?, ?B/s]

loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--IlyaGusev--rut5_base_sum_gazeta/snapshots/f09a08cae5d74c70e55da1a6ebb49f88c26f433b/config.json
Model config T5Config {
  "_name_or_path": "cointegrated/rut5-base",
  "architectures": [
    "T5ForConditionalGeneration"
  ],
  "bos_token_id": 2,
  "d_ff": 2048,
  "d_kv": 64,
  "d_model": 768,
  "decoder_start_token_id": 2,
  "dense_act_fn": "gelu_new",
  "dropout_rate": 0.1,
  "eos_token_id": 1,
  "feed_forward_proj": "gated-gelu",
  "initializer_factor": 1.0,
  "is_encoder_decoder": true,
  "is_gated_act": true,
  "layer_norm_epsilon": 1e-06,
  "max_length": 200,
  "model_type": "t5",
  "num_beams": 5,
  "num_decoder_layers": 12,
  "num_heads": 12,
  "num_layers": 12,
  "output_past": true,
  "pad_token_id": 0,
  "relative_attention_max_distance": 128,
  "relative_attention_num_buckets": 32,
  "tie_word_embeddings": false,
  "tokenizer_class": "T5Tokenizer",
  "torch_dtype": "float32",
  "transform

Downloading:   0%|          | 0.00/977M [00:00<?, ?B/s]

loading weights file pytorch_model.bin from cache at /root/.cache/huggingface/hub/models--IlyaGusev--rut5_base_sum_gazeta/snapshots/f09a08cae5d74c70e55da1a6ebb49f88c26f433b/pytorch_model.bin
All model checkpoint weights were used when initializing T5ForConditionalGeneration.

All the weights of T5ForConditionalGeneration were initialized from the model checkpoint at IlyaGusev/rut5_base_sum_gazeta.
If your task is similar to the task the model of the checkpoint was trained on, you can already use T5ForConditionalGeneration for predictions without further training.


In [49]:
output_dir = 'lenta/output'

training_args = TrainingArguments(
    output_dir=output_dir,
    num_train_epochs=3,
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    save_steps=1000, # How often to save a checkpoint
    remove_unused_columns=True, # Removes useless columns from the dataset
    eval_steps=500, # How often to run evaluation on the val_set
)

PyTorch: setting up devices
The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).


In [50]:
from datasets import load_from_disk

dataset_train = load_from_disk("lenta/train")
dataset_test = load_from_disk("lenta/test")
dataset_train, dataset_test

(Dataset({
     features: ['title', 'text', 'input_ids', 'attention_mask', 'labels'],
     num_rows: 1600
 }), Dataset({
     features: ['title', 'text', 'input_ids', 'attention_mask', 'labels'],
     num_rows: 400
 }))

In [51]:
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset_train,
    eval_dataset=dataset_test
)

trainer.train()

***** Running training *****
  Num examples = 1600
  Num Epochs = 3
  Instantaneous batch size per device = 2
  Total train batch size (w. parallel, distributed & accumulation) = 2
  Gradient Accumulation steps = 1
  Total optimization steps = 2400
  Number of trainable parameters = 244309248


Step,Training Loss
500,2.9547
1000,0.6338
1500,0.5732
2000,0.5251


Saving model checkpoint to lenta/output/checkpoint-1000
Configuration saved in lenta/output/checkpoint-1000/config.json
Model weights saved in lenta/output/checkpoint-1000/pytorch_model.bin
Saving model checkpoint to lenta/output/checkpoint-2000
Configuration saved in lenta/output/checkpoint-2000/config.json
Model weights saved in lenta/output/checkpoint-2000/pytorch_model.bin


Training completed. Do not forget to share your model on huggingface.co/models =)




TrainOutput(global_step=2400, training_loss=1.0618825976053874, metrics={'train_runtime': 833.2194, 'train_samples_per_second': 5.761, 'train_steps_per_second': 2.88, 'total_flos': 2549012889600000.0, 'train_loss': 1.0618825976053874, 'epoch': 3.0})

In [52]:
trainer.save_model(output_dir + '/model')

Saving model checkpoint to lenta/output/model
Configuration saved in lenta/output/model/config.json
Model weights saved in lenta/output/model/pytorch_model.bin


In [53]:
def title_pred(idx):
  input_text = dataset_test['text'][idx]
  input_title = dataset_test['title'][idx]

  use_cuda = True
  device = torch.device("cuda:0")

  with torch.no_grad():
    tokenized_text = tokenizer(input_text, truncation=True, padding=True, return_tensors='pt').to(device)

    source_ids = tokenized_text['input_ids'].to(dtype = torch.long)
    source_mask = tokenized_text['attention_mask'].to(dtype = torch.long)

    generated_ids = model.generate(
        input_ids = source_ids,
        attention_mask = source_mask, 
        max_length=512,
        num_beams=7,
        temperature = 1.3,
        repetition_penalty=1, 
        length_penalty=1, 
        early_stopping=True,
        no_repeat_ngram_size=2
    ).to(device)

    pred = tokenizer.decode(generated_ids[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)

  print("Text:\n" + input_text)
  print("Real title: " + input_title)
  print("Pred title: " + pred)

In [54]:

title_pred(13)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Text:
Определена самая прослушиваемая на стриминг-сервисах музыкальная композиция XX века. Об этом медиахолдинг Universal Music Group сообщил в Twitter. Песня Bohemian Rhapsody британской группы Queen преодолела отметку в 1,5 миллиарда прослушиваний. Как отмечает Variety, собрать рекордные показатели помог выпуск фильма «Богемская рапсодия», который был номинирован на кинопремию «Золотой глобус».  «Итак, река рок-музыки превратилась в потоки! Очень рад, что наша музыка до сих пор разливается по максимуму», — приводит издание слова гитариста Queen Брайана Мэя. Bohemian Rhapsody, написанная лидером Queen Фредди Меркьюри, была выпущена в 1975 году в качестве сингла. На момент релиза она стала самой дорогой записью в истории звукозаписывающих компаний. Композиция известна необычной структурой, которую можно разбить на шесть частей. Так, в песне представлены различные музыкальные направления: баллада, опера, пение а капелла и хеви-метал. Композиция трижды входила в список Hot 100 по версии 