#### Download data

https://www.kaggle.com/datasets/mrapplexz/bashim-quotes

In [1]:
model_name = "sberbank-ai/rugpt3small_based_on_gpt2"

In [3]:
!pip install transformers[torch]



In [9]:
import logging
import numpy as np
import pandas as pd

from transformers import AutoTokenizer
from transformers import TextDataset, DataCollatorForLanguageModeling
from transformers import Trainer, TrainingArguments, AutoModelForCausalLM
from transformers.trainer import logger as noisy_logger

In [5]:
noisy_logger.setLevel(logging.WARNING)

In [6]:
df_rec = pd.read_json('/content/sample_data/dataset.jsonl', lines=True).set_index('id')

In [7]:
df_rec.shape

(81497, 3)

In [8]:
df_rec = df_rec.sample(10000)

In [9]:
import re

def clear_text(text):
    clr_text = re.sub(r"<.*?>", " ", text).lower()
    clr_text = summary = re.sub(r"\s", " ", clr_text)
    return clr_text

In [10]:
df_rec["clear_text"] = df_rec["text"].apply(lambda x: clear_text(x))
df_rec.head()

Unnamed: 0_level_0,date,rating,text,clear_text
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
432420,2015-02-17 05:13:00+00:00,8812.0,Sodolyana: утро началось шикарно ) я ж живу на...,sodolyana: утро началось шикарно ) я ж живу на...
432860,2015-03-17 04:44:00+00:00,2164.0,Новость на опеннете:\n\nПосле рецензирования м...,новость на опеннете: после рецензирования мно...
250609,2007-05-29 07:51:00+00:00,2587.0,Kimbol блять!!!!! только что!!!! реально!!!! с...,kimbol блять!!!!! только что!!!! реально!!!! с...
445607,2017-07-04 04:45:00+00:00,1526.0,"ххх: Как, ты не смотрел ""Семейку Адамсов""? Да ...","ххх: как, ты не смотрел ""семейку адамсов""? да ..."
6339,2005-12-26 06:33:00+00:00,6364.0,"pSycho:\nслушай, ты вот там, в дневнике про мо...","psycho: слушай, ты вот там, в дневнике про мор..."


In [11]:
data = df_rec.loc[:, 'clear_text']

In [12]:
data

id
432420    sodolyana: утро началось шикарно ) я ж живу на...
432860    новость на опеннете:  после рецензирования мно...
250609    kimbol блять!!!!! только что!!!! реально!!!! с...
445607    ххх: как, ты не смотрел "семейку адамсов"? да ...
6339      psycho: слушай, ты вот там, в дневнике про мор...
                                ...                        
455086    xxx: оборзевший незаменимый сотрудник создават...
404027    xxx: моя жена очень разочаровалась, узнав, что...
424960    xxx: еду в электричке. обычное дело, ничего не...
420988    xxx: дождались, посоны! xxx: "частная организа...
440987    alexander: всё, порешал вроде) сорри что дёрга...
Name: clear_text, Length: 10000, dtype: object

In [13]:
import re
from sklearn.model_selection import train_test_split

def build_text_files(data_json, dest_path):
    with open(dest_path, "w", encoding="utf-8") as f:
        data = ''
        for texts in data_json:
            summary = str(texts).strip()
            data += summary + "  "

        f.write(data)

In [14]:
train, test = train_test_split(data, test_size=0.15)

In [15]:
build_text_files(train,'train_dataset.txt')
build_text_files(test,'test_dataset.txt')

In [16]:
print("Train dataset length: "+ str(len(train)))
print("Test dataset length: "+ str(len(test)))

Train dataset length: 8500
Test dataset length: 1500


In [17]:
train[:5]

id
432800    xxx: женское о наболевшем: от обуви окрасились...
428070    xxx: собираюсь сегодня на работу, звонит домоф...
420127    xxx: тогда еще html-теги были большими, а java...
450884    xxx: поют там не mascarpone, а moscow calling....
428134      вот например скажите, можно ли заархивироват...
Name: clear_text, dtype: object

In [18]:
tokenizer = AutoTokenizer.from_pretrained(model_name)

train_path = 'train_dataset.txt'
test_path = 'test_dataset.txt'

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [19]:
def load_dataset(train_path, test_path, tokenizer):
    train_dataset = TextDataset(
          tokenizer=tokenizer,
          file_path=train_path,
          block_size=128)

    test_dataset = TextDataset(
          tokenizer=tokenizer,
          file_path=test_path,
          block_size=128)

    data_collator = DataCollatorForLanguageModeling(
        tokenizer=tokenizer, mlm=False,
    )
    return train_dataset, test_dataset, data_collator

train_dataset, test_dataset, data_collator = load_dataset(train_path, test_path, tokenizer)



#### Training model

In [20]:
model = AutoModelForCausalLM.from_pretrained(model_name)

In [37]:
!pip install accelerate -U



In [21]:
training_args = TrainingArguments(

    "phrase",
    evaluation_strategy = "epoch",
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    num_train_epochs=2,
    learning_rate=1e-5,
    weight_decay=0.01,
    save_strategy='no',
    report_to='none',

    )

In [22]:
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset,
    eval_dataset=test_dataset
)

In [23]:
trainer.train()



Epoch,Training Loss,Validation Loss
1,4.0634,3.942977
2,3.9299,3.934325


TrainOutput(global_step=2192, training_loss=4.021550060188683, metrics={'train_runtime': 429.1637, 'train_samples_per_second': 20.421, 'train_steps_per_second': 5.108, 'total_flos': 572490842112000.0, 'train_loss': 4.021550060188683, 'epoch': 2.0})

#### Text generate

In [24]:
def generate_text(prefix):
    tokens = tokenizer(prefix, return_tensors='pt')
    size = tokens['input_ids'].shape[1]

    output = model.generate(
        **tokens,
        #end_token=end_token_id,
        do_sample=False,
        max_length=size+50,
        early_stopping=True,
        length_penalty=2.0,
        repetition_penalty=8.,
        temperature=0.5,
        num_beams=3,
        no_repeat_ngram_size=5
    )

    decoded = tokenizer.decode(output[0])
    result = decoded[len(prefix):]
    return prefix + result

In [34]:
import torch
if torch.cuda.is_available():  # Tell PyTorch to use the GPU.
    device = torch.device("cuda")
    print('There are %d GPU(s) available.' % torch.cuda.device_count())
    print('We will use the GPU:', torch.cuda.get_device_name(0)) # If not...
else:
    print('No GPU available, using the CPU instead.')
    device = torch.device("cpu")

There are 1 GPU(s) available.
We will use the GPU: Tesla T4


In [30]:
device = torch.device("cpu")
model = model.to(device)

In [31]:
print(generate_text("ты еще долго?"))

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


ты еще долго?  xxx: у нас в школе на перемене учительница по физкультуре сказала, что если ты не будешь делать зарядку каждый день, то через год тебя будут считать лысым. yyy: ну вот и я о том


In [32]:
print(generate_text("давай, пошли уже в магазин"))

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


давай, пошли уже в магазин.  xxx: а у нас на работе есть такая фишка - когда я прихожу домой с работы, то сразу же включаю телевизор и начинаю смотреть новости по телику... yyy: это как? ххх:


In [33]:
print(generate_text("давай купим арбуз в магазине?"))

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


давай купим арбуз в магазине?  xxx: у меня есть знакомая, которая живет с родителями. и вот однажды она приходит к ним на работу - а там сидит ее мама... yyy: ну что ж ты так долго не приходишь?! я же тебе говорила!


#### Data load

обучить модель T5/ или GPT для генерации заголовков для статей
https://github.com/natasha/corus/load_lenta2  

In [34]:
!pip install corus



In [35]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2

--2023-08-18 09:15:05--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2
Resolving github.com (github.com)... 140.82.112.3
Connecting to github.com (github.com)|140.82.112.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/619f9f00-1e96-11ea-946e-dac89df8aced?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20230818%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20230818T091506Z&X-Amz-Expires=300&X-Amz-Signature=06a829609aa533553b56f2b73030b8e08dbeddc83b218ad8510da179294e2b3e&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=87156914&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.bz2&response-content-type=application%2Foctet-stream [following]
--2023-08-18 09:15:06--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/619f9f00-1e96-11ea-946e-da

In [1]:
from corus import load_lenta2

path = 'lenta-ru-news.csv.bz2'
records = load_lenta2(path)
next(records)

LentaRecord(
    url='https://lenta.ru/news/1914/09/16/hungarnn/',
    title='1914. Русские войска вступили в\xa0пределы Венгрии  ',
    text='Бои у Сопоцкина и Друскеник закончились отступлением германцев. Неприятель, приблизившись с севера к Осовцу начал артиллерийскую борьбу с крепостью. В артиллерийском бою принимают участие тяжелые калибры. С раннего утра 14 сентября огонь достиг значительного напряжения. Попытка германской пехоты пробиться ближе к крепости отражена. В Галиции мы заняли Дембицу. Большая колонна, отступавшая по шоссе от Перемышля к Саноку, обстреливалась с высот нашей батареей и бежала, бросив парки, обоз и автомобили. Вылазки гарнизона Перемышля остаются безуспешными. При продолжающемся отступлении австрийцев обнаруживается полное перемешивание их частей, захватываются новые партии пленных, орудия и прочая материальная часть. На перевале Ужок мы разбили неприятельский отряд, взяли его артиллерию и много пленных и, продолжая преследовать, вступили в пределы Венгрии

In [2]:

def load_lenta_to_list(path, max_number=None):
    records = load_lenta2(path)
    texts, titles = [], []
    for i, record in enumerate(records):
        texts.append(record.text)
        titles.append(record.title)
        if not max_number is None:
            if i >= max_number-1:
                break
    return texts, titles

In [3]:
texts, titles = load_lenta_to_list(path, max_number=20000)
print(len(texts))
print(len(titles))

20000
20000


In [15]:
df = pd.DataFrame({'text':texts, 'title':titles})
df.sample(3)

Unnamed: 0,text,title
8650,"Александр Лившиц, занимавший ранее должность с...",Александр Лившиц стал советником премьера
4126,Более 500 тысяч фирм в России контролируются п...,Бандиты контролируют более 500 тысяч российски...
5071,"Вопрос с российским танкером ""Волгонефть-147"",...","Вопрос с танкером ""Волгонефть"" закрыт"


In [16]:
from sklearn.model_selection import train_test_split

df_train, df_test = train_test_split(df, test_size=0.1, random_state=1)

In [41]:
!pip install datasets

Collecting datasets
  Downloading datasets-2.14.4-py3-none-any.whl (519 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m519.3/519.3 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.8,>=0.3.0 (from datasets)
  Downloading dill-0.3.7-py3-none-any.whl (115 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m115.3/115.3 kB[0m [31m11.1 MB/s[0m eta [36m0:00:00[0m
Collecting xxhash (from datasets)
  Downloading xxhash-3.3.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (194 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.1/194.1 kB[0m [31m15.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting multiprocess (from datasets)
  Downloading multiprocess-0.70.15-py310-none-any.whl (134 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m15.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: xxhash, dill, multiprocess, datasets
Successfully installed datasets-2.14.

In [17]:
from datasets import Dataset, DatasetDict

ds_data = DatasetDict({
    'train': Dataset.from_pandas(df_train),
    'test': Dataset.from_pandas(df_test)
})

ds_data

DatasetDict({
    train: Dataset({
        features: ['text', 'title', '__index_level_0__'],
        num_rows: 18000
    })
    test: Dataset({
        features: ['text', 'title', '__index_level_0__'],
        num_rows: 2000
    })
})

In [18]:
max_len_text = max(map(lambda txt: len(txt.split()), ds_data['train']['text']))
max_len_tl = max(map(lambda txt: len(txt.split()), ds_data['train']['title']))
max_len_text, max_len_tl

(1111, 18)

In [19]:
max_len_text, max_len_tl = 512, 20

# Preprocessing the data

In [20]:
model_name = "IlyaGusev/rut5_base_sum_gazeta"

In [21]:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)

In [22]:
tokenized_input = tokenizer('привет', padding='max_length', truncation=True, max_length=max_len_text, return_tensors = 'pt')
tokenized_input

{'input_ids': tensor([[20842,     1,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,  

In [23]:
def tokenize(batch):
    tokenized_input = tokenizer(batch['text'], padding='max_length', truncation=True, max_length=max_len_text)
    tokenized_label = tokenizer(batch['title'], padding='max_length', truncation=True, max_length=max_len_tl)

    tokenized_input['labels'] = tokenized_label['input_ids']

    return tokenized_input

ds_data = ds_data.map(tokenize, batched=True, batch_size=8)

ds_data.set_format('numpy', columns=['input_ids', 'attention_mask', 'labels'])

Map:   0%|          | 0/18000 [00:00<?, ? examples/s]

Map:   0%|          | 0/2000 [00:00<?, ? examples/s]

In [24]:
from transformers import DataCollatorForTokenClassification
data_collator = DataCollatorForTokenClassification(tokenizer)

# Preprocessing the data

In [25]:
!pip install transformers



In [26]:
from transformers import T5ForConditionalGeneration, Trainer, TrainingArguments
model = T5ForConditionalGeneration.from_pretrained(model_name)

In [27]:
training_args = TrainingArguments(
    "gen_title",
    evaluation_strategy = "epoch",
    learning_rate=1e-5,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    num_train_epochs= 2,
    remove_unused_columns=True, # Removes useless columns from the dataset
    save_strategy='no',
    report_to='none',
)

In [28]:
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=ds_data['train'],
    eval_dataset=ds_data['test'],
    data_collator=data_collator,
    tokenizer=tokenizer,
)

In [29]:
trainer.train()

You're using a T5TokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Epoch,Training Loss,Validation Loss


KeyboardInterrupt: ignored

In [30]:
output_dir = 'lenta2/output'
trainer.save_model(output_dir + '/model')

In [31]:
dataset_test = ds_data['test']

def title_pred(idx):
    input_text = dataset_test['text'][idx]
    input_title = dataset_test['title'][idx]

    use_cuda = False
    device = torch.device("cpu")

    with torch.no_grad():
        tokenized_text = tokenizer(input_text, truncation=True, padding=True, return_tensors='pt').to(device)
        source_ids = tokenized_text['input_ids'].to(dtype = torch.long)
        source_mask = tokenized_text['attention_mask'].to(dtype = torch.long)
        generated_ids = model.generate(
            input_ids = source_ids,
            attention_mask = source_mask,
            max_length=1512,
            num_beams=7,
            temperature = 1.3,
            repetition_penalty=1,
            length_penalty=1,
            early_stopping=True,
            no_repeat_ngram_size=2
            ).to(device)
        pred = tokenizer.decode(generated_ids[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)

    print("Text:\n" + input_text)
    print("Real title: " + input_title)
    print("Pred title: " + pred)

In [35]:
device = torch.device("cpu")
model = model.to(device)

In [36]:
title_pred(1)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Text:
Шикарные бутики, расположенные в центре Нью-Йорка, терпят колоссальные убытки из-за топ-моделей и актрис. У признанных красавиц появлось новое хобби - красть из дорогих магазинов какие-нибудь вещи. В результате в бутиках Dolce & Gabbana, Prada и Burberry's, расположенных на Мэдисон авеню и Пятой авеню, усилена охрана и установлены дополнительные камеры наблюдения. За последние полгода на краже в бутиках были пойманы три известные топ-модели, сообщает Ananova.com. Всякий раз уголовному делу не давали ход, потому что в ситуацию вмешивались богатые поклонники моделей, которые платили большие деньги за то, чтобы об инциденте "забыли". По словам работников шикарных магазинов, знаменитости придумали себе новое развлечение: для них главное не столько украсть, сколько "смыться" с места преступления. Красотки в дорогих нарядах пользуются тем, что они не могут вызвать подозрений у персонала.
Real title: Топ-модели воруют вещи из нью-йоркских бутиков
Pred title: Крупнейшие бутики, расположе

In [37]:
title_pred(2)

Text:
Уже на следующей неделе на Украине может быть введено чрезвычайное положение. По сообщению украинских властей, это связано с тяжелейшим энергетическим кризисом, разразившимся в стране. Как сообщила в интервью ВВС вице-премьер Украины Юлия Тимошенко,  подача электроэнергии в некоторых районах иногда прерывается  на двенадцать часов. "Запасы топлива и горючего иссякают. В настоящий момент работает лишь одна треть украинских нефтеперерабатывающих заводов", - заявила Тимошенко. Украинский долг России за поставку энергоносителей резко возрос - отчасти из-за того, что Украина нелегально откачивает газ из транзитных газопроводов, идущих в Европу. Стоимость этого газа составляет примерно десять миллионов долларов в день. По данным газеты "Сегодня", Юлия Тимошенко провела в Москве переговоры с представителями "Газпрома". Она заявила, чточто долг Украины перед "Газпромом" составляет 2,8 миллиарда долларов. Эта цифра включает в себя не только официальные долги украинского государства и его 

In [38]:
title_pred(3)

Text:
В подмосковном Сергиевом Посаде убит директор муниципального предприятия "Электросеть" Геннадий Евдокимов. Как сообщили "Интерфаксу" в ГУВД Московской области, в среду около 8 часов утра на улице Фабричной неизвестный преступник выстрелил ему в голову. Труп был найден всего в нескольких метрах от офиса предприятия. С 1990 по 1995 год Геннадий Евдокимов занимал пост заместителя главы администрации района и курировал вопросы строительства, затем некоторое время работал в коммерческой структуре, позже - главным инженером на местном стекольном заводе, а не так давно перешел на службу в муниципальное предприятие "Электросеть". Это уже второе убийство руководителя муниципальной службы города. 8 декабря также выстрелом в голову был убит главный архитектор Сергиева Посада Виктор Журавлев.
Real title: В Сергиевом Посаде продолжают расстреливать руководителей коммунальных служб
Pred title: В подмосковном Сергиевом Посаде убит глава муниципального предприятия «Электросеть Геннадий Евдокимов

In [39]:
title_pred(4)

Text:
Российское правительство приняло решение выплатить пенсионерам январскую пенсию в декабре, заявил премьер-министр России Владимир Путин, выступая во вторник на заседании оргкомитета по проведению Года пожилых людей. Путин подчеркнул, что это лишь первая часть подарка российским пенсионерам - в феврале пенсии будут еще и проиндексированы. Как отметил премьер, помощь на этом направлении будет идти "поэтапно, шаг за шагом". Путин напомнил, что с 1 ноября пенсии уже были проиндексированы на 15 процентов. Он подчеркнул, что в этом году правительство полностью погасило все долги пенсионерам и вовремя выплачивает текущие пенсии, сообщает агентство РИА "Новости". Путин назвал решение проблем пожилых людей "не только социальным долгом государства, но и категорией морально-нравственной". В то же время премьер подчеркнул, что "у нас существует серьезная демографическая проблема, в настоящий момент в России более 20 процентов всего населения пенсионеры, а число людей старше 85 лет увеличилос

Модель показала хороший результат хоть обучалась меньше минуты, полное дообучение модели заняло бы около 3 часов. Тяжело реализовать на ноутбуке так как требует больших ресурсов видеопамяти.