In [2]:
import pandas as pd

In [7]:
df = pd.DataFrame({'text': ['хуй', 'Moon', 'ОРРЛПпп ваааава'], 'class': [0, 1, 2]})

In [8]:
df.to_csv('test.csv', index=False)

In [None]:
!pip install razdel networkx pymorphy2[fast] nltk rouge==0.3.1
!pip install --upgrade datasets tqdm transformers

## Обучим модель на задачу суммаризации

In [9]:
from datasets import load_dataset

dataset_train = load_dataset('csv', data_files='test.csv')

Downloading and preparing dataset csv/default to C:/Users/user/.cache/huggingface/datasets/csv/default-8a9eebb2b9bb6cdd/0.0.0/6b34fb8fcf56f7c8ba51dc895bfa2bfbe43546f190a60fcf74bb5e8afdcc2317...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Dataset csv downloaded and prepared to C:/Users/user/.cache/huggingface/datasets/csv/default-8a9eebb2b9bb6cdd/0.0.0/6b34fb8fcf56f7c8ba51dc895bfa2bfbe43546f190a60fcf74bb5e8afdcc2317. Subsequent calls will reuse this data.


  0%|          | 0/1 [00:00<?, ?it/s]

In [10]:
dataset_train

DatasetDict({
    train: Dataset({
        features: ['Unnamed: 0', 'text', 'class'],
        num_rows: 3
    })
})

In [3]:
dataset_test

Dataset({
    features: ['url', 'title', 'text', 'topic', 'tags'],
    num_rows: 7394
})

In [4]:
dataset_test['text'][0]

'Компания ООО «СГМ-Мост», занимающаяся проектированием строительством и Керченского моста, подала в арбитражный суд Ростовской области иск к турецкой Turkuaz Shipping. Об этом в среду, 13 апреля, сообщает РИА Новости. У турецкой компании планируется отсудить 35,3 миллиона рублей после того, как ее сухогруз «Лира» столкнулся с опорой строящегося моста. На данный момент иск еще не принят к производству, а основания исковых требований не сообщаются. 24 марта стало известно, что ущерб от столкновения судна с опорой моста оценивается в 120 миллионов рублей. Тогда же арбитраж по просьбе ООО «СГМ-Мост» арестовал сухогруз, оставив его в порту Таганрога. 19 марта сухогруз, шедший под флагом Панамы, протаранил опору моста №2. В результате, как писал «Крыминформ», она была разрушена, еще две получили повреждения. Пострадавших среди девяти членов экипажа «Лиры» нет. Управлял судном, направлявшимся из Черного моря в Таганрог, гражданин Турции. Источник в правоохранительных органах рассказал, что по

In [5]:
dataset_test['title'][0]

'На владельца врезавшегося в\xa0Керченский мост сухогруза подали в\xa0суд'

In [6]:
model_name = "IlyaGusev/rut5_base_sum_gazeta"

In [7]:
def len_tok(text):
    return len(text.split())

In [8]:
max_len_sum, max_len_tl = max(map(len_tok, dataset_train['text'])), max(map(len_tok, dataset_train['title']))
max_len_sum, max_len_tl

(1243, 15)

In [9]:
max_len_sum, max_len_tl = 100, 15

In [10]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(model_name)

def tokenize(batch):
    tokenized_input = tokenizer(batch['text'], padding='max_length', truncation=True, max_length=max_len_sum)
    tokenized_label = tokenizer(batch['title'], padding='max_length', truncation=True, max_length=max_len_tl)

    tokenized_input['labels'] = tokenized_label['input_ids']

    return tokenized_input

dataset_train = dataset_train.map(tokenize, batched=True, batch_size=100)
dataset_test = dataset_test.map(tokenize, batched=True, batch_size=100)

dataset_train.set_format('numpy', columns=['input_ids', 'attention_mask', 'labels'])
dataset_test.set_format('numpy', columns=['input_ids', 'attention_mask', 'labels'])

Map:   0%|          | 0/36968 [00:00<?, ? examples/s]

Map:   0%|          | 0/7394 [00:00<?, ? examples/s]

In [11]:
dataset_train.save_to_disk('lenta/train')
dataset_test.save_to_disk('lenta/test')

Saving the dataset (0/1 shards):   0%|          | 0/36968 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/7394 [00:00<?, ? examples/s]

In [12]:
from transformers import T5ForConditionalGeneration, Trainer, TrainingArguments


model = T5ForConditionalGeneration.from_pretrained(model_name)

In [13]:
output_dir = 'lenta/output'

training_args = TrainingArguments(
    output_dir=output_dir,
    num_train_epochs=10,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    eval_accumulation_steps=1, # Number of eval steps to keep in GPU (the higher, the mor vRAM used)
    prediction_loss_only=True, # If I need co compute only loss and not other metrics, setting this to true will use less RAM
    learning_rate=0.00001,
    evaluation_strategy='steps', # Run evaluation every eval_steps
    save_steps=1000, # How often to save a checkpoint
    save_total_limit=1, # Number of maximum checkpoints to save
    remove_unused_columns=True, # Removes useless columns from the dataset
    run_name='run_gazeta', # Wandb run name
    logging_steps=500, # How often to log loss to wandb
    eval_steps=500, # How often to run evaluation on the val_set
    logging_first_step=False, # Whether to log also the very first training step to wandb
    load_best_model_at_end=True, # Whether to load the best model found at each evaluation.
    metric_for_best_model="loss", # Use loss to evaluate best model.
    greater_is_better=False # Best model is the one with the lowest loss, not highest.
)

In [14]:
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset_train,
    eval_dataset=dataset_test
)

trainer.train()

The following columns in the training set don't have a corresponding argument in `T5ForConditionalGeneration.forward` and have been ignored: title, url, tags, text, topic. If title, url, tags, text, topic are not expected by `T5ForConditionalGeneration.forward`,  you can safely ignore this message.
***** Running training *****
  Num examples = 36968
  Num Epochs = 10
  Instantaneous batch size per device = 16
  Total train batch size (w. parallel, distributed & accumulation) = 16
  Gradient Accumulation steps = 1
  Total optimization steps = 23110
  Number of trainable parameters = 244309248


Step,Training Loss,Validation Loss
500,3.9252,1.981234
1000,2.8243,1.771177
1500,2.5268,1.665357
2000,2.3103,1.621362
2500,2.1683,1.574932
3000,2.109,1.562368
3500,2.109,1.554787
4000,2.0779,1.53666
4500,2.0564,1.528652
5000,2.0203,1.541303


The following columns in the evaluation set don't have a corresponding argument in `T5ForConditionalGeneration.forward` and have been ignored: title, url, tags, text, topic. If title, url, tags, text, topic are not expected by `T5ForConditionalGeneration.forward`,  you can safely ignore this message.
***** Running Evaluation *****
  Num examples = 7394
  Batch size = 16
The following columns in the evaluation set don't have a corresponding argument in `T5ForConditionalGeneration.forward` and have been ignored: title, url, tags, text, topic. If title, url, tags, text, topic are not expected by `T5ForConditionalGeneration.forward`,  you can safely ignore this message.
***** Running Evaluation *****
  Num examples = 7394
  Batch size = 16
Saving model checkpoint to lenta/output\checkpoint-1000
Configuration saved in lenta/output\checkpoint-1000\config.json
Configuration saved in lenta/output\checkpoint-1000\generation_config.json
Model weights saved in lenta/output\checkpoint-1000\pytorch

  Num examples = 7394
  Batch size = 16
Saving model checkpoint to lenta/output\checkpoint-8000
Configuration saved in lenta/output\checkpoint-8000\config.json
Configuration saved in lenta/output\checkpoint-8000\generation_config.json
Model weights saved in lenta/output\checkpoint-8000\pytorch_model.bin
Deleting older checkpoint [lenta\output\checkpoint-6000] due to args.save_total_limit
The following columns in the evaluation set don't have a corresponding argument in `T5ForConditionalGeneration.forward` and have been ignored: title, url, tags, text, topic. If title, url, tags, text, topic are not expected by `T5ForConditionalGeneration.forward`,  you can safely ignore this message.
***** Running Evaluation *****
  Num examples = 7394
  Batch size = 16
The following columns in the evaluation set don't have a corresponding argument in `T5ForConditionalGeneration.forward` and have been ignored: title, url, tags, text, topic. If title, url, tags, text, topic are not expected by `T5ForCon

***** Running Evaluation *****
  Num examples = 7394
  Batch size = 16
The following columns in the evaluation set don't have a corresponding argument in `T5ForConditionalGeneration.forward` and have been ignored: title, url, tags, text, topic. If title, url, tags, text, topic are not expected by `T5ForConditionalGeneration.forward`,  you can safely ignore this message.
***** Running Evaluation *****
  Num examples = 7394
  Batch size = 16
Saving model checkpoint to lenta/output\checkpoint-16000
Configuration saved in lenta/output\checkpoint-16000\config.json
Configuration saved in lenta/output\checkpoint-16000\generation_config.json
Model weights saved in lenta/output\checkpoint-16000\pytorch_model.bin
Deleting older checkpoint [lenta\output\checkpoint-15000] due to args.save_total_limit
The following columns in the evaluation set don't have a corresponding argument in `T5ForConditionalGeneration.forward` and have been ignored: title, url, tags, text, topic. If title, url, tags, text,

Configuration saved in lenta/output\checkpoint-23000\config.json
Configuration saved in lenta/output\checkpoint-23000\generation_config.json
Model weights saved in lenta/output\checkpoint-23000\pytorch_model.bin
Deleting older checkpoint [lenta\output\checkpoint-22000] due to args.save_total_limit


Training completed. Do not forget to share your model on huggingface.co/models =)


Loading best model from lenta/output\checkpoint-19000 (score: 1.4519178867340088).
Deleting older checkpoint [lenta\output\checkpoint-19000] due to args.save_total_limit
Deleting older checkpoint [lenta\output\checkpoint-23000] due to args.save_total_limit


TrainOutput(global_step=23110, training_loss=2.005596460320123, metrics={'train_runtime': 8475.8997, 'train_samples_per_second': 43.615, 'train_steps_per_second': 2.727, 'total_flos': 4.907911901184e+16, 'train_loss': 2.005596460320123, 'epoch': 10.0})

In [15]:
trainer.save_model(output_dir + '/model')

Saving model checkpoint to lenta/output/model
Configuration saved in lenta/output/model\config.json
Configuration saved in lenta/output/model\generation_config.json
Model weights saved in lenta/output/model\pytorch_model.bin


In [16]:
INX = 100
print("SUMMARY: | {}".format(dataset_test['text'][INX]))
print("TITLE: | {}".format(dataset_test['title'][INX]))

SUMMARY: | Мик Шумахер, сын немецкого гонщика Михаэля Шумахера, в ближайшее время не собирается выступать в «Формуле-1». Об этом в среду, 13 апреля, сообщила менеджер знаменитого гонщика Сабина Кем. Ее слова приводит Corriere dello Sport. «За последний год Мик стал намного опытнее. У него произошли изменения в личной жизни. Он стал сильнее психологически, но до перехода в "Формулу-1" еще далеко. Пока мы об этом даже не думаем. Ему будет полезно провести еще один сезон в "Формуле-4", где он блестяще дебютировал. Мы за него очень рады», — сказала Кем. Мик Шумахер в нынешнем сезоне выступает в итальянской серии «Формулы-4». В прошлом году, который стал для 17-летнего немца дебютным, он занял 10-е место в личном зачете чемпионата, выиграв одну гонку. Шумахер-старший в настоящее время проходит курс реабилитации на собственной вилле на берегу Женевского озера в Швейцарии. Он вернулся туда из клиники в сентябре 2014 года. До этого Шумахер более полугода находился в коме из-за несчастного случ

In [17]:
device = "cuda"

In [18]:
import torch

input_text = dataset_test['text'][INX]

with torch.no_grad():
    tokenized_text = tokenizer(input_text, truncation=True, padding=True, return_tensors='pt')

    source_ids = tokenized_text['input_ids'].to(device, dtype = torch.long)
    source_mask = tokenized_text['attention_mask'].to(device, dtype = torch.long)

    generated_ids = model.generate(
        input_ids = source_ids,
        attention_mask = source_mask, 
        max_length=512,
        num_beams=7,
        temperature = 1.3,
        repetition_penalty=1, 
        length_penalty=1, 
        early_stopping=True,
        no_repeat_ngram_size=2
    )

    pred = tokenizer.decode(generated_ids[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)

print("\noutput:\n" + pred)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.
Generate config GenerationConfig {
  "bos_token_id": 2,
  "decoder_start_token_id": 2,
  "eos_token_id": 1,
  "max_length": 200,
  "num_beams": 5,
  "pad_token_id": 0,
  "transformers_version": "4.26.1"
}




output:
В «Формуле-1» появился сын Шумахера
