# Генерация кратких резюме текстов моделью mT5 дообученной на основе датасета новостей с сайта Lenta.ru

## Запускаем установку необходимых библиотек

In [None]:
! pip install transformers transformers[torch] datasets sentencepiece
! pip install accelerate -U

Collecting transformers
  Downloading transformers-4.35.2-py3-none-any.whl (7.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.9/7.9 MB[0m [31m55.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting datasets
  Downloading datasets-2.15.0-py3-none-any.whl (521 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m521.2/521.2 kB[0m [31m54.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting sentencepiece
  Downloading sentencepiece-0.1.99-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m78.5 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.16.4 (from transformers)
  Downloading huggingface_hub-0.19.3-py3-none-any.whl (311 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m311.2/311.2 kB[0m [31m29.5 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers<0.19,>=0.14 (from transformers)
  Downloading tokenizers-0.15.0-cp310-c

## Чтобы библиотеки заработали, обязательно перезапускаем среду выполнения
После этого строки выше повторно не запускаем, выполняем код ниже.

# Резюмирование текстов

## Настройки

In [None]:
MAX_NEW_TOKENS=400
MODEL_DIR='i-k-a/ru_summarization_lenta_model_mt5-base_7_epochs_1024'

## Тест генерации резюме по выборке текстов

### Загрузка датасета Lenta

Загрузим и подготовим датасет из новостных статей и резюме с сайта Lenta.ru

In [None]:
import pandas as pd
# df = pd.read_csv('lenta.csv', index_col=None)
df = pd.read_csv('http://fotolx.ru/temp/DS/new_lenta.csv', index_col=None)

In [None]:
from datasets import Dataset
dataset = Dataset.from_dict({'Description':df['Description'],'Text':df['Text']})

### Создаем токенизатор и модель

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained(MODEL_DIR)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_DIR)

(…)pochs/resolve/main/tokenizer_config.json:   0%|          | 0.00/827 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

(…)chs/resolve/main/special_tokens_map.json:   0%|          | 0.00/416 [00:00<?, ?B/s]



(…)5-base_4_epochs/resolve/main/config.json:   0%|          | 0.00/827 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

### Генерируем резюме по выборке текстов

In [None]:
test_data = pd.DataFrame(dataset).sample(15)
for i, row in test_data.iterrows():
  text = row['Text']
  description = row['Description']
  inputs = tokenizer(text, return_tensors="pt").input_ids
  outputs = model.generate(inputs, max_new_tokens=MAX_NEW_TOKENS, do_sample=False)
  result = tokenizer.decode(outputs[0], skip_special_tokens=True)
  # result = result[:result.rfind('.')]
  print(f'Оригинальное резюме: "{description}"\n\nРезюме от нейросети: "{result}"\n\nИсходный текст: "{text}"')
  print('----------------------------------------------------')
  pass

Оригинальное резюме: "
    В Екатеринбурге суд арестовал 16-летнего подростка за расправу над 14-летней подругой, ее матерью и псом породы шпиц. Подозреваемый взят под стражу и отправлен в СИЗО до 13 января 2024 года. В ходе заседания стало известно, что подросток ранее состоял на учете в службе по делам несовершеннолетних за грабеж.
  "

Резюме от нейросети: "В Екатеринбурге суд арестовал 16-летнего подростка за расправу над 14-летней подругой, ее матерью и псом породы шпиц. Подозреваемый взят под стражу и отправлен в СИЗО до 13 января 2024 года. В ходе заседания стало известно, что подросток ранее состоял на учете в службе по делам несовершеннолетних за грабеж, совершенный в 2022 году. Он тогда избежал наказания из-за возраста."

Исходный текст: "В  Екатеринбурге  суд арестовал 16-летнего подростка за расправу над 14-летней подругой, ее матерью и псом породы шпиц. Об этом сообщает  E1.ru . Подозреваемый взят под стражу и отправлен в СИЗО до 13 января 2024 года. В ходе заседания стало

## Генерация единичного резюме текста

Необходимо предварительно выполнить ячейку "Настройки".

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained(MODEL_DIR)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_DIR)
text = input('Введите текст:')
inputs = tokenizer(text, return_tensors="pt").input_ids
outputs = model.generate(inputs, max_new_tokens=MAX_NEW_TOKENS, do_sample=False)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f'Резюме от нейросети: "{result}"\n\nИсходный текст: "{text}"')

Введите текст:Сильная магнитная буря вызвала редкое полярное сияние на юге России. Красное свечение могли увидеть жители Крыма, Ростовской и Воронежской областей, а также новых регионов страны, передает РБК.  Астроном Александр Иванов в беседе с «Комсомольской Правдой» объяснил, что это явление является очень редким для южных регионов. Полярное сияние длится от пяти минут до получаса и происходит однократно.  «Полярное сияние возникает от протонных ударов по магнитосфере. Магнитные бури возникли недавно, с обеда 5 ноября. Продолжаются три часа подряд. Свечение как раз связано с этим. Фактически северное сияние, механизм такой же», — отметил он.  В конце сентября в России засняли редкое по красоте полярное сияние. В ночь на 25 сентября жители Советска могли увидеть в небе над рекой Неман полярное сияние в ярком зеленом и алом спектре.
Резюме от нейросети: "В силу магнитная буря вызвала редкое полярное сияние на юге России. Красное свечение могли увидеть жители Крыма, Ростовской и Вороне