In [1]:
import json
import random
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

In [2]:
import warnings
warnings.filterwarnings('ignore')

In [3]:
# !pip install transformers sentencepiece

In [4]:
gazeta_train = 'gazeta_train.json'
gazeta_val = 'gazeta_val.json'
gazeta_test = 'gazeta_test.json'

In [5]:
def read_gazeta_records(file_name, shuffle=True, sort_by_date=False):
    assert shuffle != sort_by_date
    records = []
    with open(file_name, "r", encoding='utf-8') as r:
        for line in r:
            records.append(json.loads(line))
    if sort_by_date:
        records.sort(key=lambda x: x["date"])
    if shuffle:
        random.shuffle
    return records

def summurize(rec):
    article_text = ("{}".format(test_records[rec]["text"]))
    input_ids = tokenizer([HANDLER(article_text)], 
                          return_tensors="pt", 
                          padding="max_length", 
                          truncation=True, 
                          max_length=512)["input_ids"]
    output_ids = model.generate(input_ids=input_ids,
                                max_length=84,
                                no_repeat_ngram_size=2,
                                num_beams=4)[0]
    summary = tokenizer.decode(output_ids,skip_special_tokens=True,clean_up_tokenization_spaces=False)
    print('TEXT:   ', article_text)
    print('SUMMARY:', summary)

In [6]:
test_records = read_gazeta_records(gazeta_test)

In [7]:
HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
model_name = "csebuetnlp/mT5_multilingual_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

In [8]:
summurize(1)

TEXT:    Около 11 тысяч зрителей увидели все самое лучшее, что есть на сегодняшний день в культуре Бурятии. В Кремле выступил Бурятский государственный академический театр оперы и балета, Национальный цирк, Бурятский национальный театр песни и танца «Байкал», ставший победителем шоу «Танцуют все!» на телеканале «Россия», а также другие профессиональные и самодеятельные коллективы региона. Более 300 артистов из одного региона на главной сцене страны - похоже это рекорд России. Зрителям рассказали, что Республике Бурятия, чье население составляет 1 миллион человек, сохранилась и развивается культура десятков национальностей, включая русских, бурятов, староверов (семейских), эвенков. И все они были представлены в Москве. Как писали после шоу зрители в соцсетях: «А мы думали, что в Бурятии только буряты живут…». Для неподготовленного зрителя это вообще были вечера открытий. Например, когда еще в Кремлевском дворце выстраивалась очередь из желающих попасть на прием к врачам-пульсологам и ла

In [9]:
summurize(7)

TEXT:    Самые известные российские пранкеры Владимир «Вован» Кузнецов и Алексей «Лексус» Столяров, на счету которых множество розыгрышей мировых политиков первого эшелона, позвонили члену конгресса США от Демократической партии Максин Уотерс от имени шведской школьницы, экологической активистки Греты Тунберг и ее отца Сванте. Звонок был сделан в рамках нового анимационного шоу пранкеров Stars save the Earth. Россияне рассказали американскому политику, что Грета якобы сейчас участвует в митинге в штате Северная Каролина «в поддержку экологии острова Чунга-Чанга». В этой связи «Тунберги» предложили Уотерс также поддержать экологию острова (несуществующего), чтобы ее речь затем якобы транслировать на мероприятии, передает РИА «Новости». «Я очень рада, что Грета с вами в Северной Каролине, где вы сосредоточены на защите очень важного острова Чунга-Чанга. Самое главное сейчас — убедиться, что остров защищен, что вы даете ему всю поддержку, которую вы можете дать», — заявила конгрессвумен С

In [10]:
summurize(14)

TEXT:    Звезда сериала «Как я встретил вашу маму» Нил Патрик Харрис присоединился к актерскому составу «Матрицы 4», передает Variety. О том, кого именно в грядущем фильме Ланы Вачовски сыграет 46-летний американец, на данный момент не сообщается. Ранее в каст проекта вошли уже легендарные для франшизы Киану Ривз и Кэри-Энн Мосс (им предстоит вновь исполнить роли Нео и Тринити соответственно), а также Яхья Абдул-Матин II («Черное зеркало», «Рассказ служанки», «Аквамен», «Мы»), который, по информации СМИ, сыграет в картине одного из главных персонажей. Сценарием грядущего фантастического фильма — помимо Вачовски, создательницы оригинальной трилогии — занимаются писатель Александр Хемон и автор «Облачного атласа» Дэвид Митчелл. Продюсирует ленту Грант Хилл («Титаник»), давний знакомый Ланы по все той же «Матрице». Операторское кресло досталось Джону Толлу, двукратному лауреату премии «Оскар» («Храброе сердце», «Легенды осени»). Съемки ленты, как ожидается, начнутся 10 февраля 2020 года н