# Text Summarization. Homework

Всем привет! Это домашка по суммаризации текста.

На семинаре мы рассмотрели базовые модели для суммаризации текста. Попробуйте теперь улучшить два метода: TextRank и Extractive RNN. Задание достаточно большое и требует хорошую фантазию, тут можно эксперементировать во всю.

Для сдачи заданий надо получить определенное качество по test-у:

- 1 задание: 0.35 BLEU
- 2 задание: 0.35 BLEU

Если ваш подход пробивает это качество – задание считается пройденным. Плюсом будет описание того, почему вы решили использовать то или иное решение. 

Датасет: gazeta.ru

**P.S.** Возможно, в датасете находятся пустые данные. Проверьте эту гипотезу, и если надо, сделайте предобратоку датасета.


`Ноутбук создан на основе семинара Гусева Ильи на кафедре компьютерной лингвистики МФТИ.`

Загрузим датасет и необходимые библиотеки

In [None]:
!wget -q https://www.dropbox.com/s/43l702z5a5i2w8j/gazeta_train.txt
!wget -q https://www.dropbox.com/s/k2egt3sug0hb185/gazeta_val.txt
!wget -q https://www.dropbox.com/s/3gki5n5djs9w0v6/gazeta_test.txt

In [None]:
!pip install -Uq razdel allennlp torch fasttext OpenNMT-py networkx pymorphy2 nltk rouge==0.3.1 summa
!pip install -Uq transformers youtokentome
!pip install -U ntlk

In [None]:
import random
import pandas as pd

def read_gazeta_records(file_name, shuffle=True, sort_by_date=False):
    assert shuffle != sort_by_date
    records = []
    with open(file_name, "r") as r:
        for line in r:
            if line!="":
                records.append(eval(line)) # Simple hack

    records = pd.DataFrame(records)
    if sort_by_date:
        records = records.sort("date")
    if shuffle:
        records = records.sample(frac=1)
    return records

In [None]:
train_records = read_gazeta_records("gazeta_train.txt")
val_records = read_gazeta_records("gazeta_val.txt")
test_records = read_gazeta_records("gazeta_test.txt")

In [None]:
import torch
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

## 1 задание: TextRank (порог: 0.35 BLEU)

TextRank - unsupervised метод для составления кратких выжимок из текста. 
Описание метода:

1. Сплитим текст по предложениям
2. Считаем "похожесть" предложений между собой
3. Строим граф предложений с взвешенными ребрами
4. С помощью алгоритм PageRank получаем наиболее важные предложения, на основе которых делаем summary.

Функция похожести можно сделать и из нейросетевых(или около) моделек: FastText, ELMO и BERT. Выберете один метод, загрузите предобученную модель и с ее помощью для каждого предложениия сделайте sentence embedding. С помощью косинусной меры определяйте похожесть предложений.

Предобученные модели можно взять по [ссылке](http://docs.deeppavlov.ai/en/master/features/pretrained_vectors.html).

In [None]:
from transformers import AutoTokenizer, AutoModel
import numpy as np

In [None]:
tokenizer = AutoTokenizer.from_pretrained("DeepPavlov/rubert-base-cased-conversational")

model = AutoModel.from_pretrained("DeepPavlov/rubert-base-cased-conversational")
model.to(device)

In [None]:

texts = "Hi, i want my embedding."
tokenized=tokenizer.encode(texts, add_special_tokens=True)

model.eval()

ten=torch.Tensor(tokenized).unsqueeze(0).to(torch.int64).to(device)
print(ten)
attention_mask = torch.Tensor(np.ones(ten.shape[1])).unsqueeze(0).to(device)
print(attention_mask)
print(model(ten,attention_mask=attention_mask)[0].shape)

tensor([[  101, 20577,   128,   248, 22040, 15639, 10778, 78644, 14483,   132,
           102]], device='cuda:0')
tensor([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]], device='cuda:0')
torch.Size([1, 11, 768])


In [None]:
from nltk.translate.bleu_score import corpus_bleu
from rouge import Rouge

def calc_scores(references, predictions, metric="all"):
    print("Count:", len(predictions))
    print("Ref:", references[-1])
    print("Hyp:", predictions[-1])

    if metric in ("bleu", "all"):
        print("BLEU: ", corpus_bleu([[r] for r in references], predictions))
    if metric in ("rouge", "all"):
        rouge = Rouge()
        scores = rouge.get_scores(predictions, references, avg=True)
        print("ROUGE: ", scores)

In [None]:
import nltk
nltk.download('stopwords')

from itertools import combinations
from sklearn.metrics.pairwise import cosine_similarity
from nltk.corpus import stopwords


import string
import networkx as nx
import pymorphy2
import razdel


stopwords=stopwords.words('russian')


def clean_string(text):
    text=''.join([words for words in text if words not in string.punctuation])
    text=text.lower()
    text=' '.join([words for words in text.split() if words not in stopwords])
    return text


def your_super_words_similarity(words1, words2):
    # Your code
    return cosine_similarity(torch.reshape(words1,(1,words1.shape[0]*words1.shape[1])).cpu().detach(),torch.reshape(words2,(1,words2.shape[0]*words2.shape[1])).cpu().detach())
    

def gen_text_rank_summary(text, calc_similarity, summary_part=0.1, lower=True, morph=None):
    '''
    Составление summary с помощью TextRank
    '''

    
    # Разбиваем текст на предложения и отчищаем от пунктуации и местоимений
    sentences = [clean_string(sentence.text) for sentence in razdel.sentenize(text)]
    n_sentences = len(sentences)
    
    
    tokenized=[tokenizer.encode(sentence) for sentence in sentences]
    
    max_len = 0
    for i in tokenized:
        if len(i) > max_len:
            max_len = len(i)
    
    padded = torch.Tensor(np.array([i + [0]*(max_len-len(i)) for i in tokenized])).to(torch.int64)
    attention_mask = torch.Tensor(np.where(padded != 0, 1, 0)).to(device)
    padded=padded.to(device)

    embedded=model(padded,attention_mask=attention_mask)[0]
    # Для каждой пары предложений считаем близость
    pairs = combinations(range(n_sentences), 2)
    scores = [(i, j, calc_similarity(embedded[i], embedded[j])) for i, j in pairs]
    
    # Строим граф с рёбрами, равными близости между предложениями
    g = nx.Graph()
    g.add_weighted_edges_from(scores)

    # Считаем PageRank
    pr = nx.pagerank(g)
    result = [(i, pr[i], s) for i, s in enumerate(sentences) if i in pr]
    result.sort(key=lambda x: x[1], reverse=True)

    # Выбираем топ предложений
    n_summary_sentences = max(int(n_sentences * summary_part), 1)
    result = result[:n_summary_sentences]

    # Восстанавливаем оригинальный их порядок
    result.sort(key=lambda x: x[0])

    # Восстанавливаем текст выжимки
    predicted_summary = " ".join([sentence for i, proba, sentence in result])
    predicted_summary = predicted_summary.lower() if lower else predicted_summary
    return predicted_summary

def calc_text_rank_score(records, calc_similarity, summary_part=0.1, lower=True, nrows=1000, morph=None):
    references = []
    predictions = []

    for text, summary in records[['text', 'summary']].values[:nrows]:
        summary = summary if not lower else summary.lower()
        references.append(summary)

        predicted_summary = gen_text_rank_summary(text, calc_similarity, summary_part, lower, morph=morph)
        text = text if not lower else text.lower()
        predictions.append(predicted_summary)

    calc_scores(references, predictions)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
calc_text_rank_score(test_records, calc_similarity=your_super_words_similarity)

Count: 1000
Ref: президент россии владимир путин назначил нового посла россии в великобритании. им стал специалист по европейским делам александр келин, который имеет 40-летний опыт работы на дипломатической службе. в москву вскоре также прибудет визави келина, так как посол великобритании в россии лори бристоу также покидает свой пост. москва и лондон при этом все еще находятся в несколько конфронтационных отношениях из-за «дела скрипаля».
Hyp: келин начал дипломатическую карьеру 1979 году качестве сотрудника посольства ссср нидерландах назначения послом келин занимал пост главы департамента общеевропейского сотрудничества мид россии сообщил посол бристоу джонсон примет решение позже
BLEU:  0.3679220843028809
ROUGE:  {'rouge-1': {'f': 0.10783962585225354, 'p': 0.11855957284495604, 'r': 0.10506694022156235}, 'rouge-2': {'f': 0.024314317341197395, 'p': 0.02653454264652973, 'r': 0.023953523981536183}, 'rouge-l': {'f': 0.08941328829434171, 'p': 0.10393538594839234, 'r': 0.0918300248823522

## 2 Задание: Extractive RNN (порог: 0.35 BLEU)

Второй метод, который вам предлагается улучшить – поиск предложений для summary с помощью RNN. В рассмотренной методе мы использовали LSTM для генерации sentence embedding. Попробуйте использовать другие архитектуры: CNN, Transformer; или добавьте предобученные модели, как и в первом задании.

P.S. Тут предполагается, что придется изменять много кода в ячееках (например, поменять токенизацию). 

### Модель

Картинка для привлечения внимания:

![img](https://storage.googleapis.com/groundai-web-prod/media%2Fusers%2Fuser_14%2Fproject_398421%2Fimages%2Farchitecture.png)

Статья с оригинальным методом:
https://arxiv.org/pdf/1611.04230.pdf

Список вдохновения: 
- https://towardsdatascience.com/understanding-how-convolutional-neural-network-cnn-perform-text-classification-with-word-d2ee64b9dd0b Пример того, как можно применять CNN в текстовых задачах
- https://arxiv.org/pdf/1808.08745.pdf Очень крутой метод генерации summary без Transformers
- https://towardsdatascience.com/super-easy-way-to-get-sentence-embedding-using-fasttext-in-python-a70f34ac5b7c – простой метод генерации sentence embedding
- https://towardsdatascience.com/fse-2b1ffa791cf9 – Необычный метод генерации sentence embedding
- https://github.com/UKPLab/sentence-transformers – BERT предобученный для sentence embedding

P.S. Выше написанные ссылки нужны только для разогрева вашей фантазии, можно воспользоваться ими, а можно придумать свой.

Комментарий к заданию:
Если посмотреть на архитектуру ~~почти~~ SummaRuNNer, то в ней есть два главных элемента: первая часть, которая читает предложения и возвращает векторы на каждое предложение, и вторая, которая выбирает предложения для суммаризации. Вторую часть мы не трогаем, а первую меняем. На что меняем – как вы решите. Главное: она должна иметь хорошее качество и встроиться в текущую модель.

In [None]:
import copy
import random

def build_oracle_summary_greedy(text, gold_summary, calc_score, lower=True, max_sentences=30):
    '''
    Жадное построение oracle summary
    '''
    gold_summary = gold_summary.lower() if lower else gold_summary
    # Делим текст на предложения
    sentences = [sentence.text.lower() if lower else sentence.text for sentence in razdel.sentenize(text)][:max_sentences]
    n_sentences = len(sentences)
    oracle_summary_sentences = set()
    score = -1.0
    summaries = []
    for _ in range(min(n_sentences, 2)):
        for i in range(n_sentences):
            if i in oracle_summary_sentences:
                continue
            current_summary_sentences = copy.copy(oracle_summary_sentences)
            # Добавляем какое-то предложения к уже существующему summary
            current_summary_sentences.add(i)
            current_summary = " ".join([sentences[index] for index in sorted(list(current_summary_sentences))])
            # Считаем метрики
            current_score = calc_score(current_summary, gold_summary)
            summaries.append((current_score, current_summary_sentences))
        # Если получилось улучшить метрики с добавлением какого-либо предложения, то пробуем добавить ещё
        # Иначе на этом заканчиваем
        best_summary_score, best_summary_sentences = max(summaries)
        if best_summary_score <= score:
            break
        oracle_summary_sentences = best_summary_sentences
        score = best_summary_score
    oracle_summary = " ".join([sentences[index] for index in sorted(list(oracle_summary_sentences))])
    return oracle_summary, oracle_summary_sentences

def calc_single_score(pred_summary, gold_summary, rouge):
    return rouge.get_scores([pred_summary], [gold_summary], avg=True)['rouge-2']['f']

In [None]:
from tqdm import tqdm_notebook as tqdm

def calc_oracle_score(records, nrows=1000, lower=True):
    references = []
    predictions = []
    rouge = Rouge()
  
    for text, summary in tqdm(records[['text', 'summary']].values[:nrows]):
        summary = summary if not lower else summary.lower()
        references.append(summary)
        predicted_summary, _ = build_oracle_summary_greedy(text, summary, calc_score=lambda x, y: calc_single_score(x, y, rouge))
        predictions.append(predicted_summary)

    calc_scores(references, predictions)

calc_oracle_score(test_records)

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  


HBox(children=(FloatProgress(value=0.0, max=1000.0), HTML(value='')))


Count: 1000
Ref: президент россии владимир путин назначил нового посла россии в великобритании. им стал специалист по европейским делам александр келин, который имеет 40-летний опыт работы на дипломатической службе. в москву вскоре также прибудет визави келина, так как посол великобритании в россии лори бристоу также покидает свой пост. москва и лондон при этом все еще находятся в несколько конфронтационных отношениях из-за «дела скрипаля».
Hyp: пост посла россии в лондоне стал вакантным после отъезда занимавшего должность до лета этого года александра яковенко. стоит отметить, что после нового года будет объявлено и о назначении нового посла великобритании в россии, так как эту должность покидает лори бристоу.
BLEU:  0.4271604099078064
ROUGE:  {'rouge-1': {'f': 0.3548525560527689, 'p': 0.43471814644611295, 'r': 0.3179142321351281}, 'rouge-2': {'f': 0.20455759953866798, 'p': 0.2573780108295503, 'r': 0.1818419402499293}, 'rouge-l': {'f': 0.3042105501645308, 'p': 0.40453597860501955, 'r

## (!)
Если надо, поменяйте код загрузки токенизатора

In [None]:
import os

import youtokentome as yttm

def train_bpe(records, model_path, model_type="bpe", vocab_size=30000, lower=True):
    temp_file_name = "temp.txt"
    with open(temp_file_name, "w") as temp:
        for text, summary in records[['text', 'summary']].values:
            if lower:
                summary = summary.lower()
                text = text.lower()
            if not text or not summary:
                continue
            temp.write(text + "\n")
            temp.write(summary + "\n")
    yttm.BPE.train(data=temp_file_name, vocab_size=vocab_size, model=model_path)

train_bpe(train_records, "BPE_model.bin")

In [None]:
bpe_processor = yttm.BPE('BPE_model.bin')
bpe_processor.encode(["октябрь богат на изменения"], output_type=yttm.OutputType.SUBWORD)

[['▁октябрь', '▁богат', '▁на', '▁изменения']]

## (!)
Если надо, поменяйте код словаря

In [None]:
from collections import Counter
from typing import List, Tuple
import os

class Vocabulary:
    def __init__(self, bpe_processor):
        self.index2word = bpe_processor.vocab()
        self.word2index = {w: i for i, w in enumerate(self.index2word)}
        self.word2count = Counter()

    def get_pad(self):
        return self.word2index["<PAD>"]

    def get_sos(self):
        return self.word2index["<SOS>"]

    def get_eos(self):
        return self.word2index["<EOS>"]

    def get_unk(self):
        return self.word2index["<UNK>"]
    
    def has_word(self, word) -> bool:
        return word in self.word2index

    def get_index(self, word):
        if word in self.word2index:
            return self.word2index[word]
        return self.get_unk()

    def get_word(self, index):
        return self.index2word[index]

    def size(self):
        return len(self.index2word)

    def is_empty(self):
        empty_size = 4
        return self.size() <= empty_size

    def reset(self):
        self.word2count = Counter()
        self.index2word = ["<pad>", "<sos>", "<eos>", "<unk>"]
        self.word2index = {word: index for index, word in enumerate(self.index2word)}

In [None]:
vocabulary = Vocabulary(bpe_processor)
vocabulary.size()

30000

In [None]:
from rouge import Rouge
import razdel

def add_oracle_summary_to_records(records, max_sentences=30, lower=True, nrows=1000):
    rouge = Rouge()
    sentences_ = []
    oracle_sentences_ = []
    oracle_summary_ = []
    if nrows is not None:
        records = records.iloc[:nrows].copy()
    else:
        records = records.copy()

    for text, summary in tqdm(records[['text', 'summary']].values):
        summary = summary.lower() if lower else summary
        sentences = [sentence.text.lower() if lower else sentence.text for sentence in razdel.sentenize(text)][:max_sentences]
        oracle_summary, sentences_indicies = build_oracle_summary_greedy(text, summary, calc_score=lambda x, y: calc_single_score(x, y, rouge),
                                                                         lower=lower, max_sentences=max_sentences)
        sentences_ += [sentences]
        oracle_sentences_ += [list(sentences_indicies)]
        oracle_summary_ += [oracle_summary]
    records['sentences'] = sentences_
    records['oracle_sentences'] = oracle_sentences_
    records['oracle_summary'] = oracle_summary_
    return records

#ext_train_records = add_oracle_summary_to_records(train_records, nrows=30000)
#ext_val_records = add_oracle_summary_to_records(val_records, nrows=None)
#ext_test_records = add_oracle_summary_to_records(test_records, nrows=None)

Используй `pickle` для сохранения записей, чтобы потом не пересоздавать их потом. Если решаешь задание в колабе, можешь подключить свой гугл диск и сохранить данные в нём.

In [None]:
import pickle
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
#file1= open("/content/drive/MyDrive/DLS2sem/Summarization/train_records.bin", 'wb')
#pickle.dump(ext_train_records,file1)
#file2=open("/content/drive/MyDrive/DLS2sem/Summarization/val_records.bin", 'wb')
#pickle.dump(ext_val_records,file2)
#file3=open("/content/drive/MyDrive/DLS2sem/Summarization/test_records.bin", 'wb')
#pickle.dump(ext_test_records,file3)

In [None]:
file1= open("/content/drive/MyDrive/DLS2sem/Summarization/train_records.bin", 'rb')
ext_train_records=pickle.load(file1)
file2= open("/content/drive/MyDrive/DLS2sem/Summarization/val_records.bin", 'rb')
ext_val_records=pickle.load(file2)
file3= open("/content/drive/MyDrive/DLS2sem/Summarization/test_records.bin", 'rb')
ext_test_records=pickle.load(file3)

## (!)
Если надо, поменяйте код генератора датасета и батчевалки

In [None]:
import random
import math
import razdel
import torch
import numpy as np
from rouge import Rouge


from torch.utils import data


class ExtDataset(data.Dataset):
    def __init__(self, records, vocabulary, bpe_processor, lower=True, max_sentences=30, max_sentence_length=50, device=torch.device('cpu')):
        self.records = records
        self.num_samples = records.shape[0]
        self.bpe_processor = bpe_processor
        self.lower = lower
        self.rouge = Rouge()
        self.vocabulary = vocabulary
        self.max_sentences = max_sentences
        self.max_sentence_length = max_sentence_length
        self.device = device
        
    def __len__(self):
        return self.records.shape[0]

    def __getitem__(self, idx):
        cur_record = self.records.iloc[idx]
        inputs = list(map(lambda x: x[:self.max_sentence_length], self.bpe_processor.encode(cur_record['sentences'], output_type=yttm.OutputType.ID)))
        outputs = [int(i in cur_record['oracle_sentences']) for i in range(len(cur_record['sentences']))]
        return {'inputs': inputs, 'outputs': outputs}

In [None]:
# Это батчевалка
def collate_fn(records):
    max_length = max(len(sentence) for record in records for sentence in record['inputs'])
    max_sentences = max(len(record['outputs']) for record in records)

    new_inputs = torch.zeros((len(records), max_sentences, max_length))
    new_outputs = torch.zeros((len(records), max_sentences))
    for i, record in enumerate(records):
        for j, sentence in enumerate(record['inputs']):
            new_inputs[i, j, :len(sentence)] += np.array(sentence)
        new_outputs[i, :len(record['outputs'])] += np.array(record['outputs'])
    return {'features': new_inputs.type(torch.LongTensor), 'targets': new_outputs}

In [None]:
my_model = AutoModel.from_pretrained("DeepPavlov/rubert-base-cased")
my_tokenizer = AutoTokenizer.from_pretrained("DeepPavlov/rubert-base-cased")
my_model.to(device)
my_model.eval()

In [None]:
import numpy as np

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

from torch.nn.utils.rnn import pack_padded_sequence as pack
from torch.nn.utils.rnn import pad_packed_sequence as unpack


class YourSentenceEncoder(nn.Module):
    # Место для вашего Sentence Encoder-а. Разрешается использовать любые методы, которые вам нравятся.
    def __init__(self, input_size, embedding_dim, hidden_size, n_layers=3, dropout=0.3, bidirectional=True):
        super().__init__()
        #self.hidden_size=hidden
        #self.my_model=my_model
        num_directions = 2 if bidirectional else 1
        hidden_size = hidden_size // num_directions

        self.bidirectional = bidirectional
        self.embedding_layer = nn.Embedding(input_size, embedding_dim)
        self.rnn_layer = nn.LSTM(embedding_dim, hidden_size, n_layers, dropout=dropout, bidirectional=bidirectional, batch_first=True)
        self.dropout_layer = nn.Dropout(dropout)
        self.embedding_dim = embedding_dim
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.n_layers = n_layers
        self.dropout = dropout
       

    def forward(self, inputs, hidden=None):
        #embedded=self.my_model(inputs)[0]
        #sentences_embeddings = torch.mean(embedded, 1)
        embedded = self.embedding_layer(inputs)
        outputs, _ = self.rnn_layer(embedded, hidden)
        sentences_embeddings = torch.mean(outputs, 1)
        return sentences_embeddings

class SentenceTaggerRNN(nn.Module):
    def __init__(self,
                 vocabulary_size,
                 token_embedding_dim=256,
                 sentence_encoder_hidden_size=256,
                 hidden_size=256,
                 bidirectional=True,
                 sentence_encoder_n_layers=2,
                 sentence_encoder_dropout=0.3,
                 sentence_encoder_bidirectional=True,
                 n_layers=3,
                 dropout=0.3):
        super(SentenceTaggerRNN, self).__init__()

        num_directions = 2 if bidirectional else 1
        assert hidden_size % num_directions == 0
        hidden_size = hidden_size // num_directions

        self.hidden_size = hidden_size
        self.n_layers = n_layers
        self.dropout = dropout
        self.bidirectional = bidirectional

        # Your sentence encoder model
        self.sentence_encoder = YourSentenceEncoder(vocabulary_size, token_embedding_dim,
                                                   sentence_encoder_hidden_size, sentence_encoder_n_layers, 
                                                   sentence_encoder_dropout, sentence_encoder_bidirectional)
        
        self.rnn_layer = nn.LSTM(
            sentence_encoder_hidden_size, 
            hidden_size, 
            n_layers, 
            dropout=dropout,
            bidirectional=bidirectional, 
            batch_first=True)
        self.dropout_layer = nn.Dropout(dropout)
        self.content_linear_layer = nn.Linear(hidden_size * 2, 1)
        self.document_linear_layer = nn.Linear(hidden_size * 2, hidden_size * 2)
        self.salience_linear_layer = nn.Linear(hidden_size * 2, hidden_size * 2)
        self.tanh_layer = nn.Tanh()

    def forward(self, inputs, hidden=None):
        
        batch_size = inputs.size(0)
        sentences_count = inputs.size(1)
        
        tokens_count = inputs.size(2)
        inputs = inputs.reshape(-1, tokens_count)
        embedded_sentences = self.sentence_encoder(inputs)
        embedded_sentences = embedded_sentences.reshape(batch_size, sentences_count, -1)
        outputs, _ = self.rnn_layer(embedded_sentences, hidden)
        outputs = self.dropout_layer(outputs)
        document_embedding = self.tanh_layer(self.document_linear_layer(torch.mean(outputs, 1)))
        content = self.content_linear_layer(outputs).squeeze(2)
        salience = torch.bmm(outputs, self.salience_linear_layer(document_embedding).unsqueeze(2)).squeeze(2)
        return content + salience

model = SentenceTaggerRNN(vocabulary.size())

### Обучение

In [None]:
device = torch.device('cuda')

loaders = {
    'train': data.DataLoader(
        ExtDataset(
            ext_train_records, 
            vocabulary, 
            bpe_processor=bpe_processor
        ), 
        batch_size=4, 
        collate_fn=collate_fn
    ),
    'valid': data.DataLoader(
        ExtDataset(
            ext_val_records, 
            vocabulary, 
            bpe_processor=bpe_processor
        ), 
        batch_size=4, 
        collate_fn=collate_fn
    ),
    'test': data.DataLoader(
        ExtDataset(
            ext_test_records, 
            vocabulary, 
            bpe_processor=bpe_processor
        ), 
        batch_size=4, 
        collate_fn=collate_fn
    ),
}

lr = 1e-4
num_epochs = 1

optimizer  = torch.optim.AdamW(model.parameters(), lr=lr)
criterion = nn.BCEWithLogitsLoss()
# Maybe adding scheduler?

In [None]:
from tqdm.notebook import trange, tqdm


def train():
    model.to(device)
    pbar_loader = trange(len(loaders["train"]) + len(loaders["valid"]), desc=f"Train Loss: {0}, Valid Loss: {0}")
    for e in trange(num_epochs, desc="Epoch"):
        train_loss = 0
        valid_loss = 0
        train_it = 0
        valid_it = 0
        
        model.train()
        for batch in loaders["train"]:
            features = batch["features"].to(device)
            targets = batch["targets"].to(device)
            
            logits = model(features)
            
            loss = criterion(logits, targets)
            train_loss += loss.item()
            train_it += 1
            
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            # Maybe adding scheduler?
            
            pbar_loader.update()
            pbar_loader.set_description(
                f"Train Loss: {train_loss / train_it:.3}, Valid Loss: {0}"
            )
            
        model.eval()
        with torch.no_grad():
            for batch in loaders["valid"]:
                features = batch["features"].to(device)
                targets = batch["targets"].to(device)

                logits = model(features)

                loss = criterion(logits, targets)
                valid_loss += loss.item()
                valid_it += 1
                
                pbar_loader.update()
                pbar_loader.set_description(
                    f"Train Loss: {train_loss / train_it:.3},"
                    f" Valid Loss: {valid_loss / valid_it:.3}"
                )
        print(
            f"Epoch {e}; Train Loss: {train_loss / train_it:.3},"
            f" Valid Loss: {valid_loss / valid_it:.3}"
        )
        pbar_loader.reset()

In [None]:
train()

HBox(children=(FloatProgress(value=0.0, description='Train Loss: 0, Valid Loss: 0', max=8817.0, style=Progress…

HBox(children=(FloatProgress(value=0.0, description='Epoch', max=1.0, style=ProgressStyle(description_width='i…

Epoch 0; Train Loss: 0.188, Valid Loss: 0.177



In [None]:
device = torch.device("cuda")

top_k = 3
references = []
predictions = []

def postprocess(ref, hyp, is_multiple_ref=False, detokenize_after=False, tokenize_after=True):
    if is_multiple_ref:
        reference_sents = ref.split(" s_s ")
        decoded_sents = hyp.split("s_s")
        hyp = [w.replace("<", "&lt;").replace(">", "&gt;").strip() for w in decoded_sents]
        ref = [w.replace("<", "&lt;").replace(">", "&gt;").strip() for w in reference_sents]
        hyp = " ".join(hyp)
        ref = " ".join(ref)
    ref = ref.strip()
    hyp = hyp.strip()
    if detokenize_after:
        hyp = punct_detokenize(hyp)
        ref = punct_detokenize(ref)
    if tokenize_after:
        hyp = hyp.replace("@@UNKNOWN@@", "<unk>")
        hyp = " ".join([token.text for token in razdel.tokenize(hyp)])
        ref = " ".join([token.text for token in razdel.tokenize(ref)])
    return ref, hyp

model.eval()
for num, batch in tqdm(enumerate(loaders["test"]), total = len(loaders["test"]),leave=False):

    logits = model(batch["features"].to(device))
    in_summary = torch.argsort(logits, dim=1)[:, -top_k:]
    for i in range(len(batch['targets'])):

        summary = ext_test_records.iloc[i]['summary']
        summary = summary.lower()
        predicted_summary = ' '.join([ext_test_records.iloc[i]['sentences'][idx] for idx in in_summary[i].sort()[0] if idx < len(ext_test_records.iloc[i]['sentences'])])
        summary, predicted_summary = postprocess(summary, predicted_summary)

        references.append(summary)
        predictions.append(predicted_summary)

calc_scores(references, predictions)

HBox(children=(FloatProgress(value=0.0, max=1443.0), HTML(value='')))

Count: 5770
Ref: 38-летний сергей вотинцев арестован по подозрению в серийных изнасилованиях . по данным ск , он знакомился с жертвами в соцсетях , после чего приглашал их в гостиницу « измайлово » — и там насиловал и грабил . одна из пострадавших , которой удалось сбежать , рассказала , что мужчина пугал девушек и шантажировал , представляясь сотрудником полиции .
Hyp: в москве расследуется дело 38-летнего сергея вотинцева , которого подозревают в серии изнасилований , совершенных в гостинице « измайлово » . как сообщает столичное управление следственного комитета , в его деле сейчас два эпизода . « следственными органами главного следственного управления следственного комитета российской федерации по городу москве возбуждено уголовное дело в отношении 38-летнего мужчины , — говорится в заявлении .
BLEU:  0.45151834032852867
ROUGE:  {'rouge-1': {'f': 0.2800573877201175, 'p': 0.2975514423145434, 'r': 0.2800350436017982}, 'rouge-2': {'f': 0.12348848845761633, 'p': 0.14225508964754116, '