# Summarization

In [1]:
# !apt install -y wget

In [2]:
# !wget https://github.com/RossiyaSegodnya/ria_news_dataset/raw/master/ria.json.gz

In [3]:
# !apt install gzip --upgrade

In [4]:
# !gunzip ria.json.gz

In [5]:
# !pip install pandas

## Предобработка данных

In [6]:
import json
import re
import pandas as pd

In [7]:
def cleanhtml(raw_html):
    cleanr = re.compile('<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});')
    cleantext = re.sub(cleanr, '', raw_html)
    return cleantext

In [8]:
def removenewline(text):
    cleann = re.compile(r'\n')
    cleantext = re.sub(cleann, '', text)
    return cleantext

In [9]:
data = [json.loads(line) for line in open('ria.json', 'r', encoding='utf-8')]

In [10]:
data[:2]

[{'text': '<p><strong></strong></p>\n<p><strong>москва, 31 янв - риа новости.</strong> большая часть из 33 детей, которых граждане сша пытались вывезти из гаити в организованный в доминиканской республике приют, не являются сиротами, сообщает в воскресенье <a href="http://www.afp.com" target="_blank">агентство франс пресс</a> со ссылкой на заявление представителя международной организации "детские деревни sos" (sos children\'s village), оказывающей помощь детям, оставшимся без родителей</p>\n<p>как заявила агентству патрисия варгас (patricia vargas), курирующая программы "детских деревень sos" в центральной америке, мексике и на карибах, поговорив с детьми она выяснила, что родители многих из них живы. некоторые дети смогли назвать свои домашние адреса и номера телефонов, что дает возможность связаться с их родителями.</p>\n<p>в это воскресенье <a href="http://rian.ru/society/20100131/207037914.html" target="_blank">гаитянская полиция задержала десятерых граждан сша</a>, подозреваемых 

In [11]:
data = [{'text': cleanhtml(line['text']), 'title': cleanhtml(line['title'])} for line in data]

In [12]:
data[:2]

[{'text': '\nмосква, 31 янв - риа новости. большая часть из 33 детей, которых граждане сша пытались вывезти из гаити в организованный в доминиканской республике приют, не являются сиротами, сообщает в воскресенье агентство франс пресс со ссылкой на заявление представителя международной организации "детские деревни sos" (sos children\'s village), оказывающей помощь детям, оставшимся без родителей\nкак заявила агентству патрисия варгас (patricia vargas), курирующая программы "детских деревень sos" в центральной америке, мексике и на карибах, поговорив с детьми она выяснила, что родители многих из них живы. некоторые дети смогли назвать свои домашние адреса и номера телефонов, что дает возможность связаться с их родителями.\nв это воскресенье гаитянская полиция задержала десятерых граждан сша, подозреваемых в попытке без разрешения вывезти более 30 детей в доминиканскую республику.\nпредставитель баптистской церкви в городе меридиан американского штата айдахо шон лэнкфорд (sean lankford) 

## BPE tokenization with YouTokenToMe

In [13]:
!pip install youtokentome



In [14]:
import youtokentome as yttm
from tqdm import tqdm
import math

In [15]:
# with open('for_bpe.txt', 'w', encoding='utf-8') as f:
#     for line in data:
#         f.write(line['text'] + '\n' + line['title'] + '\n')

In [16]:
# параметры
vocab_size = 30_000
model_path = 'pretrained_bpe_lm.model'

In [17]:
# %%time
# yttm.BPE.train(data='for_bpe.txt', vocab_size=vocab_size, model=model_path)

In [18]:
tokenizer = yttm.BPE(model=model_path)

In [19]:
total_texts = len(data)
total_texts

1003869

In [20]:
df = pd.DataFrame.from_dict(data)

In [21]:
tokenized_texts = []
tokenized_titles = []

batch_size = 256

for i_batch in tqdm(range(math.ceil(total_texts / batch_size))):
    
    tokenized_texts.extend(tokenizer.encode(
        list(df.text[i_batch*batch_size:(i_batch+1)*batch_size]), bos=True, eos=True))
    
    tokenized_titles.extend(tokenizer.encode(
        list(df.title[i_batch*batch_size:(i_batch+1)*batch_size]), bos=True, eos=True))

100%|██████████| 3922/3922 [01:58<00:00, 33.22it/s]


In [22]:
x = zip(tokenized_texts, tokenized_titles)

In [23]:
data = [{'text': line[0], 'title': line[1]} for line in x]

In [24]:
data[:2]

[{'text': [2,
   885,
   2973,
   2996,
   577,
   676,
   792,
   5863,
   2074,
   614,
   6182,
   6043,
   1755,
   7806,
   1127,
   10156,
   12065,
   537,
   614,
   20083,
   496,
   26487,
   496,
   23885,
   11159,
   7421,
   578,
   2139,
   554,
   3849,
   23096,
   10852,
   1387,
   496,
   3554,
   2221,
   7583,
   4707,
   549,
   5402,
   518,
   4404,
   5394,
   3943,
   2190,
   12908,
   879,
   18474,
   1340,
   3183,
   32,
   9603,
   3183,
   7916,
   20926,
   55,
   1697,
   9829,
   3947,
   9703,
   15906,
   988,
   4466,
   2367,
   3577,
   1162,
   17846,
   6737,
   2563,
   540,
   962,
   11862,
   760,
   5765,
   4774,
   4345,
   6128,
   4284,
   646,
   11,
   13992,
   3691,
   28343,
   3080,
   3947,
   1554,
   69,
   3213,
   988,
   6998,
   28952,
   2370,
   12908,
   750,
   5271,
   922,
   1340,
   3183,
   32,
   496,
   7151,
   5732,
   2145,
   6410,
   693,
   507,
   518,
   19881,
   724,
   993,
   510,
   16479,
   13,


In [25]:
!nvidia-smi

Tue Dec 22 18:17:59 2020       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 450.57       Driver Version: 450.57       CUDA Version: 11.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  GeForce GTX 108...  On   | 00000000:03:00.0 Off |                  N/A |
|  0%   25C    P8    18W / 250W |      0MiB / 11177MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+---------------------------------------------------------------------------

In [26]:
!pip install matplotlib



In [27]:
import numpy as np
import os

import random
import torch
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader

from tqdm import tqdm

from matplotlib import pyplot as plt

In [28]:
text_lengths = np.array([len(x) for x in tokenized_texts])
title_lengths = np.array([len(x) for x in tokenized_titles])

In [29]:
np.percentile(text_lengths, q=95)

910.0

In [30]:
np.percentile(title_lengths, q=95)

19.0

In [31]:
random.shuffle(data)

validation_start_index = int(len(data) * 0.05)

In [32]:
validation_start_index

50193

In [33]:
batch_size = 64

max_len_texts = 880
max_len_titles = 20

pad_index = 0
bos_index = 2
eos_index = 3

In [156]:
class LanguageModelData(torch.utils.data.Dataset):
    
    def __init__(self, data, max_len_texts, max_len_titles, pad_index, bos_index, eos_index):
        
        self.data = data
        
        self.max_len_texts = max_len_texts
        self.max_len_titles = max_len_titles
        
        self.pad_index = pad_index
        self.bos_index = bos_index
        self.eos_index = eos_index
        
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, index):
        
        x = self.data[index]['text'][:self.max_len_texts]
        y = self.data[index]['title'][:self.max_len_titles]
        
        y_original = y[:]
        y_to_predict = y[1:] + [self.eos_index]
        
        x_pads = [self.pad_index] * (self.max_len_texts - len(x))
        y_pads = [self.pad_index] * (self.max_len_titles - len(y))
        
        x = torch.tensor(x + x_pads).long()
        y_original = torch.tensor(y_original + y_pads).long()
        y_to_predict = torch.tensor(y_to_predict + y_pads).long()
        
        return x, y_original, y_to_predict

In [157]:
data[:2]

[{'text': [2,
   21462,
   17202,
   1542,
   1291,
   577,
   676,
   1185,
   1899,
   1003,
   3346,
   29,
   1237,
   21462,
   502,
   8558,
   496,
   3116,
   2349,
   530,
   3871,
   2508,
   16036,
   7706,
   17163,
   518,
   5355,
   3280,
   12321,
   2098,
   25,
   6667,
   2227,
   14961,
   598,
   5778,
   6015,
   2538,
   1887,
   510,
   1449,
   6360,
   16270,
   7797,
   1128,
   12871,
   506,
   21465,
   3439,
   518,
   6223,
   8641,
   4391,
   507,
   1389,
   502,
   1867,
   27225,
   560,
   6338,
   1338,
   17163,
   518,
   5670,
   16116,
   12321,
   15750,
   1608,
   1197,
   518,
   6591,
   2592,
   590,
   26401,
   30,
   555,
   5103,
   12965,
   2121,
   580,
   3603,
   3406,
   1227,
   9532,
   497,
   26422,
   3949,
   6104,
   9550,
   2121,
   8889,
   1128,
   3654,
   27472,
   15063,
   1896,
   1755,
   577,
   6616,
   2423,
   12278,
   496,
   3620,
   497,
   5938,
   12026,
   590,
   3132,
   4268,
   1119,
   1128,
   

In [158]:
random.shuffle(data)

In [159]:
data[:2]

[{'text': [2,
   28138,
   1347,
   1233,
   577,
   676,
   792,
   21594,
   5335,
   13,
   5939,
   1257,
   9461,
   4711,
   18096,
   614,
   12998,
   496,
   11019,
   1163,
   5510,
   14776,
   646,
   798,
   518,
   8727,
   2145,
   1387,
   8570,
   2148,
   3224,
   2081,
   8,
   507,
   19663,
   12342,
   4633,
   26171,
   542,
   3098,
   22053,
   2988,
   1245,
   671,
   496,
   1003,
   10804,
   16588,
   4249,
   5335,
   13,
   662,
   2148,
   3224,
   506,
   718,
   1259,
   19392,
   496,
   3110,
   5807,
   576,
   1124,
   25987,
   4464,
   19749,
   496,
   4021,
   518,
   2023,
   624,
   577,
   1275,
   496,
   2991,
   28587,
   14499,
   16588,
   2153,
   7809,
   29,
   518,
   15227,
   1723,
   1692,
   1580,
   496,
   2330,
   5335,
   13,
   681,
   3799,
   1142,
   587,
   3266,
   11784,
   1467,
   29,
   510,
   10559,
   13460,
   5335,
   13,
   662,
   3047,
   499,
   1204,
   721,
   12244,
   980,
   1744,
   10219,
   798,
 

In [160]:
# train_dataset= LanguageModelData(data=data[:-validation_start_index],
#                                         max_len_texts=max_len_texts,
#                                         max_len_titles=max_len_titles,
#                                         pad_index=pad_index,
#                                         bos_index=bos_index,
#                                         eos_index=eos_index)

# validation_dataset = LanguageModelData(data=data[-validation_start_index:],
#                                        max_len_texts=max_len_texts,
#                                        max_len_titles=max_len_titles,
#                                        pad_index=pad_index,
#                                        bos_index=bos_index,
#                                        eos_index=eos_index)

# len(train_dataset), len(validation_dataset)

In [161]:
def dataset(data, validation_start_index=validation_start_index, max_len_texts=max_len_texts,
            max_len_titles=max_len_titles, pad_index=pad_index, bos_index=bos_index, eos_index=eos_index):
    
    train_dataset= LanguageModelData(data=data[:-validation_start_index],
                                        max_len_texts=max_len_texts,
                                        max_len_titles=max_len_titles,
                                        pad_index=pad_index,
                                        bos_index=bos_index,
                                        eos_index=eos_index)

    validation_dataset = LanguageModelData(data=data[-validation_start_index:],
                                       max_len_texts=max_len_texts,
                                       max_len_titles=max_len_titles,
                                       pad_index=pad_index,
                                       bos_index=bos_index,
                                       eos_index=eos_index)
    
    train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size)
    validation_loader = torch.utils.data.DataLoader(validation_dataset, batch_size=batch_size)
    
    return train_loader, validation_loader

In [162]:
train_loader, validation_loader = dataset(data)

In [163]:
# train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size)
# validation_loader = torch.utils.data.DataLoader(validation_dataset, batch_size=batch_size)

In [164]:
for x, y_original, y_to_predict in train_loader:
    break

In [165]:
x.shape

torch.Size([64, 880])

In [166]:
class SpatialDropout(torch.nn.Dropout2d):
    
    def __init__(self, p=0.5):
        super().__init__()
        self.p = p
    
    def forward(self, x):
        x = x.unsqueeze(2)    # (N, T, 1, K)
        x = x.permute(0, 3, 2, 1)  # (N, K, 1, T)
        x = super(SpatialDropout, self).forward(x)  # (N, K, 1, T)
        x = x.permute(0, 3, 2, 1)  # (N, T, 1, K)
        x = x.squeeze(2)  # (N, T, K)
        return x

In [167]:
class EncoderRNN(torch.nn.Module):
    def __init__(self, vocab_size=vocab_size, embedding_dim=128, model_dim=128, num_layers=1,
                 padding_idx=pad_index, dropout=0.35, batch_size=batch_size):
        
        super(EncoderRNN, self).__init__()
        
        self.model_dim = model_dim
        self.batch_size = batch_size
        self.num_layers = num_layers
        self.embedding_dim = embedding_dim
        
        self.embedding_layer = torch.nn.Embedding(num_embeddings=vocab_size, 
                                                  embedding_dim=embedding_dim,
                                                  padding_idx=padding_idx)
        
        self.linear = torch.nn.Linear(embedding_dim, model_dim)
        self.embedding_dropout = SpatialDropout(p=dropout)
        self.lstm = torch.nn.LSTM(input_size=embedding_dim, 
                                  hidden_size=model_dim,
                                  batch_first=True)

    def forward(self, input, mem):
        embedding = self.embedding_layer(input)
        output = self.embedding_dropout(embedding)
        key = self.linear(output)
        value = self.linear(output)
        output, enc_mem = self.lstm(output, mem)
        return output, key, value, enc_mem

    def initHidden(self, batch_size):
        return torch.zeros(self.num_layers, batch_size, self.embedding_dim, device=device)

In [168]:
MAX_LENGTH = 880

In [169]:
class AttnDecoderRNN(torch.nn.Module):
    def __init__(self, vocab_size=vocab_size, embedding_dim=128, model_dim=128, num_layers=1,
                 padding_idx=pad_index, dropout=0.1, max_length=MAX_LENGTH, weight_tying=True):
        super(AttnDecoderRNN, self).__init__()
        
        self.model_dim = model_dim
        self.batch_size = batch_size
        self.num_layers = num_layers
        self.embedding_dim = embedding_dim
        
        self.embedding_layer = torch.nn.Embedding(num_embeddings=vocab_size, 
                                                  embedding_dim=embedding_dim,
                                                  padding_idx=padding_idx)
        self.query_layer = torch.nn.Linear(in_features=embedding_dim,
                                           out_features=model_dim,
                                           bias=False)
        self.attn_combine = torch.nn.Linear(in_features=embedding_dim*2,
                                            out_features=model_dim)
        self.embedding_dropout = SpatialDropout(p=dropout)
        
        self.lstm_for_output = torch.nn.LSTM(input_size=embedding_dim, # dev'essere la dimensione degli 2*embedding 
                                        hidden_size=model_dim,
                                        batch_first=True)
        
        self.linear_for_last_output = torch.nn.Linear(in_features=embedding_dim, # emb_dim
                                                 out_features=model_dim)
        
        self.out = torch.nn.Linear(in_features=model_dim, 
                                   out_features=vocab_size,
                                   bias=False)
        
        if weight_tying and embedding_dim == model_dim:
            self.out.weight = self.embedding_layer.weight
            
    def forward(self, input, key, value, enc_mem):
        embedded = self.embedding_layer(input)
        embedded = self.embedding_dropout(embedded)
        query = self.query_layer(embedded)
        matmul = torch.matmul(key, query.transpose(1, 2))
        softmax = F.softmax(matmul, dim=1)
        attn_appl = torch.matmul(value.transpose(1, 2), softmax)
#         print('attn_appl ', attn_appl.shape, 'embedded ', embedded.shape)
        concat = torch.cat((attn_appl, embedded.transpose(1, 2)), dim=1)
        concat = concat.transpose(1, 2)
        output = self.attn_combine(concat)
        output = F.relu(output)
#         print('output ', output.shape, 'enc_mem ', enc_mem[0].shape)
        output, _  = self.lstm_for_output(output, enc_mem)
        output = self.linear_for_last_output(output)
        output = F.log_softmax(output, dim=1)
        output = self.out(output)
        
        return output

    def initHidden(self, batch_size):
        return torch.zeros(self.num_layers, batch_size, self.embedding_dim, device=device)

In [170]:
!pip install nltk



In [171]:
import nltk

def bleu(hypotheses, references):
    scores = []
    hypotheses = [hyp.split('<EOS>')[0] for hyp in hypotheses]
    references = [ref.split('<EOS>')[0] for ref in references]
    
    for (hyp, ref) in zip(hypotheses, references):
        BLEUscore = nltk.translate.bleu_score.sentence_bleu([ref], hyp, weights=(0.33, 0.33, 0.33, 0))
        scores.append(BLEUscore)
        
    return np.array(scores)

In [172]:
def train(loader, encoder, decoder, encoder_optimizer, decoder_optimizer, criterion, max_length=MAX_LENGTH, 
         last_n_losses=500):
    
    losses = []
    bleus = []

    progress_bar = tqdm(total=len(loader), desc='Train')

    encoder.train()
    decoder.train()

    for x, y_original, y_to_predict in loader:

        x = x.to(device)
        y_original = y_original.to(device)
        y_to_predict = y_to_predict.to(device)
        
        current_batch_size = x.size(0)
        
        zero_mem = (encoder.initHidden(batch_size=current_batch_size),
                    encoder.initHidden(batch_size=current_batch_size))
        
        encoder_optimizer.zero_grad()
        decoder_optimizer.zero_grad()

        enc_output, key, value, enc_mem = encoder(x, zero_mem)
        
        dec_output = decoder(y_original, key, value, enc_mem)
        
        loss = criterion(dec_output.view(-1, dec_output.size(-1)), y_to_predict.view(-1))
        
        hypotheses = tokenizer.decode(dec_output.argmax(dim=-1).detach().cpu().numpy().tolist())
        references = tokenizer.decode(y_to_predict.detach().cpu().numpy().tolist())
        
        bleu_score = bleu(hypotheses, references)
        
        if len(bleu_score) != batch_size:
            print('ok')
            bleu_score = np.pad(bleu_score, (int(batch_size/2), int((batch_size/2)-len(bleu_score))), 'mean')
        
        encoder_optimizer.zero_grad()
        decoder_optimizer.zero_grad()
        
        loss.backward()
        encoder_optimizer.step()
        decoder_optimizer.step()
        
        losses.append(loss.item())
        bleus.append(bleu_score)
        
        progress_bar.set_postfix(loss=np.mean(losses[-last_n_losses:]),
                                 perplexity=np.exp(np.mean(losses[-last_n_losses:])),
                                 bleu=np.mean(bleus[-last_n_losses:]))
        
        progress_bar.update()

    progress_bar.close()
        
    return losses, bleus

In [173]:
embedding_dim = 128
model_dim = 128
num_layers = 1
dropout = 0.1

In [174]:
encoder = EncoderRNN(vocab_size=vocab_size, embedding_dim=embedding_dim,
                      model_dim=model_dim, num_layers=num_layers,
                      dropout=dropout, padding_idx=pad_index)

In [175]:
decoder = AttnDecoderRNN(vocab_size=vocab_size, embedding_dim=embedding_dim,
                      model_dim=model_dim, num_layers=num_layers,
                      dropout=dropout, padding_idx=pad_index)

In [176]:
import torch
assert torch.cuda.is_available(), 'у вас не находится гпу'

device = torch.device('cuda')

In [177]:
encoder.to(device)
decoder.to(device)

AttnDecoderRNN(
  (embedding_layer): Embedding(30000, 128, padding_idx=0)
  (query_layer): Linear(in_features=128, out_features=128, bias=False)
  (attn_combine): Linear(in_features=256, out_features=128, bias=True)
  (embedding_dropout): SpatialDropout(p=0.1, inplace=False)
  (lstm_for_output): LSTM(128, 128, batch_first=True)
  (linear_for_last_output): Linear(in_features=128, out_features=128, bias=True)
  (out): Linear(in_features=128, out_features=30000, bias=False)
)

In [178]:
criterion = torch.nn.CrossEntropyLoss(ignore_index=pad_index)
encoder_optimizer = torch.optim.Adam(params=encoder.parameters())
decoder_optimizer = torch.optim.Adam(params=decoder.parameters())

In [179]:
# losses, bleus = train(validation_loader, encoder, decoder, encoder_optimizer,
#                       decoder_optimizer, criterion, max_length=MAX_LENGTH)

In [180]:
# plt.figure(figsize=(14, 14))
# plt.xlabel('Номер батча')
# plt.ylabel('Значение функции потерь')
# plt.title('Процесс обучения')
# plt.plot(losses)

In [181]:
def evaluate(loader, encoder, decoder, encoder_optimizer, decoder_optimizer, criterion, max_length=MAX_LENGTH, 
         last_n_losses=500):
    
    losses = []
    bleus = []

    progress_bar = tqdm(total=len(loader), desc='Evaluate')

    encoder.eval()
    decoder.eval()

    for x, y_original, y_to_predict in loader:

        x = x.to(device)
        y_original = y_original.to(device)
        y_to_predict = y_to_predict.to(device)
        
        current_batch_size = x.size(0)
        
        zero_mem = (encoder.initHidden(batch_size=current_batch_size),
                    encoder.initHidden(batch_size=current_batch_size))
        
        with torch.no_grad():
            
            enc_output, key, value, enc_mem = encoder(x, zero_mem)
        
            dec_output = decoder(y_original, key, value, enc_mem)

        loss = criterion(dec_output.view(-1, dec_output.size(-1)), y_to_predict.view(-1))
        
        hypotheses = tokenizer.decode(dec_output.argmax(dim=-1).detach().cpu().numpy().tolist())
        references = tokenizer.decode(y_to_predict.detach().cpu().numpy().tolist())
        
        bleu_score = bleu(hypotheses, references)
        
        if len(bleu_score) != batch_size:
            print('ok')
            bleu_score = np.pad(bleu_score, (int(batch_size/2), int((batch_size/2)-len(bleu_score))), 'mean')
                
        losses.append(loss.item())
        bleus.append(bleu_score)

        progress_bar.set_postfix(loss=np.mean(losses[-last_n_losses:]),
                                 perplexity=np.exp(np.mean(losses[-last_n_losses:])),
                                 bleu=np.mean(bleus[-last_n_losses:]))

        progress_bar.update()

    progress_bar.close()
    
    return losses, bleus

In [182]:
# val_losses, val_bleus = evaluate(validation_loader, encoder, decoder, encoder_optimizer,
#                      decoder_optimizer, criterion, max_length=MAX_LENGTH)

In [183]:
# plt.figure(figsize=(14, 14))
# plt.xlabel('Номер батча')
# plt.ylabel('Значение функции потерь')
# plt.title('Процесс обучения')
# plt.plot(val_losses[1])

In [184]:
epochs = 20

train_losses = []
validation_losses = []
train_bleus = []

train_perplexities = []
validation_perplexities = []
validation_bleus = []

best_validation_loss = 1e+6

for n_epoch in range(1, epochs + 1):
    
    random.shuffle(data)
    train_loader, validation_loader = dataset(data)
    
    epoch_train_losses, epoch_train_bleus = train(train_loader, encoder, decoder, encoder_optimizer,
                                                  decoder_optimizer, criterion, max_length=MAX_LENGTH)
    
    epoch_validation_losses, epoch_validation_bleus = evaluate(validation_loader, encoder, decoder,
                                                               encoder_optimizer, decoder_optimizer,
                                                               criterion, max_length=MAX_LENGTH)
    
    mean_train_loss = np.mean(epoch_train_losses)
    mean_validation_loss = np.mean(epoch_validation_losses)
    
    mean_train_bleus = np.mean(epoch_train_bleus)
    mean_validation_bleus = np.mean(epoch_validation_bleus)
    
    train_losses.append(epoch_train_losses)
    train_perplexities.append(np.exp(mean_train_loss))
    train_bleus.append(epoch_train_bleus)
    
    validation_losses.append(epoch_validation_losses)
    validation_perplexities.append(np.exp(mean_validation_loss))
    validation_bleus.append(epoch_validation_bleus)
    
    message = f'Epoch: {n_epoch}\n'
    message += f'Train loss - {mean_train_loss:.4f} \nTrain perplexity - {train_perplexities[-1]:.3f}\n'
    message += f'Train BLEU - {mean_train_bleus:.3f}\n'
    message += f'Validation loss - {mean_validation_loss:.4f} \nValidation perplexity - {validation_perplexities[-1]:.3f}\n'
    message += f'Validation BLEU - {mean_validation_bleus:.3f} '
    
    print(message)
    
    if mean_validation_loss < best_validation_loss:
        
        best_validation_loss = mean_validation_loss
        
        torch.save(encoder.state_dict(), 'best_encoder_state_dict.pth')
        torch.save(encoder_optimizer.state_dict(), 'best_encoder_optimizer_state_dict.pth')
        torch.save(decoder.state_dict(), 'best_decoder_state_dict.pth')
        torch.save(decoder_optimizer.state_dict(), 'best_decoder_optimizer_state_dict.pth')
        
    else:
        break
        
    torch.save(encoder.state_dict(), 'best_encoder_state_dict.pth')
    torch.save(encoder_optimizer.state_dict(), 'best_encoder_optimizer_state_dict.pth')
    torch.save(decoder.state_dict(), 'best_decoder_state_dict.pth')
    torch.save(decoder_optimizer.state_dict(), 'best_decoder_optimizer_state_dict.pth')

    with open(f'info_{n_epoch}.json', 'w') as file_object:

        info = {
            'message': message,
            'train_losses': train_losses,
            'validation_losses': validation_losses,
            'train_perplexities': train_perplexities,
            'validation_perplexities': validation_perplexities,
            'train_bleu': mean_train_bleus,
            'validation_bleu': mean_validation_bleus
        }

        file_object.write(json.dumps(info, indent=2))

Train: 100%|██████████| 14902/14902 [47:29<00:00,  5.23it/s, bleu=0.802, loss=0.98, perplexity=2.66]   
Evaluate:   0%|          | 1/785 [00:00<01:24,  9.25it/s, bleu=0.801, loss=0.891, perplexity=2.44]

ok


Evaluate: 100%|██████████| 785/785 [01:17<00:00, 10.09it/s, bleu=0.837, loss=0.804, perplexity=2.23]


ok
Epoch: 1
Train loss - 3.9632 
Train perplexity - 52.626
Train BLEU - 0.581
Validation loss - 0.8053 
Validation perplexity - 2.237
Validation BLEU - 0.836 


Train: 100%|██████████| 14902/14902 [48:45<00:00,  5.09it/s, bleu=0.87, loss=0.652, perplexity=1.92] 
Evaluate:   0%|          | 1/785 [00:00<01:25,  9.18it/s, bleu=0.897, loss=0.538, perplexity=1.71]

ok


Evaluate: 100%|██████████| 785/785 [01:11<00:00, 10.97it/s, bleu=0.896, loss=0.491, perplexity=1.63]


ok
Epoch: 2
Train loss - 0.7731 
Train perplexity - 2.166
Train BLEU - 0.845
Validation loss - 0.4908 
Validation perplexity - 1.634
Validation BLEU - 0.896 


Train: 100%|██████████| 14902/14902 [48:15<00:00,  5.15it/s, bleu=0.901, loss=0.501, perplexity=1.65]
Evaluate:   0%|          | 1/785 [00:00<01:27,  9.01it/s, bleu=0.903, loss=0.441, perplexity=1.55]

ok


Evaluate: 100%|██████████| 785/785 [01:14<00:00, 10.54it/s, bleu=0.922, loss=0.374, perplexity=1.45]


ok
Epoch: 3
Train loss - 0.5619 
Train perplexity - 1.754
Train BLEU - 0.888
Validation loss - 0.3728 
Validation perplexity - 1.452
Validation BLEU - 0.922 


Train: 100%|██████████| 14902/14902 [48:55<00:00,  5.08it/s, bleu=0.918, loss=0.419, perplexity=1.52]
Evaluate:   0%|          | 1/785 [00:00<01:27,  8.97it/s, bleu=0.941, loss=0.263, perplexity=1.3]

ok


Evaluate: 100%|██████████| 785/785 [01:13<00:00, 10.62it/s, bleu=0.935, loss=0.318, perplexity=1.37]


ok
Epoch: 4
Train loss - 0.4591 
Train perplexity - 1.583
Train BLEU - 0.910
Validation loss - 0.3151 
Validation perplexity - 1.370
Validation BLEU - 0.936 


Train: 100%|██████████| 14902/14902 [48:36<00:00,  5.11it/s, bleu=0.927, loss=0.371, perplexity=1.45]
Evaluate:   0%|          | 1/785 [00:00<01:27,  8.99it/s, bleu=0.933, loss=0.302, perplexity=1.35]

ok


Evaluate: 100%|██████████| 785/785 [01:11<00:00, 10.91it/s, bleu=0.942, loss=0.27, perplexity=1.31] 


ok
Epoch: 5
Train loss - 0.3929 
Train perplexity - 1.481
Train BLEU - 0.923
Validation loss - 0.2686 
Validation perplexity - 1.308
Validation BLEU - 0.943 


Train: 100%|██████████| 14902/14902 [48:53<00:00,  5.08it/s, bleu=0.936, loss=0.329, perplexity=1.39]
Evaluate:   0%|          | 1/785 [00:00<01:25,  9.13it/s, bleu=0.952, loss=0.218, perplexity=1.24]

ok


Evaluate: 100%|██████████| 785/785 [01:12<00:00, 10.90it/s, bleu=0.956, loss=0.217, perplexity=1.24]


ok
Epoch: 6
Train loss - 0.3509 
Train perplexity - 1.420
Train BLEU - 0.931
Validation loss - 0.2167 
Validation perplexity - 1.242
Validation BLEU - 0.955 


Train: 100%|██████████| 14902/14902 [49:00<00:00,  5.07it/s, bleu=0.937, loss=0.321, perplexity=1.38]
Evaluate:   0%|          | 1/785 [00:00<01:27,  8.98it/s, bleu=0.945, loss=0.231, perplexity=1.26]

ok


Evaluate: 100%|██████████| 785/785 [01:26<00:00,  9.10it/s, bleu=0.954, loss=0.212, perplexity=1.24]


ok
Epoch: 7
Train loss - 0.3228 
Train perplexity - 1.381
Train BLEU - 0.937
Validation loss - 0.2113 
Validation perplexity - 1.235
Validation BLEU - 0.954 


Train: 100%|██████████| 14902/14902 [49:40<00:00,  5.00it/s, bleu=0.941, loss=0.303, perplexity=1.35] 
Evaluate:   0%|          | 1/785 [00:00<01:25,  9.15it/s, bleu=0.958, loss=0.183, perplexity=1.2]

ok


Evaluate: 100%|██████████| 785/785 [01:27<00:00,  8.93it/s, bleu=0.957, loss=0.204, perplexity=1.23]


ok
Epoch: 8
Train loss - 0.3091 
Train perplexity - 1.362
Train BLEU - 0.940
Validation loss - 0.2041 
Validation perplexity - 1.226
Validation BLEU - 0.957 


Train: 100%|██████████| 14902/14902 [49:12<00:00,  5.05it/s, bleu=0.945, loss=0.284, perplexity=1.33]
Evaluate:   0%|          | 1/785 [00:00<01:25,  9.12it/s, bleu=0.954, loss=0.261, perplexity=1.3]

ok


Evaluate: 100%|██████████| 785/785 [01:12<00:00, 10.86it/s, bleu=0.96, loss=0.185, perplexity=1.2]  


ok
Epoch: 9
Train loss - 0.2935 
Train perplexity - 1.341
Train BLEU - 0.943
Validation loss - 0.1873 
Validation perplexity - 1.206
Validation BLEU - 0.959 


Train: 100%|██████████| 14902/14902 [48:26<00:00,  5.13it/s, bleu=0.947, loss=0.272, perplexity=1.31]
Evaluate:   0%|          | 1/785 [00:00<01:26,  9.05it/s, bleu=0.947, loss=0.269, perplexity=1.31]

ok


Evaluate: 100%|██████████| 785/785 [01:21<00:00,  9.60it/s, bleu=0.961, loss=0.187, perplexity=1.21]


ok
Epoch: 10
Train loss - 0.2806 
Train perplexity - 1.324
Train BLEU - 0.946
Validation loss - 0.1850 
Validation perplexity - 1.203
Validation BLEU - 0.961 


Train: 100%|██████████| 14902/14902 [47:01<00:00,  5.28it/s, bleu=0.949, loss=0.271, perplexity=1.31]
Evaluate:   0%|          | 1/785 [00:00<01:26,  9.04it/s, bleu=0.976, loss=0.122, perplexity=1.13]

ok


Evaluate: 100%|██████████| 785/785 [01:26<00:00,  9.04it/s, bleu=0.967, loss=0.162, perplexity=1.18]


ok
Epoch: 11
Train loss - 0.2690 
Train perplexity - 1.309
Train BLEU - 0.948
Validation loss - 0.1653 
Validation perplexity - 1.180
Validation BLEU - 0.967 


Train: 100%|██████████| 14902/14902 [48:36<00:00,  5.11it/s, bleu=0.95, loss=0.265, perplexity=1.3]  
Evaluate:   0%|          | 1/785 [00:00<01:25,  9.21it/s, bleu=0.972, loss=0.139, perplexity=1.15]

ok


Evaluate: 100%|██████████| 785/785 [01:12<00:00, 10.84it/s, bleu=0.964, loss=0.169, perplexity=1.18]

ok
Epoch: 12
Train loss - 0.2590 
Train perplexity - 1.296
Train BLEU - 0.950
Validation loss - 0.1695 
Validation perplexity - 1.185
Validation BLEU - 0.964 





In [233]:
def generate(seed_text, encoder, decoder, bos_index=2, eos_index=3, max_sequence=32):
    
    tokenized = tokenizer.encode([seed_text])
    x = torch.tensor(tokenized).long().to(device)
    y = torch.tensor([2]).long().to(device)
    
    encoder.eval()
    decoder.eval()

    with torch.no_grad():

        emb = encoder.embedding_layer(x)

        emb = encoder.embedding_dropout(emb)

        lstm_out, enc_mem = encoder.lstm(emb)

        token_pred = decoder.out(lstm_out)

        # семлируем последнее слово, что подать его на вход генератору
        current_token = x[:, -1].unsqueeze(0)
#         current_token = y.unsqueeze(0)
        
        pred = []

        # начинаем генерацию
        # у нас есть текущий токен и mem от того, что мы уже предсказали
        for timestamp in range(max_sequence):

            emb = decoder.embedding_layer(current_token)
            emb = decoder.embedding_dropout(emb)
            
            lstm_out, mem  = decoder.lstm_for_output(emb, enc_mem)
            output = decoder.linear_for_last_output(lstm_out)
            output = F.log_softmax(output, dim=2)
            output = decoder.out(output)

            pred.append(output)

            current_token = output.argmax(dim=2)

            # останавливаем генерировать текст, когда встретили токен конца предложения
            if current_token == eos_index:
                break

        pred = torch.cat(pred, dim=1)
        
    
    tokens = pred.argmax(dim=-1).detach().cpu().numpy()
    predicted_text = tokenizer.decode(tokens.tolist())[0]
    
    result = f'{seed_text} \n\n'
    result += 'Заголовка\n'
    result += f'{predicted_text}\n'
    
    print(result)

In [234]:
seed_text = """
\nПолиция Испании задержала по делу об отмывании денег русской мафии несколько российских бизнесменов. Среди задержанных оказался предприниматель Алексей Широков (или Сироков), сообщили испанские газеты 
\nИздания описывают Широкова как юриста, который оказывал разные нелегальные юридические услуги, например, он помогал упростить процедуру получения вида на жительство в Испании.
\nГазета ABC привела фамилии еще четверых россиян, причастных к отмыванию денег русской мафии. Это Митюрев, который, по данным издания, вербовал новых участников преступной группировки и выступал посредником в переговорах с испанскими бизнесменами. Еще двое человек — Хакимов и Жижин — отвечали за отмывание денег. Кроме того, еще одним ключевым фигурантом дела стал человек по фамилии Данилов, который напрямую общался с мафией. Его пока не задержали.
\n16 декабря полиция Испании объявила, что задержала 23 человека, подозреваемых в отмывании денег русской мафии, полученных от преступных доходов. В полиции говорили, что среди задержанных восемь выходцев из России. В ходе обысков полицейские изъяли оружие, 300 тысяч евро наличными, бриллианты, 16 автомобилей. Также полиция арестовала счета и активы на миллионы евро.
\nВ октябре 2018 года Национальная судебная коллегия Испании оправдала  17 человек, в основном граждан России, по делу русской мафии. Перед судом предстали предполагаемые участники тамбовско-малышевской ОПГ, которых обвиняли в отмывании денег. Судьи посчитали, что прокуратура не представила достаточных доказательств того, что подсудимые состояли в этой группировке или оказывали ей поддержку. Самым высокопоставленным фигурантом дела стал депутат Госдумы РФ Владислав Резник, его также оправдали."""

In [235]:
# seed_text = df.iloc[45]['text']

In [236]:
len(tokenizer.encode([seed_text])[0])

391

In [237]:
seed_text = cleanhtml(seed_text)
seed_text = removenewline(seed_text)

In [238]:
generate(seed_text, encoder, decoder)

Полиция Испании задержала по делу об отмывании денег русской мафии несколько российских бизнесменов. Среди задержанных оказался предприниматель Алексей Широков (или Сироков), сообщили испанские газеты Издания описывают Широкова как юриста, который оказывал разные нелегальные юридические услуги, например, он помогал упростить процедуру получения вида на жительство в Испании.Газета ABC привела фамилии еще четверых россиян, причастных к отмыванию денег русской мафии. Это Митюрев, который, по данным издания, вербовал новых участников преступной группировки и выступал посредником в переговорах с испанскими бизнесменами. Еще двое человек — Хакимов и Жижин — отвечали за отмывание денег. Кроме того, еще одним ключевым фигурантом дела стал человек по фамилии Данилов, который напрямую общался с мафией. Его пока не задержали.16 декабря полиция Испании объявила, что задержала 23 человека, подозреваемых в отмывании денег русской мафии, полученных от преступных доходов. В полиции говорили, что среди

In [239]:
seed_text = """
\nДепутаты Госдумы приняли в третьем чтении закон , позволяющий признать «иностранными агентами» общественные объединения, не зарегистрированные как юрлица, а также физические лица, в том числе иностранных журналистов, занимающихся политикой.
\nЗакон дает следующее определение физического лица — «иностранного агента»: Физическое лицо… может быть признано физическим лицом, выполняющим функции иностранного агента, в случае, если оно осуществляет  на территории РФ в интересах иностранного государства… 
\n, которые при их получении иностранным источником могут быть использованы против безопасности РФ.
\nЧеловека могут признать физлицом — «иностранным агентом» только в случае, если он получает поддержку из-за рубежа, в том числе деньги, имущественную или организационно-методическую помощь.
\nГраждане — «иностранные агенты» должны подать уведомление о включении их в соответствующий реестр, после чего раз в полгода давать отчет о своей деятельности и о тратах зарубежных средств. Закон запрещает таким людям работать на государственной и муниципальной службе или иметь доступ к государственной тайне.
\nНекоммерческие организации, получившие статус «иностранных агентов», будут должны передавать в Минюст программы и «иные документы» о планируемых мероприятиях, а затем — отчеты о них.
\nСМИ при публикации материалов о человеке или организации — «иностранном агенте», а также материалов, созданных ими, должны отмечать, что это материалы об «иностранных агентах». Эту меру не станут распространять на блогеров и обычных граждан.
\nВ декабре 2019 года президент России Владимир Путин подписал  закон, по которому «иностранными агентами» могут признать человека, участвующего в создании СМИ — «иностранного агента» или распространяющего сообщения такого СМИ и при этом получающего деньги из-за рубежа.""" 

In [241]:
seed_text = cleanhtml(seed_text)
seed_text = removenewline(seed_text)
generate(seed_text, encoder, decoder)

Депутаты Госдумы приняли в третьем чтении закон , позволяющий признать «иностранными агентами» общественные объединения, не зарегистрированные как юрлица, а также физические лица, в том числе иностранных журналистов, занимающихся политикой.Закон дает следующее определение физического лица — «иностранного агента»: Физическое лицо… может быть признано физическим лицом, выполняющим функции иностранного агента, в случае, если оно осуществляет  на территории РФ в интересах иностранного государства… , которые при их получении иностранным источником могут быть использованы против безопасности РФ.Человека могут признать физлицом — «иностранным агентом» только в случае, если он получает поддержку из-за рубежа, в том числе деньги, имущественную или организационно-методическую помощь.Граждане — «иностранные агенты» должны подать уведомление о включении их в соответствующий реестр, после чего раз в полгода давать отчет о своей деятельности и о тратах зарубежных средств. Закон запрещает таким людям

------------------------------------------------------------------------------------