In [1]:
import tqdm
import numpy as np
import pandas as pd
import torch
import random
from collections import defaultdict
from transformers import BertTokenizer, EncoderDecoderModel, AutoModelForSequenceClassification

from readers import tg_reader, lenta_reader, ria_reader
from custom_datasets.agency_title_dataset import AgencyTitleDatasetGeneration

In [2]:
ls /home/aobuhtijarov/models/

[0m[01;34magency_discr_trained_on_cluster_dataset[0m/  [01;34mpretrained_dec_6_layers[0m/
[01;34magency_discriminator[0m/                     [01;34mpretrained_enc_8_layers[0m/
[01;34magency_discriminator_tuned[0m/               [01;34mrubert_cased_L-12_H-768_A-12_pt[0m/
[01;34mgen_title_lenta_ria[0m/                      [01;34mstyle_gen_title_from_pretrained[0m/
[01;34mlenta_ria_clustering_model[0m/               [01;34mtg_gen_title_1500[0m/
[01;34mlenta_ria_cross_style[0m/                    [01;34mtg_gen_title_bottleneck[0m/
[01;34mpaired_clf_from_rubert[0m/


In [3]:
tokenizer_path = '/home/aobuhtijarov/models/rubert_cased_L-12_H-768_A-12_pt/'

direct_model_path = '/home/aobuhtijarov/models/style_gen_title_from_pretrained/checkpoint-6000/'
cross_model_path = '/home/aobuhtijarov/models/lenta_ria_cross_style/checkpoint-6000/'
discr_model_path = '/home/aobuhtijarov/models/agency_discriminator_tuned/checkpoint-4000/'

lenta_path = '/home/aobuhtijarov/datasets/lenta/lenta-ru-news.test.csv'
ria_path = '/home/aobuhtijarov/datasets/ria/ria.shuffled.test.json'

In [4]:
tokenizer = BertTokenizer.from_pretrained(tokenizer_path, do_lower_case=False, do_basic_tokenize=False)

In [6]:
direct_model = EncoderDecoderModel.from_pretrained(direct_model_path)
discriminator = AutoModelForSequenceClassification.from_pretrained(discr_model_path)

In [5]:
import json

def reader(path):
    with open(path, 'r') as f:
        for line in f:
            yield json.loads(line.strip())

In [6]:
records = [r for r in tqdm.tqdm(reader('../../datasets/full_lenta_ria.test.jsonl'))]

lenta_records = [
    {'text': r['lenta_text'], 'title': r['lenta_title'], 'agency': 'lenta.ru', 'date': r['lenta_date']} 
    for r in records
]

ria_records = [
    {'text': r['ria_text'], 'title': r['ria_title'], 'agency': 'РИА Новости', 'date': r['lenta_date']} 
    for r in records
]

2000it [00:00, 2201.12it/s]


In [7]:
agency_list = ["РИА Новости", "lenta.ru"]
agency_to_special_token_id = {a: tokenizer.vocab[f'[unused{i+1}]'] for i, a in enumerate(agency_list)}
agency_to_discr_target = {a: i for i, a in enumerate(sorted(agency_list))}

In [10]:
ria_data = AgencyTitleDatasetGeneration(ria_records, tokenizer, filter_agencies=None,
                                        agency_to_special_token_id=agency_to_special_token_id)

lenta_data = AgencyTitleDatasetGeneration(lenta_records, tokenizer, filter_agencies=None, 
                                          agency_to_special_token_id=agency_to_special_token_id)

In [11]:
len(ria_data), len(lenta_data)

(2000, 2000)

In [12]:
@torch.no_grad()
def eval_direct_on_dataset(dataset, target_agency, n=1000, max_tokens_title=48):
    y_pred = []


    for i in tqdm.tqdm(np.random.choice(len(dataset), n, replace=False), total=n):
        x = dataset[i]
        x['input_ids'][1] = agency_to_special_token_id[target_agency]

        gen_ids = direct_model.generate(
            input_ids=x['input_ids'].cuda().unsqueeze(0),
            attention_mask=x['attention_mask'].cuda().unsqueeze(0),
            decoder_start_token_id=direct_model.config.decoder.pad_token_id,
            min_length=7,
            max_length=20,
            num_beams=6
        )
        
        gen_title = [tokenizer.decode(x, skip_special_tokens=True) for x in gen_ids][0]
        
        inp = tokenizer(gen_title, 
            add_special_tokens=True, max_length=max_tokens_title,
            padding='max_length', truncation=True
        )

        logits = discriminator(input_ids=torch.LongTensor(inp['input_ids']).cuda().unsqueeze(0), 
                               attention_mask=torch.LongTensor(inp['attention_mask']).cuda().unsqueeze(0))[0]
        y_pred.append(torch.argmax(logits).item())
    
    return y_pred.count(agency_to_discr_target[target_agency]) / n


In [11]:
def gen_title(input_ids, attention_mask):
    gen_ids = model.generate(
        input_ids=input_ids,
        attention_mask=attention_mask,
        decoder_start_token_id=model.config.decoder.pad_token_id,
        min_length=7,
        max_length=22,
        num_beams=6
    )

    gen_title = [tokenizer.decode(x, skip_special_tokens=True) for x in gen_ids][0]
    return gen_title

In [None]:
max_tokens_title = 48

In [None]:
agency_to_discr_target

In [14]:
n = random.randint(0, 43000)
n = 11306
# n=1186
x = lenta_data[n]
a = gen_title(x['input_ids'].cuda().unsqueeze(0), x['attention_mask'].cuda().unsqueeze(0))
b = lenta_records[n]['title']
print('Gen:', a)
print('Ref:', b)

inp = tokenizer(a, 
    add_special_tokens=True, max_length=max_tokens_title,
    padding='max_length', truncation=True
)

logits = discriminator(input_ids=torch.LongTensor(inp['input_ids']).cuda().unsqueeze(0), 
                       attention_mask=torch.LongTensor(inp['attention_mask']).cuda().unsqueeze(0))[0]
a_pred = torch.argmax(logits).item()

inp = tokenizer(b, 
    add_special_tokens=True, max_length=max_tokens_title,
    padding='max_length', truncation=True
)

logits = discriminator(input_ids=torch.LongTensor(inp['input_ids']).cuda().unsqueeze(0), 
                       attention_mask=torch.LongTensor(inp['attention_mask']).cuda().unsqueeze(0))[0]
b_pred = torch.argmax(logits).item()

print('Gen:', a_pred)
print('Ref:', b_pred)

tensor([[    0, 20622, 42873, 96388,  6188, 45206, 34124, 16327, 12938,  1650,
         27453,   131, 17407, 29079, 17609, 24461,   102,   102,   102,   102,
           102,   102]], device='cuda:0')
Gen: адвокат емельяненко допустил оспаривание решения об условно-досрочном освобождении
Ref: адвокат потерпевшей рассказал о возможном оспаривании удо александра емельяненко
Gen: 0
Ref: 0


In [None]:
agency_list

In [12]:
%%time

direct_ria_acc = eval_on_dataset(ria_data, agency_list[0])
direct_lenta_acc = eval_on_dataset(lenta_data, agency_list[1])

100%|██████████| 1000/1000 [06:09<00:00,  2.71it/s]
100%|██████████| 1000/1000 [06:15<00:00,  2.67it/s]
100%|██████████| 1000/1000 [06:13<00:00,  2.68it/s]
100%|██████████| 1000/1000 [06:27<00:00,  2.58it/s]
100%|██████████| 1000/1000 [06:24<00:00,  2.60it/s]
100%|██████████| 1000/1000 [06:27<00:00,  2.58it/s]

CPU times: user 37min 58s, sys: 8.07 s, total: 38min 6s
Wall time: 37min 57s





## Full prepend eval

In [21]:
direct_model.cuda();
discriminator.cuda();

In [22]:
%%time

result = defaultdict(list)

for i, data in enumerate((ria_data, lenta_data)):
    for target_a in agency_list:
        acc = eval_direct_on_dataset(data, target_a)
        result[i].append(acc)

100%|██████████| 1000/1000 [04:17<00:00,  3.88it/s]
100%|██████████| 1000/1000 [05:39<00:00,  2.95it/s]
100%|██████████| 1000/1000 [04:13<00:00,  3.94it/s]
100%|██████████| 1000/1000 [04:14<00:00,  3.93it/s]

CPU times: user 18min 25s, sys: 2.36 s, total: 18min 27s
Wall time: 18min 25s





In [23]:
df = pd.DataFrame(columns=['Data'] + agency_list)

for i, dataset_name in enumerate(('RIA', 'Lenta')):
    row = {'Data': dataset_name}
    for j, a in enumerate(agency_list):
        row[a] = result[i][j]      
    df = df.append(row, ignore_index=True)
df

Unnamed: 0,Data,РИА Новости,lenta.ru
0,RIA,0.904,0.109
1,Lenta,0.545,0.43


In [24]:
df.index = df.Data

df.drop('Data', axis=1, inplace=True)

In [26]:
df.round(2)

Unnamed: 0_level_0,РИА Новости,lenta.ru
Data,Unnamed: 1_level_1,Unnamed: 2_level_1
RIA,0.9,0.11
Lenta,0.55,0.43


# Cross style check woth paired classifier

In [8]:
from custom_datasets import LentaRiaDataset

In [9]:
paired_discr_path = '/home/aobuhtijarov/models/paired_clf_from_rubert/'

In [10]:
cross_model = EncoderDecoderModel.from_pretrained(cross_model_path)
cross_model.cuda();

In [11]:
dataset = LentaRiaDataset('/home/aobuhtijarov/datasets/full_lenta_ria.test.jsonl',
                          tokenizer, 250, 48)

In [12]:
paired_discriminator = AutoModelForSequenceClassification.from_pretrained(paired_discr_path)
paired_discriminator.cuda()

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(119547, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elemen

In [13]:
def first_sent(x, token_id):
    lx = list(x)
    if token_id in x:
        return x[:lx.index(token_id)]
    return x

In [14]:
paired_discriminator.eval()
cross_model.eval();

In [15]:
device='cpu'
device='cuda'

In [None]:
with torch.no_grad():
    p0_vals = []
    p1_vals = []
    
    ria_style_headlines = []
    lenta_style_headlines = []

    for i in tqdm.trange(0, len(dataset), 2):
        x_ria_zag = dataset[i]
        x_lenta_zag = dataset[i+1]
        
        gen_ids_ria_zag = cross_model.generate(
            input_ids=x_ria_zag['input_ids'].to(device).unsqueeze(0),
            attention_mask=x_ria_zag['attention_mask'].to(device).unsqueeze(0),
            decoder_start_token_id=cross_model.config.decoder.pad_token_id,
            min_length=7,
            max_length=20,
            num_beams=6
        )
        
        gen_ids_lenta_zag = cross_model.generate(
            input_ids=x_lenta_zag['input_ids'].to(device).unsqueeze(0),
            attention_mask=x_lenta_zag['attention_mask'].to(device).unsqueeze(0),
            decoder_start_token_id=cross_model.config.decoder.pad_token_id,
            min_length=7,
            max_length=20,
            num_beams=6
        )
        
        ria_gen_title = [tokenizer.decode(first_sent(x, tokenizer.sep_token_id), skip_special_tokens=True) for x in gen_ids_ria_zag][0]
        lenta_gen_title = [tokenizer.decode(first_sent(x, tokenizer.sep_token_id), skip_special_tokens=True) for x in gen_ids_lenta_zag][0]
        
        if i % 100 == 0 and i > 0:
            print(' [SEP] '.join([lenta_gen_title, ria_gen_title]))
            print(p0_vals.count(0) / i * 2)
            print(p1_vals.count(1) / i * 2)
            
        inputs_0 = tokenizer(
            ' [SEP] '.join([lenta_gen_title, ria_gen_title]),
            add_special_tokens=True,
            max_length=250,
            padding="max_length",
            truncation=True
        )
        
        inputs_1 = tokenizer(
            ' [SEP] '.join([ria_gen_title, lenta_gen_title]),
            add_special_tokens=True,
            max_length=250,
            padding="max_length",
            truncation=True
        )
        
        logits_0 = paired_discriminator(input_ids=torch.LongTensor(inputs_0['input_ids']).to(device).unsqueeze(0), 
                               attention_mask=torch.LongTensor(inputs_0['attention_mask']).to(device).unsqueeze(0))[0]
        pred_0 = torch.argmax(logits_0).item()
        
        logits_1 = paired_discriminator(input_ids=torch.LongTensor(inputs_1['input_ids']).to(device).unsqueeze(0), 
                               attention_mask=torch.LongTensor(inputs_1['attention_mask']).to(device).unsqueeze(0))[0]
        pred_1 = torch.argmax(logits_1).item()
        
        p0_vals.append(pred_0)
        p1_vals.append(pred_1)
        

  3%|▎         | 51/2000 [00:39<28:02,  1.16it/s] 

при пожаре в жилом доме на юге москвы погибли два человека [SEP] два человека погибли при пожаре на кухне в жилом доме на юге москвы
0.92
0.94


  5%|▌         | 101/2000 [01:13<26:09,  1.21it/s]

школьники в филадельфии заплатят 600 тысяч долларов за прослушку [SEP] школьник в сша заплатит $610 тысяч за слежку за ноутбуками
0.92
0.92


  8%|▊         | 151/2000 [01:46<18:01,  1.71it/s]

украина обвинила российских военных в нарушении миссии обсе [SEP] киев надеется, что лукин не пустили в славянск
0.9066666666666666
0.9266666666666666


 10%|█         | 201/2000 [02:21<17:35,  1.70it/s]

файловый хостинг megaupload закроют в течение двух недель [SEP] власти сша закрывают счета пользователей megaupload
0.895
0.915


 13%|█▎        | 251/2000 [02:55<17:13,  1.69it/s]

ларри кинг вновь вернется на экраны сша [SEP] новый ток-шоу larry king выходит в эфир летом
0.896
0.912


 15%|█▌        | 301/2000 [03:26<16:54,  1.68it/s]

в индии потерпел крушение истребитель су-30 [SEP] истребитель су-30мки разбился в индии, летчики катапультировались
0.8933333333333333
0.91


 18%|█▊        | 351/2000 [03:57<16:38,  1.65it/s]

сми узнали об обязательном тестировании на приемных родителей [SEP] сми: комиссия по усыновителям может пройти тесты на наркотики
0.8971428571428571
0.9142857142857143


 20%|██        | 401/2000 [04:27<16:08,  1.65it/s]

спектакль "счастье" андрея могучего получил "золотую маску" [SEP] могучий стал лауреатом премии "золотая маска"
0.9025
0.92


 23%|██▎       | 451/2000 [04:58<14:41,  1.76it/s]

устюгов завоевал серебро на этапе кубка мира по биатлону [SEP] устюгов завоевал серебро в спринте на этапе км по биатлону в сочи
0.8977777777777778
0.9155555555555556


 25%|██▌       | 501/2000 [05:27<14:22,  1.74it/s]

двухнедельную девочку нашли живой под завалами в турции [SEP] мать и бабушку из турции спасены из-под завалов
0.894
0.91


 28%|██▊       | 551/2000 [05:59<14:36,  1.65it/s]

российский футбольный союз опроверг назначение алаева гендиректором [SEP] генеральным директором рфс назначен александр алаев
0.8927272727272727
0.9072727272727272


 30%|███       | 601/2000 [06:30<15:03,  1.55it/s]

газировку обязали вкус угольной кислотой [SEP] ученые выяснили, как пузырь вокруг газировки не важен
0.8916666666666667
0.9066666666666666


In [None]:
p0_vals.count(0) / 2000

In [None]:
p1_vals.count(1) / 2000

### Paired sicr check

In [42]:
with torch.no_grad():
    p0_vals = []
    p1_vals = []
    
    ria_style_headlines = []
    lenta_style_headlines = []

    for i in tqdm.trange(0, len(dataset), 2):        
        ria_gen_title = dataset.get_strings(i)['title']
        lenta_gen_title = dataset.get_strings(i+1)['title']
        
        if i % 50 == 0 and i > 0:
            print(' [SEP] '.join([lenta_gen_title, ria_gen_title]))
            print(p0_vals.count(0) / i)
            print(p1_vals.count(1) / i)
            
        inputs_0 = tokenizer(
            ' [SEP] '.join([lenta_gen_title, ria_gen_title]),
            add_special_tokens=True,
            max_length=250,
            padding="max_length",
            truncation=True
        )
        
        inputs_1 = tokenizer(
            ' [SEP] '.join([ria_gen_title, lenta_gen_title]),
            add_special_tokens=True,
            max_length=250,
            padding="max_length",
            truncation=True
        )
        
        logits_0 = paired_discriminator(input_ids=torch.LongTensor(inputs_0['input_ids']).to(device).unsqueeze(0), 
                               attention_mask=torch.LongTensor(inputs_0['attention_mask']).to(device).unsqueeze(0))[0]
        pred_0 = torch.argmax(logits_0).item()
        
        logits_1 = paired_discriminator(input_ids=torch.LongTensor(inputs_1['input_ids']).to(device).unsqueeze(0), 
                               attention_mask=torch.LongTensor(inputs_1['attention_mask']).to(device).unsqueeze(0))[0]
        pred_1 = torch.argmax(logits_1).item()
        
        p0_vals.append(pred_0)
        p1_vals.append(pred_1)
        

  1%|▏         | 25/2000 [00:09<17:10,  1.92it/s]

шведская принцесса родила дочь [SEP] кронпринцесса швеции родила первенца - девочку
0.5
0.5


  2%|▎         | 50/2000 [00:19<10:57,  2.97it/s]

при пожаре в москве погибли два человека [SEP] два человека погибли при пожаре в жилом доме в москве
0.5
0.5


  4%|▍         | 75/2000 [00:28<09:54,  3.24it/s]

акционеры "вконтакте" опровергли намерение уволить дурова [SEP] ucp не исключает увольнения главы "вконтакте" павла дурова
0.47333333333333333
0.47333333333333333


  5%|▌         | 100/2000 [00:40<12:14,  2.59it/s]

филадельфия заплатит 600 тысяч долларов за слежку за учениками [SEP] школьный округ филадельфии выплатит $600 тысяч за слежку за учениками
0.47
0.475


  6%|▋         | 125/2000 [00:48<10:02,  3.11it/s]

бывшего главу мид израиля оправдали по делу о мошенничестве [SEP] суд оправдал экс-главу израильского мид либермана
0.472
0.476


  8%|▊         | 150/2000 [00:59<16:46,  1.84it/s]

киев предложил лукину безопасный путь до славянска [SEP] мид украины: армия не мешала миссии лукина добраться до славянска
0.4666666666666667
0.47


  9%|▉         | 175/2000 [01:09<09:35,  3.17it/s]

при столкновении яхт у статуи свободы погиб человек [SEP] в результате столкновения катеров в бухте нью-йорка погиб человек
0.4714285714285714
0.4714285714285714


 10%|█         | 200/2000 [01:17<12:05,  2.48it/s]

файлы пользователей megaupload сохранят на две недели [SEP] удаление файлов с megaupload не начнется еще минимум 2 недели - сми
0.4675
0.47


 11%|█▏        | 225/2000 [01:29<11:08,  2.65it/s]

водителям с иностранными правами разрешили работать в россии до 2015 года [SEP] дума дала иностранцам еще год для получения водительских прав в рф
0.4666666666666667
0.4666666666666667


 12%|█▎        | 250/2000 [01:41<13:45,  2.12it/s]

шоу ларри кинга вернется в эфир уже летом [SEP] новое шоу легендарного телеведущего ларри кинга выйдет в эфир летом
0.462
0.464


 14%|█▍        | 275/2000 [01:50<09:09,  3.14it/s]

мавроди попросил путина "проследить за базаром" критиков "ммм-2011" [SEP] мавроди призывает пользователей рунета спасти "ммм-2011"
0.4618181818181818
0.46545454545454545


 15%|█▌        | 300/2000 [02:01<14:05,  2.01it/s]

в индии разбился истребитель су-30 [SEP] истребитель су-30 ввс индии упал на западе страны, пилоты спаслись
0.4633333333333333
0.4666666666666667


 16%|█▋        | 325/2000 [02:10<09:36,  2.91it/s]

названа основная версия убийства ректора института теологии в махачкале [SEP] по факту убийства ректора в махачкале возбуждено дело
0.46615384615384614
0.46923076923076923


 18%|█▊        | 350/2000 [02:21<16:12,  1.70it/s]

в думе обсудят психологическое тестирование усыновителей [SEP] приемным родителям придется сдавать психологические тесты - сми
0.46714285714285714
0.47


 19%|█▉        | 375/2000 [02:30<08:23,  3.23it/s]

умерла первая женщина-лауреат нобелевской премии по экономике [SEP] скончалась первая женщина-лауреат нобелевской премии по экономике
0.4666666666666667
0.4706666666666667


 20%|██        | 400/2000 [02:41<12:40,  2.10it/s]

андрей могучий впервые получил "золотую маску" в главной номинации [SEP] вручена "золотая маска" в номинации "драма/спектакль большой формы"
0.46375
0.47


 21%|██▏       | 425/2000 [02:49<07:59,  3.28it/s]

в москве загорелся завод "серп и молот" [SEP] двухэтажное здание горит на территории завода "серп и молот" в москве
0.46
0.46588235294117647


 22%|██▎       | 450/2000 [02:58<12:27,  2.07it/s]

российский биатлонист стал вторым на этапе кубка мира в сочи [SEP] устюгов взял серебро в спринте на этапе кубка мира по биатлону в сочи
0.46
0.46444444444444444


 24%|██▍       | 475/2000 [03:09<09:03,  2.81it/s]

премию дягилева вручили двум театрам  [SEP] мадридский teatro real и oper stuttgart разделили премию дягилева
0.46
0.46421052631578946


 25%|██▌       | 500/2000 [03:20<11:15,  2.22it/s]

в турции нашли семью спасенного из-под завалов младенца [SEP] турецкие спасатели извлекли живым из-под завалов двухнедельного малыша
0.462
0.465


 26%|██▋       | 525/2000 [03:29<07:17,  3.37it/s]

в раменском откроют первый профессиональный торговый центр [SEP] тц площадью 46,5 тыс кв м построят в подмосковном городе раменское
0.46285714285714286
0.4666666666666667


 28%|██▊       | 550/2000 [03:39<11:10,  2.16it/s]

назначен новый гендиректор рфс [SEP] российский футбольный союз опроверг назначение алаева гендиректором
0.4590909090909091
0.46545454545454545


 29%|██▉       | 575/2000 [03:50<08:30,  2.79it/s]

суд отказал "роснефти" в приостановке процесса по иску навального [SEP] суд отклонил жалобу навального на приостановку его спора с "роснефтью"
0.4591304347826087
0.46608695652173915


 30%|███       | 600/2000 [03:58<07:03,  3.30it/s]

выявлен ключевой компонент газировки [SEP] ученые выяснили, как возникает легкая острота вкуса газировки
0.46
0.4666666666666667


 31%|███▏      | 625/2000 [04:09<10:03,  2.28it/s]

олланд опережает саркози на полтора процента [SEP] по итогам 1-го тура выборов олланд набрал 28,63%, саркози - 27,18%
0.46
0.4664


 32%|███▎      | 650/2000 [04:18<07:16,  3.09it/s]

постпред сша при оон отправилась в охваченные эболой страны [SEP] постпред сша при оон посетит страны, где бушует лихорадка эбола
0.46076923076923076
0.46692307692307694


 34%|███▍      | 675/2000 [04:30<07:59,  2.76it/s]

российскому участнику митинга оппозиции не продлили регистрацию в минске [SEP] осужденному за беспорядки в минске россиянину не продлили регистрацию
0.46074074074074073
0.4659259259259259


 35%|███▌      | 700/2000 [04:40<13:03,  1.66it/s]

"бонни" спугнул борцов с разливом нефти из мексиканского залива [SEP] тропический шторм может помешать сбору нефти в мексиканском заливе
0.46
0.465


 36%|███▋      | 725/2000 [04:50<06:37,  3.20it/s]

администрация президента предостерегла мэров от увлечения соцсетями [SEP] володин призвал мэров учитывать публичность при использовании соцсетей
0.4593103448275862
0.46413793103448275


 38%|███▊      | 750/2000 [05:00<10:23,  2.01it/s]

в новой зеландии уточнили число погибших при землетрясении [SEP] число жертв землетрясения в новой зеландии составило 147 человек
0.46066666666666667
0.4653333333333333


 39%|███▉      | 775/2000 [05:10<06:18,  3.23it/s]

прокуратура обжаловала арест навального и офицерова [SEP] прокуратура просит отпустить навального под подписку о невыезде
0.4612903225806452
0.46580645161290324


 40%|████      | 800/2000 [05:19<07:07,  2.80it/s]

сирия присоединилась к конвенции оон о запрещении химического оружия [SEP] постпред при оон: сирия присоединяется к конвенции о запрете химоружия
0.461875
0.46625


 41%|████▏     | 825/2000 [05:32<06:49,  2.87it/s]

один из "рассерженных молодых людей" умер в 82 года [SEP] британский писатель алан силлитоу скончался в лондоне
0.4624242424242424
0.4666666666666667


 42%|████▎     | 850/2000 [05:44<09:02,  2.12it/s]

том хэнкс вновь снимется в экранизации дэна брауна [SEP] том хэнкс снимется в фильме по новому роману дэна брауна
0.4623529411764706
0.46647058823529414


 44%|████▍     | 875/2000 [05:53<06:03,  3.09it/s]

в китае пассажир автобуса зарезал четырех человек [SEP] преступник зарезал четырех и ранил 11 прохожих на юго-западе китая
0.46114285714285713
0.4662857142857143


 45%|████▌     | 900/2000 [06:03<08:44,  2.10it/s]

проект программы "россия без сирот" выложили в интернет для обсуждения [SEP] астахов: проект "россия без сирот" доступен для обсуждения в интернете
0.46166666666666667
0.4666666666666667


 46%|████▋     | 925/2000 [06:13<06:57,  2.57it/s]

российские и британские акционеры тнк-вр окончательно помирились [SEP] вр и ааr урегулировали все разногласия, включая поданные ранее иски
0.46216216216216216
0.46702702702702703


 48%|████▊     | 950/2000 [06:25<06:59,  2.50it/s]

paypal разрешил россиянам принимать деньги [SEP] пользователи из рф смогут принимать денежные средства на счета paypal
0.4626315789473684
0.4673684210526316


 49%|████▉     | 975/2000 [06:34<05:32,  3.09it/s]

в интернет просочились 36 минут последнего фильма о гарри поттере [SEP] получасовой эпизод нового фильма о гарри поттере появился в интернете
0.4635897435897436
0.4682051282051282


 50%|█████     | 1000/2000 [06:45<07:15,  2.30it/s]

шувалов отказался приватизировать вэб [SEP] шувалов не видит необходимости в акционировании и приватизации вэба
0.464
0.468


 51%|█████▏    | 1025/2000 [06:54<05:00,  3.25it/s]

болельщиков цска будут судить в италии за хулиганство [SEP] фанат пфк цска задержан за нападение на стюарда, другие в розыске
0.46487804878048783
0.468780487804878


 52%|█████▎    | 1050/2000 [07:06<05:58,  2.65it/s]

адвокат узнал о налоговом деле батурина [SEP] адвокат подтвердил существование еще одного дела против батурина
0.4657142857142857
0.4695238095238095


 54%|█████▍    | 1075/2000 [07:14<04:53,  3.15it/s]

"газпром" начнет строить газопровод в китай в августе [SEP] газпром начнет строительство газопровода "сила сибири" в августе
0.46511627906976744
0.46930232558139534


 55%|█████▌    | 1100/2000 [07:25<05:54,  2.54it/s]

завод дерипаски в пикалево добился отмены штрафа антимонопольщиков [SEP] суд признал незаконным штраф, наложенный на "базэлцемент-пикалево"
0.465
0.4690909090909091


 56%|█████▋    | 1125/2000 [07:33<05:35,  2.60it/s]

суд оправдал задержанных в конго моряков из россии и украины [SEP] суд в конго оправдал россиянина и 7 украинцев с судна island of luck
0.4653333333333333
0.4697777777777778


 57%|█████▊    | 1150/2000 [07:44<04:36,  3.07it/s]

митрополиту илариону запретили въезд на украину [SEP] пограничники украины не пустили в днепропетровск митрополита илариона
0.4647826086956522
0.4691304347826087


 59%|█████▉    | 1175/2000 [07:55<07:02,  1.95it/s]

партия саакашвили призвала запретить российское тв  [SEP] парламентское большинство грузии против запрета российских телеканалов
0.4646808510638298
0.46893617021276596


 60%|██████    | 1200/2000 [08:04<04:06,  3.24it/s]

"газовая опек" призвала евросоюз советоваться [SEP] фсэг выступает за консультации с ес по третьему энергопакету - шматко
0.465
0.4691666666666667


 61%|██████▏   | 1225/2000 [08:15<05:54,  2.19it/s]

полиция задержала арендатора овощебазы в бирюлево [SEP] объявленный в розыск арендатор овощебазы "новые черемушки" задержан
0.4657142857142857
0.46979591836734697


 62%|██████▎   | 1250/2000 [08:25<04:33,  2.74it/s]

в главном офисе мастер-банка начались обыски [SEP] полицейские проводят обыски в офисах мастер-банка
0.4656
0.4696


 64%|██████▍   | 1275/2000 [08:35<05:25,  2.22it/s]

rwe и "газпром" отказались совместно строить электростанции в европе [SEP] газпром и rwe прекратили переговоры о партнерстве в электроэнергетике
0.46627450980392154
0.47019607843137257


 65%|██████▌   | 1300/2000 [08:44<03:43,  3.14it/s]

"русгидро" и "транснефти" предложено переехать на дальний восток [SEP] названы госкомпании, которым предложили переехать на дальний восток
0.46692307692307694
0.4707692307692308


 66%|██████▋   | 1325/2000 [08:56<04:12,  2.67it/s]

звезда "гарри поттера" стала послом доброй воли оон [SEP] актриса эмма уотсон стала послом доброй воли оон
0.46641509433962264
0.47056603773584904


 68%|██████▊   | 1350/2000 [09:06<04:44,  2.29it/s]

на химическом заводе во флориде произошла серия взрывов [SEP] серия взрывов произошла на химзаводе в сша, есть пострадавшие
0.4666666666666667
0.4703703703703704


 69%|██████▉   | 1375/2000 [09:15<03:32,  2.94it/s]

американская киноакадемия предпочла "повелителя бури" "аватару" [SEP] фильм "повелитель бури" получил главный "оскар"
0.4672727272727273
0.4709090909090909


 70%|███████   | 1400/2000 [09:25<04:53,  2.04it/s]

пентагон впервые заказал истребители f-35 для италии и норвегии [SEP] минобороны японии впервые заключило контракт на производство f-35а
0.4675
0.4707142857142857


 71%|███████▏  | 1425/2000 [09:36<03:11,  3.01it/s]

прокуратура отказалась от "рекламных" претензий к собянину [SEP] прокуратура москвы согласилась с запретом на рекламу на стройсетках
0.4666666666666667
0.47017543859649125


 72%|███████▎  | 1450/2000 [09:47<04:10,  2.20it/s]

экипаж разбившегося под ярославлем як-42 признали неготовым к полету [SEP] экипаж як-42, разбившегося под ярославлем, действовал несогласованно
0.4668965517241379
0.4703448275862069


 74%|███████▍  | 1475/2000 [09:55<02:55,  2.99it/s]

украина отказалась от российского кредита на закупку газа [SEP] украина не будет брать кредит в рф для закачки газа в пхг
0.4674576271186441
0.4705084745762712


 75%|███████▌  | 1500/2000 [10:07<03:34,  2.34it/s]

мособлдума позволит отзывать губернатора [SEP] законопроект о порядке отзыва главы подмосковья принят в i чтении
0.468
0.471


 76%|███████▋  | 1525/2000 [10:15<02:35,  3.05it/s]

с байконура стартовала ракета-носитель "протон-м" с арабским спутником [SEP] ракета "протон-м" с арабским спутником связи стартовала с байконура
0.4681967213114754
0.47114754098360656


 78%|███████▊  | 1550/2000 [10:26<03:01,  2.48it/s]

янукович назвал предельную цену на российский газ [SEP] янукович: газ для украины не должен быть дороже $250 за тысячу кубов
0.46838709677419355
0.47096774193548385


 79%|███████▉  | 1575/2000 [10:35<02:18,  3.07it/s]

намерение ассанжа посетить россию оказалось выдумкой "друзей wikileaks" [SEP] адвокат ассанжа опроверг сообщения сми о его планах приехать в рф
0.46825396825396826
0.4711111111111111


 80%|████████  | 1600/2000 [10:47<03:17,  2.02it/s]

адвокат заявил о резком ухудшении здоровья летчика ярошенко [SEP] адвокат ярошенко в сша подтверждает критическое состояние подзащитного
0.4684375
0.4709375


 81%|████████▏ | 1625/2000 [10:55<01:55,  3.26it/s]

главную торговую улицу москвы оставили без покупателей [SEP] магазины на тверской опустели из-за запрета парковки на этой улице
0.4686153846153846
0.47107692307692306


 82%|████████▎ | 1650/2000 [11:06<02:05,  2.79it/s]

грабитель пять часов удерживал заложников в аргентинском банке [SEP] преступник, захвативший банк в аргентине, сдался полиции
0.4687878787878788
0.4712121212121212


 84%|████████▍ | 1675/2000 [11:14<01:37,  3.33it/s]

при пожаре в новгородском интернате погибли семь человек [SEP] число жертв пожара в новгородском интернате выросло до шести
0.4692537313432836
0.4716417910447761


 85%|████████▌ | 1700/2000 [11:26<01:53,  2.63it/s]

глава лнр назвал решение порошенко геноцидом [SEP] плотницкий: указ порошенко об экономблокаде донбасса - акт о геноциде
0.46911764705882353
0.47147058823529414


 86%|████████▋ | 1725/2000 [11:35<02:30,  1.83it/s]

рамзан кадыров совершил малый хадж в мекке [SEP] рамзан кадыров прибыл в саудовскую аравию для совершения малого хаджа
0.46840579710144925
0.47159420289855075


 88%|████████▊ | 1750/2000 [11:46<01:22,  3.04it/s]

в иркутске возбудили дело по факту обстрела школьного автобуса [SEP] по факту стрельбы по школьному автобусу в иркутске возбуждено дело
0.4685714285714286
0.4717142857142857


 89%|████████▉ | 1775/2000 [11:57<02:08,  1.75it/s]

"спартак" обыграл словацкую "жилину" [SEP] "спартак" проведет первый домашний матч футбольной лиги чемпионов
0.4684507042253521
0.4715492957746479


 90%|█████████ | 1800/2000 [12:06<01:00,  3.31it/s]

литва объявила день траура из солидарности с украиной [SEP] четверг объявлен на украине днем траура по погибшим в беспорядках
0.4686111111111111
0.47194444444444444


 91%|█████████▏| 1825/2000 [12:17<01:14,  2.34it/s]

правительство пустило иностранных пилотов в российские самолеты [SEP] правительство рф одобрило законопроект о допуске иностранных пилотов
0.4684931506849315
0.47178082191780824


 92%|█████████▎| 1850/2000 [12:26<00:51,  2.90it/s]

бастрыкин вылетел в ставрополь на место массового убийства [SEP] бастрыкин вылетает в ставрополь на место массового убийства
0.46864864864864864
0.47162162162162163


 94%|█████████▍| 1875/2000 [12:35<00:57,  2.18it/s]

парламент таджикистана отказался публиковать законы на русском [SEP] законы в таджикистане отныне не будут публиковаться на русском языке
0.4688
0.4712


 95%|█████████▌| 1900/2000 [12:45<00:37,  2.70it/s]

янукович отказался участвовать в майских выборах президента [SEP] янукович не намерен участвовать в выборах в мае, считая их незаконными
0.4689473684210526
0.4713157894736842


 96%|█████████▋| 1925/2000 [12:56<00:40,  1.87it/s]

вторая сборная россии по футболу сыграет в грозном [SEP] вторая сборная россии по футболу сыграет с командой литвы в грозном
0.46935064935064935
0.4714285714285714


 98%|█████████▊| 1950/2000 [13:05<00:16,  3.09it/s]

водолазы приступили к обследованию сухогруза "амурская" [SEP] водолазы начали погружения к сухогрузу "амурская" в поисках экипажа
0.46897435897435896
0.4712820512820513


 99%|█████████▉| 1975/2000 [13:17<00:11,  2.20it/s]

задолженность в сфере жкх достигла 781 миллиарда рублей [SEP] совокупный долг в сфере жкх составляет на 1 ноября более 780 млрд рублей
0.46936708860759496
0.47164556962025317


100%|██████████| 2000/2000 [13:26<00:00,  2.48it/s]


### Cross style check

In [8]:
from custom_datasets import LentaRiaDataset

In [9]:
cross_model = EncoderDecoderModel.from_pretrained(cross_model_path)

In [11]:
discriminator.cuda();

In [12]:
dataset = LentaRiaDataset('/home/aobuhtijarov/datasets/full_lenta_ria.test.jsonl',
                          tokenizer, 250, 48)

In [13]:
cross_model.cuda();

Even index: lenta $\rightarrow$ ria


Odd index: ria $\rightarrow$ lenta

In [14]:
agency_list

['РИА Новости', 'lenta.ru']

In [15]:
device = 'cpu'
device = 'cuda'

In [16]:
with torch.no_grad():
    ria_good = 0  # accuracy of generating ria from lenta
    lenta_good = 0  # accuracy of generating lenta from ria
    
    ria_style_headlines = []
    lenta_style_headlines = []

    for i in tqdm.trange(len(dataset)):
        x = dataset[i]
        gen_ids = cross_model.generate(
            input_ids=x['input_ids'].to(device).unsqueeze(0),
            attention_mask=x['attention_mask'].to(device).unsqueeze(0),
            decoder_start_token_id=cross_model.config.decoder.pad_token_id,
            min_length=7,
            max_length=20,
            num_beams=6
        )

        gen_title = [tokenizer.decode(first_sent(x, tokenizer.sep_token_id), skip_special_tokens=True) 
                     for x in gen_ids][0]  
        
        if i % 50 in (0, 1):
            print(gen_title)
            
        if i % 2 == 0:
            ria_style_headlines.append(gen_title)
        else:
            lenta_style_headlines.append(gen_title)
        
        inp = tokenizer(gen_title, 
            add_special_tokens=True, max_length=48,
            padding='max_length', truncation=True
        )

        logits = discriminator(input_ids=torch.LongTensor(inp['input_ids']).to(device).unsqueeze(0), 
                               attention_mask=torch.LongTensor(inp['attention_mask']).to(device).unsqueeze(0))[0]
        pred = torch.argmax(logits).item()

        if i % 2 == 0:
            if pred == agency_to_discr_target['РИА Новости']:
                ria_good += 1
        else:
            if pred == agency_to_discr_target['lenta.ru']:
                lenta_good += 1

  0%|          | 1/4000 [00:04<4:32:23,  4.09s/it]

медведев поздравил коморовский с победой на выборах в польше президент рф президент


  0%|          | 2/4000 [00:04<2:24:29,  2.17s/it]

медведев поздравил коморовский с победой на выборах в польше в кремле медвед


  1%|▏         | 51/4000 [00:30<27:07,  2.43it/s] 

шведская принцесса виктория и ее супруга стали родителями сми сми сми


  1%|▏         | 52/4000 [00:31<31:08,  2.11it/s]

принц виктория родила дочь в возрасте 34 лет в возрасте 34 лет сми


  3%|▎         | 101/4000 [00:50<27:08,  2.39it/s]

два человека погибли при пожаре на кухне в жилом доме на юге москвы источник сми


  3%|▎         | 102/4000 [00:51<26:50,  2.42it/s]

при пожаре в жилом доме на юге москвы погибли два человека сообщили в мвд


  4%|▍         | 151/4000 [01:10<25:17,  2.54it/s]

фонд ucp не будет добиваться смены гендиректора "вконтакте" дурова


  4%|▍         | 152/4000 [01:10<23:50,  2.69it/s]

акционеры "вконтакте" нашли замену павлу дурову в "вконтакт


  5%|▌         | 201/4000 [01:28<24:21,  2.60it/s]

школьник в сша заплатит $610 тысяч за слежку за ноутбуками пишут сми


  5%|▌         | 202/4000 [01:28<23:40,  2.67it/s]

школьники в филадельфии заплатят 600 тысяч долларов за прослушку в сша


  6%|▋         | 251/4000 [01:50<36:44,  1.70it/s]

суд в израиле оправдал экс-главу мид либермана сообщают сми см


  6%|▋         | 252/4000 [01:50<33:06,  1.89it/s]

суд иерусалима оправдал бывшего главу мид израиля суд суд снял с него обвинения


  8%|▊         | 301/4000 [02:13<24:35,  2.51it/s]

киев надеется, что лукин не пустили в славянск не пустили мид рф


  8%|▊         | 302/4000 [02:13<24:40,  2.50it/s]

украина обвинила российских военных в нарушении миссии обсе в славянске мвд


  9%|▉         | 351/4000 [02:38<31:14,  1.95it/s]

яхта врезалась в статую свободы в нью-йорке, один человек погиб один погиб


  9%|▉         | 352/4000 [02:38<29:25,  2.07it/s]

на острове либерти в нью-йорке столкнулись два катера один человек погиб один


 10%|█         | 401/4000 [03:01<31:00,  1.93it/s]

власти сша закрывают счета пользователей megaupload за 2 месяца сми


 10%|█         | 402/4000 [03:02<29:01,  2.07it/s]

файловый хостинг megaupload закроют в течение двух недель полиция сша


 11%|█▏        | 451/4000 [03:26<26:47,  2.21it/s]

госдума отсрочила запрет на получение иностранных удостоверений в рф до 1 июня в


 11%|█▏        | 452/4000 [03:26<27:14,  2.17it/s]

госдума отложила обмен национальных прав на российские до июня в июне в гд


 13%|█▎        | 501/4000 [03:50<27:33,  2.12it/s]

новый ток-шоу larry king выходит в эфир летом тв тв тв


 13%|█▎        | 502/4000 [03:50<28:02,  2.08it/s]

ларри кинг вновь вернется на экраны сша тв тв тв тв


 14%|█▍        | 551/4000 [04:14<23:33,  2.44it/s]

мавроди просит защиты у путина в связи с "ммм-2011" в


 14%|█▍        | 552/4000 [04:15<23:28,  2.45it/s]

мавроди попросил пользователей помощи в борьбе с "ммм-2011" в интернете


 15%|█▌        | 601/4000 [04:39<24:34,  2.31it/s]

истребитель су-30мки разбился в индии, летчики катапультировались сообщают сми


 15%|█▌        | 602/4000 [04:39<24:06,  2.35it/s]

в индии потерпел крушение истребитель су-30 сообщают сми сообщают сми см


 16%|█▋        | 651/4000 [05:01<22:09,  2.52it/s]

следствие назвало основную версию убийства ректора в махачкале ск ск ск ск ск


 16%|█▋        | 652/4000 [05:01<21:54,  2.55it/s]

убит ректор института теологии и его племянник в махачкале ск рф в дагестане


 18%|█▊        | 701/4000 [05:23<25:16,  2.17it/s]

сми: комиссия по усыновителям может пройти тесты на наркотики сми сми


 18%|█▊        | 702/4000 [05:24<27:57,  1.97it/s]

сми узнали об обязательном тестировании на приемных родителей в гд сми сми


 19%|█▉        | 751/4000 [05:47<26:25,  2.05it/s]

первая нобелевский лауреат в области экономики скончалась в сша тв сми


 19%|█▉        | 752/4000 [05:48<26:00,  2.08it/s]

в сша скончалась лауреат нобелевской премии по экономике элинов остер и германии


 20%|██        | 801/4000 [06:11<21:46,  2.45it/s]

могучий стал лауреатом премии "золотая маска" "счастье" тв


 20%|██        | 802/4000 [06:11<22:44,  2.34it/s]

спектакль "счастье" андрея могучего получил "золотую маску" "


 21%|██▏       | 851/4000 [06:31<21:08,  2.48it/s]

на территории завода "серп и молот" горит тц "серп и молот"


 21%|██▏       | 852/4000 [06:32<21:03,  2.49it/s]

пожар на заводе "серп и молот" потушили на территории завода в москве


 23%|██▎       | 901/4000 [06:52<21:12,  2.44it/s]

устюгов завоевал серебро в спринте на этапе км по биатлону в сочи фуркад


 23%|██▎       | 902/4000 [06:53<20:58,  2.46it/s]

устюгов завоевал серебро на этапе кубка мира по биатлону в сочи в сочи


 24%|██▍       | 951/4000 [07:13<23:35,  2.15it/s]

лауреаты премии "гигилевский" объявлены в перми и в перми тв


 24%|██▍       | 952/4000 [07:13<24:26,  2.08it/s]

вручены премии сергея дягилева и мадрид и мадрид в перми


 25%|██▌       | 1001/4000 [07:34<20:52,  2.39it/s]

мать и бабушку из турции спасены из-под завалов в доме в турции


 25%|██▌       | 1002/4000 [07:34<20:33,  2.43it/s]

двухнедельную девочку нашли живой под завалами в турции сообщают сми сообщают сми


 26%|██▋       | 1051/4000 [07:54<20:44,  2.37it/s]

первый в россии торгово-развлекательный центр откроется в раменском компания компания


 26%|██▋       | 1052/4000 [07:54<20:34,  2.39it/s]

в раменском построят торговый центр за 29,5 тысячи "квадратов" в


 28%|██▊       | 1101/4000 [08:14<15:56,  3.03it/s]

генеральным директором рфс назначен александр алаев телеканал "сэ" рфс


 28%|██▊       | 1102/4000 [08:14<15:45,  3.06it/s]

российский футбольный союз опроверг назначение алаева гендиректором рфс сми сми


 29%|██▉       | 1151/4000 [08:34<19:11,  2.47it/s]

суд отклонил ходатайство "роснефти" о приостановке процесса по иску навального суд суд


 29%|██▉       | 1152/4000 [08:34<19:11,  2.47it/s]

суд отказался рассматривать иск навального к "роснефти" суд суд отказался суд


 30%|███       | 1201/4000 [08:54<19:00,  2.45it/s]

ученые выяснили, как пузырь вокруг газировки не важен сми в сша


 30%|███       | 1202/4000 [08:55<20:17,  2.30it/s]

газировку обязали вкус угольной кислотой в прямом эфире в сми в сми


 31%|███▏      | 1251/4000 [09:15<18:29,  2.48it/s]

саркози лидирует на выборах президента франции с 28,09% голосов маркелов


 31%|███▏      | 1252/4000 [09:15<18:26,  2.48it/s]

олланд лидирует во втором туре выборов президента франции на выборах с 27,6 процента


 33%|███▎      | 1301/4000 [09:35<18:03,  2.49it/s]

постпред сша при оон посетит страны, где бушует лихорадка эбола в о


 33%|███▎      | 1302/4000 [09:36<18:41,  2.41it/s]

постпред сша при оон посетит гвинею за пределами страны в оон в


 34%|███▍      | 1351/4000 [09:57<18:17,  2.41it/s]

фигурант "болотного дела" артему бреусу продлили прописку в минске м


 34%|███▍      | 1352/4000 [09:58<19:40,  2.24it/s]

белорусскому оппозиционеру отказали в регистрации за участие в беспорядках в минске мвд


 35%|███▌      | 1401/4000 [10:18<16:54,  2.56it/s]

власти сша эвакуируют судов из-за шторма "бонни" в мексиканском заливе


 35%|███▌      | 1402/4000 [10:18<16:26,  2.63it/s]

тропический шторм "бонни" превратился в шторм у берегов сша в мексиканском заливе


 36%|███▋      | 1451/4000 [10:37<18:10,  2.34it/s]

замглавы администрации президента рф предостерегает чиновников от "курьезных" сервисов в


 36%|███▋      | 1452/4000 [10:37<16:49,  2.52it/s]

вице-мэра москвы посоветовала мэру отвечать на комментарии в twitter


 38%|███▊      | 1501/4000 [10:56<16:02,  2.60it/s]

число жертв землетрясения в новой зеландии возросло до 147 сообщают сми тв


 38%|███▊      | 1502/4000 [10:57<15:41,  2.65it/s]

в результате землетрясения в новой зеландии погибли 147 человек более 50 сообщают сми


 39%|███▉      | 1551/4000 [11:15<13:57,  2.92it/s]

прокурор подал апелляцию на арест навального и офицерова в кирове суд суд


 39%|███▉      | 1552/4000 [11:15<14:13,  2.87it/s]

прокуратура обжаловала приговор навальному и офицерову в сизо в кирове сообщил источник


 40%|████      | 1601/4000 [11:34<15:47,  2.53it/s]

сирия стала членом оон по химоружию сообщают сми в оон


 40%|████      | 1602/4000 [11:34<15:32,  2.57it/s]

сирию вступит в международный контроль в оон заявил постпред в оон в


 41%|████▏     | 1651/4000 [11:53<14:16,  2.74it/s]

британский писатель алан силлитоу скончался в возрасте 82 лет сми сми


 41%|████▏     | 1652/4000 [11:53<14:34,  2.68it/s]

в лондоне умер писатель алана силлитоу в возрасте 82 лет сми


 43%|████▎     | 1701/4000 [12:12<16:19,  2.35it/s]

том хэнкс сыграет лэна брауна в экранизации "инферно" сми


 43%|████▎     | 1702/4000 [12:13<15:46,  2.43it/s]

том хэнкс вернется в экранизации "инферно" и "ангелов да винчи


 44%|████▍     | 1751/4000 [12:31<12:31,  2.99it/s]

жертвами нападения на автобус в китае стали 4 человека 11 ранены сообщают сми


 44%|████▍     | 1752/4000 [12:31<12:17,  3.05it/s]

в китае мужчина убил четырех человек напавшего на них с ножом сообщают сми


 45%|████▌     | 1801/4000 [12:49<14:10,  2.59it/s]

проект программы "россия без сирот" выложен в интернет тв в сети тв


 45%|████▌     | 1802/4000 [12:50<14:18,  2.56it/s]

программу "россия без сирот" выпустили на интернет в интернете в интернете


 46%|████▋     | 1851/4000 [13:12<14:47,  2.42it/s]

bp и "альфа-групп" урегулировали все разногласияи по тнк-


 46%|████▋     | 1852/4000 [13:12<15:50,  2.26it/s]

bp договорилась с "роснефтью" о примирении в тнк-в


 48%|████▊     | 1901/4000 [13:39<18:14,  1.92it/s]

пользователи paypal с 11 октября смогут принимать деньги рф в сша с 11 октября


 48%|████▊     | 1902/4000 [13:39<18:38,  1.88it/s]

россияне смогут принимать деньги в paypal с января в россии в сша в


 49%|████▉     | 1951/4000 [14:00<11:49,  2.89it/s]

утечка 36 минут из "гарри поттера" оказалась ложной тв тв тв


 49%|████▉     | 1952/4000 [14:01<11:52,  2.87it/s]

новый эпизод "гарри поттера" появился на торрент-трекерах в сша


 50%|█████     | 2001/4000 [14:18<11:35,  2.88it/s]

шувалов не видит необходимости приватизировать госкорпорацию вэба в рф вэб


 50%|█████     | 2002/4000 [14:19<11:48,  2.82it/s]

шувалов отказался от акционирования "банка развития" вэба вэба


 51%|█████▏    | 2051/4000 [14:38<12:37,  2.57it/s]

семь россиян задержаны в италии по обвинению в хулиганстве сообщают сми рфс


 51%|█████▏    | 2052/4000 [14:38<12:51,  2.53it/s]

болельщика цска задержали в италии за нападение на стюарда "ромой""


 53%|█████▎    | 2101/4000 [14:56<11:15,  2.81it/s]

против виктора батурина возбуждено еще одно дело в ноябре возбуждено дело адвокат м


 53%|█████▎    | 2102/4000 [14:56<11:41,  2.71it/s]

виктора батурина заподозрили в неуплате налогов в 2007 году сми скп


 54%|█████▍    | 2151/4000 [15:18<13:34,  2.27it/s]

"газпром" и "сила сибири" сварят первый стыковку с кнр


 54%|█████▍    | 2152/4000 [15:18<14:59,  2.05it/s]

"газпром" в августе построит газопровод "сила сибири" в китае


 55%|█████▌    | 2201/4000 [15:42<14:28,  2.07it/s]

суд отменил штраф в 19 млн руб для "базэлцемент-пикалево" в


 55%|█████▌    | 2202/4000 [15:42<14:08,  2.12it/s]

"базэлцемент-пикалево" оштрафовали на 20 миллионов рублей за нарушение закона о


 56%|█████▋    | 2251/4000 [16:05<13:41,  2.13it/s]

суд в конго признал виновными украинских моряков в жестоком обращении сми сми


 56%|█████▋    | 2252/4000 [16:05<12:52,  2.26it/s]

суд конго оправдал российских моряков с "арктик санрайз" в конго см


 58%|█████▊    | 2301/4000 [16:29<14:30,  1.95it/s]

главу упс украины не пустили на украину в день рождения иларионаа


 58%|█████▊    | 2302/4000 [16:29<14:01,  2.02it/s]

главу украинской разведки запретили въезд на украину в страну сообщил источник сми см


 59%|█████▉    | 2351/4000 [16:54<15:08,  1.81it/s]

партия саакашвили предлагает запретить вещание на территории грузии сми сми


 59%|█████▉    | 2352/4000 [16:54<14:39,  1.87it/s]

парламент грузии решил запретить российские телеканалы в стране в сми в сми


 60%|██████    | 2401/4000 [17:15<14:26,  1.84it/s]

ес принял предложение россии о консультации с рф по энергопакету ес


 60%|██████    | 2402/4000 [17:16<14:59,  1.78it/s]

россия согласилась на консультации с ес о третьем энергопакете в минэнерго ес


 61%|██████▏   | 2451/4000 [17:39<09:57,  2.59it/s]

арендатор овощебазы в бирюлево задержан по подозрению в мошенничестве ск ск


 61%|██████▏   | 2452/4000 [17:40<10:54,  2.36it/s]

задержан предполагаемый арендатор овощебазы в бирюлево ск рф ск рф


 63%|██████▎   | 2501/4000 [17:59<08:23,  2.97it/s]

обыски в мастер-банке в москве связаны с делом набиуллины мвд


 63%|██████▎   | 2502/4000 [17:59<08:40,  2.88it/s]

мвд подтвердило обыски в мастер-банке в москве в офисах цб


 64%|██████▍   | 2551/4000 [18:18<08:43,  2.77it/s]

немецкая rwe и "газпром" не договорились о строительстве электростанций в ес см


 64%|██████▍   | 2552/4000 [18:18<08:53,  2.71it/s]

"газпром" отказался от сотрудничества с rwe в европе в европе


 65%|██████▌   | 2601/4000 [18:36<08:13,  2.84it/s]

трутнев: госкомпании могут подумать о переезде в дфо "русгидро"


 65%|██████▌   | 2602/4000 [18:36<08:10,  2.85it/s]

"русгидро" и "роснефти" предложили переехать на дальний восток в дфо


 66%|██████▋   | 2651/4000 [18:56<09:56,  2.26it/s]

эмма уотсон вступила в должность посла оон в оон сообщают сми


 66%|██████▋   | 2652/4000 [18:57<09:52,  2.28it/s]

эмма уотсон получила титул посла оон оон объявили в оон


 68%|██████▊   | 2701/4000 [19:21<11:29,  1.88it/s]

серия взрывов произошла на заводе в американском штате флорида тв тв тв тв


 68%|██████▊   | 2702/4000 [19:21<11:39,  1.86it/s]

на фабрике blue rhino в сша произошли взрывы в штате флорида в сш


 69%|██████▉   | 2751/4000 [19:47<11:50,  1.76it/s]

"повелитель бури" получил "оскар-2010" как лучший фильм


 69%|██████▉   | 2752/4000 [19:48<11:19,  1.84it/s]

"повелитель бури" получил "оскар" за лучший фильм года и "


 70%|███████   | 2801/4000 [20:14<10:42,  1.87it/s]

пентагон впервые разместил заказ на истребители f-35 в ноябре вмс сша


 70%|███████   | 2802/4000 [20:14<09:34,  2.08it/s]

япония впервые заключила контракт с сша о производстве f-35а в россии


 71%|███████▏  | 2851/4000 [20:35<08:43,  2.20it/s]

прокуратура москвы отозвала претензии к собянину - ъ сми сми см


 71%|███████▏  | 2852/4000 [20:35<08:06,  2.36it/s]

прокуратура москвы отказала собянину в праве на рекламу собянину сми


 73%|███████▎  | 2901/4000 [20:59<08:17,  2.21it/s]

мак: экипаж як-42 не был готов к полету в ярославле не готов


 73%|███████▎  | 2902/4000 [21:00<08:06,  2.26it/s]

экипаж як-42 отверг возможность прекращения взлета в том числе экипаж в "локомотив


 74%|███████▍  | 2951/4000 [21:21<07:42,  2.27it/s]

украина отказалась от кредита россии на закупку газа сми киев киев


 74%|███████▍  | 2952/4000 [21:21<08:04,  2.16it/s]

украина отказалась от услуг "газпрома" москва и киева в киеве


 75%|███████▌  | 3001/4000 [21:44<07:17,  2.28it/s]

мособлдума приняла в i чтении законопроект об отзыве губернатора сми сми


 75%|███████▌  | 3002/4000 [21:44<07:11,  2.32it/s]

мособлдума одобрила отзыв губернатора подмосковья в первом чтении в третий раз


 76%|███████▋  | 3051/4000 [22:07<07:49,  2.02it/s]

ракета-носитель "протон-м" с арабским спутником стартовала с байконура


 76%|███████▋  | 3052/4000 [22:08<07:36,  2.08it/s]

с байконура стартовал "протон-м" с арабским спутником на борту


 78%|███████▊  | 3101/4000 [22:29<06:39,  2.25it/s]

цена на газ из рф не должна превышать 250 долларов - янукович киев


 78%|███████▊  | 3102/4000 [22:30<06:38,  2.25it/s]

янукович предложил снизить цену на газ для украины до 250 долларов сми


 79%|███████▉  | 3151/4000 [22:53<07:47,  1.82it/s]

адвокат ассанжа опроверг сообщения сми о его поездке в рф сми см


 79%|███████▉  | 3152/4000 [22:53<08:09,  1.73it/s]

ассанж согласился приехать в россию сми сми сми сми


 80%|████████  | 3201/4000 [23:18<07:17,  1.83it/s]

адвокат летчика ярошенко заявил, что находится в критическом состоянии сми


 80%|████████  | 3202/4000 [23:19<06:41,  1.99it/s]

российскому летчику ярошенко поставили диагноз в тюрьме сми сообщил адвокат


 81%|████████▏ | 3251/4000 [23:44<06:33,  1.90it/s]

торговые магазины на тверской улице могут лишиться статуса сми сми сми


 81%|████████▏ | 3252/4000 [23:45<07:21,  1.70it/s]

запрет на парковку в центре москвы привел к повышению выручки сми сми см


 83%|████████▎ | 3301/4000 [24:10<07:01,  1.66it/s]

бандиты захватили заложников в банке в аргентине полиция сообщают сми сми


 83%|████████▎ | 3302/4000 [24:11<06:57,  1.67it/s]

захватчик банка в аргентине сдался полиции полиция полиция сдался полиция полиция


 84%|████████▍ | 3351/4000 [24:35<06:50,  1.58it/s]

число погибших при пожаре в интернате в новгороде возросло до 7 сообщает мчс


 84%|████████▍ | 3352/4000 [24:36<07:27,  1.45it/s]

в новгородском интернате нашли тела шести погибших в сгоревшем интернате сообщили сми


 85%|████████▌ | 3401/4000 [25:04<06:05,  1.64it/s]

в днр раскритиковали указ порошенко об экономической блокадой сми сми


 85%|████████▌ | 3402/4000 [25:04<05:40,  1.75it/s]

в лнр назвали указ порошенко о экономической блокаде донбасса сми сми


 86%|████████▋ | 3451/4000 [25:30<04:25,  2.06it/s]

кадыров прибыл в саудовскую аравию с визитом в саудовскую аравию сми


 86%|████████▋ | 3452/4000 [25:31<05:00,  1.82it/s]

кадыров прилетел в саудовскую аравию для малого хаджа кадыров кадыров


 88%|████████▊ | 3501/4000 [25:56<04:46,  1.74it/s]

дело возбуждено по факту обстрела автобуса в иркутске возбуждено в мвд возбуждено


 88%|████████▊ | 3502/4000 [25:57<05:03,  1.64it/s]

по факту стрельбы в иркутске возбудили дело на водителя возбуждено дело в мвд


 89%|████████▉ | 3551/4000 [26:24<04:55,  1.52it/s]

фк "спартак" обыграл "жилину" в матче группового турнира лч


 89%|████████▉ | 3552/4000 [26:24<04:51,  1.54it/s]

"спартак" выбил "челси" из лиги чемпионов "челси"


 90%|█████████ | 3601/4000 [26:50<04:12,  1.58it/s]

власти литвы объявили траур в связи с беспорядками в киеве в киеве


 90%|█████████ | 3602/4000 [26:51<04:27,  1.49it/s]

на украине объявлен траур по погибшим в беспорядках в день беспорядков в киеве


 91%|█████████▏| 3651/4000 [27:23<03:54,  1.49it/s]

правительство рф одобрило закон о допуске иностранных пилотов в рф до 2019 г


 91%|█████████▏| 3652/4000 [27:23<03:44,  1.55it/s]

правительство разрешило иностранцам работать в российских самолетах в 2019 году в россии сми


 93%|█████████▎| 3701/4000 [27:54<02:59,  1.67it/s]

глава ск рф, подозреваемый в убийстве 8 человек, вылетел в ставрополь ск


 93%|█████████▎| 3702/4000 [27:54<02:58,  1.67it/s]

глава ск рф вылетел в ставрополь на расследование убийства в москве ск рф


 94%|█████████▍| 3751/4000 [28:27<02:47,  1.49it/s]

парламент таджикистана ужесточил правила перевода на русский в сми в рф


 94%|█████████▍| 3752/4000 [28:27<02:42,  1.53it/s]

в таджикистане запретили публиковать русский язык на русском языке в россии в


 95%|█████████▌| 3801/4000 [28:59<02:17,  1.45it/s]

янукович отказался участвовать в досрочных выборах главы украины в киеве сми


 95%|█████████▌| 3802/4000 [29:00<02:14,  1.47it/s]

янукович отказался участвовать в выборах президента украины президент власти в раде


 96%|█████████▋| 3851/4000 [29:25<01:40,  1.48it/s]

вторая сборная россии по футболу сыграет с литвой в грозном сообщает рфс


 96%|█████████▋| 3852/4000 [29:26<01:59,  1.24it/s]

вторая сборная россии по футболу сыграет с литвой в грозном в грозном


 98%|█████████▊| 3901/4000 [29:59<01:04,  1.54it/s]

водолазы пока не нашли тела погибших в сухогрузе "амурская" в охотском море


 98%|█████████▊| 3902/4000 [29:59<01:01,  1.60it/s]

в охотском море начались поиски пропавшего сухогруза завершена мчс мчс рф


 99%|█████████▉| 3951/4000 [30:31<00:33,  1.45it/s]

задолженность населения в сфере жкх в рф превышает 1,5 млрд руб в 2011 г


 99%|█████████▉| 3952/4000 [30:32<00:32,  1.50it/s]

задолженность населения в сфере жкх превысила миллиард рублей в ноябре в минрегионе в


100%|██████████| 4000/4000 [31:01<00:00,  2.15it/s]


In [17]:
cross_ria_acc = ria_good / (len(dataset) / 2)
cross_lenta_acc = lenta_good / (len(dataset) / 2)

In [18]:
cross_ria_acc, cross_lenta_acc

(0.9515, 0.3975)

## Explaining over generated headlines

In [19]:
from transformers_interpret import SequenceClassificationExplainer

In [20]:
agency_list = ["РИА Новости", "lenta.ru"]

agency_to_discr_target = {a: i for i, a in enumerate(sorted(agency_list))}
discr_target_to_agency = {v: k for k, v in agency_to_discr_target.items()}

cname_to_agency = { 
    f'LABEL_{i}': discr_target_to_agency[i] for i in range(len(agency_list))
}

In [21]:
def extract_top_n_words(res, percentile=85, n=20):
    p = np.percentile([x[1] for x in res], percentile)
    top_tokens = [x[0] for x in res if x[1] >= p]
    return Counter(top_tokens).most_common(n)

In [22]:
cls_explainer = SequenceClassificationExplainer(discriminator, tokenizer)

In [23]:
lenta_results = []
lenta_pred_cnt = 0

for r in tqdm.tqdm(lenta_style_headlines, total=len(lenta_style_headlines)):
    val = cls_explainer(r.lower())
    
    if cname_to_agency[cls_explainer.predicted_class_name] == 'lenta.ru':
        lenta_pred_cnt += 1
        lenta_results.extend(val)


 30%|██▉       | 592/2000 [03:09<07:29,  3.13it/s]


KeyboardInterrupt: 

In [None]:
print(f'Lenta accuracy: {lenta_pred_cnt / len(lenta_style_headlines):.2f}')

In [None]:
ria_results = []
ria_pred_cnt = 0

for r in tqdm.tqdm(ria_style_headlines, total=len(ria_style_headlines)):
    val = cls_explainer(r.lower())
    if cname_to_agency[cls_explainer.predicted_class_name] == 'РИА Новости':
        ria_pred_cnt += 1
        ria_results.extend(val)


In [None]:
print('RIA accuracy:', round(ria_pred_cnt / len(ria_style_headlines), 2))

In [None]:
lenta_results = [(a, b) for a, b in lenta_results if a not in ['[CLS]', '[SEP]']]
ria_results = [(a, b) for a, b in ria_results if a not in ['[CLS]', '[SEP]']]

In [None]:
from collections import Counter

In [None]:
extract_top_n_words(lenta_results)

In [None]:
extract_top_n_words([(x[0], -x[1]) for x in lenta_results])

In [None]:
extract_top_n_words(ria_results)

In [None]:
extract_top_n_words([(x[0], -x[1]) for x in ria_results])

## BACKLOG

In [13]:
df = pd.DataFrame(columns=['Data'] + agency_list)

for i, dataset_name in enumerate(('RIA', 'Lenta', 'Other')):
    row = {'Data': dataset_name}
    for j, a in enumerate(agency_list):
        row[a] = result[i][j]      
    df = df.append(row, ignore_index=True)
df

Unnamed: 0,Data,РИА Новости,lenta.ru
0,RIA,0.935,0.054
1,Lenta,0.426,0.609
2,Other,0.808,0.207


In [14]:
df.index = df.Data

In [15]:
df.drop('Data', axis=1, inplace=True)

In [16]:
df.round(2)

Unnamed: 0_level_0,РИА Новости,lenta.ru
Data,Unnamed: 1_level_1,Unnamed: 2_level_1
RIA,0.94,0.05
Lenta,0.43,0.61
Other,0.81,0.21
