In [1]:
import json
from collections import Counter
import re
from itertools import zip_longest
from pathlib import Path
import pandas as pd
import numpy as np
from tqdm.auto import tqdm
import torch
from transformers import AutoTokenizer, AutoModel
from rouge import Rouge
from sklearn.metrics.pairwise import cosine_similarity
from easse.sari import corpus_sari
from razdel import tokenize
from matplotlib import pyplot as plt
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D
from sklearn.ensemble import RandomForestRegressor

from eli5 import explain_weights_sklearn

In [2]:
DATA_DIR = Path("./data")

WIKI_DIR = DATA_DIR / "WikiSimple-translated"
PARAPHRASER_PATH = DATA_DIR / "ParaPhraserPlus" / "ParaPhraserPlus.json"

DEV_PATH = DATA_DIR / "dev_sents.csv"
TEST_PATH = DATA_DIR / "public_test_only.csv"

In [3]:
MAX_LENGTH = 200

In [4]:
def get_word_tokens(text):
    tokens = re.sub(r"[^\w\s]", "", text).split()
    tokens = [t.lower() for t in tokens]
    return tokens

In [5]:
# Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] # First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    sum_embeddings = torch.sum(token_embeddings * input_mask_expanded, 1)
    sum_mask = torch.clamp(input_mask_expanded.sum(1), min=1e-9)
    return sum_embeddings / sum_mask

In [6]:
def get_similarities(model, tokenizer, input_texts, output_texts):
    # Tokenize sentences
    encoded_input = tokenizer(input_texts, padding=True, truncation=True,
                              max_length=MAX_LENGTH, return_tensors='pt').to(model.device)
    encoded_output = tokenizer(output_texts, padding=True, truncation=True,
                              max_length=MAX_LENGTH, return_tensors='pt').to(model.device)

    # Compute token embeddings
    with torch.no_grad():
        model_emb_input = model(**encoded_input)
        model_emb_output = model(**encoded_output)

    # Perform pooling. In this case, mean pooling
    input_embeddings = mean_pooling(model_emb_input, encoded_input['attention_mask']).cpu()
    output_embeddings = mean_pooling(model_emb_output, encoded_output['attention_mask']).cpu()
    similarity = cosine_similarity(input_embeddings, output_embeddings)
    return similarity

In [7]:
def get_rougel(input_text, output_text):
    """
    Returns rouge-l f-score
    """
    rouge = Rouge()
    scores = []
    # try/except because of empty output or just dot (in dev_sents)
    try:
        score = rouge.get_scores(input_text, output_text)[0]
        score = score["rouge-l"]["f"]
    except ValueError:  
        score = 0.0
    return score

In [8]:
# Load AutoModel from huggingface model repository
tokenizer = AutoTokenizer.from_pretrained("sberbank-ai/sbert_large_nlu_ru")
model = AutoModel.from_pretrained("sberbank-ai/sbert_large_nlu_ru")
model.to("cuda")

BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(120138, 1024, padding_idx=0)
    (position_embeddings): Embedding(512, 1024)
    (token_type_embeddings): Embedding(2, 1024)
    (LayerNorm): LayerNorm((1024,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0): BertLayer(
        (attention): BertAttention(
          (self): BertSelfAttention(
            (query): Linear(in_features=1024, out_features=1024, bias=True)
            (key): Linear(in_features=1024, out_features=1024, bias=True)
            (value): Linear(in_features=1024, out_features=1024, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=1024, out_features=1024, bias=True)
            (LayerNorm): LayerNorm((1024,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=Fal

# Dev

## Dev dataset metrics

In [13]:
dev_df = pd.read_csv(DATA_DIR / "prepared_data" / "dev_df_metrics.csv")

In [14]:
dev_df

Unnamed: 0,input,output,cosine_sim,rouge_l,input_len,output_len
0,14 декабря 1944 года рабочий посёлок Ички был ...,14 декабря 1944 года рабочий посёлок Ички пере...,0.920691,0.642857,20,10
1,1960 году была выпущена модель 172A. Изменени...,В 1960 году вышла модель 172А. Отличие в хвост...,0.873007,0.352941,20,17
2,1960 году была выпущена модель 172A. Изменени...,В выпущенной в 1960 году модель имела изменени...,0.846864,0.312500,20,14
3,1960 году была выпущена модель 172A. Изменени...,Изменения: в хвосте и руле направления с обрат...,0.723221,0.606061,20,14
4,1960 году была выпущена модель 172A. Изменени...,"Модель 172А с другим хвостовым оперением, кре...",0.905622,0.324324,20,19
...,...,...,...,...,...,...
3401,Язгуля́мский язы́к (самоназвание — Yuzdami zev...,"Язгулямский язык - один из языков, на котором ...",0.920762,0.388889,18,17
3402,Язгуля́мский язы́к (самоназвание — Yuzdami zev...,Язгуля́мский язы́к — один из памирских языков ...,0.956768,0.529412,18,15
3403,Японский космический аппарат Хаябуса успешно д...,Японский космический аппарат Хаябуса успешно д...,0.977265,0.896552,15,14
3404,Изображение соцветия подсолнечника на щите озн...,Соцветие подсолнечника - олицетворение сегодня...,0.777837,0.210526,13,5


In [15]:
dev_df_grouped = dev_df.groupby("input").agg(
    {"output": list, "cosine_sim": list, "rouge_l": list, "input_len": max, "output_len": list}
).reset_index()

In [16]:
dev_df_grouped

Unnamed: 0,input,output,cosine_sim,rouge_l,input_len,output_len
0,1960 году была выпущена модель 172A. Изменени...,[В 1960 году вышла модель 172А. Отличие в хвос...,"[0.8730071783065796, 0.8468641042709351, 0.723...","[0.3529411715397924, 0.3124999951757813, 0.606...",20,"[17, 14, 14, 19]"
1,14 декабря 1944 года рабочий посёлок Ички был ...,[14 декабря 1944 года рабочий посёлок Ички пер...,[0.9206905961036682],[0.6428571382653062],20,[10]
2,26 августа 2014 года Болдок принял участие в п...,[26 августа 2014 года Болдок выиграл футбольны...,"[0.8274444937705994, 0.9261506199836732]","[0.5777777729777778, 0.6222222174222223]",28,"[18, 18]"
3,Armory — клиент с различными функциями для пов...,[Armory - программа с различными функциями для...,[0.924230694770813],[0.5454545404648761],20,[23]
4,Concert for Diana (рус. Концерт для Дианы) — к...,"[Concert for Diana - это концерт, посвящённый ...","[0.8712961673736572, 0.8228520154953003, 0.875...","[0.3703703655418381, 0.319999995392, 0.3999999...",15,"[10, 9, 8]"
...,...,...,...,...,...,...
995,Эффективность азитромицина при лечении инфекци...,[Азитромицин показал свою эффективность в лече...,"[0.9227253198623656, 0.6798684597015381, 0.837...","[0.5714285664540818, 0.1052631545706372, 0.357...",15,"[13, 4, 13, 8, 13]"
996,Юг и среднюю часть республики занимают горы и ...,"[Часть республики занимают горы, а часть низме...","[0.7854164242744446, 0.9339486956596376]","[0.2727272683884298, 0.3999999952]",16,"[7, 9]"
997,Юго-Восточное побережье — Феодосийский и Судак...,"[Весь Крым находится под охраной государства.,...","[0.6608866453170776, 0.8181402087211609, 0.882...","[0.2857142816326531, 0.3571428521683673, 0.479...",14,"[6, 13, 10, 12, 7]"
998,Язгуля́мский язы́к (самоназвание — Yuzdami zev...,"[Язгулямский язык - один из языков, на котором...","[0.9207618236541748, 0.9567684531211852]","[0.388888883904321, 0.5294117597750866]",18,"[17, 15]"


## Predictions for dev

In [68]:
preds = pd.read_csv("submissions/dev_1_ep3.csv")

In [69]:
preds_df = pd.DataFrame({"pred": preds.values.reshape(-1, 1).ravel()})
preds_df["input"] = np.array([[i] * 5 for i in dev_df_grouped["input"]]).ravel()

In [70]:
%%time
preds_df["cosine_sim"] = preds_df.apply(
    lambda x: get_similarities(model, tokenizer, x["pred"], x["input"]), axis=1
)
preds_df["cosine_sim"] = preds_df["cosine_sim"].apply(lambda x: x[0][0])

CPU times: user 2min 20s, sys: 298 ms, total: 2min 20s
Wall time: 2min 20s


In [71]:
%%time
preds_df["rouge_l"] = preds_df.apply(lambda x: get_rougel(x["pred"], x["input"]), axis=1)

CPU times: user 1.57 s, sys: 7.98 ms, total: 1.57 s
Wall time: 1.57 s


In [72]:
preds_df["ref"] = [l for sublist in dev_df_grouped["output"].apply(lambda x: [x] * 5).tolist() for l in sublist]
preds_df["ref"] = preds_df["ref"].apply(lambda x: [[i] for i in x])

preds_df["pred_len"] = preds_df["pred"].apply(lambda x: len(get_word_tokens(x)))
preds_df["input_len"] = preds_df["input"].apply(lambda x: len(get_word_tokens(x)))

In [73]:
preds_df["sari"] = preds_df.apply(
    lambda x: corpus_sari(
        orig_sents=[x["input"]],
        sys_sents=[x["pred"]],
        refs_sents=x["ref"],
    ), axis=1
)

In [74]:
preds_df

Unnamed: 0,pred,input,cosine_sim,rouge_l,ref,pred_len,input_len,sari
0,1960 г. - модель 172A была изменена с хвостово...,1960 году была выпущена модель 172A. Изменени...,0.826491,0.270270,[[В 1960 году вышла модель 172А. Отличие в хво...,17,20,32.689777
1,Хвостовое оперение и рулевое управление с обра...,1960 году была выпущена модель 172A. Изменени...,0.785438,0.580645,[[В 1960 году вышла модель 172А. Отличие в хво...,13,20,38.717239
2,1960 г. - модель 172A была изменена на хвостов...,1960 году была выпущена модель 172A. Изменени...,0.892796,0.666667,[[В 1960 году вышла модель 172А. Отличие в хво...,20,20,31.435584
3,Смены. Изменения: хвостовое оперение и рулевое...,1960 году была выпущена модель 172A. Изменени...,0.766883,0.666667,[[В 1960 году вышла модель 172А. Отличие в хво...,15,20,32.542526
4,Смена конструкции: хвостовое оперение и рулево...,1960 году была выпущена модель 172A. Изменени...,0.761799,0.606061,[[В 1960 году вышла модель 172А. Отличие в хво...,15,20,36.499031
...,...,...,...,...,...,...,...,...
4995,"""Японский космический аппарат Хаябуса успешно ...",Японский космический аппарат Хаябуса успешно д...,0.922836,0.812500,[[Японский космический аппарат Хаябуса успешно...,16,15,26.061508
4996,"""Японский космический аппарат Хаябуса успешно ...",Японский космический аппарат Хаябуса успешно д...,0.928726,0.551724,[[Японский космический аппарат Хаябуса успешно...,14,15,54.897741
4997,"""Японский космический аппарат Xаябуса успешно ...",Японский космический аппарат Хаябуса успешно д...,0.909516,0.774194,[[Японский космический аппарат Хаябуса успешно...,16,15,20.000542
4998,"""Японский космический корабль Xаябуса успешно ...",Японский космический аппарат Хаябуса успешно д...,0.924177,0.666667,[[Японский космический аппарат Хаябуса успешно...,15,15,17.433166


### Random Forest

#### Fit part

In [76]:
rf = RandomForestRegressor(n_jobs=-1, random_state=19)

In [79]:
X_train = preds_df[["cosine_sim", "rouge_l", "input_len", "pred_len"]][:4000]
y_train = preds_df["sari"][:4000]
X_test = preds_df[["cosine_sim", "rouge_l", "input_len", "pred_len"]][4000:]
y_test = preds_df["sari"][4000:]

In [80]:
rf.fit(X_train, y_train)

RandomForestRegressor(n_jobs=-1, random_state=19)

In [81]:
preds_df["sari_pred"] = rf.predict(preds_df[["cosine_sim", "rouge_l", "input_len", "pred_len"]])

In [82]:
preds_df

Unnamed: 0,pred,input,cosine_sim,rouge_l,ref,pred_len,input_len,sari,sari_pred
0,1960 г. - модель 172A была изменена с хвостово...,1960 году была выпущена модель 172A. Изменени...,0.826491,0.270270,[[В 1960 году вышла модель 172А. Отличие в хво...,17,20,32.689777,35.020007
1,Хвостовое оперение и рулевое управление с обра...,1960 году была выпущена модель 172A. Изменени...,0.785438,0.580645,[[В 1960 году вышла модель 172А. Отличие в хво...,13,20,38.717239,39.297168
2,1960 г. - модель 172A была изменена на хвостов...,1960 году была выпущена модель 172A. Изменени...,0.892796,0.666667,[[В 1960 году вышла модель 172А. Отличие в хво...,20,20,31.435584,29.140264
3,Смены. Изменения: хвостовое оперение и рулевое...,1960 году была выпущена модель 172A. Изменени...,0.766883,0.666667,[[В 1960 году вышла модель 172А. Отличие в хво...,15,20,32.542526,33.516263
4,Смена конструкции: хвостовое оперение и рулево...,1960 году была выпущена модель 172A. Изменени...,0.761799,0.606061,[[В 1960 году вышла модель 172А. Отличие в хво...,15,20,36.499031,35.040157
...,...,...,...,...,...,...,...,...,...
4995,"""Японский космический аппарат Хаябуса успешно ...",Японский космический аппарат Хаябуса успешно д...,0.922836,0.812500,[[Японский космический аппарат Хаябуса успешно...,16,15,26.061508,23.401204
4996,"""Японский космический аппарат Хаябуса успешно ...",Японский космический аппарат Хаябуса успешно д...,0.928726,0.551724,[[Японский космический аппарат Хаябуса успешно...,14,15,54.897741,38.849847
4997,"""Японский космический аппарат Xаябуса успешно ...",Японский космический аппарат Хаябуса успешно д...,0.909516,0.774194,[[Японский космический аппарат Хаябуса успешно...,16,15,20.000542,22.312628
4998,"""Японский космический корабль Xаябуса успешно ...",Японский космический аппарат Хаябуса успешно д...,0.924177,0.666667,[[Японский космический аппарат Хаябуса успешно...,15,15,17.433166,31.748565


In [114]:
i = np.random.choice(np.arange(800, 1001))

preds_df.sort_values(["input", "sari"])[i*5:i*5+5]

Unnamed: 0,pred,input,cosine_sim,rouge_l,ref,pred_len,input_len,sari,sari_pred
4771,"Хотя мечте Петра не суждено было сбыться, имен...","Хотя мечте Петра не суждено было сбыться, имен...",0.974633,0.827586,"[[Петр начал стройку, увидев похожее за рубежо...",14,15,22.163183,26.045381
4774,"""Хотя мечте Петра не суждено было сбыться, име...","Хотя мечте Петра не суждено было сбыться, имен...",0.911609,0.733333,"[[Петр начал стройку, увидев похожее за рубежо...",14,15,22.163183,30.573813
4773,"Хотя мечте Петра не суждено было сбыться, имен...","Хотя мечте Петра не суждено было сбыться, имен...",0.861299,0.642857,"[[Петр начал стройку, увидев похожее за рубежо...",13,15,23.96735,32.778133
4770,"Хотя мечте Петра не суждено было сбыться, имен...","Хотя мечте Петра не суждено было сбыться, имен...",0.98946,0.8,"[[Петр начал стройку, увидев похожее за рубежо...",15,15,24.42372,28.070229
4772,"Хотя мечте Петра не суждено было сбыться, имен...","Хотя мечте Петра не суждено было сбыться, имен...",0.98946,0.8,"[[Петр начал стройку, увидев похожее за рубежо...",15,15,24.42372,28.070229


#### Fit whole dev dataset

In [116]:
rf = RandomForestRegressor(n_jobs=-1, random_state=19)

In [117]:
X_train = preds_df[["cosine_sim", "rouge_l", "input_len", "pred_len"]]
y_train = preds_df["sari"]

In [118]:
rf.fit(X_train, y_train)

RandomForestRegressor(n_jobs=-1, random_state=19)

In [119]:
preds_df["sari_pred"] = rf.predict(preds_df[["cosine_sim", "rouge_l", "input_len", "pred_len"]])

In [121]:
i = np.random.choice(1000)

preds_df.sort_values(["input", "sari"])[i*5:i*5+5]

Unnamed: 0,pred,input,cosine_sim,rouge_l,ref,pred_len,input_len,sari,sari_pred
4479,"""Таким образом, если, например, превращенная и...","Таким образом, если, например, превращённая из...",0.922345,0.807018,"[[Если пешка угрожает королю, то король сразу ...",26,31,23.209703,26.214509
4475,"Это означает, что если, например, превращенная...","Таким образом, если, например, превращённая из...",0.893138,0.701754,"[[Если пешка угрожает королю, то король сразу ...",26,31,30.103601,31.329087
4477,"Если, например, превращенная из пешки фигура у...","Таким образом, если, например, превращённая из...",0.915695,0.754717,"[[Если пешка угрожает королю, то король сразу ...",22,31,31.046662,30.026323
4478,"Верно также то, что, если этот король находитс...","Таким образом, если, например, превращённая из...",0.783451,0.528302,"[[Если пешка угрожает королю, то король сразу ...",27,31,35.240109,34.897839
4476,Если фигура противника стоит на последней гори...,"Таким образом, если, например, превращённая из...",0.856502,0.272727,"[[Если пешка угрожает королю, то король сразу ...",13,31,43.466395,40.742714


### SARI for whole dataset

In [108]:
# max sari
corpus_sari(
    orig_sents=dev_df_grouped["input"].tolist(),
    sys_sents=preds_df.sort_values(["input", "sari"], ascending=[True, False])["pred"][::5].tolist(), 
    refs_sents=list(zip_longest(*dev_df_grouped["output"].tolist(), fillvalue="")),
)

38.85631583959559

In [107]:
# min length
corpus_sari(
    orig_sents=dev_df_grouped["input"].tolist(),
    sys_sents=preds_df.sort_values(["input", "pred_len"], ascending=[True, True])["pred"][::5].tolist(), 
    refs_sents=list(zip_longest(*dev_df_grouped["output"].tolist(), fillvalue="")),
)

35.2390345048515

In [109]:
# min cosine similarity
corpus_sari(
    orig_sents=dev_df_grouped["input"].tolist(),
    sys_sents=preds_df.sort_values(["input", "cosine_sim"], ascending=[True, True])["pred"][::5].tolist(), 
    refs_sents=list(zip_longest(*dev_df_grouped["output"].tolist(), fillvalue="")),
)

35.24462192733768

In [110]:
# min rouge-l
corpus_sari(
    orig_sents=dev_df_grouped["input"].tolist(),
    sys_sents=preds_df.sort_values(["input", "rouge_l"], ascending=[True, True])["pred"][::5].tolist(), 
    refs_sents=list(zip_longest(*dev_df_grouped["output"].tolist(), fillvalue="")),
)

36.65483087479079

# Predict test

In [9]:
with open(TEST_PATH) as f:
    test_input = [l.strip() for l in f]

In [102]:
pred_test = pd.read_csv("submissions/3_sim_ep3_bs8_5.csv")

pred_test = pd.DataFrame({"pred": pred_test.values.reshape(-1, 1).ravel()})
pred_test["input"] = np.array([[i] * 5 for i in test_input]).ravel()

In [103]:
pred_test["pred_len"] = pred_test["pred"].apply(lambda x: len(get_word_tokens(x)))
pred_test["cosine_sim"] = pred_test.apply(lambda x: get_similarities(model, tokenizer, x["pred"], x["input"]),
                                    axis=1)
pred_test["cosine_sim"] = pred_test["cosine_sim"].apply(lambda x: x[0][0])
pred_test["rouge_l"] = pred_test.apply(lambda x: get_rougel(x["pred"], x["input"]), axis=1)

## Predict by min of some metric

In [104]:
pred_test.sort_values(["input", "rouge_l"], ascending=True)["pred"][::5]

1       Архиепископ Тихон снова удостоил его рукополож...
5       22 марта 1951 года советское правительство наг...
12      В 1821 году представители испанской короны и И...
18      Феодор был назначен наместником Петропавловско...
21      Он был выпущен для использования в качестве во...
                              ...                        
4975    В физике это называется гравитационным взаимод...
4982    Mac OS X - это популярная операционная система...
4988    Это означало, что бренд использовал шоковую ре...
4994    Этот жанр стал очень популярным во времена «но...
4997    В Маньчжурии армия Красной Армии, которая позж...
Name: pred, Length: 1000, dtype: object

In [105]:
pred_test.sort_values(["input", "rouge_l"], ascending=True)["pred"][::5].to_csv(
    "submissions/08_sim_bs8_ep3_min_rougel/answer.txt", index=False, header=None)

## Predict with RF

In [2]:
from sklearn.tree import DecisionTreeRegressor

In [10]:
def get_preds_df(preds, input_texts):
    preds_df = pd.DataFrame({"pred": preds.values.reshape(-1, 1).ravel()})
    preds_df["input"] = np.array([[i] * 5 for i in input_texts]).ravel()
    preds_df["pred_len"] = preds_df["pred"].apply(lambda x: len(get_word_tokens(x)))
    preds_df["input_len"] = preds_df["input"].apply(lambda x: len(get_word_tokens(x)))
    preds_df["cosine_sim"] = preds_df.apply(lambda x: get_similarities(model, tokenizer, x["pred"], x["input"]),
                                        axis=1)
    preds_df["cosine_sim"] = preds_df["cosine_sim"].apply(lambda x: x[0][0])
    preds_df["rouge_l"] = preds_df.apply(lambda x: get_rougel(x["pred"], x["input"]), axis=1)
    return preds_df

In [11]:
def get_rf_from_dev(dev_df, preds_dev, max_depth=None):
    preds_df = preds_dev.copy()
    dev_df_grouped = dev_df.groupby("input").agg(
        {"output": list, "cosine_sim": list, "rouge_l": list, "input_len": max, "output_len": list}
    ).reset_index()
    preds_df["ref"] = [l for sublist in dev_df_grouped["output"].apply(lambda x: [x] * 5).tolist() for l in sublist]
    preds_df["ref"] = preds_df["ref"].apply(lambda x: [[i] for i in x])

    preds_df["pred_len"] = preds_df["pred"].apply(lambda x: len(get_word_tokens(x)))
    preds_df["input_len"] = preds_df["input"].apply(lambda x: len(get_word_tokens(x)))

    preds_df["sari"] = preds_df.apply(
        lambda x: corpus_sari(
            orig_sents=[x["input"]],
            sys_sents=[x["pred"]],
            refs_sents=x["ref"],
        ), axis=1
    )
    
    rf = RandomForestRegressor(n_estimators=1000, max_depth=max_depth, n_jobs=-1, random_state=19)
    
    X_train = preds_df[["cosine_sim", "rouge_l", "input_len", "pred_len"]]
    y_train = preds_df["sari"]
    
    rf.fit(X_train, y_train)
    
    return rf, preds_df

In [12]:
TEST_PATH_PRIVATE = Path("data/hidden_test_only.csv")

In [13]:
with open(TEST_PATH_PRIVATE) as f:
    test_input = [l.strip() for l in f]

dev_df = pd.read_csv(DATA_DIR / "prepared_data" / "dev_df_metrics.csv")
dev_df_grouped = dev_df.groupby("input").agg(
    {"output": list, "cosine_sim": list, "rouge_l": list, "input_len": max, "output_len": list}
).reset_index()

dev_input = dev_df_grouped["input"].tolist()

In [14]:
%%time
pred_test = pd.read_csv("submissions/private_3_sim_ep3_bs8.csv")
pred_test = get_preds_df(pred_test, test_input)

CPU times: user 2min 45s, sys: 115 ms, total: 2min 45s
Wall time: 2min 45s


In [15]:
%%time
preds_dev = pd.read_csv("submissions/dev_3_sim_ep3_bs8.csv")
preds_dev = get_preds_df(preds_dev, dev_input)

CPU times: user 2min 28s, sys: 76 ms, total: 2min 28s
Wall time: 2min 28s


In [16]:
rf, preds_df = get_rf_from_dev(dev_df, preds_dev, max_depth=5)

In [17]:
explain_weights_sklearn(rf)

Weight,Feature
0.8577  ± 0.0360,x1
0.0837  ± 0.0327,x0
0.0402  ± 0.0263,x3
0.0184  ± 0.0210,x2


In [18]:
preds_df["sari_pred"] = rf.predict(preds_df[["cosine_sim", "rouge_l", "input_len", "pred_len"]])

In [19]:
pred_test["sari_pred"] = rf.predict(pred_test[["cosine_sim", "rouge_l", "input_len", "pred_len"]])

In [20]:
i = np.random.choice(1000)

pred_test.sort_values(["input", "sari_pred"])[i*5:i*5+5]

Unnamed: 0,pred,input,pred_len,input_len,cosine_sim,rouge_l,sari_pred
2294,На протяжении боя Гомес два раза попадал в нок...,На протяжении боя Гомес два раза побывал в нок...,18,18,0.988052,0.777778,30.152354
2292,"Во время боя Гомес дважды попадал в нокдаун, а...",На протяжении боя Гомес два раза побывал в нок...,17,18,0.982828,0.571429,35.412536
2290,"Гомес дважды попадал в нокдаун, а также оба бо...",На протяжении боя Гомес два раза побывал в нок...,14,18,0.949115,0.5,37.100587
2293,"Гомес дважды упал, когда ударил боксера Кличко.",На протяжении боя Гомес два раза побывал в нок...,7,18,0.876578,0.16,37.105737
2291,На протяжении всего боя Гомес дважды был нокау...,На протяжении боя Гомес два раза побывал в нок...,8,18,0.937171,0.307692,37.228614


In [40]:
sample = pred_test.sort_values(["input", "sari_pred"], ascending=[True, False])[["input", "pred"]][::5].sample()
print(sample["input"].item(), sample["pred"].item(), sep="\n")

Лейси активно начал поединок, прессингуя и зажимая Джонса у канатов ринга, но Рой умело уходил от ударов и большинство блокировал.
Лейси начал битву с шиканом, прижав Джонса к канатам ринга. Рой успешно ушел от ударов и большинство блокировал.


In [43]:
tmp = pred_test.sort_values(["input", "sari_pred"], ascending=[True, False])[::5]

pred_dict = dict(zip(tmp["input"], tmp["pred"]))

In [44]:
predictions = [pred_dict[i] for i in test_input]

In [47]:
pd.DataFrame(predictions).to_csv(
    "submissions/private_01_3_sim_ep3_bs8_rf5_est1000_max_pred_sari/answer.txt", index=False, header=None)

In [25]:
pred_test.sort_values(["input", "sari_pred"], ascending=[True, False])["pred"][::5].to_csv(
    "submissions/private_01_3_sim_ep3_bs8_rf5_est1000_max_pred_sari/answer.txt", index=False, header=None)

In [27]:
pred_test.sort_values(["input", "sari_pred"], ascending=[True, False])["pred"][::5]

7       CD8 (кластер дифференцировки 8) - это белок, и...
12      Facebook была неоднократно наказана по постано...
17      Facebook подвергался критике за множество нару...
22      Игрок может создавать сложные логические венти...
28      Оскар Александрович Энгберг изготовил обручи, ...
                              ...                        
4650    Южнее находится зона широколиственных лесов, с...
4656    Ядерные силовые установки решают проблему неог...
4663    Язык - один из часто используемых признаков ра...
4666    Япония находится у Тихоокеанского вулканическо...
4674    Япония имеет высокий уровень жизни и является ...
Name: pred, Length: 1126, dtype: object