# Обучение моделей скорера

В этом нотбуке будет произведен сбор обучающей выборки и обучение скорера на основе ranking SVM, CatBoost использованием дополнительных признаков.

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import gc
import sys
import os
import json
import pickle
import re
from copy import copy, deepcopy
from string import punctuation
sys.path.append('..')

import dotenv
import numpy as np
import pandas as pd
from transformers import BertForMaskedLM, BertTokenizer, BertConfig

from deeppavlov.core.data.simple_vocab import SimpleVocabulary

import kenlm
from sacremoses import MosesTokenizer, MosesDetokenizer

from src.models.SpellChecker import *
from src.models.BertScorer.bert_scorer_correction import (
    BertScorerCorrection
)
from src.evaluation.spell_ru_eval import align_sents

from sklearn.svm import LinearSVC
from sklearn.model_selection import KFold
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

import catboost
from catboost import CatBoost, Pool, MetricVisualizer

from IPython.display import display
from tqdm.notebook import tqdm

[nltk_data] Downloading package punkt to /home/mrgeekman/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/mrgeekman/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package perluniprops to
[nltk_data]     /home/mrgeekman/nltk_data...
[nltk_data]   Package perluniprops is already up-to-date!
[nltk_data] Downloading package nonbreaking_prefixes to
[nltk_data]     /home/mrgeekman/nltk_data...
[nltk_data]   Package nonbreaking_prefixes is already up-to-date!


In [3]:
PROJECT_PATH = os.path.join(os.path.abspath(''), os.pardir)
DATA_PATH = os.path.join(PROJECT_PATH, 'data')
MODEL_PATH = os.path.join(PROJECT_PATH, 'models')

## Нахождение корректных токенов

Начнем с того, что найдем какие токены в каждой позиции правильные. Так как наша модель не умеет никак объединять токены надо будет найти те предложения, где токены исходного предложения не объединяются.

Создадим токенизаторы.

In [4]:
raw_tokenizer = MosesTokenizer(lang='ru')
raw_detokenizer = MosesDetokenizer(lang='ru')
tokenizer = lambda x: raw_tokenizer.tokenize(x, escape=False)
detokenizer = lambda x: raw_detokenizer.detokenize(x)

Прочитаем все предложения.

In [5]:
with open(
    os.path.join(DATA_PATH, 'external', 'spell_ru_eval', 'train_source.txt'), 
    'r'
) as inf:
    sentences = inf.readlines()
    
with open(
    os.path.join(DATA_PATH, 'external', 'spell_ru_eval', 
                 'train_corrected.txt'), 
    'r'
) as inf:
    sentences_corrected = inf.readlines()

Построим выравнивание между исходными предложениями и корректными исправлениями.

In [6]:
def find_true_correction(sentence, sentence_corrected):
    """Find correction for sentence."""
    tokenized_sentence_raw = tokenizer(
        sentence.lower().replace('ё', 'е')
    )
    tokenized_sentence_corrected = tokenizer(
        sentence_corrected.lower().replace('ё', 'е')
    )
    # remove punctuation from source sentence and make mapping 
    # to initial indices
    tokenized_sentence = []
    indices_mapping = []
    for i, token in enumerate(tokenized_sentence_raw):
        if not re.fullmatch(f'[{punctuation}«»]+', token):
            tokenized_sentence.append(token)
            indices_mapping.append(i)
    
    alignment = align_sents(tokenized_sentence, tokenized_sentence_corrected)
    answer = {}
    for i, pair in enumerate(alignment):
        left_indices, right_indices = pair
        key = (indices_mapping[left_indices[0]], 
               indices_mapping[left_indices[1]-1])
        key = tuple(range(key[0], key[1]+1))
        answer[key] = (
            detokenizer(
                 tokenized_sentence_corrected[
                     right_indices[0]:right_indices[1]]
            )
        )
    return answer

Выполняем действие над всеми предложениями в обучающем датасете.

In [7]:
answers = []
for i, (sentence, sentence_corrected) in enumerate(
    zip(sentences, sentences_corrected)
):
    answers.append(find_true_correction(sentence, sentence_corrected))

Посмотрим на пример в случае "несколько к одному".

In [8]:
answers[21]

{(0,): 'в общем',
 (1,): 'как',
 (2,): 'вы',
 (3,): 'знаете',
 (4,): 'из',
 (5,): 'моего',
 (6, 7): 'недавнего',
 (8,): 'поста',
 (9,): 'я',
 (10,): 'жаловался',
 (11,): 'на',
 (12,): 'пропажу',
 (13,): 'писем',
 (14,): 'с',
 (15,): 'моего',
 (16,): 'ящика',
 (17,): 'на',
 (18,): 'почте.ру'}

## Сбор обучающей выборки

Теперь требуется собрать саму обучающую выборку. 

Пусть на вход подается некоторое предложение для исправления. В процессе работы модели position selector находит позиции для исправления и подает в candidate scorer список кандидатов. Наша задача &mdash; зафиксировать номер выбранной позиции и список пришедших кандидатов вместе с их признаками.

Такое сохранение будет сделано при помощи callback-функции после вызова candidate scorer. Она соберет позиции, кандидатов с признаками, результаты скоринга при помощи BERT и запишет это в файл.

In [None]:
data = {}

In [None]:
def create_callback_bert_scorer(num_batch):
    def callback_bert_scorer(
        tokenized_sentences, 
        indices_processing_sentences, indices_combined,
        candidates, positions, 
        scoring_results, scoring_info
    ):
        for num_sent, candidates_sentence in enumerate(candidates):
            candidates_to_dump = []
            position = positions[num_sent]
            for i, candidate in enumerate(candidates_sentence[position]):
                copy_candidate = copy(candidate)
                copy_candidate.update(scoring_info[num_sent][i])
                candidates_to_dump.append(copy_candidate)

            key = (num_batch, indices_processing_sentences[num_sent])
            if key not in data:
                data[key] = []
            data[key].append({
                'position': tuple(indices_combined[num_sent][position]),
                'candidates': candidates_to_dump
            })
    return callback_bert_scorer

Проинициализируем модель.

In [None]:
vocab_path = os.path.join(DATA_PATH, 'external', 'hagen_wiktionary', 
                          'wordforms_clear.txt')
with open(vocab_path, 'r') as inf:
    vocab = list(map(lambda x: x.strip(), inf.readlines()))
handcode_table_path = os.path.join(DATA_PATH, 'processed', 'handcode_table', 
                                   'table.json')
with open(handcode_table_path, 'r') as inf:
    handcode_table = json.load(inf)
candidate_generator = CandidateGenerator(
    words=vocab, handcode_table=handcode_table, max_distance=1
)

In [None]:
model_left_right = kenlm.LanguageModel(
    os.path.join(MODEL_PATH, 'kenlm', 'left_right_3_100.arpa.binary')
)
model_right_left = kenlm.LanguageModel(
    os.path.join(MODEL_PATH, 'kenlm', 'right_left_3_100.arpa.binary')
)
margin_border = np.log(2.5)
position_selector = KenlmMarginPositionSelector(
    model_left_right, model_right_left, margin_border=margin_border
)

In [None]:
BERT_PATH = os.path.join(MODEL_PATH, 'conversational_rubert')
config = BertConfig.from_json_file(
    os.path.join(BERT_PATH, 'bert_config.json')
)
model = BertForMaskedLM.from_pretrained(
    os.path.join(BERT_PATH, 'pytorch_model.bin'),
    config=config
)
bert_tokenizer = BertTokenizer(os.path.join(BERT_PATH, 'vocab.txt'))
bert_scorer_correction = BertScorerCorrection(model, bert_tokenizer)
agg_subtoken_func = 'mean'
bert_scorer = BertScorer(
    bert_scorer_correction, agg_subtoken_func
)
candidate_scorer = CandidateScorer(bert_scorer)

In [None]:
# максимальное количество итераций
max_it = 5

spellchecker = IterativeSpellChecker(
    candidate_generator,
    position_selector,
    candidate_scorer,
    tokenizer,
    detokenizer,
    max_it=max_it,
    combine_tokens=False
)

Запустим сбор обучающей выборки.

In [None]:
batch_size = 5
num_batches = int(np.ceil(len(sentences) / batch_size))

for i in tqdm(range(num_batches)):
    cur_sentences = sentences[i*batch_size:(i+1)*batch_size]
    spellchecker(
        cur_sentences,
        callback_candidate_scorer=create_callback_bert_scorer(i)
    )

Переведем текущие индексы предложений в исходные и сохраним данные на диск.

In [None]:
data_adjusted = {}
for key, value in data.items():
    key_adjusted = key[0]*batch_size + key[1]
    data_adjusted[key_adjusted] = value
    
data = data_adjusted

In [None]:
data_with_answers = {}
num_fails = 0
num_combinations = 0
for key, value in data.items():
    new_value = []
    for item in value:
        new_item = copy(item)
        position = item['position']
        if position in answers[key]:
            new_item['answer'] = answers[key][position]
            new_value.append(new_item)
        elif (
            len(position) == 2 
            and (position[0],) in answers[key] 
            and (position[1],) in answers[key]
        ):
            position_1 = (position[0],)
            position_2 = (position[1],)
            new_item['answer'] = (
                f'{answers[key][position_1]} '
                f'{answers[key][position_2]}'
            )
            new_value.append(new_item)
            num_combinations += 1
        else:
            num_fails += 1
        
    data_with_answers[key] = new_value
    
data = data_with_answers

In [None]:
print(f'Количество объединений: {num_combinations}')
print(f'Количество ошибок: {num_fails}')

Количество объединений: $0$

Количество ошибок: $37$

In [None]:
!mkdir -p ../data/processed/candidate_scorer

In [None]:
save_path = os.path.join(DATA_PATH, 'processed', 'candidate_scorer', 
                         'data.bin')
with open(save_path, 'wb') as ouf:
    pickle.dump(data, ouf)

### Аналитика

Проведем небольшую аналитку по данным. Найдем:
1. Количество предложений без исправлений.
2. Среднее количество исправлений.
3. Доля случаев, когда использовано максимальное число итераций.
4. Доля случаев, когда нет корректного токена в списке кандидатов.
5. Среднее количество кандидатов.
6. Доля случаев, когда надо оставить изначальный токен при изменении.

In [9]:
load_path = os.path.join(DATA_PATH, 'processed', 'candidate_scorer', 
                         'data.bin')
with open(load_path, 'rb') as inf:
    data = pickle.load(inf)

1). Количество предложений без исправлений.

In [10]:
len(sentences) - len(data.keys())

582

Как видим, почти четверть предложений остались без исправлений. 

Исходя из статьи, посвященной соревнованию, данные которого мы используем, на валидацию и тест было отведено в сумме 1600 корректных предложений. Они разделялись поровно и случайно, поэтому нет гарантий, что удастся получить ровно 800. Следует так же учесть, что часть ошибок модель не смогла заметиь, а часть не может заметить в принципе. Так что полученное значение выглядит правдоподобно.

2). Среднее количество исправлений в предложениях, в которых хоть что-то было исправлено.

In [11]:
num_corrections = []
for key, value in data.items():
    num_corrections.append(len(value))
num_corrections = np.array(num_corrections)
print(f'Среднее количество исправлений: {np.mean(num_corrections):.3f}')

Среднее количество исправлений: 2.060


В среднем имеем примерно два исправления на предложение.

3). Доля случаев, когда использовано максимальное число итераций.

In [12]:
print(f'Доля случаев, когда использовано максимальное число итерераций: '
      f'{np.mean(num_corrections == 5):.3f}')

Доля случаев, когда использовано максимальное число итерераций: 0.092


4). Доля случаев, когда нет корректного токена в списке кандидатов.

In [13]:
exist_correct_candidate = []
for key, value in data.items():
    for item in value:
        answer = item['answer']
        candidates = [x['token'] for x in item['candidates']]
        exist_correct_candidate.append(answer in candidates)
        
print(f'Доля случаев, когда нет корректного токена в списке: '
      f'{1-np.mean(exist_correct_candidate):.3f}')

Доля случаев, когда нет корректного токена в списке: 0.021


5). Среднее количество кандидатов.

In [14]:
num_candidates = []
for key, value in data.items():
    for item in value:
        num_candidates.append(len(item['candidates']))
print(f'Среднее количество кандидатов: {np.mean(num_candidates):.3f}')

Среднее количество кандидатов: 14.951


6). Доля случаев, когда надо оставить изначальный токен при изменении.

In [15]:
remain_original = []
for key, value in data.items():
    for item in value:
        answer = item['answer']
        candidates = [x['token'] for x in item['candidates'] if x['is_original']]
        remain_original.append(answer in candidates)
        
print(f'Доля случаев, когда надо оставить изначальный токен: '
      f'{np.mean(remain_original):.3f}')

Доля случаев, когда надо оставить изначальный токен: 0.422


Как видим, изначальный токен надо оставить в достаточно большом количестве случаев.

## Обучение модели

Теперь обучим модель. Будем решать задачу ранжирования, потому что хотим уметь выбирать одного наилучшего кандидата.

В качестве итоговой метрики возьмем accuracy: частоту правильного угадывания верного исправления.

### Подготовка датафрейма

Начнем с создания датафрейма. Каждому случаю ранжирования надо присвоить отдельную группу.

In [16]:
candidate_keys = list(data[0][0]['candidates'][0].keys())
df_dict = {}
df_dict['group'] = []
df_dict['answer'] = []
group_idx = 0
df_dict.update({key: [] for key in candidate_keys})
for key_data, values_data in data.items():
    for i, item in enumerate(values_data):
        for candidate in item['candidates']:
            df_dict['group'].append(group_idx)
            df_dict['answer'].append(item['answer'])
            for key, value in candidate.items():
                df_dict[key].append(value)
        group_idx += 1

In [17]:
df = pd.DataFrame(df_dict)
df['is_correct'] = (df['token'] == df['answer']).astype(int)
df.head()

Unnamed: 0,group,answer,token,is_title,is_upper,is_lower,is_first,contains_space,contains_hyphen,from_levenshtein_searcher,...,is_current,from_vocabulary,kenlm_left_right_score,kenlm_right_left_score,kenlm_agg_score,margin_kenlm_agg,bert_score_len,bert_score_sum,bert_score_mean,is_correct
0,0,кто бы,ктобы,False,False,True,False,False,False,False,...,True,False,-7.820433,-8.266124,-8.037104,0.0,2,-12.701313,-6.350657,0
1,0,кто бы,кто бы,False,False,True,False,True,False,True,...,False,True,-5.504485,-4.735255,-5.090977,2.946127,2,-7.410309,-3.705155,1
2,0,кто бы,кобы,False,False,True,False,False,False,True,...,False,True,-6.913023,-8.063962,-7.44427,0.592835,1,-14.266356,-14.266356,0
3,0,кто бы,чтобы,False,False,True,False,False,False,True,...,False,True,-3.517485,-4.744852,-4.040006,3.997098,1,-6.150577,-6.150577,0
4,0,кто бы,катобы,False,False,True,False,False,False,True,...,False,True,-9.158336,-10.534254,-9.798227,-1.761123,2,-24.388681,-12.194341,0


In [18]:
groups = df['group'].reset_index(drop=True).unique()

### `BertScorer`

Сначала посмотрим, какое качество можно получить, используя уже известный нам `BertScorer`.

In [19]:
succ_predictions = []
for group in groups:
    df_group = df[df.group == group]
    scores = df_group['bert_score_mean']
    prediction_idx = np.argmax(scores)
    succ_predictions.append(
        df_group.answer.iloc[prediction_idx] 
        == df_group.token.iloc[prediction_idx]
    )

succ_predictions = np.array(succ_predictions)
accuracy = np.mean(succ_predictions)

In [20]:
print(f'Accuracy: {accuracy:.3f}')

Accuracy: 0.547


Видим не очень хорошее значение. Ниже мы увидим, что его можно сильно улучшить.

### Ranking SVM

Попробуем pair-wise подход, а именно ranking SVM. Для каждой позиции мы знаем какой из кандидатов (если, конечно, оптимальный кандидат есть в списке) является наилучшим. В таком случае в паре кандидатов, где один правильным мы знаем какой из них лучше &mdash; так и построим обучающую выборку.

Следует вспомнить, что ranking SVM будет обучаться на разницах признаковых векторов и предсказывать класс такого "разностного" объекта. Для применения этой модели надо будет запустить ее на всех признаковых векторах и найти самое большое значение decision function (это следствие линейности модели).

#### Подготовка данных

Теперь следует создать общий dataframe для попарного подхода. Таргет равен $1$, если кандидат, из которого вычитают строго лучше вычитаемого и $0$ если ситуация обратная (случай, когда не знаем какой из кандидатов лучше не рассматриваем).

Также следует заметить, что признаки: `is_title`, `is_upper`, `is_lower`, `is_first` в нашем подходе оказываются бесполезными, потому что они всегда будут нулевыми (внутри одной группы они у всех одинаковы). Тем не менее, мы их оставим для удобства инференса.

In [21]:
svm_keys = candidate_keys + ['is_correct']
svm_keys.remove('token')

In [22]:
df_svm = pd.DataFrame(columns=svm_keys + ['group'])
for group in df.group.unique():
    cur_data = df[df.group == group]
    cur_correct = cur_data[cur_data.is_correct.astype(bool)][svm_keys]
    cur_incorrect = cur_data[~cur_data.is_correct.astype(bool)][svm_keys]
    if not cur_correct.empty:
        negative_data = (cur_incorrect.astype(float) 
                         - cur_correct.iloc[0].astype(float))
        positive_data = -negative_data
        negative_data['group'] = group
        positive_data['group'] = group
        negative_data['is_correct'] = 0
        positive_data['is_correct'] = 1
        df_svm = df_svm.append(negative_data)
        df_svm = df_svm.append(positive_data)

df_svm = df_svm.astype(float)

Переименуем колонки, чтобы было понятнее, что представляет из себя этот датасет.

In [23]:
df_svm['is_better'] = df_svm['is_correct'].astype(int)
df_svm.drop(columns=['is_correct'], inplace=True)

In [24]:
df_svm.head()

Unnamed: 0,is_title,is_upper,is_lower,is_first,contains_space,contains_hyphen,from_levenshtein_searcher,from_phonetic_searcher,from_handcode_searcher,is_combined,...,from_vocabulary,kenlm_left_right_score,kenlm_right_left_score,kenlm_agg_score,margin_kenlm_agg,bert_score_len,bert_score_sum,bert_score_mean,group,is_better
0,0.0,0.0,0.0,0.0,-1.0,0.0,-1.0,0.0,0.0,0.0,...,-1.0,-2.315948,-3.530869,-2.946127,-2.946127,0.0,-5.291004,-2.645502,0.0,0
2,0.0,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,-1.408538,-3.328707,-2.353293,-2.353293,-1.0,-6.856046,-10.561201,0.0,0
3,0.0,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,1.987001,-0.009597,1.050971,1.050971,-1.0,1.259732,-2.445422,0.0,0
4,0.0,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,-3.65385,-5.798999,-4.70725,-4.70725,0.0,-16.978372,-8.489186,0.0,0
0,-0.0,-0.0,-0.0,-0.0,1.0,-0.0,1.0,-0.0,-0.0,-0.0,...,1.0,2.315948,3.530869,2.946127,2.946127,-0.0,5.291004,2.645502,0.0,1


Посмотрим на размер датасета:

In [25]:
df_svm.shape

(79552, 22)

Достаточно большой.

Преобразуем данные к виду, с которым будем работать в sklearn.

In [26]:
to_drop = [
    'is_better', 'group'
]
#to_drop += ['bert_score_len', 'bert_score_sum', 'bert_score_mean']
X = df_svm.drop(columns=to_drop).reset_index(drop=True)
groups_svm = df_svm['group'].reset_index(drop=True)
y = df_svm['is_better'].reset_index(drop=True)

In [27]:
X.head()

Unnamed: 0,is_title,is_upper,is_lower,is_first,contains_space,contains_hyphen,from_levenshtein_searcher,from_phonetic_searcher,from_handcode_searcher,is_combined,is_original,is_current,from_vocabulary,kenlm_left_right_score,kenlm_right_left_score,kenlm_agg_score,margin_kenlm_agg,bert_score_len,bert_score_sum,bert_score_mean
0,0.0,0.0,0.0,0.0,-1.0,0.0,-1.0,0.0,0.0,0.0,1.0,1.0,-1.0,-2.315948,-3.530869,-2.946127,-2.946127,0.0,-5.291004,-2.645502
1,0.0,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-1.408538,-3.328707,-2.353293,-2.353293,-1.0,-6.856046,-10.561201
2,0.0,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.987001,-0.009597,1.050971,1.050971,-1.0,1.259732,-2.445422
3,0.0,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-3.65385,-5.798999,-4.70725,-4.70725,0.0,-16.978372,-8.489186
4,-0.0,-0.0,-0.0,-0.0,1.0,-0.0,1.0,-0.0,-0.0,-0.0,-1.0,-1.0,1.0,2.315948,3.530869,2.946127,2.946127,-0.0,5.291004,2.645502


#### Обучение модели и ее тестирование

Теперь обучим модель и протестируем ее. Для этого будем делать кросс-валидацию по номерам группы, а на оставшихся для тестирования группах будем проверять, что самое большое предсказание получает лучший кандидат.

In [28]:
kf = KFold()
accuracy_values = []
for groups_indices_train, groups_indices_test in kf.split(groups):
    groups_train = groups[groups_indices_train]
    X_train = X.loc[groups_svm.isin(groups_train)]
    y_train = y.loc[groups_svm.isin(groups_train)]
    model = Pipeline(
        [('scaler', StandardScaler()), ('svc', LinearSVC(random_state=42))]
    )
    model = LinearSVC(random_state=42, max_iter=1000)
    model.fit(X_train, y_train)
    
    # test accuracy of prediction
    succ_predictions = []
    for group in groups[groups_indices_test]:
        df_group = df[df.group == group]
        X_test = df_group[X_train.columns]
        scores = model.decision_function(X_test)
        prediction_idx = np.argmax(scores)
        succ_predictions.append(
            df_group.answer.iloc[prediction_idx] 
            == df_group.token.iloc[prediction_idx]
        )
        
    succ_predictions = np.array(succ_predictions)
    accuracy_values.append(np.mean(succ_predictions))



Посмотрим на среднее значение accuracy:

In [29]:
accuracy = np.mean(accuracy_values)
print(f'Accuracy: {accuracy:.3f}')

Accuracy: 0.903


Если убрать признаки `bert_score_len`, `bert_score_sum`, `bert_score_mean`, то получилось значение $0.895$. Видим, что результат хуже примерно на $1\%$.

Значение получилось гораздо лучше, чем при использовании только `bert_score_mean`.

Обучим модель на всех данных и сохраним ее.

In [30]:
model = Pipeline(
        [('scaler', StandardScaler()), ('svc', LinearSVC(random_state=42))]
)
model.fit(X, y)



Pipeline(steps=[('scaler', StandardScaler()),
                ('svc', LinearSVC(random_state=42))])

In [31]:
with open(os.path.join(MODEL_PATH, 'candidate_scorer', 'svm.bin'), 'wb') as ouf:
    pickle.dump(model, ouf)

Посмотрим на веса коэффициентов в модели:

In [32]:
for coef, feature_name in zip(model['svc'].coef_.ravel(), X.columns.tolist()):
    print(f'{feature_name}: {coef:.3f}')

is_title: 0.000
is_upper: 0.000
is_lower: 0.000
is_first: 0.000
contains_space: 0.309
contains_hyphen: 0.174
from_levenshtein_searcher: 0.930
from_phonetic_searcher: 0.585
from_handcode_searcher: 0.413
is_combined: 0.000
is_original: 2.361
is_current: -0.202
from_vocabulary: 0.072
kenlm_left_right_score: 0.596
kenlm_right_left_score: 0.826
kenlm_agg_score: 0.089
margin_kenlm_agg: 0.089
bert_score_len: 0.101
bert_score_sum: 0.153
bert_score_mean: 0.630


1. Как ожидалось, модель проигнорировала первые четыре признака.
2. Модель дает высокую оценку коэффициенту перед индикатором изначального токена. То есть модель дает большое предпочтение изначальному токену.
3. Модель выше оценивает, что исправление пришло из levenshtein searcher, хотя казалось, что самый большой вклад должен иметь кандидат из handcode searcher, ведь он почти всегда дает правильное исправление.
4. Модель сильнее реагирует на наличие пробелов, чем на наличие дефисов.
5. Среди всех скоров от BERT наибольшее влияние оказывает скор после агрегации средним. Тем не менее, даже так этот коэффициент по модулю меньше коэффициентов, соответствующих kenlm.
6. Модель практически проигнорировала признаки из kenlm помимо скоров от левой и правой моделей.

### CatBoost

Теперь попробуем обучить модель CatBoost. Такая модель уже сможет утилизировать первые те признаки, которые проигнорировала предыдущая. Логичным кажется оптимизировать метрику `Precision@1`, так как внутри каждой группы имеем всего один релевантный объект.

#### Подготовка данных

Надо создать `Pool` для обучения.

In [33]:
to_drop = [
    'group', 'is_correct', 'answer', 'token'
]
#to_drop += ['bert_score_len', 'bert_score_sum', 'bert_score_mean']
pool_catboost = Pool(
    data=df.drop(columns=to_drop),
    label=df['is_correct'],
    group_id=df['group']
)

#### Обучение модели и ее тестирование

Теперь обучим модель и протестируем ее при помощи кросс-валидации.

In [34]:
def test_catboost_model(params):
    kf = KFold()
    accuracy_values = []
    tree_counts = []
    for groups_indices_train, groups_indices_test in kf.split(groups):
        groups_train = groups[groups_indices_train]
        df_train = df[df['group'].isin(groups_train)]
        pool_train = Pool(
            data=df_train.drop(
                columns=to_drop
            ),
            label=df_train['is_correct'],
            group_id=df_train['group']
        )

        groups_test = groups[groups_indices_test]
        df_test = df[df['group'].isin(groups_test)]
        pool_test = Pool(
            data=df_test.drop(
                columns=to_drop
            ),
            label=df_test['is_correct'],
            group_id=df_test['group']
        )

        model = CatBoost(params)
        model.fit(pool_train, eval_set=pool_test)
        tree_counts.append(model.tree_count_)
        accuracy_values.append(
            model.evals_result_[
                'validation'
            ]['PrecisionAt:top=1'][model.tree_count_-1]
        )
    return np.mean(accuracy_values), np.mean(tree_counts)

In [35]:
params = {
    'loss_function': 'PairLogit',
    'eval_metric': 'PrecisionAt:top=1',
    'random_seed': 42,
    'verbose': False
}

test_catboost_model(params)

(0.927080552628498, 384.8)

Посмотрим на среднее значение accuracy для разных функций потерь:

* RMSE: $0.919$
* QueryRMSE: $0.921$
* PairLogit: $0.927$ 
* YetiRank: $0.924$
* YetiRankPairwise: $0.912$

Получившиеся значения лучше значений, полученных в SVM. Как видим, лучше всего взять в качестве лосса PairLogit/YetiRank.

То же самое, но если убрать признаки `bert_score_len`, `bert_score_sum`, `bert_score_mean`:

* RMSE: $0.909$
* QueryRMSE: $0.914$
* PairLogit: $0.916$ 
* YetiRank: $0.912$
* YetiRankPairwise: $0.899$

Как видим, без признаков BERT опять падение примерно на $1\%$.

Обучим модель на всех данных и сохраним ее.

In [36]:
params = {
    'loss_function': 'PairLogit',
    'random_seed': 42,
    'verbose': False
}

model = CatBoost(params)
model.fit(pool_catboost)
model.shrink(400)

In [37]:
save_path = os.path.join(MODEL_PATH, 'candidate_scorer', 'catboost.cbm')
model.save_model(save_path)

Посмотрим на значимости различных признаков в модели:

In [38]:
feature_importances = model.get_feature_importance(pool_catboost)
feature_names = model.feature_names_
for feature_name, importance in zip(feature_names, feature_importances):
    print(f'{feature_name}: {importance*1000:.3f}')

is_title: 0.055
is_upper: 0.022
is_lower: 0.110
is_first: 0.311
contains_space: 0.596
contains_hyphen: 0.237
from_levenshtein_searcher: 1.831
from_phonetic_searcher: 2.099
from_handcode_searcher: 0.139
is_combined: 0.000
is_original: 79.749
is_current: 0.120
from_vocabulary: 0.705
kenlm_left_right_score: 1.394
kenlm_right_left_score: 0.902
kenlm_agg_score: 1.394
margin_kenlm_agg: 9.328
bert_score_len: 0.539
bert_score_sum: 0.899
bert_score_mean: 5.829


1. Модель практически проигнорировала первые три признака.
2. Модель обращает внимание на то, является ли токен первым в предложении.
3. Модель дает высокую оценку коэффициенту перед индикатором изначального токена. То есть модель дает большое предпочтение изначальному токену. В то же время модель почти не обращает внимание на то текущий это токен или нет.
4. Модель выше оценивает, что исправление пришло из phonetic searcher, затем levenshtein searcher и самое наименьшее влияние имеет handcode searcher.
5. Модель оценивает влияние дефисов и пробелов примерно в одинаковом порядке.
6. Среди скоров kenlm наибольшее внимание уделено скору, который отвечает за превосходство рассматриваемого кандидата над используемым на данный момент.
7. Среди скоров BERT наибольшее внимание уделено агрегации при помощи среднего.

## Выводы

1. В этом ноутбуке была собрана обучающая выборка для candidate scorer, который использует другие признаки помимо скоров из BERT.
2. Было показано, что модель, основанная только на `bert_score` сильно уступает моделям, которые утилизируют также другие признаки.
3. Была обучена модель ranking SVM с точностью около $90.5\%$.
4. Была обучена модель CatBoost с точностью около $92.5\%$.