# Тестирование Spell Checker с использованием дополнительных признаков

В этом ноутбуке будет произведено тестирование модели, в которой в candidate scorer используются модели на основе множества признаков помимо BERT.

In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
import gc
import sys
import os
import json
import pickle
import re
from string import punctuation
sys.path.append('..')

import dotenv
import numpy as np
import pandas as pd
from transformers import BertForMaskedLM, BertTokenizer, BertConfig

from deeppavlov.core.data.simple_vocab import SimpleVocabulary

import kenlm
from sacremoses import MosesTokenizer, MosesDetokenizer

from src.models.SpellChecker import *
from src.models.BertScorer.bert_scorer_correction import (
    BertScorerCorrection
)

from sklearn.svm import LinearSVC

from IPython.display import display
from tqdm.notebook import tqdm

In [None]:
PROJECT_PATH = os.path.join(os.path.abspath(''), os.pardir)
DATA_PATH = os.path.join(PROJECT_PATH, 'data')
MODEL_PATH = os.path.join(PROJECT_PATH, 'models')

## Инициализация

Начнем с того, что инициализируем все необходимые компоненты модели. Параллельно так же будет описана роль каждого компонента в системе.

In [None]:
raw_tokenizer = MosesTokenizer(lang='ru')
raw_detokenizer = MosesDetokenizer(lang='ru')
tokenizer = lambda x: raw_tokenizer.tokenize(x, escape=False)
detokenizer = lambda x: raw_detokenizer.detokenize(x)

In [None]:
vocab_path = os.path.join(DATA_PATH, 'external', 'hagen_wiktionary', 
                          'wordforms_clear.txt')
with open(vocab_path, 'r') as inf:
    vocab = list(map(lambda x: x.strip(), inf.readlines()))
handcode_table_path = os.path.join(DATA_PATH, 'processed', 'handcode_table', 
                                   'table.json')
with open(handcode_table_path, 'r') as inf:
    handcode_table = json.load(inf)
candidate_generator = CandidateGenerator(
    words=vocab, handcode_table=handcode_table, max_distance=1
)

In [None]:
model_left_right = kenlm.LanguageModel(
    os.path.join(MODEL_PATH, 'kenlm', 'left_right_3_100.arpa.binary')
)
model_right_left = kenlm.LanguageModel(
    os.path.join(MODEL_PATH, 'kenlm', 'right_left_3_100.arpa.binary')
)
margin_border = np.log(2.5)
position_selector = KenlmMarginPositionSelector(
    model_left_right, model_right_left, margin_border=margin_border
)

In [None]:
BERT_PATH = os.path.join(MODEL_PATH, 'conversational_rubert')
config = BertConfig.from_json_file(
    os.path.join(BERT_PATH, 'bert_config.json')
)
model = BertForMaskedLM.from_pretrained(
    os.path.join(BERT_PATH, 'pytorch_model.bin'),
    config=config
)
bert_tokenizer = BertTokenizer(os.path.join(BERT_PATH, 'vocab.txt'))
bert_scorer_correction = BertScorerCorrection(model, bert_tokenizer)
agg_subtoken_func = 'mean'
bert_scorer = BertScorer(
    bert_scorer_correction, agg_subtoken_func
)

with open(os.path.join(MODEL_PATH, 'candidate_scorer', 'svm.bin'), 'rb') as inf:
    svm_model = pickle.load(inf)

svm_scorer = SVMScorer(svm_model, bert_scorer=bert_scorer)
candidate_scorer = CandidateScorer(svm_scorer)

In [None]:
# максимальное количество итераций
max_it = 5

spellchecker = IterativeSpellChecker(
    candidate_generator,
    position_selector,
    candidate_scorer,
    tokenizer,
    detokenizer,
    ignore_titles=True,
    max_it=max_it,
    combine_tokens=False
)

## Тестирование

### Обучающая выборка

In [None]:
with open(
    os.path.join(DATA_PATH, 'external', 'spell_ru_eval', 'train_source.txt'), 
    'r'
) as inf:
    sentences = inf.readlines()
    
with open(
    os.path.join(DATA_PATH, 'external', 'spell_ru_eval', 
                 'train_corrected.txt'), 
    'r'
) as inf:
    true_sentences = inf.readlines()

Запустим наш spell checker, подавая ему предложения батчами размера `batch_size`.

In [None]:
batch_size = 5
sentences_corrected = []
num_batches = int(np.ceil(len(sentences) / batch_size))

for i in tqdm(range(num_batches)):
    cur_sentences = sentences[i*batch_size:(i+1)*batch_size]
    sentences_corrected += spellchecker(cur_sentences)

Запишем результаты файл.

In [None]:
!mkdir -p ../data/processed/results_svm/

In [None]:
with open(os.path.join(DATA_PATH, 'processed', 'results_svm', 'train.txt'), 'w') as ouf:
    ouf.writelines([sentence + '\n' for sentence in sentences_corrected])

Выполним скрит для измерения качества.

In [None]:
!python ../src/evaluation/spell_ru_eval/evaluate.py -d ../data/processed/results_svm/diffs_train.txt ../data/external/spell_ru_eval/train_source.txt ../data/external/spell_ru_eval/train_corrected.txt ../data/processed/results_svm/train.txt | tail -n 4

#### Результаты для нового словаря

**Ranking SVM**

* True Positive: $1319$
* Внесенных исправлений: $1452$ 
* Требуемых исправления: $1727$ 
* Precision: $90.84$, доверительный интервал: $(89.35, 92.33)$
* Recall: $76.38$, доверительный интервал: $(75.12, 77.63)$
* FMeasure: $82.98$, доверительный интервал: $(81.62, 84.34)$

**Ranking SVM (без BERT)**

* True Positive: $1288$
* Внесенных исправлений: $1438$ 
* Требуемых исправления: $1727$ 
* Precision: $89.57$, доверительный интервал: $(87.99, 91.15)$
* Recall: $74.58$, доверительный интервал: $(73.26, 75.90)$
* FMeasure: $81.39$, доверительный интервал: $(79.95, 82.83)$

**Ranking SVM (с объединением токенов)**

* True Positive: $1344$
* Внесенных исправлений: $1484$ 
* Требуемых исправления: $1727$ 
* Precision: $90.57$, доверительный интервал: $(89.09, 92.05)$
* Recall: $77.82$, доверительный интервал: $(76.55, 79.10)$
* FMeasure: $83.71$, доверительный интервал: $(82.34, 85.08)$

**Ranking SVM (с объединением токенов, без BERT)**

* True Positive: $1309$
* Внесенных исправлений: $1461$ 
* Требуемых исправления: $1727$ 
* Precision: $89.60$, доверительный интервал: $(88.03, 91.16)$
* Recall: $75.80$, доверительный интервал: $(74.47, 77.12)$
* FMeasure: $82.12$, доверительный интервал: $(80.68, 83.56)$

**CatBoost**

* True Positive: $1383$
* Внесенных исправлений: $1473$ 
* Требуемых исправления: $1727$ 
* Precision: $93.89$, доверительный интервал: $(92.67, 95.11)$
* Recall: $80.08$, доверительный интервал: $(79.04, 81.12)$
* FMeasure: $86.44$, доверительный интервал: $(85.31, 87.56)$

**CatBoost (без BERT)**

* True Positive: $1353$
* Внесенных исправлений: $1468$ 
* Требуемых исправления: $1727$ 
* Precision: $92.17$, доверительный интервал: $(90.80, 93.54)$
* Recall: $78.34$, доверительный интервал: $(77.18, 79.51)$
* FMeasure: $84.69$, доверительный интервал: $(83.44, 85.95)$

**CatBoost (с объединением токенов)**

* True Positive: $1398$
* Внесенных исправлений: $1497$ 
* Требуемых исправления: $1727$ 
* Precision: $93.39$, доверительный интервал: $(92.13, 94.64)$
* Recall: $80.95$, доверительный интервал: $(79.86, 82.04)$
* FMeasure: $86.72$, доверительный интервал: $(85.56, 87.89)$

**CatBoost (с объединением токенов, без BERT)**

* True Positive: $1387$
* Внесенных исправлений: $1498$ 
* Требуемых исправления: $1727$ 
* Precision: $92.59$, доверительный интервал: $(91.26, 93.92)$
* Recall: $80.31$, доверительный интервал: $(79.16, 81.46)$
* FMeasure: $86.02$, доверительный интервал: $(84.78, 87.25)$

#### Результаты для старого словаря

**Ranking SVM**

* True Positive: $1305$
* Внесенных исправлений: $1446$ 
* Требуемых исправления: $1727$ 
* Precision: $90.25$, доверительный интервал: $(88.72, 91.78)$
* Recall: $75.56$, доверительный интервал: $(74.28, 76.85)$
* FMeasure: $82.26$, доверительный интервал: $(80.86, 83.65)$

**Ranking SVM (без BERT)**

* True Positive: $1270$
* Внесенных исправлений: $1428$ 
* Требуемых исправления: $1727$ 
* Precision: $88.94$, доверительный интервал: $(87.32, 90.56)$
* Recall: $73.54$, доверительный интервал: $(72.20, 74.88)$
* FMeasure: $80.51$, доверительный интервал: $(79.04, 81.97)$

**Ranking SVM (с объединением токенов)**

* True Positive: $1331$
* Внесенных исправлений: $1484$ 
* Требуемых исправления: $1727$ 
* Precision: $89.69$, доверительный интервал: $(88.15, 91.23)$
* Recall: $77.07$, доверительный интервал: $(75.74, 78.40)$
* FMeasure: $82.90$, доверительный интервал: $(81.48, 84.33)$

**Ranking SVM (с объединением токенов, без BERT)**

* True Positive: $1292$
* Внесенных исправлений: $1455$ 
* Требуемых исправления: $1727$ 
* Precision: $88.80$, доверительный интервал: $(87.18, 90.41)$
* Recall: $74.81$, доверительный интервал: $(73.45, 76.17)$
* FMeasure: $81.21$, доверительный интервал: $(79.73, 82.68)$

**CatBoost**

* True Positive: $1353$
* Внесенных исправлений: $1463$ 
* Требуемых исправления: $1727$ 
* Precision: $92.48$, доверительный интервал: $(91.13, 93.83)$
* Recall: $78.34$, доверительный интервал: $(77.20, 79.49)$
* FMeasure: $84.83$, доверительный интервал: $(83.59, 86.07)$

**CatBoost (без BERT)**

* True Positive: $1315$
* Внесенных исправлений: $1452$ 
* Требуемых исправления: $1727$ 
* Precision: $90.56$, доверительный интервал: $(89.06, 92.07)$
* Recall: $76.14$, доверительный интервал: $(74.88, 77.41)$
* FMeasure: $82.73$, доверительный интервал: $(81.36, 84.10)$

**CatBoost (с объединением токенов)**

* True Positive: $1385$
* Внесенных исправлений: $1495$ 
* Требуемых исправления: $1727$ 
* Precision: $92.64$, доверительный интервал: $(91.32, 93.97)$
* Recall: $80.20$, доверительный интервал: $(79.05, 81.34)$
* FMeasure: $85.97$, доверительный интервал: $(84.74, 87.20)$

**CatBoost (с объединением токенов, без BERT)**

* True Positive: $1352$
* Внесенных исправлений: $1485$ 
* Требуемых исправления: $1727$ 
* Precision: $91.04$, доверительный интервал: $(89.59, 92.50)$
* Recall: $78.29$, доверительный интервал: $(77.03, 79.54)$
* FMeasure: $84.18$, доверительный интервал: $(82.84, 85.53)$

### Тестовая выборка

In [None]:
with open(
    os.path.join(DATA_PATH, 'external', 'spell_ru_eval', 'test_source.txt'), 
    'r'
) as inf:
    sentences = inf.readlines()
    
with open(
    os.path.join(DATA_PATH, 'external', 'spell_ru_eval', 
                 'test_corrected.txt'), 
    'r'
) as inf:
    true_sentences = inf.readlines()

Запустим наш spell checker, подавая ему предложения батчами размера `batch_size`.

In [None]:
batch_size = 5
sentences_corrected = []
num_batches = int(np.ceil(len(sentences) / batch_size))

for i in tqdm(range(num_batches)):
    cur_sentences = sentences[i*batch_size:(i+1)*batch_size]
    sentences_corrected += spellchecker(cur_sentences)

Запишем результаты файл.

In [None]:
with open(os.path.join(DATA_PATH, 'processed', 'results_svm', 'test.txt'), 'w') as ouf:
    ouf.writelines([sentence + '\n' for sentence in sentences_corrected])

Выполним скрит для измерения качества.

In [None]:
!python ../src/evaluation/spell_ru_eval/evaluate.py -d ../data/processed/results_svm/diffs_test.txt ../data/external/spell_ru_eval/test_source.txt ../data/external/spell_ru_eval/test_corrected.txt ../data/processed/results_svm/test.txt | tail -n 4

#### Результаты для нового словаря

**Ranking SVM**

* True Positive: $1371$
* Внесенных исправлений: $1566$ 
* Требуемых исправления: $1976$ 
* Precision: $87.55$, доверительный интервал: $(85.66, 89.18)$
* Recall: $69.38$, доверительный интервал: $(68.09, 70.67)$
* FMeasure: $77.41$, доверительный интервал: $(75.97, 78.85)$

**Ranking SVM (без BERT)**

* True Positive: $1329$
* Внесенных исправлений: $1536$ 
* Требуемых исправления: $1976$
* Precision: $86.52$, доверительный интервал: $(84.81, 88.23)$
* Recall: $67.26$, доверительный интервал: $(65.93, 68.59)$
* FMeasure: $75.68$, доверительный интервал: $(74.19, 77.18)$

**Ranking SVM (с объединением токенов)**

* True Positive: $1431$
* Внесенных исправлений: $1636$ 
* Требуемых исправления: $1976$ 
* Precision: $87.47$, доверительный интервал: $(85.87, 89.07)$
* Recall: $72.42$, доверительный интервал: $(71.09, 73.75)$
* FMeasure: $79.24$, доверительный интервал: $(77.78, 80.69)$

**Ranking SVM (с объединением токенов, без BERT)**

* True Positive: $1388$
* Внесенных исправлений: $1605$ 
* Требуемых исправления: $1976$
* Precision: $86.48$, доверительный интервал: $(84.80, 88.16)$
* Recall: $70.24$, доверительный интервал: $(68.88, 71.60)$
* FMeasure: $77.52$, доверительный интервал: $(76.02, 79.02)$

**CatBoost**

* True Positive: $1366$
* Внесенных исправлений: $1564$ 
* Требуемых исправления: $1976$
* Precision: $87.34$, доверительный интервал: $(85.70, 88.98)$
* Recall: $69.13$, доверительный интервал: $(67.83, 70.43)$
* FMeasure: $77.18$, доверительный интервал: $(75.72, 78.63)$

**CatBoost (без BERT)**

* True Positive: $1324$
* Внесенных исправлений: $1537$ 
* Требуемых исправления: $1976$
* Precision: $86.14$, доверительный интервал: $(84.42, 87.87)$
* Recall: $67.00$, доверительный интервал: $(65.66, 68.35)$
* FMeasure: $75.38$, доверительный интервал: $(73.87, 76.89)$

**CatBoost (с объединением токенов)**

* True Positive: $1447$
* Внесенных исправлений: $1650$ 
* Требуемых исправления: $1976$
* Precision: $87.70$, доверительный интервал: $(86.11, 89.28)$
* Recall: $73.23$, доверительный интервал: $(71.91, 74.55)$
* FMeasure: $79.81$, доверительный интервал: $(78.37, 81.25)$

**CatBoost (с объединением токенов, без BERT)**

* True Positive: $1399$
* Внесенных исправлений: $1626$ 
* Требуемых исправления: $1976$
* Precision: $86.04$, доверительный интервал: $(84.35, 87.73)$
* Recall: $70.80$, доверительный интервал: $(69.42, 72.19)$
* FMeasure: $77.68$, доверительный интервал: $(76.15, 79.21)$

#### Результаты для старого словаря

**Ranking SVM**

* True Positive: $1373$
* Внесенных исправлений: $1590$ 
* Требуемых исправления: $1976$ 
* Precision: $86.35$, доверительный интервал: $(84.66, 88.04)$
* Recall: $69.48$, доверительный интервал: $(68.12, 70.84)$
* FMeasure: $77.01$, доверительный интервал: $(75.50, 78.51)$

**Ranking SVM (без BERT)**

* True Positive: $1323$
* Внесенных исправлений: $1559$ 
* Требуемых исправления: $1976$
* Precision: $84.86$, доверительный интервал: $(83.08, 86.64)$
* Recall: $66.95$, доверительный интервал: $(65.55, 68.36)$
* FMeasure: $74.85$, доверительный интервал: $(73.28, 76.42)$

**Ranking SVM (с объединением токенов)**

* True Positive: $1430$
* Внесенных исправлений: $1656$ 
* Требуемых исправления: $1976$ 
* Precision: $86.35$, доверительный интервал: $(84.71, 88.00)$
* Recall: $72.37$, доверительный интервал: $(70.99, 73.75)$
* FMeasure: $78.74$, доверительный интервал: $(77.24, 80.25)$

**Ranking SVM (с объединением токенов, без BERT)**

* True Positive: $1375$
* Внесенных исправлений: $1624$ 
* Требуемых исправления: $1976$
* Precision: $84.67$, доверительный интервал: $(82.91, 86.42)$
* Recall: $69.59$, доверительный интервал: $(68.14, 71.03)$
* FMeasure: $76.39$, доверительный интервал: $(74.81, 77.97)$

**CatBoost**

* True Positive: $1375$
* Внесенных исправлений: $1579$ 
* Требуемых исправления: $1976$
* Precision: $87.08$, доверительный интервал: $(85.42, 88.74)$
* Recall: $69.59$, доверительный интервал: $(68.26, 70.91)$
* FMeasure: $77.36$, доверительный интервал: $(75.88, 78.83)$

**CatBoost (без BERT)**

* True Positive: $1336$
* Внесенных исправлений: $1564$ 
* Требуемых исправления: $1976$
* Precision: $85.42$, доверительный интервал: $(83.67, 87.18)$
* Recall: $67.61$, доверительный интервал: $(66.22, 69.00)$
* FMeasure: $75.48$, доверительный интервал: $(73.93, 77.03)$

**CatBoost (с объединением токенов)**

* True Positive: $1430$
* Внесенных исправлений: $1652$ 
* Требуемых исправления: $1976$
* Precision: $86.56$, доверительный интервал: $(84.92, 88.21)$
* Recall: $72.37$, доверительный интервал: $(70.99, 73.74)$
* FMeasure: $78.83$, доверительный интервал: $(77.33, 80.33)$

**CatBoost (с объединением токенов, без BERT)**

* True Positive: $1399$
* Внесенных исправлений: $1640$ 
* Требуемых исправления: $1976$
* Precision: $85.30$, доверительный интервал: $(83.60, 87.01)$
* Recall: $70.80$, доверительный интервал: $(69.38, 72.22)$
* FMeasure: $77.38$, доверительный интервал: $(75.83, 78.93)$

## Выводы

1. Результаты удалось заметно улучшить и достичь SOTA.
2. Модели без признаков BERT показывают результат на $\approx 2\%$ хуже.
3. Добавление объединения токенов улучшает результат на $\approx 2\%$.