# Семинар 3. Исправление опечаток

In [3]:
# !pip install razdel tqdm

In [4]:
import os, re
from string import punctuation
import numpy as np
import json
from collections import Counter
from pprint import pprint
from nltk import sent_tokenize
punctuation += "«»—…“”"
punct = set(punctuation)
from sklearn.metrics import classification_report, accuracy_score
from string import punctuation
from razdel import sentenize
from razdel import tokenize as razdel_tokenize
import numpy as np
from collections import Counter

In [5]:
# библиотека для отслеживания прогресса
from tqdm.notebook import tqdm

Возьмем данные с соревнования [Dialog Evaluation 2016](http://www.dialog-21.ru/evaluation/2016/spelling_correction/) по исправлению опечаток. Данные представляют собой набор предложений (правильное - ошибочное). Задача найти слова с ошибками и заменить их на правильный вариант.

Я удалили из данных случаи, когда в словах пропущен или вставлен пробел, чтобы было проще сопоставить слова в предложении. 

In [6]:
bad = open('data/sents_with_mistakes.txt', encoding='utf8').read().splitlines()
true = open('data/correct_sents.txt', encoding='utf8').read().splitlines()

In [7]:
len(true)

915

In [8]:
# Посмотрим на пары предложений
print(bad[2])
print(true[2])

Пояним эту мысль.
Поясним эту мысль


In [9]:
# напишем функцию, которая будет сопоставлять слова в правильном и ошибочном варианте
# разобьем предложение по пробелам и удалим пунктуация на границах слов
def align_words(sent_1, sent_2):
    tokens_1 = sent_1.lower().split()
    tokens_2 = sent_2.lower().split()
    
    tokens_1 = [token.strip(punctuation) for token in tokens_1]
    tokens_2 = [token.strip(punctuation) for token in tokens_2]
    
    tokens_1 = [token for token in tokens_1 if token]
    tokens_2 = [token for token in tokens_2 if token]
    
    assert len(tokens_1) == len(tokens_2)
    
    return list(zip(tokens_1, tokens_2))

In [10]:
pprint(align_words(true[1], bad[1]))

[('апофеозом', 'опофеозом'),
 ('дня', 'дня'),
 ('для', 'для'),
 ('меня', 'меня'),
 ('сегодня', 'сегодня'),
 ('стала', 'стала'),
 ('фраза', 'фраза'),
 ('услышанная', 'услышанная'),
 ('в', 'в'),
 ('новостях', 'новостях')]


Вытащим только неправильные варианты и заодно посчитаем процент ошибок.

In [11]:
mistakes = []
total = 0
for i in range(len(true)):
    word_pairs = align_words(true[i], bad[i])
    
    
    for pair in word_pairs:
        if pair[0] != pair[1]:
            mistakes.append(pair)
        total += 1

In [12]:
print('Доля ошибок - ', len(mistakes)/total )

Доля ошибок -  0.12886443221610805


Обернем в Counter, чтобы сразу увидеть частотные ошибки.

In [13]:
Counter(mistakes).most_common(10)

[(('сегодня', 'седня'), 24),
 (('вообще', 'вобще'), 18),
 (('вообще', 'ваще'), 17),
 (('естественно', 'естесственно'), 17),
 (('хочется', 'хочеться'), 16),
 (('кстати', 'кстате'), 16),
 (('очень', 'ооочень'), 14),
 (('как-то', 'както'), 9),
 (('очень', 'оооочень'), 9),
 (('это', 'ето'), 9)]

Из-за того, что процент ошибок довольно низкий, не очень выгодно будет находить исправление для каждого слова. Нужен какой-то более простой классификатор, который выделит ошибочные слова, чтобы потом только их и редактировать.

Самый простой способ это сделать - составить словарь правильных слов и потом сравнивать с ним. Чтобы не делать этого вручную, можно взять какой-нибудь корпус текстов, прошедщих редактуру. Тексты из википедии для этого хорошо подходят.

In [14]:
corpus = open('data/wiki_data.txt', encoding='utf8').read()

Попробуем предсказать ошибку простым заглядыванием в словарь. Если слово не в словаре - оно неправильное.

In [15]:
# создаем словарь
vocab = Counter(re.findall('\w+', corpus.lower()))


In [16]:
def predict_mistaken(word, vocab):
    return 0 if word in vocab else 1

In [17]:
# для оценки создаем два списка y_true и y_pred
# проходимся по предложениям
# сопоставляем слова с помощью функции align_words
# проходимся по парам слов и
# если слова одинаковые добавляем в y_true 0 
# если слова разные добавляем в y_true 1
# предказываем ошибочность слова из bad списка 
# добавляем предсказание в список y_pred

y_true = []
y_pred = []

for i in range(len(true)):
    word_pairs = align_words(true[i], bad[i])
    for pair in word_pairs:
        if pair[0] == pair[1]:
            y_true.append(0)
        else:
            y_true.append(1)
        
        y_pred.append(predict_mistaken(pair[1], vocab))
    

In [18]:
# оцените качество с помощью classification_report
print(classification_report(y_true, y_pred, ))

              precision    recall  f1-score   support

           0       0.98      0.91      0.94      8707
           1       0.59      0.88      0.71      1288

    accuracy                           0.91      9995
   macro avg       0.79      0.90      0.83      9995
weighted avg       0.93      0.91      0.91      9995



### Генерация исправлений

Теперь нужно думать о том, как исправить неправильные слова. Посмотрим как это можно делать на примере известного алгоритма Питера Норвига. Идея алгоритма очень простая - для каждого неправильного слова нужно сгенерировать варианты исправлений и выбрать из них тот , что есть в словаре, а если таких несколько, то выбрать наиболее вероятный. 

Неправильными считаются слова, которых нет в словаре (также как в функции выше). А вероятность слова расчитывается по формуле - абсолютная частота слова в корпусе разделить на количество слов в корпусе.

Абсолютные частоты лежат в счетчике

In [19]:
vocab.most_common(10)

[('в', 267296),
 ('и', 147115),
 ('на', 81926),
 ('с', 61681),
 ('года', 43894),
 ('по', 37235),
 ('году', 32197),
 ('из', 29150),
 ('был', 23293),
 ('не', 23228)]

В вероятности они преобразуются вот такой функцией

In [20]:
N = sum(vocab.values())

def P(word, N=N):
    return vocab[word] / N


Во втором подготовительном семинаре немного разбиралась работа с вероятностями в питоне (представление маленьких и больших чисел в питоне, свойства логарифмов вероятностей), будет полезно повторить - https://github.com/mannefedov/compling_nlp_hse_course/blob/master/notebooks/first_module_intro/02_ngrams.ipynb (раздел про вероятности в конце)

Теперь самое интересное - способ генерации вариантов исправлений. Они генерируются 4 типами эвристик: удаление, перестановка, замена, вставка. 

1) удаление - по очереди выбрасываем из слова 1 букву (слово - лово, сово, слво, слоо, слов)  
2) перестановка - по очереди меняем соседние буквы (слово - лсово, солво, слвоо, слоов)  
3) замена - по очереди заменям каждую букву на другую букву алфавита (слово - алово, блово, влово, глово...)  
4) вставка - по очереди вставляем между соседними буквами букву алфавита (слово - салово, сблово, свлово, сглово...)  

В алгоритма два уровня генерации - сначала генерируются варианты для оригинального слова, а потом варианты для каждого варианта. Таким образом, максимальное допустимое отличие для ошибки и предсказания - 2 буквы.

In [21]:
# оригинальный код вот тут - https://norvig.com/spell-correct.html
# я только адаптировал его под русский язык

def correction(word): 
    "Находим наиболее вероятное похожее слово"
    return max(candidates(word), key=P)

def candidates(word): 
    "Генерируем кандидатов на исправление"
    return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])

def known(words): 
    "Выбираем слова, которые есть в корпусе"
    return set(w for w in words if w in vocab)


def edits1(word):
    "Создаем кандидатов, которые отличаются на одну букву"
    letters    = 'йцукенгшщзхъфывапролджэячсмитьбюё'
    splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)]
    deletes    = [L + R[1:]               for L, R in splits if R]
    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
    replaces   = [L + c + R[1:]           for L, R in splits if R for c in letters]
    inserts    = [L + c + R               for L, R in splits for c in letters]
    return set(deletes + transposes + replaces + inserts)

def edits2(word): 
    "Создаем кандидатов, которые отличаются на две буквы"
    return (e2 for e1 in edits1(word) for e2 in edits1(e1))

Попробуем исправить

In [22]:
%%time
correction('сcолнце')

CPU times: user 211 µs, sys: 740 µs, total: 951 µs
Wall time: 955 µs


'солнце'

In [23]:
%%time
correction('ваще')

CPU times: user 152 µs, sys: 53 µs, total: 205 µs
Wall time: 208 µs


'чаще'

In [24]:
%%time
correction('опофеоз')

CPU times: user 205 µs, sys: 29 µs, total: 234 µs
Wall time: 234 µs


'апофеоз'

Выводов по единичным примерам не сделаешь, поэтому давайте запустим на всем нашем корпусе

Для оценки используем будем использовать три метрики:  
1) процент правильных слов;  
2) процент исправленных ошибок  
3) процент ошибочно исправленных правильных слов

In [25]:
correct = 0
total = 0

total_mistaken = 0
mistaken_fixed = 0

total_correct = 0
correct_broken = 0

cashed = {}
for i in tqdm(range(len(true))):
    word_pairs = align_words(true[i], bad[i])
    for pair in word_pairs:
        # чтобы два раза не исправлять одно и тоже слово - закешируем его
        # перед тем как считать исправление проверим нет ли его в кеше
        
        predicted = cashed.get(pair[1], correction(pair[1]))
        cashed[pair[1]] = predicted
        
        
        if predicted == pair[0]:
            correct += 1
        total += 1
        
        if pair[0] == pair[1]:
            total_correct += 1
            if pair[0] !=  predicted:
                correct_broken += 1
        else:
            total_mistaken += 1
            if pair[0] == predicted:
                mistaken_fixed += 1


  0%|          | 0/915 [00:00<?, ?it/s]

Получается, что в целом не стало лучше. Хотя 50% опечаток исправляются корректно

In [26]:
print(correct/total)
print(mistaken_fixed/total_mistaken)
print(correct_broken/total_correct)

0.870935467733867
0.5124223602484472
0.07603077983231882


Ещё проблема тут в том, что алгоритм медленно работает для длинных слов.

In [27]:
%%time
correction('солнвце')

CPU times: user 237 µs, sys: 1.41 ms, total: 1.65 ms
Wall time: 1.72 ms


'солнце'

In [28]:
%%time
correction('насмехатьсяаававттававаываываы')

CPU times: user 1.29 s, sys: 10.5 ms, total: 1.3 s
Wall time: 1.49 s


'насмехатьсяаававттававаываываы'

Посмотрим, как исправляются самые частотные ошибки.

In [29]:
[(wt[0], wt[1], correction(wt[1])) for wt, _ in Counter(mistakes).most_common(10)]

[('сегодня', 'седня', 'седая'),
 ('вообще', 'вобще', 'вообще'),
 ('вообще', 'ваще', 'чаще'),
 ('естественно', 'естесственно', 'естественно'),
 ('хочется', 'хочеться', 'хочется'),
 ('кстати', 'кстате', 'кстати'),
 ('очень', 'ооочень', 'очень'),
 ('как-то', 'както', 'факто'),
 ('очень', 'оооочень', 'сорочень'),
 ('это', 'ето', 'что')]

### Метрики близости слов.

Вместо того, чтобы генерировать все варианты, можно искать похожие слова в словаре. Для этого нужно задать метрику похожести. Для исправления опечаток часто используются расстояния редактирования

Самое известное расстояние редактирования - расстояние Левенштейна. Тут мы не будет поднобно разбирать алгоритм, можете почитать [тут](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B5%D0%B2%D0%B5%D0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0), посмотреть более понятный разбор [тут](https://www.youtube.com/watch?v=MiqoA-yF-0M), а код на питоне есть [тут](https://ru.wikibooks.org/wiki/%D0%A0%D0%B5%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D0%B8_%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC%D0%BE%D0%B2/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B5%D0%B2%D0%B5%D0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0).
Про самого Левенштейна можно почитать вот тут - https://nplus1.ru/material/2017/09/25/vladimir-levenshtein

Основная идея - найти минимальное число исправлений, которое нужно сделать в слове А, чтобы получить слово Б. Причем допустимы только три вида исправлений - удаление, вставка, замена. 

Ещё есть расстояние Дамерау-Левенштейна - почти то же самое, только разрешена ещё операция перестановки.

Есть библиотека textdistance, в которой реализованы многие методы нахождения расстояний.

In [30]:
!pip install textdistance

Collecting textdistance
  Downloading textdistance-4.6.3-py3-none-any.whl (31 kB)
Installing collected packages: textdistance
Successfully installed textdistance-4.6.3

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.3.1[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [31]:
import textdistance

In [32]:
def get_closest_match_with_metric(text, lookup, topn=20, metric=textdistance.levenshtein):
    # Counter можно использовать и с не целыми числами
    similarities = Counter()
    
    for word in lookup:
        similarities[word] = metric.normalized_similarity(text, word) 
    
    return similarities.most_common(topn)

In [33]:
%%time
get_closest_match_with_metric('сонце', vocab, 20, textdistance.levenshtein)

CPU times: user 1.06 s, sys: 154 ms, total: 1.21 s
Wall time: 1.45 s


[('солнце', 0.8333333333333334),
 ('конце', 0.8),
 ('монце', 0.8),
 ('соне', 0.8),
 ('сонче', 0.8),
 ('донце', 0.8),
 ('солнцем', 0.7142857142857143),
 ('солнцев', 0.7142857142857143),
 ('солнца', 0.6666666666666667),
 ('сочное', 0.6666666666666667),
 ('синице', 0.6666666666666667),
 ('солнцу', 0.6666666666666667),
 ('сочные', 0.6666666666666667),
 ('свинце', 0.6666666666666667),
 ('сфорце', 0.6666666666666667),
 ('монцей', 0.6666666666666667),
 ('ньонце', 0.6666666666666667),
 ('соньер', 0.6666666666666667),
 ('сорное', 0.6666666666666667),
 ('донцем', 0.6666666666666667)]

In [34]:
%%time
get_closest_match_with_metric('сонце', vocab, 20, textdistance.damerau_levenshtein)

CPU times: user 1.11 s, sys: 11.7 ms, total: 1.12 s
Wall time: 1.19 s


[('солнце', 0.8333333333333334),
 ('конце', 0.8),
 ('монце', 0.8),
 ('соне', 0.8),
 ('сонче', 0.8),
 ('донце', 0.8),
 ('солнцем', 0.7142857142857143),
 ('солнцев', 0.7142857142857143),
 ('солнца', 0.6666666666666667),
 ('сочное', 0.6666666666666667),
 ('синице', 0.6666666666666667),
 ('солнцу', 0.6666666666666667),
 ('сочные', 0.6666666666666667),
 ('свинце', 0.6666666666666667),
 ('сфорце', 0.6666666666666667),
 ('монцей', 0.6666666666666667),
 ('ньонце', 0.6666666666666667),
 ('соньер', 0.6666666666666667),
 ('сорное', 0.6666666666666667),
 ('донцем', 0.6666666666666667)]

In [35]:
%%time
get_closest_match_with_metric('опофеоз', vocab, 5, textdistance.damerau_levenshtein)

CPU times: user 1.12 s, sys: 15.1 ms, total: 1.13 s
Wall time: 1.2 s


[('апофеоз', 0.8571428571428572),
 ('апофеоза', 0.75),
 ('апофеозом', 0.6666666666666667),
 ('апофеты', 0.5714285714285714),
 ('опорной', 0.5714285714285714)]

In [36]:
%%time
get_closest_match_with_metric('кул', vocab, 5, textdistance.damerau_levenshtein)

CPU times: user 1.07 s, sys: 32 ms, total: 1.1 s
Wall time: 1.16 s


[('кул', 1.0), ('акул', 0.75), ('коул', 0.75), ('куль', 0.75), ('кулл', 0.75)]

Можно немного ускорить поиск, сократив количество слов в словаре. Возьмем только те, что встречаются больше 5 раз.

In [37]:
vocab_top = {word:count for word, count in vocab.items() if count > 5}

In [38]:
%%time
get_closest_match_with_metric('сонце', vocab_top, 20, textdistance.damerau_levenshtein)

CPU times: user 220 ms, sys: 4.05 ms, total: 224 ms
Wall time: 233 ms


[('солнце', 0.8333333333333334),
 ('конце', 0.8),
 ('монце', 0.8),
 ('соне', 0.8),
 ('солнцем', 0.7142857142857143),
 ('солнца', 0.6666666666666667),
 ('солнцу', 0.6666666666666667),
 ('сочные', 0.6666666666666667),
 ('союзе', 0.6),
 ('зоне', 0.6),
 ('сносе', 0.6),
 ('фоне', 0.6),
 ('концу', 0.6),
 ('конца', 0.6),
 ('конец', 0.6),
 ('гонке', 0.6),
 ('донец', 0.6),
 ('сотне', 0.6),
 ('сон', 0.6),
 ('синие', 0.6)]

Сильно быстрее не стало

Еще в питоне есть встроенная библиотека для нахождения близких строк

In [39]:
from difflib import get_close_matches

In [40]:
%%time
get_close_matches('сонце', vocab_top.keys(), n=4)

CPU times: user 135 ms, sys: 2.09 ms, total: 137 ms
Wall time: 139 ms


['солнце', 'соне', 'солнцем', 'сотне']

Работает тоже не очень быстро.

С большим словарем даже оптимизированные версии будут работать очень долго. И принципиально с этим ничего не сделаешь, т.к. поиск минимального расстояния редактирования - сложный алгоритм, а хороший словарь должен быть большим. 

Но можно обратить внимание на то, что расстояние редактирование до большинства слов в словаре считать бессмысленно, т.к. они очевидно отличаются слишком сильно (например, слово "лес" и "заноза" настолько разные, что нам неважно какое между ними расстояние редактирования). Нам нужно придумать способ, который бы позволил нам выделить из словаря только те слова, до которых имеет смысл считать расстояние редактирования. 

Кажется, что **косинусное расстояние по мешку символов** хорошо для этого подходит. Близкими будут слова, состоящие из одинаковых символов. Расстояние редактирования между такими словами может быть и большим (акула-лука),  и маленьким (акула-акул), поэтому их придется проверить расстоянием левенштейна прежде, чем предсказывать. При этом мы можем быть уверены, что далекими по косинусу точно не будут слова с маленьким расстоянием редактирования! И соответственно их можно сразу отбросить из кандидатов на исправление.

Косинусное расстояние работает на векторах, а векторные операции сильно быстрее любых циклов (а внутри расстояния левенштейна иммено циклы).

Сделаем поиск похожих по векторам символов, из которых состоит слово. Косинусное расстояние между векторами слов не равно расстоянию редактирования, т.к. в нем не учитывается порядок символов. Близкими будут слова, состоящие из одинаковых символов. Но мы можем быть уверены, что близкими точно не будут слова с большим косинсным расстоянием, и можем их не проверять их честной метрикой редактирования.

In [41]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity, cosine_distances

In [42]:
vocab = Counter(re.findall('\w+', corpus.lower()))

word2id = list(vocab.keys())
id2word = {i:word for i, word in enumerate(vocab)}


vec = CountVectorizer(analyzer='char', max_features=10000, ngram_range=(1,3))
X = vec.fit_transform(vocab)

In [44]:
vec.vocabulary_

{'н': 6052,
 'о': 6414,
 'в': 3192,
 'с': 7493,
 'т': 7812,
 'р': 7092,
 'й': 5093,
 'к': 5224,
 'а': 2480,
 'но': 6223,
 'ов': 6453,
 'во': 3319,
 'ос': 6737,
 'ст': 7690,
 'тр': 7991,
 'ро': 7281,
 'ой': 6573,
 'йк': 5132,
 'ка': 5225,
 'нов': 6226,
 'ово': 6463,
 'вос': 3337,
 'ост': 6751,
 'стр': 7702,
 'тро': 7995,
 'рой': 7291,
 'ойк': 6576,
 'йка': 5133,
 'и': 4698,
 'ж': 4355,
 'е': 3921,
 'г': 3454,
 'д': 3640,
 'я': 9726,
 'ни': 6165,
 'иж': 4785,
 'же': 4390,
 'ег': 3969,
 'го': 3558,
 'ор': 6706,
 'од': 6491,
 'дс': 3824,
 'ск': 7597,
 'ая': 2940,
 'ниж': 6172,
 'иже': 4787,
 'жег': 4393,
 'его': 3978,
 'гор': 3574,
 'оро': 6720,
 'род': 7286,
 'одс': 6508,
 'дск': 3828,
 'ска': 7598,
 'кая': 5253,
 'б': 2951,
 'л': 5461,
 'ь': 9332,
 'об': 6428,
 'бл': 3050,
 'ла': 5462,
 'ас': 2799,
 'ть': 8087,
 'обл': 6438,
 'бла': 3051,
 'лас': 5480,
 'аст': 2813,
 'сть': 7707,
 'се': 7544,
 'ел': 4093,
 'ль': 5720,
 'ьс': 9417,
 'ки': 5285,
 'ий': 4820,
 'сел': 7555,
 'ель': 4110,
 'л

In [45]:
X.shape

(368802, 10000)

In [46]:
def get_closest_match_vec(text, X, vec, topn=20):
    v = vec.transform([text])
    
    # вся эффективноть берется из того, что мы сразу считаем близость 
    # 1 вектора ко всей матрице (словам в словаре)
    # считать по отдельности циклом было бы дольше
    # вместо одного вектора может даже целая матрица
    # тогда считаться в итоге будет ещё быстрее
    
    similarities = cosine_distances(v, X)[0]
    topn = similarities.argsort()[:topn] 
    
    return [(id2word[top], similarities[top]) for top in topn]

In [47]:
%%time
get_closest_match_vec('сонце', X, vec) # это расстояние - чем меньше тем лучше

CPU times: user 230 ms, sys: 77.8 ms, total: 308 ms
Wall time: 336 ms


[('монце', 0.24999999999999978),
 ('конце', 0.24999999999999978),
 ('донце', 0.24999999999999978),
 ('херсонцев', 0.2640199278060127),
 ('саксонцев', 0.2640199278060127),
 ('сон', 0.2928932188134523),
 ('ньонце', 0.29985995798599496),
 ('олонце', 0.2998599579859951),
 ('соне', 0.3264246859454365),
 ('монцей', 0.3291796067500631),
 ('солнце', 0.3291796067500631),
 ('донцем', 0.3291796067500631),
 ('концессионное', 0.33217692887937156),
 ('концерн', 0.3545027756320972),
 ('монцезе', 0.3545027756320972),
 ('концессионном', 0.35948738477965136),
 ('концессионера', 0.36155760193093855),
 ('концессионером', 0.36555873142548445),
 ('лондонцев', 0.367544467966324),
 ('эстонцев', 0.37005921165128786)]

Напишем функцию, которая принимает слово и находит ближайшее к нему в словаре с помощью косинусного расстояния, а затем проверяет варианты честной метрикой редактирования. 

In [48]:
def get_closest_hybrid_match(text, X, vec, topn=3, metric=textdistance.damerau_levenshtein):
    candidates = get_closest_match_vec(text, X, vec, topn*4)
    lookup = [cand[0] for cand in candidates]
    closest = get_closest_match_with_metric(text, lookup, topn, metric=metric)

    
    return closest

In [49]:
%%time
get_closest_hybrid_match('сонце', X, vec)

CPU times: user 225 ms, sys: 27.3 ms, total: 253 ms
Wall time: 259 ms


[('солнце', 0.8333333333333334), ('монце', 0.8), ('конце', 0.8)]

Оценим такой метод исправления.

In [50]:
mistakes = []
total_mistaken = 0
mistaken_fixed = 0

total_correct = 0
correct_broken = 0

total = 0
correct = 0

cashed = {}
for i in tqdm(range(len(true))):
    word_pairs = align_words(true[i], bad[i])
    for pair in word_pairs:
        if predict_mistaken(pair[1], vocab):
            pred = cashed.get(pair[1], get_closest_hybrid_match(pair[1], X, vec)[0][0])
            cashed[pair[1]] = pred
        else:
            pred = pair[1]
        
            
        if pred == pair[0]:
            correct += 1
        else:
            mistakes.append((pair[0], pair[1], pred))
        total += 1
            
        if pair[0] == pair[1]:
            total_correct += 1
            if pair[0] != pred:
                correct_broken += 1
        else:
            total_mistaken += 1
            if pair[0] == pred:
                mistaken_fixed += 1


  0%|          | 0/915 [00:00<?, ?it/s]

In [51]:
print(correct/total)
print(mistaken_fixed/total_mistaken)
print(correct_broken/total_correct)

0.8533266633316658
0.4704968944099379
0.09004249454461927


К сожалению лучше не стало. Но возможно дело в том, что в алгоритме Норвига мы учитывали вероятности слов, а тут нет. Попробуйте добавить ранжирование равнозначных по расстоянию редактирования кандидатов по вероятности и оцените качество.

## Готовые инструменты

Есть несколько готовых опечаточников:  
1) Hunspell - https://pypi.org/project/hunspell/  
2) Jamspell - https://github.com/bakwc/JamSpell#python  
3) Яндекс.Спеллер - https://yandex.ru/dev/speller/ (только через API)


Если вам понадобится в серьезной задаче исправлять опечатки, то начните с них, а не с алгоритма Норвига.

Для Яндекс Спеллера есть питоновская библиотека, которая упрощает его использование. У него есть некоторые ограничения (10 к запросов в день), но для небольших проектов этого вполне достаточно.

In [52]:
!pip install pyaspeller

Collecting pyaspeller
  Using cached pyaspeller-2.0.0-py3-none-any.whl (12 kB)
Installing collected packages: pyaspeller
Successfully installed pyaspeller-2.0.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.3.1[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [55]:
# Так можно исправить предложение целиком
from pyaspeller import YandexSpeller
speller = YandexSpeller()
fixed = speller.spelled('Для Яндекс Спеллера есь питоновская библиатека, которай упрощает его использование. У него есть некоторые ограничения (10 к запросов в день), но для небольших проектов этого вполне достаточно.')
fixed

'Для Яндекс Спеллера есть питоновская библиотека, которая упрощает его использование. У него есть некоторые ограничения (10 к запросов в день), но для небольших проектов этого вполне достаточно.'

In [54]:
# А так проверить и исправить отдельное слово
from pyaspeller import Word
check = Word('приджлажение')
print(check.text, check.correct, check.spellsafe, check.variants)



приджлажение False предложение ['предложение', 'придлажение', 'приджложение']
