# Семинар 3. Исправление опечаток

In [1]:
import os, re
from string import punctuation
import numpy as np
import json
from collections import Counter
from pprint import pprint
punct = set(punctuation)
from sklearn.metrics import classification_report

Возьмем данные с соревнования Dialog Evaluation 2015 по исправлению опечаток. Данные представляют собой набор предложений (правильное - ошибочное). Задача найти слова с ошибками и заменить их на правильный вариант.

Недостатком тут является то, что не всегда можно правильно сопоставить слова правильного предложения и ошибочного (из-за слов с пропущенным или добавленным пробелом). Из статьи авторов корпуса не очень понятно, как они решали эту проблему, поэтому я просто удалил все такие предложения.

In [2]:
bad = open('sents_with_mistakes.txt', encoding='utf8').read().splitlines()
true = open('correct_sents.txt', encoding='utf8').read().splitlines()

In [3]:
# Посмотрим на пары предложений
print(bad[2])
print(true[2])

Пояним эту мысль.
Поясним эту мысль


In [4]:
# напишем функцию, которая будет сопоставлять слова в правильном и ошибочном варианте
# разобьем предложение по пробелам и удалим пунктуация на границах слов
def align_words(sent_1, sent_2):
    tokens_1 = sent_1.lower().split()
    tokens_2 = sent_2.lower().split()
    
    tokens_1 = [re.sub('(^\W+|\W+$)', '', token) for token in tokens_1 if (set(token)-punct)]
    tokens_2 = [re.sub('(^\W+|\W+$)', '', token) for token in tokens_2 if (set(token)-punct)]
    
    return list(zip(tokens_1, tokens_2))

In [5]:
pprint(align_words(true[1], bad[1]))

[('апофеозом', 'опофеозом'),
 ('дня', 'дня'),
 ('для', 'для'),
 ('меня', 'меня'),
 ('сегодня', 'сегодня'),
 ('стала', 'стала'),
 ('фраза', 'фраза'),
 ('услышанная', 'услышанная'),
 ('в', 'в'),
 ('новостях', 'новостях')]


Вытащим только неправильные варианты и заодно посчитаем процент ошибок.

In [6]:
mistakes = []
total = 0

for i in range(len(true)):
    
    word_pairs = align_words(true[i], bad[i])
    
    for pair in word_pairs:
        if pair[0] != pair[1]:
            mistakes.append(pair)
        
        total += 1

In [7]:
print('Доля ошибок - ', len(mistakes)/total )

Доля ошибок -  0.13034358769476628


In [8]:
mistakes[:5]

[('симпатичнейшее', 'симпатичнейшое'),
 ('апофеозом', 'опофеозом'),
 ('поясним', 'пояним'),
 ('получатся', 'полчатся'),
 ('очень', 'оччччень')]

Обернем в Counter, чтобы сразу увидеть частотные ошибки.

In [9]:
Counter(mistakes).most_common(10)

[(('сегодня', 'седня'), 24),
 (('вообще', 'вобще'), 18),
 (('вообще', 'ваще'), 17),
 (('естественно', 'естесственно'), 17),
 (('хочется', 'хочеться'), 16),
 (('кстати', 'кстате'), 16),
 (('очень', 'ооочень'), 14),
 (('как-то', 'както'), 9),
 (('очень', 'оооочень'), 9),
 (('это', 'ето'), 9)]

Из-за того, что процент ошибок довольно низкий, не очень выгодно будет находить исправление для каждого слова. Нужен какой-то более простой классификатор, который выделит ошибочные слова, чтобы потом только их и редактировать.

Самый простой способ это сделать - составить словарь правильных слов и потом сравнивать с ним. Чтобы не делать этого вручную, можно взять какой-нибудь корпус текстов, прошедщих редактуру. Новостные тексты для этого хорошо подходят.

Я заранее собрал небольшой корпус новостных текстов и немного почистил его удалив отдельную пунктуацию и пунктуацию на границах слов.

In [10]:
corpus = open('corpus_ng.txt', encoding='utf8').read().splitlines()

In [11]:
# нормализация нам тут не нужна так как нужно находить слова в разных формах
print(corpus[1].split()[:10])

['судя', 'по', 'всему', 'русская', 'православная', 'церковь', 'нашла', 'долгожданную', 'национальную', 'идею']


## Задание 1.
Напишите функцию, которая будет предсказывать ошибочные слова на основе корпуса.

In [73]:
tokens = [sent.split() for sent in corpus]

In [74]:
len(tokens)

1987

In [76]:
tokens = [x for y in tokens for x in y]

In [77]:
len(tokens)

1664313

In [78]:
# создайте множество, чтобы проверять вхождения
vocab = set(tokens)

In [79]:
len(vocab)

137738

In [41]:
def predict_mistaken(word, vocab):
    '''
    ::input: word, vocabulary
    ::output: 1 or 0
    
    '''
    return int(word in vocab)

In [26]:
print(len(bad), len(true))

916 916


In [83]:
y_true = []
total_word_pairs = [None] * len(bad)
for i in range(0, len(bad)):
    sent1 = bad[i]
    sent2 = true[i]
    word_pairs = align_words(sent1, sent2)
    total_word_pairs[i] = word_pairs
    for x in word_pairs:
        if x[0] == x[1]:
            y_true.append(1)
        else:
            y_true.append(0)

In [53]:
len(y_true)

10012

In [49]:
len(total_word_pairs), len(total_word_pairs[0])

(916, 20)

In [54]:
total_bad_words = [x[0] for pair in total_word_pairs for x in pair]

In [65]:
total_true_words = [x[1] for pair in total_word_pairs for x in pair]

In [80]:
len(vocab)

137738

In [81]:
len(set(total_true_words))

4760

In [82]:
len(set(total_true_words).intersection(vocab))

3658

In [55]:
len(total_bad_words)

10012

In [84]:
y_pred = [None]*len(y_true)
for i, word in enumerate(total_bad_words):
    y_pred[i] = predict_mistaken(word, vocab)

In [88]:
len(y_pred)

10012

In [89]:
comparison = [i for i in range(0, len(y_pred)) if y_pred[i] == y_true[i]]
len(comparison)

8915

In [87]:
len(comparison)/len(y_pred)

0.8904314822213344

In [86]:
comparison[:10]

[0, 2, 3, 4, 6, 7, 9, 10, 11, 15]

In [20]:
# для оценки создайте два списка y_true и y_pred
# пройдитесь по предложениям
# сопоставите слова с помощью функции align_words
# пройдитесь по парам слов и
# если слова одинаковые добавьте в y_true 0 
# если слова разные добавьте в y_true 1
# предскажите ошибочность слова из bad списка 
# добавьте предсказание в список y_pred

y_true = []
y_pred = []

## ваш код здесь
    

In [24]:
pprint(align_words(corpus[1], bad[1]))

[('судя', 'опофеозом'),
 ('по', 'дня'),
 ('всему', 'для'),
 ('русская', 'меня'),
 ('православная', 'сегодня'),
 ('церковь', 'стала'),
 ('нашла', 'фраза'),
 ('долгожданную', 'услышанная'),
 ('национальную', 'в'),
 ('идею', 'новостях')]


In [13]:
# оцените качество с помощью classification_report
print(classification_report(y_true, y_pred))

### Генерация исправлений

Теперь нужно думать о том, как исправить неправильные слова. Посмотрим как это можно делать на примере известной реализации Питера Норвига.

Основная идея - сделать словарь правильных слов (у нас уже есть), расчитать вероятность каждого слова в корпусе.

In [95]:
corpus = [sent.split() for sent in open('corpus_ng.txt', encoding='utf8').read().splitlines()]
WORDS = Counter()
for sent in corpus:
    WORDS.update(sent)

In [26]:
WORDS.most_common(10)

[('в', 67679),
 ('и', 55933),
 ('на', 27860),
 ('не', 21627),
 ('что', 18299),
 ('с', 18224),
 ('по', 13117),
 ('а', 9696),
 ('как', 8958),
 ('к', 8907)]

In [96]:
# фунцкия расчета вероятности слова
N = sum(WORDS.values())
def P(word, N=N): 
    "Вычисляем вероятность слова"
    return WORDS[word] / N


In [29]:
P('апофеоз')

1.8025455548325345e-06

Чтобы найти исправления нужно сгенерировать возможные исправления и выбрать те, которые есть в словаре. Если есть несколько вариантов, то выбрать тот, у котогоро наибольшая вероятность.

In [93]:
def correction(word): 
    "Находим наиболее вероятное похожее слово"
    return max(candidates(word), key=P)

def candidates(word): 
    "Генерируем кандидатов на исправление"
    return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])

def known(words): 
    "Выбираем слова, которые есть в корпусе"
    return set(w for w in words if w in WORDS)

def edits1(word):
    "Создаем кандидатов, которые отличаются на одну букву"
    letters    = 'йцукенгшщзхъфывапролджэячсмитьбюё'
    splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)]
    deletes    = [L + R[1:]               for L, R in splits if R]
    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
    replaces   = [L + c + R[1:]           for L, R in splits if R for c in letters]
    inserts    = [L + c + R               for L, R in splits for c in letters]
    return set(deletes + transposes + replaces + inserts) # возвращаем уникальных кандидатов

def edits2(word): 
    "Создаем кандидатов, которые отличаются на две буквы"
    return (e2 for e1 in edits1(word) for e2 in edits1(e1)) # сначала отличается на одну букву, потом на одну от одной

In [31]:
%%time
correction('опефеоз')

CPU times: user 136 ms, sys: 4 ms, total: 140 ms
Wall time: 137 ms


'апофеоз'

Давайте поподробнее разберем, что происходит в функции edits.

In [32]:
word = 'опефеоз'
splits = [(word[:i], word[i:])    for i in range(len(word) + 1)]

In [33]:
splits[:10]

[('', 'опефеоз'),
 ('о', 'пефеоз'),
 ('оп', 'ефеоз'),
 ('опе', 'феоз'),
 ('опеф', 'еоз'),
 ('опефе', 'оз'),
 ('опефео', 'з'),
 ('опефеоз', '')]

In [35]:
deletes = [L + R[1:] for L, R in splits if R]

In [36]:
deletes[:10]

['пефеоз', 'оефеоз', 'опфеоз', 'опееоз', 'опефоз', 'опефез', 'опефео']

In [37]:
transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]

In [38]:
transposes[:10]

['поефеоз', 'оепфеоз', 'опфееоз', 'опеефоз', 'опефоез', 'опефезо']

In [39]:
letters    = 'йцукенгшщзхъфывапролджэячсмитьбюё'
replaces = [L + c + R[1:] for L, R in splits if R for c in letters]

In [40]:
len(replaces)

231

In [41]:
inserts = [L + c + R for L, R in splits for c in letters]

In [42]:
inserts[:10]

['йопефеоз',
 'цопефеоз',
 'уопефеоз',
 'копефеоз',
 'еопефеоз',
 'нопефеоз',
 'гопефеоз',
 'шопефеоз',
 'щопефеоз',
 'зопефеоз']

Для оценки используем просто долю правильных исправлений.

In [97]:
# До этого мы уже считали долю ошибок во всех предложениях.
# Поэтому если ничего не менять то доля правильных исправлений уже будет 100 - 13 = 87 %.
# Наш подход соответственно должен показывать лучший результат 
correct = 0
total = 0

for i in range(len(true)):
    word_pairs = align_words(true[i], bad[i])
    
    for pair in word_pairs:
        
        predicted = correction(pair[1])
        if predicted == pair[0]:
            correct += 1
        total += 1
    if not i % 10:
        print(i)
        print(correct/total)

0
0.7333333333333333
10
0.8384615384615385
20
0.8441558441558441
30
0.8434343434343434
40
0.847953216374269
50
0.8518518518518519
60
0.8444444444444444
70
0.849009900990099
80
0.8490967056323061
90
0.8516699410609038
100
0.850358422939068
110
0.853904282115869
120
0.8538283062645011
130
0.8527472527472527
140
0.8516746411483254
150
0.8574144486692015
160
0.8567216981132075
170
0.8562605277933745
180
0.8536324786324786
190
0.8547094188376754
200
0.8576238576238576
210
0.8588929219600726
220
0.8594687232219366
230
0.8595482546201232
240
0.8635485117897178
250
0.8615497612926919
260
0.862469222652128
270
0.8600405679513184
280
0.8602775088738303
290
0.8581648522550545
300
0.8590745192307693
310
0.8598240469208212
320
0.8602211511199319
330
0.8588787627727147
340
0.8580280172413793
350
0.8573671813661345
360
0.8573238722757223
370
0.8580997271148598
380
0.8593486127864898
390
0.8600189483657035
400
0.8617490141498492
410
0.8611361587015329
420
0.8611910560106265
430
0.8613861386138614
440


In [98]:
print(correct/total)

0.8598681582101478


In [45]:
%%time
correction('нав')

CPU times: user 0 ns, sys: 0 ns, total: 0 ns
Wall time: 202 µs


'на'

In [46]:
%%time
correction('насмехатьсяаававттававаываываы')

CPU times: user 2.06 s, sys: 28 ms, total: 2.08 s
Wall time: 2.09 s


'насмехатьсяаававттававаываываы'

Посмотрим какие исправления выбираются для самых частотных опечаток.

In [47]:
[(wt[0], wt[1], correction(wt[1])) for wt, _ in Counter(mistakes).most_common(10)]

[('сегодня', 'седня', 'сеня'),
 ('вообще', 'вобще', 'вообще'),
 ('естественно', 'естесственно', 'естественно'),
 ('вообще', 'ваще', 'ваще'),
 ('хочется', 'хочеться', 'хочется'),
 ('кстати', 'кстате', 'кстати'),
 ('очень', 'ооочень', 'очень'),
 ('это', 'ето', 'ето'),
 ('как-то', 'както', 'какао'),
 ('очень', 'оооочень', 'оооочень')]

### Метрики близости слов.

Вместо того, чтобы генерировать все варианты, можно искать похожие слова в словаре. Для этого нужно задать метрику похожести. Для исправления опечаток часто используются расстояния редактирования (количество редактирований, которые нужно сделать в строке a, чтобы прийти к b.

In [43]:
# в питоне есть библиотеке для нахождения близких строк

In [44]:
from difflib import get_close_matches

In [45]:
%%time
get_close_matches('опофеоз', WORDS.keys(), n=1)

CPU times: user 548 ms, sys: 0 ns, total: 548 ms
Wall time: 546 ms


['апофеоз']

Работает тоже не очень быстро.

Недавно вышла библиотека, в которой реализованы многие методы нахождения расстояний.

In [109]:
import textdistance

In [117]:
def get_closest_match_with_metric(text, lookup, metric=textdistance.levenshtein):
    similarities = Counter()
    for word in lookup:
        similarities[word] = metric.normalized_similarity(text, word) 
    
    return similarities.most_common(1)[0]

In [48]:
%%time
get_closest_match_with_metric('опофиоз', WORDS, textdistance.hamming)

CPU times: user 868 ms, sys: 4 ms, total: 872 ms
Wall time: 891 ms


('апофеоз', 0.7142857142857143)

In [49]:
%%time
get_closest_match_with_metric('апофиоз', WORDS, textdistance.levenshtein)

CPU times: user 12.2 s, sys: 0 ns, total: 12.2 s
Wall time: 12.1 s


('апофеоз', 0.8571428571428572)

Ждать так долго мы не можем, поэтому попробуем что-то побыстрее.

Многие вещи, которые медленно решаются в питоне, можно оптимизировать с помощью матричных и векторных операций.

Сделаем поиск похожих по векторам символов, из которых состоит слово.

In [112]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity, cosine_distances

In [113]:
corpus = [sent.split() for sent in open('corpus_ng.txt', encoding='utf8').read().splitlines()]
WORDS = Counter()
for sent in corpus:
    WORDS.update(sent)

In [114]:
vocab = list(WORDS.keys())
id2word = {i:word for i, word in enumerate(vocab)}

In [115]:
vec = TfidfVectorizer(analyzer='char', ngram_range=(1,1))
X = vec.fit_transform(vocab)

In [104]:
X

<137738x103 sparse matrix of type '<class 'numpy.float64'>'
	with 1047963 stored elements in Compressed Sparse Row format>

In [116]:
def get_closest_match_vec(text, X, vec, TOPN=3):
    v = vec.transform([text])
    similarities = cosine_distances(v, X)
    topn = similarities.argsort()[0][:TOPN]
    
    return [id2word[top] for top in topn]

In [58]:
%%time
get_closest_match_vec('опофеоз', X, vec)

CPU times: user 52 ms, sys: 4 ms, total: 56 ms
Wall time: 52.7 ms


['апофеоз', 'апофеозом', 'апофеоза']

## Задание 2. 


Напишите функцию, которая принимает слово и находит ближайшее к нему в словаре (сгенерируйте несколько кандидатов с помощью get_closest_match_vec, а затем посчитайте метрики близости до кадого слова и выведете самое близкое). 

In [123]:
def get_closest_hybrid_match(text, X, vec, metric=textdistance.levenshtein):
    # ваш код здесь
    candidates = get_closest_match_vec(text, X, vec)
    similarities = Counter()
    for word in candidates:
        similarities[word] = metric.normalized_similarity(text, word) 
    return similarities.most_common(1)[0]

In [124]:
get_closest_hybrid_match('алкогнль', X, vec)

('алкоголь', 0.875)

In [None]:
# оцените качество также как и раньше (если будет долго работать возьмите кусок данных)
# посмотрите на ошибки

В рассмотренных методах при выборе исправления никак не использовался контекст. Про то как это можно сделать, можно почитать вот тут - https://habr.com/ru/post/346618/