# Семинар 3. Исправление опечаток

In [1]:
import os, re
from string import punctuation
import numpy as np
import json
from collections import Counter
from pprint import pprint
punct = set(punctuation)
from sklearn.metrics import classification_report

Возьмем данные с соревнования Dialog Evaluation 2015 по исправлению опечаток. Данные представляют собой набор предложений (правильное - ошибочное). Задача найти слова с ошибками и заменить их на правильный вариант.

Недостатком тут является то, что не всегда можно правильно сопоставить слова правильного предложения и ошибочного (из-за слов с пропущенным или добавленным пробелом). Из статьи авторов корпуса не очень понятно, как они решали эту проблему, поэтому я просто удалил все такие предложения.

In [3]:
bad = open('sents_with_mistakes.txt', encoding='utf8').read().splitlines()
true = open('correct_sents.txt', encoding='utf8').read().splitlines()

In [6]:
# Посмотрим на пары предложений
print(bad[2])
print(true[2])

Пояним эту мысль.
Поясним эту мысль


In [7]:
# напишем функцию, которая будет сопоставлять слова в правильном и ошибочном варианте
# разобьем предложение по пробелам и удалим пунктуация на границах слов
def align_words(sent_1, sent_2):
    tokens_1 = sent_1.lower().split()
    tokens_2 = sent_2.lower().split()
    
    tokens_1 = [re.sub('(^\W+|\W+$)', '', token) for token in tokens_1 if (set(token)-punct)]
    tokens_2 = [re.sub('(^\W+|\W+$)', '', token) for token in tokens_2 if (set(token)-punct)]
    
    return list(zip(tokens_1, tokens_2))

In [8]:
pprint(align_words(true[1], bad[1]))

[('апофеозом', 'опофеозом'),
 ('дня', 'дня'),
 ('для', 'для'),
 ('меня', 'меня'),
 ('сегодня', 'сегодня'),
 ('стала', 'стала'),
 ('фраза', 'фраза'),
 ('услышанная', 'услышанная'),
 ('в', 'в'),
 ('новостях', 'новостях')]


Вытащим только неправильные варианты и заодно посчитаем процент ошибок.

In [9]:
mistakes = []
total = 0
for i in range(len(true)):
    word_pairs = align_words(true[i], bad[i])
    for pair in word_pairs:
        if pair[0] != pair[1]:
            mistakes.append(pair)
        total += 1

In [10]:
print('Доля ошибок - ', len(mistakes)/total )

Доля ошибок -  0.13034358769476628


Обернем в Counter, чтобы сразу увидеть частотные ошибки.

In [11]:
Counter(mistakes).most_common(10)

[(('сегодня', 'седня'), 24),
 (('вообще', 'вобще'), 18),
 (('естественно', 'естесственно'), 17),
 (('вообще', 'ваще'), 17),
 (('хочется', 'хочеться'), 16),
 (('кстати', 'кстате'), 16),
 (('очень', 'ооочень'), 14),
 (('это', 'ето'), 9),
 (('как-то', 'както'), 9),
 (('очень', 'оооочень'), 9)]

Из-за того, что процент ошибок довольно низкий, не очень выгодно будет находить исправление для каждого слова. Нужен какой-то более простой классификатор, который выделит ошибочные слова, чтобы потом только их и редактировать.

Самый простой способ это сделать - составить словарь правильных слов и потом сравнивать с ним. Чтобы не делать этого вручную, можно взять какой-нибудь корпус текстов, прошедщих редактуру. Новостные тексты для этого хорошо подходят.

Я заранее собрал небольшой корпус новостных текстов и немного почистил его удалив отдельную пунктуацию и пунктуацию на границах слов.

In [12]:
corpus = open('corpus_ng.txt', encoding='utf8').read().splitlines()

In [13]:
# нормализация нам тут не нужна так как нужно находить слова в разных формах
print(corpus[1].split()[:10])

['судя', 'по', 'всему', 'русская', 'православная', 'церковь', 'нашла', 'долгожданную', 'национальную', 'идею']


## Задание 1.
Напишите функцию, которая будет предсказывать ошибочные слова на основе корпуса.

In [14]:
# создайте множество, чтобы проверять вхождения
vocab = set()

for sent in corpus:
    vocab.update(sent.split())
# ваш код здесь


In [19]:
def predict_mistaken(word, vocab):
    '''
    ::input: word, vocabulary
    ::output: 1 or 0
    
    '''
    if word in vocab:
        return 0
    else:
        return 1
    ## ваш код здесь
    
    

In [20]:
# для оценки создайте два списка y_true и y_pred
# пройдитесь по предложениям
# сопоставите слова с помощью функции align_words
# пройдитесь по парам слов и
# если слова одинаковые добавьте в y_true 0 
# если слова разные добавьте в y_true 1
# предскажите ошибочность слова из bad списка 
# добавьте предсказание в список y_pred

y_true = []
y_pred = []

for i in range(len(true)):
    # ваш код здесь
    word_pairs = align_words(true[i], bad[i])
    for pair in word_pairs:
        if pair[0] == pair[1]:
            y_true.append(0)
        else:
            y_true.append(1)
        
        y_pred.append(predict_mistaken(pair[1], vocab))
    

In [21]:
# оцените качество с помощью classification_report
print(classification_report(y_true, y_pred))

             precision    recall  f1-score   support

          0       0.98      0.89      0.93      8707
          1       0.55      0.88      0.68      1305

avg / total       0.92      0.89      0.90     10012



### Генерация исправлений

Теперь нужно думать о том, как исправить неправильные слова. Посмотрим как это можно делать на примере известной реализации Питера Норвига.

Основная идея - сделать словарь правильных слов (у нас уже есть), расчитать вероятность каждого слова в корпусе.

In [22]:
corpus = [sent.split() for sent in open('corpus_ng.txt', encoding='utf8').read().splitlines()]
WORDS = Counter()
for sent in corpus:
    WORDS.update(sent)

In [23]:
WORDS.most_common(10)

[('в', 67679),
 ('и', 55933),
 ('на', 27860),
 ('не', 21627),
 ('что', 18299),
 ('с', 18224),
 ('по', 13117),
 ('а', 9696),
 ('как', 8958),
 ('к', 8907)]

In [24]:
# фунцкия расчета вероятности слова
N = sum(WORDS.values())
def P(word, N=N): 
    "Вычисляем вероятность слова"
    return WORDS[word] / N


In [27]:
P('апофеоз')

1.8025455548325345e-06

Чтобы найти исправления нужно сгенерировать возможные исправления и выбрать те, которые есть в словаре. Если есть несколько вариантов, то выбрать тот, у котогоро наибольшая вероятность.

In [40]:
def correction(word): 
    "Находим наиболее вероятное похожее слово"
    return max(candidates(word), key=P)

def candidates(word): 
    "Генерируем кандидатов на исправление"
    return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])

def known(words): 
    "Выбираем слова, которые есть в корпусе"
    return set(w for w in words if w in WORDS)

def edits1(word):
    "Создаем кандидатов, которые отличаются на одну букву"
    letters    = 'йцукенгшщзхъфывапролджэячсмитьбюё'
    splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)]
    deletes    = [L + R[1:]               for L, R in splits if R]
    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
    replaces   = [L + c + R[1:]           for L, R in splits if R for c in letters]
    inserts    = [L + c + R               for L, R in splits for c in letters]
    return set(deletes + transposes + replaces + inserts)

def edits2(word): 
    "Создаем кандидатов, которые отличаются на две буквы"
    return (e2 for e1 in edits1(word) for e2 in edits1(e1))

In [41]:
%%time
correction('опефеоз')

CPU times: user 136 ms, sys: 0 ns, total: 136 ms
Wall time: 134 ms


'апофеоз'

In [29]:
word = 'опефеоз'
splits = [(word[:i], word[i:])    for i in range(len(word) + 1)]

In [30]:
splits[:10]

[('', 'опефеоз'),
 ('о', 'пефеоз'),
 ('оп', 'ефеоз'),
 ('опе', 'феоз'),
 ('опеф', 'еоз'),
 ('опефе', 'оз'),
 ('опефео', 'з'),
 ('опефеоз', '')]

In [31]:
deletes = [L + R[1:] for L, R in splits if R]

In [32]:
deletes[:10]

['пефеоз', 'оефеоз', 'опфеоз', 'опееоз', 'опефоз', 'опефез', 'опефео']

In [33]:
transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]

In [34]:
transposes[:10]

['поефеоз', 'оепфеоз', 'опфееоз', 'опеефоз', 'опефоез', 'опефезо']

In [35]:
letters    = 'йцукенгшщзхъфывапролджэячсмитьбюё'
replaces = [L + c + R[1:] for L, R in splits if R for c in letters]

In [37]:
len(replaces)

231

In [38]:
inserts = [L + c + R for L, R in splits for c in letters]

In [39]:
inserts[:10]

['йопефеоз',
 'цопефеоз',
 'уопефеоз',
 'копефеоз',
 'еопефеоз',
 'нопефеоз',
 'гопефеоз',
 'шопефеоз',
 'щопефеоз',
 'зопефеоз']

Для оценки используем просто долю правильных исправлений.

In [42]:
# До этого бы уже считали долю ошибок во всех предложениях.
# Поэтому если ничего не менять то доля правильных исправлений уже будет 100 - 13 = 87 %.
# Наш подход соответственно должен показывать лучший результат 
correct = 0
total = 0
for i in range(len(true)):
    word_pairs = align_words(true[i], bad[i])
    for pair in word_pairs:
        predicted = correction(pair[1])
        if predicted == pair[0]:
            correct += 1
        total += 1
    if not i % 10:
        print(i)
        print(correct/total)

0
0.7333333333333333
10
0.8384615384615385
20
0.8441558441558441
30
0.8434343434343434
40
0.847953216374269
50
0.8518518518518519
60
0.8444444444444444
70
0.849009900990099
80
0.8490967056323061
90
0.8516699410609038
100
0.850358422939068
110
0.853904282115869
120
0.8538283062645011
130
0.8527472527472527
140
0.8516746411483254
150
0.8574144486692015
160
0.8567216981132075
170
0.8562605277933745
180
0.8536324786324786
190
0.8547094188376754
200
0.8576238576238576
210
0.8588929219600726
220
0.8594687232219366


KeyboardInterrupt: 

In [43]:
print(correct/total)

0.860593220338983


In [45]:
%%time
correction('нав')

CPU times: user 0 ns, sys: 0 ns, total: 0 ns
Wall time: 202 µs


'на'

In [46]:
%%time
correction('насмехатьсяаававттававаываываы')

CPU times: user 2.06 s, sys: 28 ms, total: 2.08 s
Wall time: 2.09 s


'насмехатьсяаававттававаываываы'

In [47]:
[(wt[0], wt[1], correction(wt[1])) for wt, _ in Counter(mistakes).most_common(10)]

[('сегодня', 'седня', 'сеня'),
 ('вообще', 'вобще', 'вообще'),
 ('естественно', 'естесственно', 'естественно'),
 ('вообще', 'ваще', 'ваще'),
 ('хочется', 'хочеться', 'хочется'),
 ('кстати', 'кстате', 'кстати'),
 ('очень', 'ооочень', 'очень'),
 ('это', 'ето', 'ето'),
 ('как-то', 'както', 'какао'),
 ('очень', 'оооочень', 'оооочень')]

### Метрики близости слов.

Вместо того, чтобы генерировать все варианты, можно искать похожие слова в словаре. Для этого нужно задать метрику похожести. Для исправления опечаток часто используются расстояния редактирования (количество редактирований, которые нужно сделать в строке a, чтобы прийти к b.

In [None]:
# в питоне есть библиотеке для нахождения близких строк

In [48]:
from difflib import get_close_matches

In [49]:
%%time
get_close_matches('опофеоз', WORDS.keys(), n=1)

CPU times: user 540 ms, sys: 0 ns, total: 540 ms
Wall time: 538 ms


['апофеоз']

Работает тоже не очень быстро.

Недавно вышла библиотека, в которой реализованы многие методы нахождения расстояний.

In [50]:
import textdistance


In [74]:
def get_closest_match_with_metric(text, lookup, metric=textdistance.levenshtein):
    similarities = Counter()
    for word in lookup:
        similarities[word] = metric.normalized_similarity(text, word) 
    
    return similarities.most_common(1)[0]

In [54]:
%%time
get_closest_match_with_metric('опофиоз', WORDS, textdistance.hamming)

CPU times: user 892 ms, sys: 0 ns, total: 892 ms
Wall time: 890 ms


('апофеоз', 0.7142857142857143)

In [55]:
%%time
get_closest_match_with_metric('апофиоз', WORDS, textdistance.levenshtein)

CPU times: user 12.5 s, sys: 4 ms, total: 12.5 s
Wall time: 12.5 s


('апофеоз', 0.8571428571428572)

In [56]:
(37000*len(true))/1000/60

564.8666666666667

Ждать 13 минут мы не можем, поэтому попробуем что-то побыстрее.

Многие вещи, которые медленно решаются в питоне, можно оптимизировать с помощью матричных и векторных операций.

Сделаем поиск похожих по векторам символов, из которых состоит слово.

In [58]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity, cosine_distances

In [59]:
corpus = [sent.split() for sent in open('corpus_ng.txt', encoding='utf8').read().splitlines()]
WORDS = Counter()
for sent in corpus:
    WORDS.update(sent)

In [60]:
vocab = list(WORDS.keys())
id2word = {i:word for i, word in enumerate(vocab)}

vec = TfidfVectorizer(analyzer='char', ngram_range=(1,1))
X = vec.fit_transform(vocab)

In [61]:
def get_closest_match_vec(text, X, vec, TOPN=3):
    v = vec.transform([text])
    similarities = cosine_distances(v, X)
    topn = similarities.argsort()[0][:TOPN]
    
    return [id2word[top] for top in topn]

In [63]:
%%time
get_closest_match_vec('опофеоз', X, vec)

CPU times: user 36 ms, sys: 0 ns, total: 36 ms
Wall time: 33 ms


['апофеоз', 'апофеозом', 'апофеоза']

## Задание 2. 


Напишите функцию, которая принимает слово и находит ближайшее к нему в словаре (сгенерируйте несколько кандидатов с помощью get_closest_match_vec, а затем посчитайте метрики близости до кадого слова и выведете самое близкое). 

In [75]:
def get_closest_hybrid_match(text, X, vec, metric=textdistance.levenshtein):
    # ваш код здесь
    candidates = get_closest_match_vec(text, X, vec, TOPN=3)
    sims = Counter()
    
    closest = get_closest_match_with_metric(text, candidates, metric=textdistance.hamming)[0]
    # ваш код здесь
#     closest = sims.most_common(1)[0]
    
    return closest

In [76]:
get_closest_match_with_metric('сло', 'слов')

('л', 0.33333333333333337)

In [77]:
get_closest_hybrid_match('опофеоз', X, vec)

'апофеоз'

In [80]:
mistakes = []
for i in range(500, len(true)):
    word_pairs = align_words(true[i], bad[i])
    for pair in word_pairs:
        if pair[0] != get_closest_hybrid_match(pair[1], X, vec):
            mistakes.append((pair[0], pair[1], get_closest_hybrid_match(pair[1], X, vec)))

KeyboardInterrupt: 

In [81]:
mistakes

[('здесь', 'сдесь', 'днесь'),
 ('лазает', 'лазает', 'разлета'),
 ('российская', 'россиская', 'россиянка'),
 ('авиабилет', 'авиабилет', 'авиабилеты'),
 ('угораздило', 'угараздило', 'градуализм'),
 ('кстати', 'кстате', 'текста'),
 ('намазываем', 'намазывем', 'называем'),
 ('остывший', 'остывший', 'выросший'),
 ('фромаж', 'фромаж', 'форсажа'),
 ('блан', 'блан', 'алб'),
 ('риккота', 'риккота', 'краток'),
 ('протертые', 'протертые', 'портреты'),
 ('мелкое', 'мелкое', 'мелко'),
 ('сито', 'сито', 'стоит'),
 ('сметана', 'сметана', 'сеатам'),
 ('прилипли', 'прилипли', 'прилепили'),
 ('естественно', 'естессно', 'сосет'),
 ('бродили', 'бродили', 'бродил'),
 ('этажам', 'этажам', 'этажа'),
 ('ранее', 'раннее', 'раннее'),
 ('фотки', 'фотки', 'фотка'),
 ('обратно', 'обатно', 'обработано'),
 ('комп', 'комп', 'кмп'),
 ('что-то', 'чтото', 'что'),
 ('рыться', 'рыццо', 'царицы'),
 ('официанта', 'официанта', 'официант'),
 ('хз', 'хз', 'хаз'),
 ('надо', 'надо', 'нода'),
 ('официанта', 'официанта', 'официант

In [67]:
# оцените качество также как и раньше
correct = 0
total = 0
for i in range(len(true)):
    word_pairs = align_words(true[i], bad[i])
    for pair in word_pairs:
        predicted = get_closest_hybrid_match(pair[1], X, vec)
        if predicted == pair[0]:
            correct += 1
        total += 1
    
    if not i % 50:
        print(i)
        print(correct/total)

0
0.0
50
0.0
100
0.0


KeyboardInterrupt: 