# Домашнее задание № 3. Исправление опечаток

## 1. Доп. ранжирование по вероятности (3 балла)

Дополните get_closest_hybrid_match в семинаре так, чтобы из кандадатов с одинаковым расстоянием редактирования выбиралось наиболее вероятное.

In [1]:
import textdistance
from collections import Counter
import re
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity, cosine_distances

In [2]:
corpus = open('wiki_data.txt', encoding='utf8').read()
vocab = Counter(re.findall('\w+', corpus.lower()))

In [3]:
word2id = list(vocab.keys())
id2word = {i:word for i, word in enumerate(vocab)}


vec = CountVectorizer(analyzer='char', ngram_range=(1,3), max_features=1000)
X = vec.fit_transform(vocab)

In [4]:
def get_closest_match_vec(text, X, vec, topn=20):
    v = vec.transform([text])
    
    # вся эффективноть берется из того, что мы сразу считаем близость 
    # 1 вектора ко всей матрице (словам в словаре)
    # считать по отдельности циклом было бы дольше
    # вместо одного вектора может даже целая матрица
    # тогда считаться в итоге будет ещё быстрее
    
    similarities = cosine_distances(v, X)[0]
    topn = similarities.argsort()[:topn] 
    
    return [(id2word[top], similarities[top]) for top in topn]

In [5]:
def get_closest_match_with_metric(text, lookup,topn=20, metric=textdistance.levenshtein):
    # Counter можно использовать и с не целыми числами
    similarities = Counter()
    
    for word in lookup:
        similarities[word] = metric.normalized_similarity(text, word) 
    
    return similarities.most_common(topn)

def get_closest_hybrid_match(text, X, vec, topn=3, metric=textdistance.damerau_levenshtein):
    candidates = get_closest_match_vec(text, X, vec, topn*4)
    lookup = [cand[0] for cand in candidates]
    closest = get_closest_match_with_metric(text, lookup, topn, metric=metric)

    
    return closest

N = sum(vocab.values())

def P(word, N=N):
    return vocab[word] / N

def predict_mistaken(word, vocab):
    return 0 if word in vocab else 1


In [6]:
# ваш код тут
def find_most_likely_word(text, X, vec, topn=3, metric=textdistance.damerau_levenshtein):
    possible_words = get_closest_hybrid_match(text, X, vec, topn, metric)
    probability_of_words ={}
    for word in possible_words:
        probability_of_words[word[0]] = P(word[0])
    most_likely_word = max(probability_of_words, key=probability_of_words.get)
    return(most_likely_word)
    

print(find_most_likely_word('знають', X, vec))

знать


## 2.  Symspell (5 баллов)

Реализуйте алгоритм Symspell. Он похож на алгоритм Норвига, но проще и быстрее. Там к словам применяется только одна операция - удаление символа. Описание алгоритма по шагам:

1) Составляется словарь правильных слов  
2) На основе словаря правильных слов составляется словарь удалений - для каждого правильного слова создаются все варианты удалений и создается словарь, где ключ - слово с удалением, а значение - правильное слово   
3) Для выбора исправления для слова с опечаткой генерируются все варианты удаления, из них выбираются те, что есть в словаре удалений, построенного на шаге 2. Слово с опечаткой заменяется на правильное слово, соответствующее варианту удаления  
4) Если в словаре удалений есть несколько вариантов, то выбирается удаление, которому соответствует наиболее вероятное правильное слово  


Оцените качество полученного алгоритма теми же тремя метриками.

In [7]:
from string import punctuation
punctuation += "«»—…“”"
punct = set(punctuation)

In [8]:
# ваш код тут
corpus = open('wiki_data.txt', encoding='utf8').read()
tokens = corpus.lower().split()
tokens = [token.strip(punctuation) for token in tokens]
tokens = [token for token in tokens if token]

In [9]:
tokens_with_frequencies ={}
for token in tokens:
    if (str(token) in tokens_with_frequencies):
        tokens_with_frequencies[token] = tokens_with_frequencies.get(token)+1
    else:
        tokens_with_frequencies[token] = 1


In [10]:
#На основе словаря правильных слов составляется словарь удалений - 
#для каждого правильного слова создаются все варианты удалений и создается словарь,
#где ключ - слово с удалением, а значение - правильное слово
wrong_words ={}
for word in tokens_with_frequencies.keys():
    for i in range(len(word)):
        wrong_word = word[0:i]+word[i+1:len(word)]
        wrong_words[wrong_word] = word

In [24]:
N= len(tokens_with_frequencies)
def P(word):
    if word in tokens_with_frequencies:
        return tokens_with_frequencies[word]/N
    else:
        return 0


In [25]:
setn ={2}
if len(setn)==1:
    iterator = iter(setn)
    item1 = next(iterator, None)
    print(item1)

2


In [31]:
#Для выбора исправления для слова с опечаткой генерируются все варианты удаления, 
#из них выбираются те, что есть в словаре удалений, построенного на шаге 2.
#Слово с опечаткой заменяется на правильное слово, соответствующее варианту удаления

def find_correct_word(word):
    splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)]
    words_with_deletions    = [L + R[1:]               for L, R in splits if R]
    possible_words = set(words_with_deletions) & set(wrong_words)
    if len(possible_words) ==0:
        return word
    else: 
        return max(possible_words, key=P)
correct_word = find_correct_word('лбдымвоывидют')
print(correct_word)

лбдымвоывидют


In [27]:
bad = open('sents_with_mistakes.txt', encoding='utf8').read().splitlines()
true = open('correct_sents.txt', encoding='utf8').read().splitlines()
bad.pop(778)
true.pop(778)


'Он устал после работы случается что его обижали большие мальчишки в суровом бизнесе и ругал злой дядька-начальник'

In [28]:
# напишем функцию, которая будет сопоставлять слова в правильном и ошибочном варианте
# разобьем предложение по пробелам и удалим пунктуация на границах слов
def align_words(sent_1, sent_2):
    tokens_1 = sent_1.lower().split()
    tokens_2 = sent_2.lower().split()
    
    tokens_1 = [token.strip(punctuation) for token in tokens_1]
    tokens_2 = [token.strip(punctuation) for token in tokens_2]
    
    tokens_1 = [token for token in tokens_1 if token]
    tokens_2 = [token for token in tokens_2 if token]
    
    assert len(tokens_1) == len(tokens_2)
    
    return list(zip(tokens_1, tokens_2))


In [None]:
total_mistaken = 0
mistaken_fixed = 0

total_correct = 0
correct_broken = 0

cashed = {}
for i in range(len(true)):
    word_pairs = align_words(true[i], bad[i])
    for pair in word_pairs:
        # чтобы два раза не исправлять одно и тоже слово - закешируем его
        # перед тем как считать исправление проверим нет ли его в кеше
        
        predicted = cashed.get(pair[1], find_correct_word(pair[1]))
        cashed[pair[1]] = predicted
        
        
        if predicted == pair[0]:
            correct += 1
        total += 1
        
        if pair[0] == pair[1]:
            total_correct += 1
            if pair[0] !=  predicted:
                correct_broken += 1
        else:
            total_mistaken += 1
            if pair[0] == predicted:
                mistaken_fixed += 1
        
    if not i % 100:
        print(i)

0


In [None]:
print(correct/total)
print(mistaken_fixed/total_mistaken)
print(correct_broken/total_correct)

Этот метод работает хуже по всем метрикам

In [None]:
%%time
find_correct_word('солнвце')


In [None]:
%%time
find_correct_word('насмехатьсяаававттававаываываы')

## *3. Настройка гиперпараметров. (2 балла)

У метода из первого заданий много гиперпараметров (те которые нужно подбирать самостоятельно). Это параметры векторайзера, topn, метрика редактирования. Поэкспериментируйте с ними. 

Проведите как минимум 10 экспериментов с разными параметрами. Для каждого эксперимента укажите мотивацию (например, "слишком маленький topn в get_closest_match_vec приводит к тому, что некоторые хорошие варианты не доходят до get_closest_match_with_metric, попробуем его увеличить")

Старайтесь получить улучшение, но если улучшить не получится, то это не страшно. Главное, чтобы эксперименты были осмысленными, а не рандомными. 