In [26]:
import time
from collections import defaultdict, Counter
import re
import numpy as np

О реализации:
* Словарь хранится в префиксном дереве: https://en.wikipedia.org/wiki/Trie
* Для нахождения ближайшей строки производится нечеткий поиск в дереве с автоматом Левенштейна
* При поиске ближайшего слова минимизируется следующий функционал: $$dist(c\mid q) - \alpha \cdot \log freq(c) \to min,$$ где $dist(c\mid q)$ -- расстояние Левенштейна, а $freq(c)$ -- модель языка (частота слова)
* Язык текста определяется как: $$language = \arg max_{lang \in rus, eng} count\_lang\_letters(text)$$

In [3]:
from spellchecker import SpellChecker

In [4]:
speller = SpellChecker('../data/rus.txt', '../data/eng.txt', max_dist=1, alpha=0.1)

In [5]:
start = time.time()
print("recenttly => %s" %speller.check('recenttly'))
print("Время работы %f" %(time.time() - start))

recenttly => recently
Время работы 0.060220


In [27]:
start = time.time()
print("руский => %s" %speller.check('руский'))
print("Время работы %f" %(time.time() - start))

руский => русский
Время работы 0.027841


Для того, чтобы адекватно проверить работу **spellchecker'a** нужна выборка фраз с правильными и неправильными вариантами. Так как такая выборка не имеется, попробуем руками разметить ошибки на небольшом тексте и запустим наш **spellchecker**.

In [7]:
test = open("../data/test.txt").read()
answer = open("../data/answer.txt").read()

test_words = SpellChecker.get_words(test)
answer_words = SpellChecker.get_words(answer)

### Исходный текст (взять рандомно из интернета):

In [8]:
answer

'Эта книга адресована всем, кто изучает русский язык. Но состоит она не из правил, упражнений и учебных текстов. Для этого созданы другие замечательные учебники.\nУ этой книги совсем иная задача. Она поможет вам научиться не только разговаривать, но и размышлять по-русски. Книга, которую вы держите в руках, составлена из афоризмов и размышлений великих мыслителей, писателей, поэтов, философов и общественных деятелей различных эпох. Их мысли - о тех вопросах, которые не перестают волновать человечество.\nВы можете соглашаться или не соглашаться с тем, что прочитаете в этой книге. Возможно, вам покажется, что какие-то мысли уже устарели. Но вы должны обязательно подумать и обосновать, почему вы так считаете.\nА еще вы узнаете и почувствуете, как прекрасно звучат слова любви, сострадания, мудрости и доброты на русском языке.\n'

### Исходный текст с сгенерированными ошибками:

In [9]:
test

'Ета кнега адресавана всим, кта исучает руский изык. Но состаит ана не из правел, упражниний и учбных тикстов. Тля этаго сазданы другие замячательные учепники.\nУ этай кнеги савсем иня зодача. Она паможет ввм научитьця не толко разгаваривать, но и размишлять по-руски. Кнега, каторую ви диржите в руках, саставлена из афоризмов и размишлений велеких мислителей, писятелей, паэтов, филосафов и общественых детелей разлиных эпах. Их мисли - о тех вопрасах, котарые не перетают валновать челавечество.\nВв можите саглашаться иле не саглашаться с тем, что прачитаете в этай кнеге. Вазможно, вам покожется, щто кокие-то мисли уже усторели. Но вы далжны обизательно падумать и обасновать, пошему вы так ситаете.\nА еще вы уснаете и почуствуете, как прикрасно звучят слова люви, сосрадания, мутрости и допроты на руском язике.\n'

In [10]:
start = time.time()
spellanswer = speller.check(test)
print("%d слов. Время работы %f сек" %(len(test_words), \
                                       time.time() - start))

124 слов. Время работы 1.279971 сек


In [11]:
spellanswer

'Эта книга адресована всем, кто изучает русский язык. Но состоит на не из провел, упражниний и ученых тикстов. Для этого созданы другие замечательные учепники.\nУ этой книги совсем имя задача. Она поможет вам научиться не только разговаривать, но и размышлять по-руки. Книга, которую ви держите в руках, составлена из афоризмов и размышлений великих мислителей, писятелей, паэтов, филосафов и общественых деталей различных эпох. Их мысли - о тех вопросах, которые не передают валновать человечество.\nВ можете саглашаться или не саглашаться с тем, что прачитаете в этой книге. Возможно, вам покажется, что какие-то мысли уже усторели. Но вы должны обязательно подумать и обосновать, почему вы так считаете.\nА еще вы узнаете и почувствуете, как прекрасно звучит слова люди, сострадания, мудрости и доброты на куском ящике.\n'

In [12]:
spellanswer_words = SpellChecker.get_words(spellanswer)
print("Доля правильно исправленных слов: %f" \
      %(np.sum(np.array(answer_words) == np.array(spellanswer_words)) / len(test_words)))

Доля правильно исправленных слов: 0.790323
