Исправление опечаток (спеллчекинг)

Идея: если у нас есть словарь (список словоформ русского языка), мы можем попробовать определить, написано ли какое-то слово, введённое пользователем, с опечаткой или нет. Для этого нам нужно (1) определить, есть ли это слово в нашем словаре, и (2) если нет, то поискать в словаре слово, отличающееся от введённого не больше, чем на какое-то определённое небольшое расстояние Левенштейна (РЛ). Если нашлось, то предлагаем исправление; если не нашлось, делаем вывод, что это не опечатка, а просто неизвестное слово.

Подход в лоб: посчитать расстояние Левенштейна между введённым словом и всеми словами в словаре, взять то, у которого расстояние минимальное. Минус подхода: будет работать очень долго, т.к. расстояние Левенштейна - "дорогой" алгоритм, а в словаре может быть много слов.

Подход более умный (который надо реализовать):
1. Если введённое слово есть в словаре, то всё хорошо, дальше можно не идти.
2. Если нет, то для введённого слова сгенерируем все возможные русские слова/псевдослова, отстоящие от него на расстояние Левенштейна, равное 1. Для этого нужно провести все возможные элементарные операции: удаления (по одной удаляем из слова каждую букву), замены (по одной заменяем каждую букву в слове на каждую букву из русского алфавита), вставки (по одной вставляем каждую букву русского алфавита в каждую возможную позицию)

Тогда для слова "мама" все возможные слова с РЛ=1:

all_edits = ["ама", "мма", "маа", "мам", "аама", "бама", ..., "мамю", "мамя", "амама", "бмама", ..., "маама", "мбама", ..., "мамаю", "мамая"]

3. Посмотрим, какие слова из этого списка есть в словаре.

4. Если ни одного из этих слов нет в словаре, то тогда повторим пункт 2 для каждого слова из all_edits. Соединив результаты вместе, получим список слов, отстоящих от исходного на РЛ=2.

5. Повторим пункт 3.

6. Если и этих слов нет в словаре, делаем вывод, что опечатки нет, а просто слово неизвестно.

7. В противном случае возвращаем список полученных слов, ранжированный по их частотности.

---

8. Если справитесь с пп. 1-7, постарайтесь улучшить программу так, чтобы она учитывала случайно вставленные или пропущенные пробелы.

9. Если справитесь с п. 8, попробуйте изменить ранжирование вариантов так, чтобы сверху были самые вероятные опечатки. Для этого задайте функцию, которая определяет расстояние между двумя клавишами на клавиатуре. Например:  
```
>>>dist("ф", "ы")
1
>>>dist("ф", "в")
2
```  
Детали имплементации на ваше усмотрение.

В файле fontanka_freqs.txt содержится частотный список словоформ русского языка. Числа справа от слов - их частотность в логарифмическом представлении. Чем больше число (по значению, а не по модулю), тем более частотное слово.

Вопросы:  
1. В чём преимущество хранения частотности (т.е. вероятности встретить слово) в логарифмическом представлении?
2. Если нам нужно определить частотность сочетания двух слов (вероятность встретить два слова вместе), что нужно сделать? А в лог-представлении?

Полезная информация: время поиска в списке гораздо больше, чем в словаре или множестве.

In [1]:
import time
import random

In [3]:
a_set = {random.randint(1, 10 ** 9) for _ in range(10**7)}

In [10]:
a_dict = {i: 0 for i in a_set}

In [4]:
a_list = list(a_set)

In [None]:
start_time = time.time()
for t in range(100):
    t in a_dict
print(time.time() - start_time)

In [None]:
start_time = time.time()
for t in range(100):
    t in a_set
print(time.time() - start_time)

In [None]:
start_time = time.time()
for t in range(100):
    t in a_list
print(time.time() - start_time)