## Словарь исправленных токенов

Итак, теперь наша задача — объединить функции, которые у нас уже есть, чтобы начать исправлять опечатки в тексте.

Позже, в интерфейсе нашего приложения, которое мы пишем, нам понадобится вывести текст, который уже будет содержать слова с исправленными опечатками и пометки о том, какие именно слова были исправлены.

Чтобы вывести этот текст, нам надо составить **словарь** специального вида. Ключом будет токен из входного текста, а значением к каждому токену — вложенный словарь.

### Вложенный словарь

Во-первых, мы ленивые, поэтому хотим делать как можно меньше работы, а значит, мы должны отсеять слова, которые не будем исправлять. Это части речи, которые мы отметили как banned_pos. В нашем вложенном словаре за этот параметр будет отвечать ключ `'functional'`. Если его значение `True`, это значит, что мы не работаем с токеном далее и выводим его таким, каким нашли, без исправлений и пометок. В случае `False` продолжаем работу.

Во-вторых, мы хотим запоминать, нашли ли мы в слове опечатку. За это будет отвечать ключ `'corrected'`, так же со значениями `True` и `False`. Если слово `'functional': True`, логично тут сразу говорить, что опечаток мы в нем не нашли (потому что не искали). Если мы отметили слово как исправленное, то позже в тексте мы будем выводить его с соответсвующей пометкой.

В-третьих, мы должны знать, какой токен в итоге надо показать пользователю. Его мы будем хранить под ключом `'corrected_word'`.

Собственно, на данном этапе это все, что мы должны получить.



## Работа с JSON

Понятно, что мы будем исправлять опечатки сверяясь с каким-то источником, на который будем полагаться как на образец написания слов. В нашем случае это будет уже готовый набор данных. Но хранится он в отдельном файле и его надо как-то открыть...

А хранится он в файле типа JSON, то есть JavaScript Object Notation. Это файлы, которые позволяют сохранять объекты разных типов. Python умеет работать с этими файлами с помощью встроенной библиотеки json.

```
import json
```

Открыть какой-либо файл позволяет служебное слово `with` и функция `open()`.

Например, я хочу открыть произвольный текстовый файл с названием "1" и расширением txt, а обращаться буду к нему как к переменной file_1. Тогда:

```
with open('1.txt') as file_1:
  # после одного отступа осуществляется работа с файлом

# когда мы выходим из with, файл закрывается
```

Чтобы загрузить содержание файла в переменную, пользуются функцией load()

```
content = json.load()
```

В нашем файле-образце будет лежать только один массив (это соответствует питоновскому списку), поэтому в переменную запишется только один список, состоящий из слов.

In [None]:
# открой файл sample.json и запиши его содержание в переменную sample_list:


## Совмещение написанных ранее функций

Теперь мы хотим пройти по тексту, который предложен пользователем, и создать словарь, который описали выше. Пусть он называется `correct_dict`. Инициализируй его.



In [None]:
# инициализируй словарь

Мы хотим, чтобы он пополнялся токенами из исходного текста. Значит, мы обращаемся к функции `get_tokens_dict()`, которая нам возвращает словарь со значениями, является ли токен исправимым, и с помощью цикла пробегаемся по его значениям. Но как корректно пробегаться по словарю с помощью цикла? Тут очень полезен метод словаря `.items()`. Он превращает словарь в список из неизменяемых пар ключ-значение.

Чтобы с помощью цикла пробегаться по такому списку пар, мы можем пользоваться двумя переменными внутри оператора for. Смотри пример:

In [None]:
example = [(1, 2), (3, 4), (5, 6)]

for key, value in example:
  print(key)
  print(value)

In [None]:
# сделай тоже самое, но уже со словарем, с помощью .items():
example = {1: 2, 3: 4, 5: 6}

In [None]:
# теперь надо пройти по парам key, value для словаря,
# который нам дала функция get_tokens_dict()

Точно так же мы поступим с нашим словарем. Мы хотим пройти по его значениями. Сперва мы будем добавлять соответствующий ключ в наш `correct_dict`. Чтобы добавить или обновить значение в словаре `dict1` по ключу `key`, надо просто указать индекс: `dict1[key]`.

```
correct_dict[token] = dict()
```
Но пока этот словарь-значение пустой, мы хотим его заполнить тремя параметрами, озвученными нами в первом разделе (`fuctional`, `corrected`, `corrected_word`).
Во-первых, если функция `get_tokens_dict()` сопоставила токену значение `True`, то мы сразу знаем, что делать.

Заметь, что раз у нас в значении словаря вложен словарь, то чтобы обратиться **к индексу вложенного словаря**, достаточно написать **следующие друг за другом** индексы:

In [None]:
if value == False:
  correct_dict[key]['functional'] = # это функциональный токен?
  correct_dict[key]['corrected'] =
  correct_dict[key]['corrected_word'] = # что в итоге мы покажем? изменилось ли что-то?

Иной случай придется рассматривать более подробно.

```
else:
  # работаем здесь
```

Сначала, мы хотим узнать, есть ли в слове вообще опечатка. Если наше слово есть в `sample_list`, это значит, что мы примем его за правильно написанное. Условие вхождения проверяется с помощью служебного слова `in`.

Пример:



In [3]:
print(1 in [1, 2, 'cat']) # есть ли элемент в списке?

print('me' in 'America') # есть ли подстрока в строке?

print('any money' in ['my purse', 'my life', 'my future'])

True
True
False


In [None]:
# напиши условный оператор, который проверяет, если токен key в списке sample_list
# если есть, то мы знаем, что добавить в correct_dict!

Остался один случай (опять `else:`). Наше слово не содержится в списке-образце. Значит, мы хотим его исправить. Чтобы это сделать, надо найти слово, которое по расстоянию Левенштейна ближе всего к нему.

Таких слов может оказаться несколько, но наш список-образец организован удобно — самые частые слова в нем ближе к началу, более редкие — в конце. Мы знаем еще одну вещь: если расстояние до какого-то слова оказалось ровно 1, **меньше уже не будет**.

То есть, в этом случае мы начинаем с помощью цикла проходить по значениям из sample_list и строить расстояния между ними и нашим токеном key. На каждом шаге цикла мы должны применить функцию `levenstein(str_1, str_2)`, и запоминать, до какого слова расстояние наименьшее и каково оно в точности.

Пусть мы будем записывать такое слово в переменную `correct_word`, а расстояние до него в `dictance`. Только если расстояние оказывается строго меньше, тогда мы обновляем эти значения.



In [None]:
# мы начнем работу вне цикла, чтобы записать какое-то значение distance, с которым можно будет сравнивать далее:
dictance = levenstein(key, sample_list[0])

# определи для токена key слово из sample_list, до которого расстояние наименьшее:
for word in sample_list:
  pass

Если мы нашли слово с расстоянием 1, идти дальше уже нет смысла. Значит, цикл можно прервать. Это делается служебным словом `break`. Пример:

In [None]:
list1 = [1, 2, 3, 4, 5, 6]

for number in list1:
  print(number)
  if number == 3:
    break

In [None]:
dictance = levenstein(key, sample_list[0])
for word in sample_list:
  pass # добавь сюда условие, которое позволяет остановиться, если distance == 1

В итоге, в случае, если мы корректировали слово, во вложенный `correct_dict[key]` мы хотим сообщить, что **мы исправили слово**, и записать, **на что** мы его исправили.

In [None]:
correct_dict[key]['functional'] =
correct_dict[key]['corrected'] =
correct_dict[key]['corrected_word'] =

Теперь осталось это объединить в одну функцию `build_dict(text)`, которая на вход будет получать текст от пользователя.
Внутри нее надо будет:


1.   Открыть json файл и записать его содержимое в `sample_list`
2.   Инициализировать внешний словарь `correct_dict`
3.   Применить на тексте `text` функцию `get_tokens_dict()`
4.   Пройти по парам `key` `value` из ее результа, пользуясь `.items()`
5.   Проверить, токен `key` попадает в категорию `'functional'`
6.   Если нет, то проверить, он входит в список `sample_list`
7.   Если опять нет, то исправить его и запомнить, на что мы его исправили
8.   Вернуть заполненный словарь `correct_dict`


In [None]:
# удачи! обращайся за помощью, если понадобится, и следуй списку
import json

# открой json здесь и запиши в переменную

def build_dict(string):
  global sample_list # с помощью слова global мы обращаемся к переменной не из функции
  pass