## Расстояние Левенштейна

В таких областях, как типографика, распространена задача определения опечаток. Для определения необходимости замены одного слова на другое предложена особая метрика — расстояние Левенштейна, или редакционное расстояние. Эта метрика отвечает за количество действий, которые надо совершить, чтобы преобразовать одну строку в другую. Эта метрика позволит нам понять, отклоняется ли какое-либо слово от изввестного словаря, и если да, то какой вариант ближе всего к нему, чтобы исправить опечатку.

Список действий, которые будем применять мы — это замена, вставка или удаление буквы. Иногда в этот список включают перестановку букв, но реализация этого метода сложнее, поэтому остановимся на трех названных.

Так, расстояние для слов БИБА и БОБА равно 1, так как достаточно заменить букву И на О. Для пары АНТАЛИЯ и ГРАНТ расстояние равно 6: надо удалить Г и Р, а затем вставить А, Л, И, Я.

## Матрицы в Python


Матрица — это таблица чисел, где не подписаны столбцы и строки. Дальше нам понадобится работать с матрицей, но пугаться не надо: в Питоне матрицы организуются очень просто.
Если посмотреть на такую матрицу:

1 2 3

4 5 6

7 8 9

можно заметить, что мы можем склеить ее строки в одну длинную строку, сохранив структуру таблицы (то есть, таблицу можно восстановить):

(1 2 3), (4 5 6), (7 8 9)

В Питоне с матрицами поступают так же: мы храним матрицу как набор строк таблицы. Чтобы это сделать, каждая строка представляется в виде списка, а затем эти списки складывают в другой список побольше, который и будет нашей матрицей.

In [None]:
matrixxx = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

И мы можем вывернуть эту строчку обратно в таблицу, потому что формат записи строковых объектов это позволяет:

In [None]:
matrixxx = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

Если мы хотим пройтись по строке k (и например напечатать все из нее), то надо получить из матрицы строку k и запустить цикл по ней:

In [None]:
for i in matrixxx[k]:
  print(i)

Если мы хотим пройтись по столбцу k, то надо получить элемент с номером k в каждой строке:

In [None]:
k = input()
for j in matrixxx:
  print(j[k])

Списки можно склеивать:

```
[a] + [b, c] = [a, b, c]
```

И порождать из них более длинные списки:

```
[a, 1] * 3 = [a, 1, a, 1, a, 1]
```

Это нам понадобится чуть ниже, когда мы захотим создать строку, где много нулей.

## Алгоритм Вагнера — Фишера
Для решения задачи предложена следующая модель: необходимо построить матрицу D на n строк и m столбцов, где ячейки будут заполняться по правилам ниже. Число n — количество строк в нашей таблице, оно же — длина первого слова + 1. Число m — длина строки и длина второго слова + 1. Почему + 1? Потому, что у нас есть нулевая строка и нулевой столбец, они содержат номера букв.


Рассмотрим на примере слов ГИБРАЛТАР и ЛАБРАДОР (будем считать, что первое слово у нас выписано в столбик): [Начинаем заполнять матрицу](https://drive.google.com/file/d/1ouBMr-FtDgvDOew-ll7N9TVcFpaqfgs9/view?usp=sharing)

Запись D(i,j) означает, что мы берем элемент из i-ой строки, j-ого столбца.
Например, D(0,0) = 0, a D(1,0) = 1.

### Номер буквы в нулевой строке и в нулевом столбце получается так:

i — это номер в столбце, j номер в строке:

**0**, если i = 0, j = 0

**i**, i > 0, j = 0

**j**, i = 0, j > 0

### Как же построить остаток матрицы?

Чтобы продолжить работать, посмотрим на незаполненную ячейку слева сверху, в углу: i = 1, j = 1. Правило заполнения нам говорит:
Надо найти наименьшее среди таких элементов:


*   Сосед сверху + 1
*   Сосед слева + 1
*   Сосед слева-сверху по диагонали + m(S1[i], S2[j])

Функция m(a, b) просто сравнивает элементы. Если они равны, то она должна возвращать 0, а если разные, то 1.

S1[i] означает i-тую букву от первого слова, S2[j] — j-тую букву второго слова.  

Первые два элемента получаются 1+1 и 1+1, то есть оба по 2. Чтобы посчитать третий, сравниваем первую букву ГИБРАЛТАР и первую букву ЛАБРАДОР. "Г" ≠ "Л", поэтому m(S1[1], S2[1]) = 1. Берем соседа по диагонали (угловая клетка), который равен 0, и складываем с 1.

min(2, 2, 1) = 1, это и есть наш ответ. В питоне уже есть встроенная функция min()








[См. пример 1](https://drive.google.com/file/d/1pesDIWHq1KJq3x9XL7esOcm8XNxf4xod/view?usp=sharing)

Так наш алгоритм должен идти и обрабатывать каждую строку ячейка за ячейкой, а затем переходить на следующую. В какой-то момент мы доходим до сравнения третьих букв наших слов, а они равны.
Получается, что m('Б', 'Б') = 0. Проверим элементы в нашей матрице D:

D(2, 3) + 1 = 4, (сосед сверху)

D(3, 2) + 1 = 4, (сосед слева)

D(2, 2) + m(S1[3], S2[3]) = 2 + 0 = 2 (сосед по диагонали)

Минимальный элемент 2, его мы и ставим в эту ячейку.
[Пример 2](https://drive.google.com/file/d/14PP-nPzcIdnfUroaU7Il60o2IqcqPIUN/view?usp=sharing)

В конечном итоге мы заполняем матрицу. Последний заполненный элемент и **будет нашим ответом**. Значит, для этих двух слов расстояние Левенштейна 5.

[Итоговая матрица](https://drive.google.com/file/d/1YW9-8yu2h4YWlQVMTYKb5ZK52sttbt9Q/view?usp=sharing)

## Пора кодить!

Итак, мы хотим построить функцию ```levenstein(str_1, str_2)```, у которой два аргумента: первое и второе слово, которые мы сравниваем, а возвращать она нам должна расстояние Левенштейна между словами.
Служебное слово `def` означает definition, то есть мы определим новую функцию. В скобках мы укажем переменные, которые нам потребуются для работы, а всю работу алгоритм производит внутри (содержание функции отделяется одним отступом)

In [None]:
def levenstein(str_1, str_2):
  pass
  # сюда мы  итоге напишем свой код

Начнем с того, чтобы получить длину столбца от первого слова и длину строки от второго. Это делается с помощью функции `len()`, которая считает длину строки.

In [None]:
# Напиши ниже, чему равны n и m:

Функция ```range(start, stop, step)``` позволяет идти начиная со значения ```start``` до значения ```stop``` (не включая его!) с шагом ```step``` (стандартный — 1). Попробуй код ниже:



In [None]:
for k in range(0, 6):
  print(k)

Можно заметить следующее: мы можем считать элементы строка за строкой; так как мы сравниваем ячейку только с ее ближайшими соседями слева и сверху, то нам нужна только та строка, которую мы заполняем, и та, которая находится прямо над ней. [Смотри пример](https://drive.google.com/file/d/12qatEmihRewj2yOD0d_kylBDOugEddiV/view?usp=sharing), здесь зеленым отмечена заполняемая строка, а оранжевым — предыдущая перед ней.

Когда мы заполняем какую-то строку, ее соседка сверху нам становится уже ненужна. Значит, в памяти достаточно рассматривать только **две строки**: ту, которую мы заполняем, и предыдущую. Как только мы хотим заполнить новую строку матрицы, текущую мы записываем в переменную прошлой.

Как это можно осуществить?





Логично, что мы начнем работать с первой строки, и будем считать ее текущей. Чтобы посчитать самую первую строку в матрице, достаточно просто по порядку написать номера от 0 до m:


```
[0, 1,... m]
```


 Попробуй реализовать это: нам нужно записать такой список в переменную `current_row`:


In [None]:
# current_row = ???

Теперь мы должны идти строка за строкой, начиная со второй, заканчивая n. Какие аргументы в ```range()``` надо для этого подставить? На каждом шаге цикла мы будем переносить текущую строчку в прошлую, а новую делать так, как это описано выше. То есть, для новой строки мы должны получить список такого вида:

```
[j, 0, 0,... 0]
```
(Длина у этого списка — m + 1)

Как реализовать такой список? Это будет наш `current_row` на всех следующих шагах. Напиши, как заполняется данная переменная, а потом мы вставим это внутрь цикла.



In [None]:
# current_row = ???

Теперь мы, наконец, начинаем идти строка за строкой. Начинаем мы заполнение с первой (не нулевой) строки. Сколько шагов у этого цикла? Напиши оператор цикла, который будет идти по нужным номерам строк.

Внутри цикла на каждом шаге мы начинаем с двух действий. Текущий ряд уходит в переменную `previous_row`, а переменная `current_row` заполняется так, как мы уже написали выше (достаточно просто скопировать):


In [None]:
# напиши свой цикл, заполни нужные аргументы в range(),
# выполни два названных действия

Теперь, уже внутри этого цикла, мы должны пройти по каждому элементу самой строки, руководствуясь правилами, которые описаны выше (выбрать минимальное из 3 соседей).
Чтобы обратиться к элементу `k1` в списке `list`, достаточно написать:


```
list[k1]
```
(Нельзя забывать, что нумерация начинается с нулевого элемента!)





То есть, мы на каждом шаге цикла должны запускать еще один цикл, идущий по элементам списка. Внутри он должен сравнить трех соседей клетки. Например, сосед слева:


```
left = current_row[j-1] + 1
```


In [None]:
# Напиши цикл, чтобы пройти по элементам current_row
# На каждом шаге цикла мы должны узнать:
# Значение соседа слева (left) + 1
# Значение соседа сверху (up) + 1
# Значение соседа по диагонали (left_up)

Чтобы получить точное значение от соседа по диагонали, надо сравнить буквы слов. Если они **не равны**, надо добавить 1 к значению, если равны, то ничего не менять.

Запись `!=` означает "≠"

Например:
```
if a != b:
  a = b
```
Попробуй реализовать это условие в цикле, который мы начали писать.




В конце всего, надо записать в ячейку минимальное из трех значений. Выбрать его нам поможет функция `min()`. Так же добавь это в цикл выше:

```
current_row[j] = min(???)
```



Служебное слово `return` должно появиться в самом конце функции, мы должны вернуть последний элемент матрицы. Из какого ряда мы будем его брать? Чтобы обратиться к последнему элементу `list1`, мы берем элемент с номером -1:
```
list1[-1]
```
Тогда наша функция должна возвращать последний элемент таким образом:
```
return ???_row[-1]
```

Теперь объедини все, что мы изучили, в рамках одной функции:


1.   Получи длины столбца и строки
2.   Построй первую строку
3.   Заведи цикл прохода по строкам
4.   Внутри него заведи цикл прохода по 1 строке
5.   Внутри этого цикла найти min из трех соседей
6.   Верни последнее значение

In [None]:
def levenstein(str_1, str_2):
  pass
