## Расстояние Левенштейна

В таких областях, как типографика, распространена задача определения схожести между строками. Для определения схожести предложена особая метрика — расстояние Левенштейна, или редакционное расстояние. Эта метрика отвечает за количество действий, которые надо совершить, чтобы преобразовать одну строку в другую. Список действий, которые будем применять мы — это замена, вставка или удаление буквы. Иногда в этот список включают перестановку букв, но реализация этого метода сложнее, поэтому остановимся на трех названных.

Так, расстояние для слов БИБА и БОБА равно 1, так как достаточно заменить букву И на О. Для пары АНТАЛИЯ и ГРАНТ расстояние равно 6: надо удалить Г и Р, а затем вставить А, Л, И, Я.

## Матрицы в Python


Матрица — это таблица чисел, где не подписаны столбцы и строки. Дальше нам понадобится работать с матрицей, но пугаться не надо: в Питоне матрицы организуются очень просто.
Если посмотреть на такую матрицу:

1 2 3

4 5 6

7 8 9

можно заметить, что мы можем склеить ее строки в одну длинную строку, сохранив структуру таблицы (то есть, таблицу можно восстановить):

(1 2 3), (4 5 6), (7 8 9)

В Питоне с матрицами поступают так же: мы храним матрицу как набор строк таблицы. Сам набор является списком (со списками внутри. ура рекурсии)

In [None]:
matrixxx = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

И мы можем вывернуть эту строчку обратно в таблицу, потому что формат записи строковых объектов это позволяет:

In [None]:
matrixxx = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

Если мы хотим пройтись по столбцу k, то надо получить элемент с номером k в каждой строке (например, напечатать его), и мы запускаем цикл:

In [None]:
k = input()
for j in matrixxx:
  print(j[k])

А если по k-той строке, то:

In [None]:
for i in matrixxx[k]:
  print(i)

Списки можно склеивать:

```
[a] + [b, c] = [a, b, c]
```

И порождать из них более длинные списки:

```
[a, 1] * 3 = [a, 1, a, 1, a, 1]
```



## Алгоритм Вагнера — Фишера
Для решения задачи предложена следующая модель: необходимо построить матрицу D на n строк и m столбцов, где ячейки будут заполняться по правилам ниже. Число n — количество строк в нашей таблице, оно же — длина первого слова + 1. Число m — длина строки и длина второго слова + 1. Почему + 1? Потому, что у нас есть нулевая строка и нулевой столбец, они содержат номера букв.


Рассмотрим на примере слов ГИБРАЛТАР и ЛАБРАДОР (будем считать, что первое слово у нас выписано в столбик): [Тык](https://drive.google.com/file/d/1ouBMr-FtDgvDOew-ll7N9TVcFpaqfgs9/view?usp=sharing)


### Номер буквы в нулевой строке и в нулевом столбце получается так:

i — это номер в столбце, j номер в строке:

**0**, если i = 0, j = 0

**i**, i > 0, j = 0

**j**, i = 0, j > 0

### Как же построить остаток матрицы?

Чтобы продолжить работать, посмотрим на незаполненную ячейку слева сверху, в углу: i = 1, j = 1. Правило заполнения нам говорит:
Надо найти наименьшее среди таких элементов:


*   Сосед сверху + 1
*   Сосед слева + 1
*   Сосед слева-сверху по диагонали + m(S1[i], S2[j])

Функция m(a, b) просто сравнивает элементы. Если они равны, то она должна возвращать 0, а если разные, то 1.

S1[i] означает i-тую букву от первого слова, S2[j] — j-тую букву второго слова.  

Первые два элемента получаются 1+1 и 1+1, то есть оба по 2. Чтобы посчитать третий, сравниваем первую букву ГИБРАЛТАР и первую букву ЛАБРАДОР. "Г" ≠ "Л", поэтому m(S1[1], S2[1]) = 1. Берем соседа по диагонали (угловая клетка), который равен 0, и складываем с 1.

min(2, 2, 1) = 1, это и есть наш ответ. В питоне уже есть встроенная функция min()








[См. пример 1](https://drive.google.com/file/d/1pesDIWHq1KJq3x9XL7esOcm8XNxf4xod/view?usp=sharing)

Так наш алгорит должен идти и обрабатывать каждую строку ячейка за ячейкой, а затем переходить на следующую. В какой-то момент мы доходим до сравнения третьих букв наших слов, а они равны.
Получается, что m('Б', 'Б') = 0. Проверим элементы в нашей матрице:

D(2, 3) + 1 = 4, (сосед сверху)

D(3, 2) + 1 = 4, (сосед слева)

D(2, 2) + m(S1[3], S2[3]) = 2 + 0 = 2 (сосед по диагонали)

Минимальный элемент 2, его мы и ставим в эту ячейку.
[Пример 2](https://drive.google.com/file/d/14PP-nPzcIdnfUroaU7Il60o2IqcqPIUN/view?usp=sharing)

В конечном итоге мы заполняем матрицу. Последний заполненный элемент и **будет нашим ответом**. Значит, для этих двух слов расстояние Левенштейна 5.

[Итоговая матрица](https://drive.google.com/file/d/1YW9-8yu2h4YWlQVMTYKb5ZK52sttbt9Q/view?usp=sharing)

## Пора кодить!
Прежде чем начинать работу, можно заметить, что когда мы обрабатываем до конца текущую строчку, предыдущая нам становится уже ненужна. Значит, в памяти достаточно рассматривать только **две строчки**: ту, которую мы заполняем, и предыдущую. А как только мы начинаем работать с новой, можно переходить к следующей.

Как это можно осуществить?

Подсказка: новая, незаполненная строка будет длины второго слова, при этом начинаться она должна с номера буквы первого слова (j). Заполнить ее остаток можно нулями, позже мы их заменим



Итак, мы хотим построить функцию ```levenstein(str_1, str_2)```, у которой два аргумента: первое и второе слово, которые мы сравниваем, а возвращать она нам должна расстояние Левенштейна между словами.

In [None]:
def levenstein(str_1, str_2):
  pass
  # добавь сюда свой код!

Начнем с того, чтобы получить длину столбца от первого слова и длину строки от второго. Это делается с помощью функции len().

`n, m = ???`

Запись "a += b" обозначает "a = a + b". Функция ```range(start, stop, step)``` позволяет идти начиная со значения ```start``` до значения ```stop``` (не включая его!) с шагом ```step``` (стандартный — 1). Попробуй код ниже:

In [2]:
for k in range(0, 6):
  print(k)

0
1
2
3
4
5


Чтобы посчитать самую первую строку в матрице, достаточно просто по порядку написать номера от 0 до m. Это удобно сделать с помощью такого цикла:

```
current_row = []
for number in range(0, m+1):
  current_row += [number]
```




Теперь мы должны идти строка за строкой, начиная со второй, заканчивая n. Какие аргументы в ```range()``` надо для этого подставить? На каждом шаге цикла мы будем переносить текущую строчку в прошлую, а новую делать так, как это описано выше. То есть, для новой строки мы должны получить список такого вида:

```
[j, 0, 0,... 0]
```
(Длина у этого списка — m + 1)



То есть, цикл можно оформить так:


In [None]:
for i in range(1, ???): # здесь мы идем по СТРОКАМ, начиная с первой
  # строк у нас n, а функция range() не включает крайнее правое значение
  previous_row = current_row # записываем текущую строку вместо прошлой
  current_row = ??? # как устроена новая строка?

Теперь, уже внутри этого цикла, мы должны пройти по каждому элементу списка, руководствуясь правилами, которые описаны выше (выбрать минимальное из 3).
Чтобы обратиться к элементу ```k1``` в списке ```list```, достаточно написать:


```
list[k1]
```
(Нельзя забывать, что нумерация начинается с нулевого элемента!)


```
for i in range(1, ???):
  previous_row = current_row
  current_row = ???
  for j in range(???, ???):
    ???
```



То есть, мы на каждом шаге цикла должны запускать еще один цикл, идущий по элементам списка. Внутри он должен сравнить трех соседей клетки. Например, сосед слева:


```
left = current_row[j-1] + 1
```
Чтобы получить точное значение от соседа по диагонали, надо сравнить символы. Если они не равны, надо добавить 1 к значению, если равны, то ничего не менять:


```
if str_1[i-1] != str_2[j-1]:
  left_up += 1
```

То есть надо посчитать внутри цикла трех соседей: ```left```, ```up```, ```left_up```, а затем выбрать из них наименьший, загнав их в функцию ```min()```

