<a href="https://en.wikipedia.org/wiki/Levenshtein_distance">Расстояние Левенштейна</a> (Levenshtein distance) &ndash; это метрика, которая показывает, какое количество минимальных операций (замен, удалений, вставок) нужно совершить, чтобы из одной последовательности получить другую. Например, расстояние между строками "стул" и "стала" равно 2.

Расстояние Левенштейна &ndash; не единственный способ вычислить расстояние между двумя строками. Например, расстояние Хэмминга (которое было в тестовых заданиях в начале семестра) вычисляется для строк равной длины и равно количеству позиций, на которых символы не совпадают. Для разогрева давайте вычислим это расстояние.

**Задание для выполнения в классе:** напишите функцию, которая вычисляет расстояние Хэмминга между двумя строками. Пусть функция вызывает `ValueError`, если поданные строки разной длины.

In [None]:
def hamming_distance(a, b):
    ...

Расстояние Левенштейна определяется следующим образом: пусть у нас есть две строки $a$ и $b$. Пусть $\text{head}(x)$ &ndash; первый символ строки, $\text{tail}(x)$ &ndash; все остальные. Тогда:


$$
\text{lev}(a, b) = \begin{cases}
|a| & \text{если } |b| = 0, \\
|b| & \text{если } |a| = 0, \\
\text{lev}(\text{tail}(a), \text{tail}(b)) & \text{если } \text{head}(a) = \text{head}(b), \\
1 + \min \begin{cases}
\text{lev}(\text{tail}(a), b) \\
\text{lev}(a, \text{tail}(b)) \\
\text{lev}(\text{tail}(a), \text{tail}(b))
\end{cases} & \text{в противном случае } \\
\end{cases}
$$

Расстояние Левенштейна можно вычислять рекурсивно, но это достаточно неэффективно. Лучше делать это итеративно, сохраняя расстояния между подстроками в специальную матрицу (алгоритм Вагнера&ndash;Фишера):

|||с|т|а|л|а|
|---|---|---|---|---|---|---|
||0|1|2|3|4|5|
|**с**|1|0|1|2|3|4|
|**т**|2|1|0|1|2|3|
|**о**|3|2|1|1|2|3|
|**л**|4|3|2|2|1|2|


Каждая ячейка в таблице соответствует расстоянию Левенштейна между подстроками: 
$$
\text{D}(i, j) = \text{lev}(a[1...i], b[1...j])
$$

Интересующее нас расстояние, соответственно, находится в нижнем правом углу таблицы. Обратите внимание, что такое вычисление как бы обратно определению (мы начинаем с конца, а не с начала).

Первый столбец и первая колонка таблицы заполняются по определению. Далее для каждого $i, j$:

$$
\text{D}(i, j) = \min \begin{cases}

\text{D}(i - 1, j) + 1 \\
\text{D}(i, j - 1) + 1 \\
\text{D}(i - 1, j - 1) + \begin{cases}
0 & \text{если } a[i] = b[j], \\
1 & \text{в противном случае } \\
\end{cases}

\end{cases}
$$

Отсюда видно, что на самом деле нам не нужно хранить всю матрицу &ndash; достаточно последних двух строк на каждом шаге. Тогда нам нужно завести первые две строки, в цикле вычислять каждую следующую и вернуть значение, лежащее в последней ячейке последней строки.

Попробуем:

In [None]:
def levenshtein_distance(a, b):
    ...

Расстояние Левенштейна подразумевает, что замены, вставки и удаления вносят одинаковый вклад в итоговое расстояние. Давайте модифицируем нашу функцию, чтобы мы могли назначать произвольные стоимости операций.

In [None]:
def weighted_levenshtein_distance(a, b, del_cost=1, ins_cost=1, sub_cost=1):
    ...

**Задание со звёздочкой**: у расстояния Левенштейна есть модификация &ndash; расстояние Дамерау&ndash;Левенштейна. При его вычислении в число минимальных операций входит ещё и перестановка соседних символов.

Чтобы его вычислить, нам нужно изменить алгоритм вычисления матрицы следующим образом:

$$
\text{D}(i, j) = \min \begin{cases}

\text{D}(i - 1, j) + 1 \\
\text{D}(i, j - 1) + 1 \\
\text{D}(i - 1, j - 1) + \begin{cases}
0 & \text{если } a[i] = b[j], \\
1 & \text{в противном случае } \\
\end{cases} \\
\text{D}(i - 2, j - 2) + \begin{cases}
0 & \text{если } a[i] = b[j], \\
1 & \text{в противном случае } \\
\end{cases} & \text{если } a[i] = b[j-1] \text{ и } a[i - 1] = b [j] \\

\end{cases}
$$

Теперь нам не хватает двух строк матрицы!

In [None]:
def damerau_levenshtein_distance(a, b):
    ...