# 编辑距离

编辑距离在1965年提出, 是用来度量两个序列相似程度的指标。通俗地来讲，编辑距离指的是在两个单词$<w_1, w_2>$之间，由其中一个单词$w_1$转换为另一个单词$w_2$所需要的最少**单字符编辑操作**次数。

在这里定义的单字符编辑操作有且仅有三种：

- 插入
- 删除
- 替换

譬如，"carry" 和 "carries" 这两个单词，由 "carry" 转换为 "carries" 需要的最少单字符编辑操作有：

1. carry  -> carri
2. carri  -> carris
3. carrie -> carries

因此，"carry" 和 "carries" 这两个单词之间的编辑距离为 3 。

## 定义

我们将两个字符串$a, b$的 Levenshtein Distance 表示为$lev_{a, b}(|a|, |b|)$，其中$|a|$ 和$|b|$ 分别对应$a, b$的长度。那么，在这里两个字符串$a, b$的编辑距离，即$lev_{a, b}(|a|, |b|)$可用如下的数学语言描述：

$$
\text{lev}_{a, b}(i, j)  = 
\begin{cases}
\max(i, j) &\text{if}\ \min(i, j) = 0,\\
\min\begin{cases}
\text{lev}_{a, b}(i-1, j) + 1\\
\text{lev}_{a, b}(i, j-1) + 1\\
\text{lev}_{a, b}(i-1, j-1) + 1(a_i\not=b_j)\\
\end{cases}&otherwise
\end{cases}
$$

- 定义$\text{lev}_{a, b}(i, j)$是指a中第i个字符和b中第j个字符之间的距离。值得注意的是，字符串的下标从1开始，只有空字符串从0开始。
- 当$\min(i,j) \not= 0$时，$\text{lev}_{a, b}(i, j)$为以下三种情况的最小值
  1. $\text{lev}_{a, b}(i-1, j)+1$ 删除
  2. $\text{lev}_{a, b}(i, j-1)+1$ 插入
  3. $\text{lev}_{a, b}(i-1, j-1)+1(a_i\not=b_j)$ 将$a_i$替换成$b_j$
- $1(a_i\not=b_j)$是一个指示函数，当$a_i\not=b_j$成立的时候取值为1

## 递归解法

In [1]:
def lev_dist_1(string1: str, string2: str):
    if len(string1) == 0 or len(string2) == 0:
        return max(len(string1), len(string2))
    if string1 == string2:
        return 0
    if string1[-1] == string2[-1]:
        flag = 0
    else:
        flag = 1
    return min(lev_dist_1(string1[:-1], string2) + 1,
                lev_dist_1(string1, string2[:-1]) + 1,
                lev_dist_1(string1[:-1], string2[:-1]) + flag)

In [2]:
lev_dist_1('abcd', 'abdc')

2

## 动态规划

In [3]:
import numpy as np
def lev_dist_2(string1: str, string2: str):
    matrix = np.zeros((len(string1) + 1, len(string2) + 1), dtype=np.int)
    matrix[0] = np.arange(len(string2) + 1)
    matrix[:, 0] = np.arange(len(string1) + 1)
    for i in range(1, len(string1) + 1):
        for j in range(1, len(string2) + 1):
            if string1[i-1] == string2[j-1]:
                flag = 0
            else:
                flag = 1
            matrix[i, j] = np.min([matrix[i - 1, j] + 1, 
                                    matrix[i, j - j] + 1,
                                    matrix[i - 1, j - 1] + flag])
    return matrix[-1, -1]

In [4]:
lev_dist_2("abcd", "abdc")

2