# <center>MED - （Minimum Edit Distance 编辑距离）</center>

## 概述

##### 原文地址：https://www.jianshu.com/p/a617d20162cf
编辑距离（Minimum Edit Distance，MED），由俄罗斯科学家 Vladimir Levenshtein 在1965年提出，也因此而得名 Levenshtein Distance。在信息论、语言学和计算机科学领域，Levenshtein Distance 是用来度量两个序列相似程度的指标。通俗地来讲，编辑距离指的是在两个单词$W_1、W_2$之间，由其中一个单词$W_1$转换为另一个单词$W_2$所需要的最少单字符编辑操作次数。
在这里定义的单字符编辑操作有三种：

+ 插入（Insertion）
+ 删除（Deletion）
+ 替换（Substitution）

譬如，"kitten" 和 "sitting" 这两个单词，由 "kitten" 转换为  "sitting"  需要的最少单字符编辑操作有：
1. kitten → sitten (substitution of "s" for "k")
2. sitten → sittin (substitution of "i" for "e")
3. sittin  → sitting (insertion of "g" at the end)

因此，"kitten" 和 "sitting" 这两个单词之间的编辑距离为 3 。





## 数学表达

我们将两个字符串$a, b$的 Levenshtein Distance 表示为$lev_{a,b}(\vert a \vert, \vert b \vert)$，其中$\vert a \vert$和$\vert b \vert$分别对应$a, b$的长度。那么，在这里$lev_{a,b}(\vert a \vert, \vert b \vert)$可用如下数学语言描述(递推式)：

$$
lev_{a,b}(\vert i \vert, \vert j \vert) = \begin{cases}
   max(i,j) && {\vert a \vert * \vert b \vert = 0} \\
   min \begin{cases}
   lev_{a,b}(i-1, j)+1 \\ 
   lev_{a,b}(i, j-1)+1 \\
   lev_{a,b}(i-1, j-1)+ sign && {\begin{cases}sign=1 && {a_i \ne b_j}\\ sign=0 && {a_i = b_j}  \end{cases}}
   \end{cases} && {\vert a \vert * \vert b \vert \ne 0}
\end{cases}
$$

+ $lev_{a,b}(i,j)$指的是$a$中前$i$个字符和$b$中前$j$个字符之间的距离，为了方便理解，这里的$i,j$可以看作是$a,b$的长度。这里的字符串的字符index从1开始，因此最后的编辑距离便是$i=\vert a \vert, j=\vert b \vert$时的距离：$lev_{a,b}(\vert a \vert,\vert b \vert)$

+ 当$min(i,j)=0$的时候，对应着$a$中前$i$个字符和$b$中前$j$个字符，此时的$i,j$有一个值为$0$，所以他们之间的距离为$max(i,j)$，即$i,j$中的最大者。

+ 当$min(i,j) \ne 0$ 的时候，$lev_{a,b}(\vert a \vert, \vert b \vert)$为如下三项的最小值：

&emsp;&emsp;1.$lev_{a,b}(i-1, j)$表示删除$a_i$

&emsp;&emsp;2.$lev_{a,b}(i,j-1)$表示插入$b_j$

&emsp;&emsp;3.$lev_{a,b}(i-1,j-1)$表示替换$b_j$（当字符串相等时不需要替换,增加距离为$sign=0$；当字符串不相等时，需要替换，增加距离为$sign=1$）

## 编程实现

In [22]:
from functools import lru_cache

### 计算距离

In [58]:
@lru_cache(maxsize=2**20)
def med(str1, str2):
    len_str1 = len(str1)
    len_str2 = len(str2)
    if len_str1 * len_str2 == 0:
        return max(len(str1), len(str2))
    
    sign = 1
    if str1[-1] == str2[-1]:
        sign = 0
        
    return min(
        med(str1[:-1], str2) + 1,
        med(str1, str2[:-1]) + 1,
        med(str1[:-1], str2[:-1]) + sign,
    )

In [59]:
med('ba', 'abdc')

3

In [110]:
med('aaaaa', 'a22222d')

6

# 应用与思考
+ 编辑距离是NLP基本的度量文本相似度的算法，可以作为文本相似任务的重要特征之一，其可应用于诸如拼写检查、论文查重、基因序列分析等多个方面。但是其缺点也很明显，算法基于文本自身的结构去计算，并没有办法获取到语义层面的信息。
+ 由于需要利用矩阵，故空间复杂度为O(MN)。这个在两个字符串都比较短小的情况下，能获得不错的性能。不过，如果字符串比较长的情况下，就需要极大的空间存放矩阵。例如：两个字符串都是20000字符，则 LD 矩阵的大小为：20000 * 20000 * 2=800000000 Byte=800MB。
