# 1 最长公共子串(Longest Common Substring)

- 动态规划可帮助你在给定约束条件下找到最优解。在背包问题中，你必须在背包容量给定的情况下，偷到价值最高的商品。
- 在问题可分解为彼此独立且离散的子问题时，就可使用动态规划来解决。要设计出动态规划解决方案可能很难，这正是本节要介绍的。下面是一些通用的小贴士。
 - 每种动态规划解决方案都涉及网格。
 - 单元格中的值通常就是你要优化的值。在前面的背包问题中，单元格的值为商品的价值。
 - 每个单元格都是一个子问题，因此你应考虑如何将问题分成子问题，这有助于你找出网格的坐标轴。

下面再来看一个例子。假设你管理着网站dictionary.com。用户在该网站输入单词时，你需要给出其定义。

但如果用户拼错了，你必须猜测他原本要输入的是什么单词。

例如，Alex想查单词fish，但不小心输入了hish。在你的字典中，根本就没有这样的单词，但有几个类似的单词。

在这个例子中，只有两个类似的单词，真是太小儿科了。实际上，类似的单词很可能有数千个。

Alex输入了hish，那他原本要输入的是fish还是vista呢？

## 1.1 绘制网格

- 单元格中的值是什么？
- 如何将这个问题划分为子问题？
- 网格的坐标轴是什么？

网格如下：

![](https://raw.githubusercontent.com/hostimg/img/gh-pages/s/20190822192521.png)

## 1.2 填充网格

我使用下面的公式来计算每个单元格的值。

![](https://raw.githubusercontent.com/hostimg/img/gh-pages/s/20190822192839.png)

实现这个公式的伪代码类似于下面这样。
```python
if word_a[i] == word_b[j]: # 两个字母相同
    cell[i][j] = cell[i-1][j-1] + 1
else: # 两个字母不同
    cell[i][j] = 0
```

查找单词hish和vista的最长公共子串时，网格如下。

![](https://raw.githubusercontent.com/hostimg/img/gh-pages/s/20190822193257.png)

需要注意的一点是，这个问题的最终答案并不在最后一个单元格中！对于前面的背包问题，最终答案总是在最后的单元格中。

但对于最长公共子串问题，答案为**网格中最大的数字**——它可能并不位于最后的单元格中。

**具体实现代码如下：**

可参考[GeeksforGeeks: Longest Common Substring | DP-29](https://www.geeksforgeeks.org/longest-common-substring-dp-29/)

In [19]:
# Python3 implementation of Finding
# Length of Longest Common Substring

def LCSubStr(s1,s2):
    # 最长公共子串(Longest Common Substring)
    m = len(s1)
    n = len(s2)
    dp = [[0]*(n+1) for _ in range(m+1)] #全部初始化为0，添加一行、一列0 一共m+1行，n+1列
    maxlen = 0  #保存最长公共字串的长度
    pos = 0 # 保存最长子串最后一个字符位置
    for i in range(1,m+1):
        for j in range(1,n+1):
            if s1[i-1] == s2[j-1]: # 相同的部分，不相同else的部分，已经初始化为0，故不需要再写
                dp[i][j] = dp[i-1][j-1]+1
                if dp[i][j] > maxlen: 
                    maxlen = max(maxlen, dp[i][j])
                    pos = i - 1
    return maxlen,s1[pos+1-maxlen:pos+1]

s1 = "abcdefghijk"
s2 = "mnafbcdjk"
maxlen,s = LCSubStr(s1,s2)
print(maxlen)
print(s)

3
bcd


## 2 最长公共子序列(Longest Common Subsequence，LCS)

假设Alex不小心输入了fosh，他原本想输入的是fish还是fort呢？如果我们使用最长公共子串公式来比较它们：

![](https://raw.githubusercontent.com/hostimg/img/gh-pages/s/20190822193436.png)

最长公共子串的长度相同，都包含两个字母！但fosh与fish更像。

所以这里应该比较的是**最长公共子序列**：两个单词中**都有的序列**包含的**字母数**。

**最长公共子序列（LCS,Longest Common Subsequence）**：它不要求所求得的字符在所给的字符串中是连续的,而**最长公共子串**则要求字符串是连续的。

如何计算最长公共子序列呢？

### 2.1 动态规划算法

下面是填写各个单元格时使用的公式：

![](https://raw.githubusercontent.com/hostimg/img/gh-pages/s/20190822194836.png)

最终的网格如下：

![](https://raw.githubusercontent.com/hostimg/img/gh-pages/s/20190822194437.png)

伪代码如下：

```python
if word_a[i] == word_b[j]:
    cell[i][j] = cell[i-1][j-1] + 1
else:
    cell[i][j] = max(cell[i-1][j], cell[i][j-1])
```

**具体实现代码如下：**

可参考[GeeksforGeeks: Longest Common Subsequence | DP-4](https://www.geeksforgeeks.org/longest-common-subsequence-dp-4/)

In [21]:
# Dynamic Programming implementation of LCS problem 
def LCS(s1,s2):
    # 最长公共子序列(Longest Common Subsequence)
    m = len(s1)
    n = len(s2)
    dp = [[0]*(n+1) for _ in range(m+1)] #初始化，添加一行、一列0 一共m+1行，n+1列
    path = [[None]*(n+1) for _ in range(m+1)] #保存路径
    result = 0  #保存最长公共字串的长度
    for i in range(m):
        for j in range(n):
            if s1[i] == s2[j]: # 相同
                dp[i+1][j+1] = dp[i][j]+1
                result = max(result, dp[i+1][j+1])
            else: # 不同
                dp[i+1][j+1] = max(dp[i][j+1],dp[i+1][j])
    return dp,result

s1 = "abcdefghijk"
s2 = "mnafbcdjk"
dp,result = LCS(s1,s2)
print(result)
dp

6


[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 1, 1, 1, 1, 1, 1, 1],
 [0, 0, 0, 1, 1, 2, 2, 2, 2, 2],
 [0, 0, 0, 1, 1, 2, 3, 3, 3, 3],
 [0, 0, 0, 1, 1, 2, 3, 4, 4, 4],
 [0, 0, 0, 1, 1, 2, 3, 4, 4, 4],
 [0, 0, 0, 1, 2, 2, 3, 4, 4, 4],
 [0, 0, 0, 1, 2, 2, 3, 4, 4, 4],
 [0, 0, 0, 1, 2, 2, 3, 4, 4, 4],
 [0, 0, 0, 1, 2, 2, 3, 4, 4, 4],
 [0, 0, 0, 1, 2, 2, 3, 4, 5, 5],
 [0, 0, 0, 1, 2, 2, 3, 4, 5, 6]]

In [26]:
import numpy
def find_lcseque(s1, s2): 
	 # 生成字符串长度加1的0矩阵，m用来保存对应位置匹配的结果
	m = [ [ 0 for x in range(len(s2)+1) ] for y in range(len(s1)+1) ] 
	# d用来记录转移方向
	d = [ [ None for x in range(len(s2)+1) ] for y in range(len(s1)+1) ] 
 
	for p1 in range(len(s1)): 
		for p2 in range(len(s2)): 
			if s1[p1] == s2[p2]:            #字符匹配成功，则该位置的值为左上方的值加1
				m[p1+1][p2+1] = m[p1][p2]+1
				d[p1+1][p2+1] = 'ok'          
			elif m[p1+1][p2] > m[p1][p2+1]:  #左值大于上值，则该位置的值为左值，并标记回溯时的方向
				m[p1+1][p2+1] = m[p1+1][p2] 
				d[p1+1][p2+1] = 'left'          
			else:                           #上值大于左值，则该位置的值为上值，并标记方向up
				m[p1+1][p2+1] = m[p1][p2+1]   
				d[p1+1][p2+1] = 'up'         
	(p1, p2) = (len(s1), len(s2)) 
	print(numpy.array(d))
	s = [] 
	while m[p1][p2]:    #不为None时
		c = d[p1][p2]
		if c == 'ok':   #匹配成功，插入该字符，并向左上角找下一个
			s.append(s1[p1-1])
			p1-=1
			p2-=1 
		if c =='left':  #根据标记，向左找下一个
			p2 -= 1
		if c == 'up':   #根据标记，向上找下一个
			p1 -= 1
	s.reverse() 
	return ''.join(s) 
 
print(find_lcseque('abdfg','abcdfg'))

[[None None None None None None None]
 [None 'ok' 'left' 'left' 'left' 'left' 'left']
 [None 'up' 'ok' 'left' 'left' 'left' 'left']
 [None 'up' 'up' 'up' 'ok' 'left' 'left']
 [None 'up' 'up' 'up' 'up' 'ok' 'left']
 [None 'up' 'up' 'up' 'up' 'up' 'ok']]
abdfg


## 2.2 递归算法

考虑两个字符串的最后一个字符：

- 1.如果最后一个字符相同，可以转化为均去掉最后一个字符之后的LCS，再加上1
- 2.如果最后一个字符不同，可以转化为：s1去掉最后一个字符和s2的LCS，以及s2去掉最后一个字符和s1的LCS，两者取大值。如：

`LCS(“ABCDGH”, “AEDFHR”) = MAX ( LCS(“ABCDG”, “AEDFHR”), LCS(“ABCDGH”, “AEDFH”) )`

上述朴素递归方法的时间复杂度在最坏情况下为$O(2^n)$ ，当X和Y的所有字符不匹配时，即LCS的长度为0时，发生最坏情况。

**具体代码如下：**

In [6]:
# A Naive recursive Python implementation of LCS problem 
  
def LCS(X, Y, m, n): 
    if m == 0 or n == 0: 
        return 0
    elif X[m-1] == Y[n-1]: 
        return 1 + LCS(X, Y, m-1, n-1)
    else: 
        return max(LCS(X, Y, m, n-1), LCS(X, Y, m-1, n))
  
  
# Driver program to test the above function 
X = "AGGTAB"
Y = "GXTXAYB"
print("Length of LCS is ", LCS(X , Y, len(X), len(Y))) 

Length of LCS is  4
