# 最长公共子序列

给定两个序列$X$和$Y$,如果$Z$既是$X$的子序列,也是$Y$的子序列,则称$Z$为$X$和$Y$的公共子序列。例如,如果$X=<A,B,C,B,D,A,B>$,$Y=<B,D,C,A,B,A>$,那么序列$<B,C,A>$就是$X$和$Y$的公共子序列,但它不是$X$和$Y$的最长公共子序列,因为子序列$<B,C,B,A>$的序列长度更长。**最长公共子序列问题（Longest Common Subsequence Problem）**给定两个序列$X=<x_1,x_2,...,x_m>$和$Y=<y_1,y_2,...,y_n>$,求$X$和$Y$长度最长的公共子序列。

## LCS的最优子结构

LCS问题具有最优子结构性质。定义前缀为:给定一个序列$X=<x_1,x_2,...,x_m>$,对$i=0,1,...,m$,定义$X$的第$i$前缀为$X_i=<x_1,x_2,...,x_i>$。例如，若$X=<A,B,C,B,D,A,B>$,则$X_4=<A,B,C,B>$,$X_0$为空串。

**定理 (LCS的最优子结构)** 令$X=<x_1,x_2,...,x_m>$和$Y=<y_1,y_2,...,y_n>$为两个序列，$Z=<z_1,z_2,...,z_k>$为$X$和$Y$的任意LCS。
1. 如果$x_m=y_n$,则$z_k=x_m=y_n$且$Z_{k-1}$是$X_{m-1}$和$Y_{n-1}$的一个LCS。
2. 如果$x_m≠y_n$,那么$z_k≠x_m$意味着$Z$是$X_{m-1}$和$Y$的一个LCS。
3. 如果$x_m≠y_n$,那么$z_k≠y_n$意味着$Z$是$X$和$Y_{n-1}$的一个LCS。

## LCS的重叠子问题

LCS问题具有重叠子问题性质。为了求$X$和$Y$的一个LCS,我们可能需要求$X$和$Y_{n-1}$的一个LCS及$X_{m-1}$和$Y$的一个LCS。但是这几个子问题都包含求解$X_{m-1}$和$Y_{n-1}$的LCS的子子问题,很多其他子问题也都共享子子问题。

我们定义$c[i,j]$表示$X_i$和$Y_j$的LCS长度,如果$i=0$或$j=0$,即一个序列长度为0,那么LCS的长度为0。根据LCS问题的最优子结构性质可得如下公式:

$$c[i,j]=\begin{cases} 0\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad 若i=0或j=0 \\ c[i-1,j-1]+1\quad\quad\quad\quad 若i,j>0且{ x }_{ i }={ y }_{ j } \\ max(c[i,j-1],c[i-1,j])\quad 若i,j>0且{ x }_{ i }\neq { y }_{ j } \end{cases}$$

## 动态规划自底向上计算LCS

In [1]:
import numpy as np

def LCS_LENGTH(X, Y):
    m = len(X)
    n = len(Y)
    b = np.zeros((m+1, n+1))
    c = np.zeros((m+1, n+1))
    for i in range(1, m+1):
        for j in range(1, n+1):
            if X[i-1] == Y[j-1]:
                c[i,j] = c[i-1,j-1]+1
                b[i,j] = 0
            elif c[i-1,j] >= c[i,j-1]:
                c[i,j] = c[i-1,j]
                b[i,j] = 1
            else:
                c[i,j] = c[i,j-1]
                b[i,j] = 2
    return c, b

## 构造LCS

我们可以用$LCS-LENGTH$返回的表$b$快速构造LCS,从$b[m,n]$开始,遇到0时转到左上角,遇到1时转到上方,遇到2时转到左方。当遇到0时，意味着$x_i=y_j$是LCS的一个元素。我们可以按逆序依次构造出LCS的所有元素。

In [2]:
def PRINT_LCS(b, X, i, j):
    if i == 0 or j == 0:
        return
    if b[i,j] == 0:
        PRINT_LCS(b, X, i-1, j-1)
        print(X[i-1]),
    elif b[i,j] == 1:
        PRINT_LCS(b, X, i-1, j)
    else:
        PRINT_LCS(b, X, i, j-1)

## 算法测试

In [3]:
X = "ACCGGTCGAGTGCGCGGAAGCCGGCCGAA"
Y = "GTCGTTCGGAATGCCGTTGCTCTGTAAA"
c, b = LCS_LENGTH(X,Y)
print("LCS = %d" % c[-1,-1])
m, n = len(X), len(Y)
print("LCS is ["), 
PRINT_LCS(b, X, m, n)
print("]")

LCS = 20
LCS is [ G T C G T C G G A A G C C G G C C G A A ]
