## 问题
问题：有一个文本串S，和一个模式串P，现在要查找P在S中的位置，怎么查找呢？

## 暴力匹配

基本思想：
- 从主串的第一个位置起和模式串的第一个字符开始比较，如果相等，则继续逐一比较后续字符；否则从主串的第二个字符开始，再重新用上一步的方法与模式串做比较，以此类推，直到比较完模式串中的所有字符。
- 若匹配成功，则返回模式串在主串中的位置；若匹配不成功，则返回一个可区别与主串的位置标记

In [13]:
## 暴力匹配
def native_search(txt, pattern):
    t_len = len(txt)
    p_len = len(pattern)
    i = 0
    j = 0
    while j < p_len and i < t_len:
        # ①如果当前字符匹配成功（即S[i] == P[j]），则i++，j++ 
        if txt[i] == pattern[j]:
            i += 1
            j += 1
        # 如果失配 则回溯  pattern 指针归零，原始字符串下一位。
        else:
            i = i - j + 1
            j = 0
    # 匹配成功，返回模式串p在文本串s中的位置，否则返回-1
    if j == p_len:
        return i - j
    else:
        return -1
txt = 'BBC ABCDAB ABCDABCDABDE'
pattern = 'ABCDABD'
print  'score = 15, out =', native_search(txt, pattern)

txt = 'abcde'
pattern = 'cde'
print 'score = 2, out =', native_search(txt, pattern)

score = 15, out = 15
score = 2, out = 2


## KMP
- KMP算法的实现，相比于朴素（暴力）方法，主要的变换就是模式字符串下一跳的改变，不会每次都是回退到0，然后重新匹配。
- 预处理就是： 对模式串p进行预处理,得到前后缀的部分匹配表,使得我们可以借助已知信息,算出可以右移多少位.
    - 求每个子串的前缀"和"后缀"的最长的共有元素的长度
    - 求next 数组： 共有元素的长度数组整体右移一位，然后初值赋为-1

In [46]:
def KMP_search(txt, pattern):
    t_len = len(txt)
    p_len = len(pattern)
    i = 0
    j = 0
    # 求next 数组
    next_ = get_next(pattern)
    # 类似暴力匹配
    while i < t_len and j < p_len:
        if j == -1 or txt[i] == pattern[j]: # 比暴力匹配对了一个 -1 的判断
            i += 1
            j += 1
        else:
            # 按照next数组移动位数 而不是从头开始
            j = next_[j]
    if j == p_len:
        return i - j
    else:
        return -1

txt = 'BBC ABCDAB ABCDABCDABDE'
pattern = 'ABCDABD'
print  'score = 15, out =', KMP_search(txt, pattern)

txt = 'abcde'
pattern = 'cde'
print 'score = 2, out =', KMP_search(txt, pattern)

score = 15, out = 15
score = 2, out = 2


In [44]:
# 预处理 求next 数组
# 求每个子串的前缀"和"后缀"的最长的共有元素的长度
# 求next 数组： 共有元素的长度数组整体右移一位，然后初值赋为-1

def get_next(pattern):
    p_len = len(pattern)
    # 求每个子串的前缀"和"后缀"的最长的共有元素的长度
    com_ret = []
    for i in range(1, p_len + 1):
        prefix = [pattern[:j] for j in range(i)]
        postfix = [pattern[j:i] for j in range(i, 0, -1)]
        com = set(prefix) & set(postfix)
        len_com = max([len(j) for j in com])
        com_ret.append(len_com)
 
    # 求next 数组： 共有元素的长度数组整体右移一位，然后初值赋为-1
    next_ = [-1]
    for i in range(1,len(com_ret)):
        next_.append( com_ret[i - 1])
    return next_


pattern = 'abcdabd'
print get_next(pattern)

[-1, 0, 0, 0, 0, 1, 2]


## 参考

- [字符串匹配的KMP算法 - 阮一峰的网络日志](http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html)

- [从头到尾彻底理解KMP（2014年8月22日版） - 结构之法 算法之道 - CSDN博客](https://blog.csdn.net/v_july_v/article/details/7041827)
