# 朴素串匹配

In [2]:
def naive_matching(t, p): #查找t中是否有子串p
    m, n = len(p), len(t)
    i, j = 0, 0
    while i < m and j < n: # 当i == m时找到了匹配
        if p[i] == t[j]: # 该字符匹配，进行下一位的匹配
            i += 1
            j += 1
        else:
            i, j = 0, j - i + 1 # 该字符不匹配，故而从该字符的下一位开始继续匹配
    if i == m: # 找到了匹配的子串，返回其起始下标
           return j - i
    return -1 # 无匹配，就返回特殊值

naive_matching('wkwkwkwk', 'kw')

1

朴素串匹配的算法复杂度为O（m \* n）

# KPM算法

In [3]:
# 核心循环步骤
def matching_KMP(t, p, pnext):
    '''KMP串匹配，主函数 '''
    j ,i = 0, 0
    n, m = len(t), len(p)
    while j < n and i < m:
        if i == -1 or p[i] == t[j]:
            j, i = j + 1, i + 1
        else:
            i = pnext[i]
    if i == m:
        return j-i
    return -1

该算法的复杂性为循环的执行次数，i和j是一直在递增的，而且j+1的总次数不会大于n。而if的条件保证变量i的值不小于-1。所以i递增的次数也不会大于O（n）。总结来看，算法复杂度为O（n）

## pnext表的构造算法

In [10]:
def gen_pnext(p):
    '''
    生成针对p中各位置i的下一位置检查表，用于KMP算法
    '''
    i, k, m = 0, -1, len(p)
    pnext = [-1] * m # 生成一个包含m个-1的列表。
    while i < m-1: # 生成下一个pnext元素
        if k == -1 or p[i] == p[k]:
            i, k = i+1, k+1
            pnext[i] = k # 设置pnext元素
        else:
            k = pnext[k] # 遇到更短相同前缀
    return pnext

In [7]:
gen_pnext('abbcabcaabbcaa')

[-1, 0, 0, 0, 0, 1, 2, 0, 1, 1, 2, 3, 4, 5]

## pnext表构造算法的改进

在生成算法中，设`pnext[i]`还能进一步优化。由于匹配失败时有$p_i \neq t_j$ ,如果`pnext[i]=k`,若发现$p_i = p_k$，就一定有$p_k \neq t_j$故而应该把模式串移到`pnext[k]`而不是仅仅移到`pnext[i]`，然后用$p_{next[k]}$和$t_j$比较，这样可以把模式串右移得更远从而提高效率。

修改后的函数定义如下：

In [8]:
def gen_pnext(p):
    """
    生成针对p中个位置i的下一个检查位置表，用于KMP算法
    
    这是一个有稍许修改的优化版本 。
    """
    i, k, m = 0, -1, len(p)
    pnext = [-1] * m
    while i < m-1: # 生成下一个pnext元素
        if k == -1 or p[i] == p[k]:
            i, k = i + 1, k + 1
            if p[i] == p[k]:
                pnext[i] = pnext[k]
            else:
                pnext[i] = k
        else:
            k = pnext[k]
    return pnext
    

# python的正则表达式

In [13]:
import re
re.split(' ', "aaa bbb abc are not the same")
re.split(" ", "a b  c   d")

['a', 'b', '', 'c', '', '', 'd']