# KMP 算法的实现

## 视频地址
[https://www.bilibili.com/video/BV1jb411V78H](https://www.bilibili.com/video/BV1jb411V78H)
[https://www.bilibili.com/video/BV1Z7411R7eC?p=146](https://www.bilibili.com/video/BV1Z7411R7eC?p=146 )

## 总体思想
KMP 算法的核心是通过使用 pattern 自身的特点来规避掉重复的操作。
对于一般的字符查找来说，每一次查找都是使用 string 的某一个位置 pos* 开始与 pattern 串开始比较，每查找一次就得从头开始，因此其时间复杂度为 O(m*n)
而 KMP 算法则是通过先对 pattern 串进行处理，然后进行操作。其核心是一个叫做 `next` 数组的东西

## 生成 next 数组的函数 BuildNext
$$
next(x)=\begin{cases}
max(i): p_0,...,p_i = p_{j-i}, ..., p_j (i < j) \cr -1
\end{cases}
$$

### 视频资料
[https://www.bilibili.com/video/BV1Z7411R7eC?p=148&t=01m49s](https://www.bilibili.com/video/BV1Z7411R7eC?p=148&t=01m49s)

In [37]:
from typing import List


def buildNext(pattern: str) -> List[int]:
    pattern_length = len(pattern)
    next = [-1] * pattern_length
    # 遍历 pattern，计算每一个 next 值
    for j in range(pattern_length)[1:]:
        # 保存 `next[j-1]` 到一个i中
        i = next[j - 1]
        # 对于`pattern[next[j-1]+1]` 不等于 `pattern[j]`的情况不等于的情况，则对比 `pattern[next[next[j-1]]+1]` 与 `pattern[j]` 的情况，以此类推。
        while i >= 0 and pattern[i + 1] != pattern[j]:
            i = next[i]
        # 对于`pattern[next[j-1]+1]` 正好等于 `pattern[j]`的情况,直接将对应的next值放入即可
        if pattern[i + 1] == pattern[j]:
            next[j] = i + 1
    # 如果没有任何一个真子串可以匹配到对应位置，此时i == -1
    #     else:
    #         print(j)
    #         next[j] = -1

    return next

## 算法细节
准备工作

In [38]:
def kmp(string: str, pattern: str) -> int:
    NOT_FOUND = -1
    string_length = len(string)
    pattern_length = len(pattern)

    if string_length < pattern_length:
        return NOT_FOUND

    string_pointer = 0
    pattern_pointer = 0

    next = buildNext(pattern)
    # 当两个指针 string_pointer 与 pattern_pointer 没有超过对应字符串长度时，比较继续
    while string_pointer < string_length and pattern_pointer < pattern_length:
        # 当两个指针所指的字母相同时，都向后移动一位
        if string[string_pointer] == pattern[pattern_pointer]:
            string_pointer += 1
            pattern_pointer += 1
        # 否则就将 `pattern_pointer` 移动到 next 函数所对应的位置上 (对于  `pattern_pointer` 指针已经在后面几位的情况)
        elif pattern_pointer > 0:
            pattern_pointer = next[pattern_pointer - 1] + 1
        # 对于 `pattern_pointer` 指针在 0 位的情况，说明此时 `pattern` 中没有对应的（从开头开始的）子字符串与 `string` 对应，则直接从下一位进行比较( `string_pointer` += 1)
        else:
            string_pointer += 1
    # 当循环结束时有两种情况
    # 没有匹配到 或者 匹配成功
    # 如果 `pattern_pointer` 与 `pattern_length` 相等，则匹配成功
    # 如果不相等，则说明 `pattern` 已经超过了 `string` 的剩余长度，则返回 -1
    return string_pointer - pattern_length if pattern_pointer == pattern_length else NOT_FOUND

## 测试

In [39]:
string = "Lorem ipsum dolor sit amet, consectetur adipiscing elit. In a ipsum vitae leo tristique facilisis eu in nunc. Aliquam eu risus nec lectus gravida iaculis. Mauris sed dapibus sem. Nunc ac nunc non urna fermentum ultrices. Donec cursus commodo ipsum, ut facilisis nulla efficitur sit amet. Vestibulum erat diam, elementum vitae condimentum ut, tempus ut nulla. Nam mollis pharetra libero eget tempor."

In [40]:
pattern = "sem"

In [41]:
print(string.find(pattern))
print(kmp(string, pattern))

174
174
