# 字符串匹配问题

字符串匹配问题是**在一个给定字符串中搜索特定模式出现的所有位置**，这里的给定字符串使用也称作**文本(Text, T)** ，特定模式被称为**模式(Pattern, P)**。传统的字符串匹配问题中的模式是一个比文本短的字符串，不包含特殊的字符，但1974年Fischer和Paterson将通配符 `*` 引入匹配模式中后，字符串匹配问题变得更加通用也更加复杂。

常见的字符串匹配算法包括：暴力匹配、KMP算法、前缀搜索、后缀搜索、有限状态机等，这些算法有着不同的时间/空间复杂度，以及不同的实现难度，在实际应用中我们需要根据场景选择合适的字符串匹配算法。

# 暴力匹配

暴力匹配也叫朴素字符串匹配算法，它的原理很愣头青，就是从文本中不同的位置开始，沿着一定的方向（👉从前向后或从后向前👈）逐个比较文本和模式中对应位置的字符是否相等。如果发现不相等的字符，则继续下一位置重新匹配，如果匹配到模式尾部，则此次匹配成功。

## 复杂度分析

+ **时间复杂度：** 设本文长度为 $n$，模式长度为 $m$，我们需要对文本中 $n-m+1$ 长度的区域依次进行匹配，每次匹配最多进行 $m$ 次比较， 所以最坏情况下的时间复杂度为 $O((n-m+1) \cdot m)$。
+ **空间复杂度：** 该算法没有预处理过程，也不需要额外的储存空间来缓存字符串，因此空间复杂度为 $O(1)$。

In [None]:
# 暴力匹配算法实现。
import algviz

def bruteStringMatch(text, pattern):
    if (len(text) < len(pattern)):
        return
    viz = algviz.Visualizer(1)
    tex = viz.createVector(text, cell_size=20, name='Text')
    pat = viz.createVector(pattern, cell_size=20, name='Pattern')
    for i in range(len(text)-len(pattern)+1):
        for j in range(len(pattern)):
            if tex[i+j] == pat[j]:
                tex.mark(i+j, algviz.colors[0])
                viz.display()
                if j == len(pattern) - 1:
                    tex.mark(i, algviz.colors[1])
            else:
                viz.display()
                break
        tex.removeMark(algviz.colors[0])
        viz.display()
        
text = 'aaacaaab'
pattern = 'aaab'
bruteStringMatch(text, pattern)

# KMP算法

KMP算法的全称为（ Knuth-Morris-Pratt 算法），是对暴力匹配算法的一种改进。通过观察上面的暴力匹配过程可以发现，每一次从一个新的位置开始进行匹配，我们都会不断的扩展文本和模式的公共子串（这个子串也是**模式字符串的前缀子串**），当出现失配字符时暴力匹配算法就会从模式字符串的头部重新开始匹配，那么能不能从模式字符串的中间部分开始重新匹配呢？这样文本字符串那边也就可以一下向右多移动几个位置😀，效率上将会有大大的提升。

# 参考连接

+ https://www.cnblogs.com/chentianwei/p/11665656.html
+ https://www.cnblogs.com/zzuuoo666/p/9028287.html
+ [KMP算法介绍-知乎专栏](https://zhuanlan.zhihu.com/p/83334559)