# 字符串的定义

* 字符集：有穷的一组字符构成的带有序关系的集合；
* 字符串：就是字符集里有限个元素的排列，可以看做一类特殊的线性表。

# 字符串的相关概念

1. 字符串的长度：字符串中字符的个数，空字符串的长度为0。下面用 |s|表示字符串s的长度；

2. 字符在字符串的位置：字符串中字符顺序排列，从0开始计数，每个字符都有其确定位置或下标；

3. 字符串相等：两个字符串长度相等且相应位置的字符相等；

4. 字典序：字符串之间的一种序关系，简单说就是从左到右开始第一个不相等的字符决定了2个字符串的大小；如果都一致，则长度较短的字符串相对小；

5. 字符串拼接：s1 + s2

6. 子串关系： 称字符串 s1 是字符串 s2 的子串，如果满足： $s_2 = s + s_1 + s^{*}$;即 s1 和 s2 中的一个连续片段一致；
    * 空字符串和本身都是字符串的子串；
    * 子串可以多次出现，且下标可能会重叠，如 babb 相对于 babbabbbbabb.
    
7. 前缀和后缀：
    * 前缀： $s_2 = s_1 + s^{*}$;
    * 后缀： $s_2 = s^{*} + s_1$;
   
8. 串替换： 将字符串中明确下标范围的一段子串进行替换

# 字符串匹配

假设有两个字符串：
    $$t=t_1t_2t_3\dots t_{n-1}$$
    $$p=p_1p_2p_3\dots p_{m-1}$$
字符串匹配就是在字符串t中查找和p相同字符串的过程，下面称t为**目标串**，p为**模式串**，一般情况下 m<<n.

字符串比较的基础是字符比较。

* 如果从字符i开始，目标串的每一个字符都和模式串里的字符一致，则找到了一个匹配的模式串；

* 如果比较过程中，遇到了一对不同的字符，说明目标串里从字符i开始的子串和模式串不匹配。串匹配算法的关键在两点：
    1. 怎样选择开始比较的字符对；
    2. 遇到不匹配的字符对时下一步怎么办
    
    对这两点的不同处理策略，形成了不同的字符串匹配算法。下面介绍朴素匹配算法和KMP匹配算法。

## 朴素匹配算法

最简单的朴素匹配算法，对以上2点的处理策略是：
1. 从左往右依次比较；
2. 发现不匹配，从**当初开始比较位置的下一位置**重新开始匹配

In [9]:
# 只匹配1次
def naive_matching(t,p):
    m,n = len(p),len(t)
    i,j = 0,0
    
    while i<m and j<n:
        if p[i] == t[j]: 
            i,j = i+1, j+1 # 字符匹配就一起前进 
        else:
            i,j = 0, j-(i-1) #如果不匹配，模式串从0开始，目标串从上次比较位置的下一个位置开始 j -(i-1)
    if i == m:
        return j-i
    else:
        return -1

In [10]:
naive_matching(t='assmddmsmcd',p='smc')

7

上面的朴素匹配算法效率很低，原因在于当发现不匹配时，模式串和目标串都要进行回溯。算法的复杂度是：$O(m\times n)$。最糟糕的案例是：
1. t = '00000000000000000000001'
2. p = '001'

效率低的原因在于：
1. 把每次的字符匹配当成完全独立的操作，没有利用字符是有穷的特点，把字符当做随机出现的量；

2. 也没有利用前面匹配过程中的有效信息。

其他改进的算法都是在这个基础上利用字符的特点进行优化的。

## KMP算法(无回溯串匹配算法)