## 后缀数组是什么？

后缀数组（Suffix Array）主要是两个数组： $sa$ 和 $rk$ 。

其中， $sa[i]$ 表示将所有后缀排序后第 $i$ 小的后缀的编号。 $rk[i]$ 表示后缀 $i$ 的排名。

这两个数组满足性质： $sa[rk[i]]=rk[sa[i]]=i$ 。


In [110]:
#倍增排序法 O(nlog^2n)
from functools import cmp_to_key
class Sa:
    def __init__(self,s):
        self.sa=[]
        self.rk=[]
        n=len(s)
        for i in range(n):
            self.sa.append(i)
            self.rk.append(ord(s[i])-ord('a')+1)
        
        def cmp(x,y):
            if self.rk[x] > self.rk[y]:
                return 1
            elif self.rk[x] < self.rk[y]:
                return -1
            else:
                nextx=0 if x+w>=n else self.rk[x+w]
                nexty=0 if y+w>=n else self.rk[y+w]
                if nextx>nexty:
                    return 1
                elif nextx<nexty:
                    return -1
                return 0

        for w in range(1,n):
            sa=[i for i in range(n)]
            sa.sort(key=cmp_to_key(cmp))
            self.sa=sa
            oldrk=self.rk.copy()
            p=1
            print(self.sa,self.rk)
            for i in range(1,n):
                nextx=0 if sa[i]+w>=n else oldrk[sa[i]+w]
                nexty=0 if sa[i-1]+w>=n else oldrk[sa[i-1]+w]
                if oldrk[sa[i]]==oldrk[sa[i-1]] and nextx==nexty:
                    self.rk[sa[i]]=p
                else:
                    p+=1
                    self.rk[sa[i]]=p
        
        print(self.sa)
        print(self.rk)
        print([s[j:] for j in self.sa])

sa=Sa("aabaaaab")

[0, 3, 4, 5, 1, 6, 7, 2] [1, 1, 2, 1, 1, 1, 1, 2]
[3, 4, 5, 0, 6, 1, 7, 2] [1, 2, 4, 1, 1, 1, 2, 3]
[3, 4, 5, 0, 6, 1, 7, 2] [4, 6, 8, 1, 2, 3, 5, 7]
[3, 4, 5, 0, 6, 1, 7, 2] [4, 6, 8, 1, 2, 3, 5, 7]
[3, 4, 5, 0, 6, 1, 7, 2] [4, 6, 8, 1, 2, 3, 5, 7]
[3, 4, 5, 0, 6, 1, 7, 2] [4, 6, 8, 1, 2, 3, 5, 7]
[3, 4, 5, 0, 6, 1, 7, 2] [4, 6, 8, 1, 2, 3, 5, 7]
[3, 4, 5, 0, 6, 1, 7, 2]
[4, 6, 8, 1, 2, 3, 5, 7]
['aaaab', 'aaab', 'aab', 'aabaaaab', 'ab', 'abaaaab', 'b', 'baaaab']


In [4]:
#调整排序算法，使用基数排序，优化至O(nlogn)

from functools import cmp_to_key
class Sa:
    def __init__(self,s):
        self.sa=[]
        self.rk=[]
        n=len(s)
        cnt=[0]*27
        self.id=[0]*n
        for i in range(n):
            self.sa.append(i)
            self.rk.append(ord(s[i])-ord('a')+1)
            cnt[self.rk[i]]+=1
        
        for i in range(1,27):
            cnt[i]+=cnt[i-1]

        for i in range(n-1,-1,-1):
            cnt[self.rk[i]]-=1
            self.sa[cnt[self.rk[i]]]=i
            
        for w in range(1,n):
            sa=self.sa[:]
            rk=self.rk[:]
            cnt=[0]*27 
            #排序第二关键字
            for i in range(n-1,-1,-1):
                rk[i]=self.rk[i+w] if i+w<n else 0
            for i in range(n):
                cnt[rk[i]]+=1
            for i in range(1,27):
                cnt[i]+=cnt[i-1]
            for i in range(n-1,-1,-1):
                cnt[rk[i]]-=1
                sa[cnt[rk[i]]]=i
            #排序第一关键字
            cnt=[0]*27
            # print('sa',sa,rk)
            for i in range(n):
                cnt[self.rk[i]]+=1
            
            for i in range(1,27):
                cnt[i]+=cnt[i-1]
            
            for i in range(n-1,-1,-1):
                cnt[self.rk[sa[i]]]-=1
                self.sa[cnt[self.rk[sa[i]]]]=sa[i]
                
            # print(self.sa,[(r1,r2) for r1,r2 in zip(self.rk,rk)])
            oldrk=self.rk[:]
            p=1
            for i in range(1,n):
                nextx=0 if self.sa[i]+w>=n else oldrk[self.sa[i]+w]
                nexty=0 if self.sa[i-1]+w>=n else oldrk[self.sa[i-1]+w]
                if oldrk[self.sa[i]]==oldrk[self.sa[i-1]] and nextx==nexty:
                    self.rk[self.sa[i]]=p
                else:
                    p+=1
                    self.rk[self.sa[i]]=p
            # print(self.rk)
        print(self.sa)
        print(self.rk)
        print([s[j:] for j in self.sa])

sa=Sa("aabaaaabc")

[3, 4, 0, 5, 1, 6, 2, 7, 8]
[3, 5, 7, 1, 2, 4, 6, 8, 9]
['aaaabc', 'aaabc', 'aabaaaabc', 'aabc', 'abaaaabc', 'abc', 'baaaabc', 'bc', 'c']


```cpp
#include <bits/stdc++.h>

#define each(i, n) for (int(i) = 0; (i) < (n); (i)++)
#define reach(i, n) for (int(i) = n - 1; (i) >= 0; (i)--)
#define range(i, st, en) for (int(i) = (st); (i) <= (en); (i)++)
#define rrange(i, st, en) for (int(i) = (en); (i) >= (st); (i)--)
#define fill(ary, num) memset((ary), (num), sizeof(ary))

using namespace std;

const int maxn = 100010;
int sa[maxn];                      
//SA数组，表示将S的n个后缀从小到大排序后把排好序的的后缀的开头位置顺次放入SA中
int t1[maxn], t2[maxn], buc[maxn]; //求SA数组需要的中间变量，不需要赋值
int rank[maxn], height[maxn];
//待排序的字符串放在s数组中，从s[0]到s[n-1],长度为n,且最大值小于m,
//除s[n-1]外的所有s[i]都大于0，r[n-1]=0
//函数结束以后结果放在sa数组中

void buildSA(int s[], int n, int m)
{
    int p, *x = t1, *y = t2;
    //第一轮基数排序,对单个字符排序，如果s的最大值很大，此时无法用数组记录，可改为快速排序
    each(i, m) buc[i] = 0;
    each(i, n) buc[x[i] = s[i]]++;
    range(i, 1, m - 1) buc[i] += buc[i - 1];
    reach(i, n) sa[--buc[x[i]]] = i; //排序内容是单个字符 从后向前，实现先出现的排前面
    for (int k = 1; k <= n; k <<= 1) {
        // 以下开始直接利用sa数组排序第二关键字
        p = 0;
        range(i, n - k, n - 1) y[p++] = i;             
        // 后面的 k 个数第二关键字为空的最小
        each(i, n) if (sa[i] >= k) y[p++] = sa[i] - k; 
        // 这里的实现真的是非常简短巧妙。首先第二基数都是从j位开始的，
        //小于 k 的就不需要考虑，因此我们将整个数组向前移动 k 个位置，
        //并在最后 k 个位置补充 k 个最小元素，从而获得第二关键字的有序序列。
        // 这样数组y保存的就是按照第二关键字排序的结果
        //
        // 以下开始基数排序组合
        each(i, m) buc[i] = 0;
        each(i, n) buc[x[y[i]]]++; 
        //y数组并没有重复元素，这就意味着，只是将x数组的元素乱掉而已 
        //那这又是为什么不直接换成 buc[x[i]]++ 已测试更改后无影响
        range(i, 1, m - 1) buc[i] += buc[i - 1];
        reach(i, n) sa[--buc[x[y[i]]]] = y[i]; 
        // 反向，为了先出现的排前面，也就发挥了第二关键字的作用 ,若要先出现的排后面，则正向
        // 非常非常值得注意！！！！！！ 此时y 数组的顺序 就是组合的顺序 所有后面赋值的是 y[i]
        //
        // 以下开始根据sa和x数组计算新的x数组 , 重新申明 ！！ x 数组是 现有单个元素 第 i 位的位置
        swap(x, y);
        p = 1, x[sa[0]] = 0;
        range(i, 1, n - 1) x[sa[i]] = y[sa[i - 1]] == y[sa[i]] && y[sa[i - 1] + k] == y[sa[i] + k] ? p - 1 : p++;
        // 这里是上面那条的解释
        // 因为是有序的，所有重复元素只可能在旁边，如果出现重复元素则为 p-1，表示与上一条相等 否则 为 p++
        // 显然的，这里有离散化的作用
        if (p >= n) // 如果没有出现重复元素
            break;
        m = p; // 下次基数排序的最大值
    }
}
```

In [5]:
#调整排序算法，使用基数排序，优化至O(nlogn)

from functools import cmp_to_key
class Sa:
    def __init__(self,s):
        self.sa=[]
        self.rk=[]
        n=len(s)
        cnt=[0]*27
        self.id=[0]*n
        for i in range(n):
            self.sa.append(i)
            self.rk.append(ord(s[i])-ord('a')+1)
            cnt[self.rk[i]]+=1
        
        for i in range(1,27):
            cnt[i]+=cnt[i-1]

        for i in range(n-1,-1,-1):
            cnt[self.rk[i]]-=1
            self.sa[cnt[self.rk[i]]]=i
            
        for w in range(1,n):
            sa=self.sa[:]
            cnt=[0]*27 
            #排序第二关键字
            for i in range(n):
                ind=0 if i+w>=n else self.rk[i+w]
                cnt[ind]+=1
            for i in range(1,27):
                cnt[i]+=cnt[i-1]
            for i in range(n-1,-1,-1):
                ind=0 if i+w>=n else self.rk[i+w]
                cnt[ind]-=1
                sa[cnt[ind]]=i

            #排序第一关键字
            cnt=[0]*27
            # print('sa',sa)
            for i in range(n):
                cnt[self.rk[i]]+=1
            
            for i in range(1,27):
                cnt[i]+=cnt[i-1]
            
            for i in range(n-1,-1,-1):
                cnt[self.rk[sa[i]]]-=1
                self.sa[cnt[self.rk[sa[i]]]]=sa[i]
                
            # print(self.sa,[(r1,r2) for r1,r2 in zip(self.rk,rk)])
            oldrk=self.rk[:]
            p=1
            for i in range(1,n):
                nextx=0 if self.sa[i]+w>=n else oldrk[self.sa[i]+w]
                nexty=0 if self.sa[i-1]+w>=n else oldrk[self.sa[i-1]+w]
                if oldrk[self.sa[i]]==oldrk[self.sa[i-1]] and nextx==nexty:
                    self.rk[self.sa[i]]=p
                else:
                    p+=1
                    self.rk[self.sa[i]]=p
            # print(self.rk)
        print(self.sa)
        print(self.rk)
        print([s[j:] for j in self.sa])

sa=Sa("aabaaaabc")

[3, 4, 0, 5, 1, 6, 2, 7, 8]
[3, 5, 7, 1, 2, 4, 6, 8, 9]
['aaaabc', 'aaabc', 'aabaaaabc', 'aabc', 'abaaaabc', 'abc', 'baaaabc', 'bc', 'c']


In [7]:
#调整排序算法，使用基数排序，优化至O(nlogn)
#第二关键字实际上无需排序，优化
class Sa:
    def __init__(self,s):
        self.sa=[]
        self.rk=[]
        n=len(s)
        cnt=[0]*27
        self.id=[0]*n
        for i in range(n):
            self.sa.append(i)
            self.rk.append(ord(s[i])-ord('a')+1)
            cnt[self.rk[i]]+=1
        
        for i in range(1,27):
            cnt[i]+=cnt[i-1]

        for i in range(n-1,-1,-1):
            cnt[self.rk[i]]-=1
            self.sa[cnt[self.rk[i]]]=i
            
        for w in range(1,n):
            sa=self.sa[:]
            cnt=[0]*27 
            #排序第二关键字
            
            p=0
            for i in range(n-1,n-1-w,-1):
                sa[p] = i
                p+=1
            for i in range(n):
                if self.sa[i]>=w:
                    sa[p]=self.sa[i]-w
                    p+=1

            #排序第一关键字
            cnt=[0]*(p+1)  #优化计数排序的值域
            print('sa',self.sa,sa)
            for i in range(n):
                cnt[self.rk[i]]+=1
            
            for i in range(1,p+1):
                cnt[i]+=cnt[i-1]
            
            for i in range(n-1,-1,-1):
                cnt[self.rk[sa[i]]]-=1
                self.sa[cnt[self.rk[sa[i]]]]=sa[i]
                
            # print(self.sa,[(r1,r2) for r1,r2 in zip(self.rk,rk)])
            oldrk=self.rk[:]
            p=1
            for i in range(1,n):
                nextx=0 if self.sa[i]+w>=n else oldrk[self.sa[i]+w]
                nexty=0 if self.sa[i-1]+w>=n else oldrk[self.sa[i-1]+w]
                if oldrk[self.sa[i]]==oldrk[self.sa[i-1]] and nextx==nexty:
                    self.rk[self.sa[i]]=p
                else:
                    p+=1
                    self.rk[self.sa[i]]=p
            # print(self.rk)
        print(self.sa)
        print(self.rk)
        print([s[j:] for j in self.sa])

sa=Sa("aabaaaabc")

sa [0, 1, 3, 4, 5, 6, 2, 7, 8] [8, 0, 2, 3, 4, 5, 1, 6, 7]
sa [0, 3, 4, 5, 1, 6, 2, 7, 8] [8, 7, 1, 2, 3, 4, 0, 5, 6]
sa [3, 4, 0, 5, 1, 6, 2, 7, 8] [8, 7, 6, 0, 1, 2, 3, 4, 5]
sa [3, 4, 0, 5, 1, 6, 2, 7, 8] [8, 7, 6, 5, 0, 1, 2, 3, 4]
sa [3, 4, 0, 5, 1, 6, 2, 7, 8] [8, 7, 6, 5, 4, 0, 1, 2, 3]
sa [3, 4, 0, 5, 1, 6, 2, 7, 8] [8, 7, 6, 5, 4, 3, 0, 1, 2]
sa [3, 4, 0, 5, 1, 6, 2, 7, 8] [8, 7, 6, 5, 4, 3, 2, 0, 1]
sa [3, 4, 0, 5, 1, 6, 2, 7, 8] [8, 7, 6, 5, 4, 3, 2, 1, 0]
[3, 4, 0, 5, 1, 6, 2, 7, 8]
[3, 5, 7, 1, 2, 4, 6, 8, 9]
['aaaabc', 'aaabc', 'aabaaaabc', 'aabc', 'abaaaabc', 'abc', 'baaaabc', 'bc', 'c']
