### Suffix Array 접미사 배열
- 문자열 S의 모든 접미사를 사전순으로 정렬한 배열. 각 배열의 원소는 접미사의 시작 인덱스를 의미한다.
  - 어떤 문자열 $S$ 에 대해 모든 접미사 배열은 유일하다. 모든 접미사의 길이가 다르므로 같은 단어가 나올 수 없기 때문이다.
  - S = 'banana'라면, 접미사는 'banana', 'anana', 'nana', 'ana', 'na', 'a'가 있고, 이를 사전순으로 정렬하면 'a', 'ana', 'anana', 'banana', 'na', 'nana'가 된다.
  - 이를 Suffix Array로 표현하면 `[5, 3, 1, 0, 4, 2]`가 된다.

### $\Omicron(N \log^2N)$ Suffix Array의 동작
- Manber-Myers 알고리즘이라고도 불린다.
- $|S| = N$ 인 문자열 $S$ 에 대해  $d = 1 \to N$ 까지 다음을 반복한다.
  - 모든 접미사를 길이 $d$를 기준으로 정렬한다.
  - 정렬된 접미사를 기준으로 $d$ 길이의 접미사 배열을 만든다.
  - 만약 $d \geq N$ 이면 종료한다.
  - $d$를 두 배로 늘린다.
- d가 2배씩 늘어나고 매번 정렬에 $\Omicron(N \log N)$이 걸리므로 전체 시간복잡도는 $\Omicron(N \log^2N)$이 된다.
- 예를들어 `S = baabaaba` 라고 할 때 앞의 $2d$ 개의 접미사들이 같은 그룹으로 묶어준다. 그룹 번호는 $2d$ 를 사전순으로 정렬했을 때의 순서로 정해준다.
  - $d = 0$ 이면 모든 접미사가 다른 그룹으로 묶인다.
  - ![Alt text](assets/sa-1.png) \
  $d = 1$ 인 경우, 빨간 줄의 접미사가 공통되는 접미사들이 같은 그룹에 묶여진다. 그리고 각 빨간줄의 사전순서대로 그룹 번호가 매겨진다.
  - ![Alt text](assets/sa-2.png) \
  $d = 2$ 인 경우
  - ![Alt text](assets/sa-3.png) \
  $d = 4$ 인 경우, 모든 그룹의 크기가 1이 됐으므로 SA가 만들어졌다.

#### 원리
- 우선 $d = 1$ 인 경우 접미사들의 모든 접미사 2글자들을 보고 그룹을 나눈 뒤, 그룹 번호를 매긴다.
- 그 다음 단계부터, 이전 단계에서 만든 접미사 배열을 참고하여 정렬한다.
  - 우선 그룹 번호가 서로 다른 접미사들은 그 다음 정렬에서도 그 상대적인 순서가 유지된다.
    - 예를들어 그룹 1에 `a, b, c`가 있고, 그룹 2에 `d, e`가 있다면, 그 다음 정렬에서 그룹 1이 아무리 나눠져도 그룹 2보다 뒤로 정렬될 순 없다.
      - `aa`ba와 `ab`a 의 그룹번호가 각각 1, 2였으므로 그 다음 정렬에서 `aa`ba가 `ab`a보다 뒤로 정렬될 수 없다.
    - 따라서 $d = n + 1$ 에서 같은 그룹내의 문자열을 비교할 때에는, 앞의 $2^n$ 글자는 무시하고 뒤의 $2^n$ 글자만 비교하면 된다.
      - ab`a`와 ab`aaba`를 비교할 때 앞의 ab는 무시하고 `a`와 `aa`를 비교하면 된다.
    - 그런데 뒤의 $2^n$ 글자는 원래 단어의 접미사이며, 이미 그룹 번호가 매겨져있다. 따라서 그룹 번호를 참고하여 정렬하면 된다.
      - ab`a`와 ab`aa`를 비교할 때, `a`와 `aa`는 이미 그룹번호가 반드시 부여되어있고,\
       `a`의 그룹 번호가 0이고 `aa`의 그룹 번호가 1이였으니, `a`가 `aa`보다 먼저 오게 된다.
    - 그럼에도 뒤의 $2^n$ 글자가 동일하다면 그 다음 정렬에도 같은 그룹에 속하게 된다.

### LCP(Longest Common Prefix) 배열
- 정렬된 접미사 배열에서 바로 뒤의(인접한) 접미사의 가장 긴 공통 접두사의 길이를 저장한 배열.
  - 즉 LCP[k] = `k번째 접미사와 k+1번째 접미사가 앞에서부터 몇 글자 같은지`
- Suffix Array를 구했다면 $\Omicron(N)$ 만에 구할 수 있다.
- 예를들어 `S = banana`라면, 접미사 배열은 `[5, 3, 1, 0, 4, 2]`가 되고, LCP 배열은 `[1, 3, 0, 0, 2]`가 된다.
  - ![Alt text](image.png)

#### LCP 배열의 특징
- 어떤 문자열의 두 인접한 접미사 $A, B$ 의 LCP가 $z(> 0)$ 이면, \
$A, B$ 에서 앞의 한 글자씩을 뺀 문자열 $A', B'$ 역시 접미사이며, 이들의 LCP는 최소 $z-1$ 이다.
  

### SAIS/KASAI 구현
- 설명 및 증명은 https://infossm.github.io/blog/2021/11/21/linear-suffix-array/ 참고

In [None]:
def SAIS(A):
  n = len(A)
  buckets = [0] * (max(A) + 2)
  for a in A:
    buckets[a + 1] += 1
  for b in range(1, len(buckets)):
    buckets[b] += buckets[b - 1]
  isL = [1] * n
  for i in reversed(range(n - 1)):
    isL[i] = +(A[i] > A[i + 1]) if A[i] != A[i + 1] else isL[i + 1]

  def induced_sort(LMS):
    SA = [-1] * (n)
    SA.append(n)
    endpoint = buckets[1:]
    for j in reversed(LMS):
      endpoint[A[j]] -= 1
      SA[endpoint[A[j]]] = j
    startpoint = buckets[:-1]
    for i in range(-1, n):
      j = SA[i] - 1
      if j >= 0 and isL[j]:
        SA[startpoint[A[j]]] = j
        startpoint[A[j]] += 1
    SA.pop()
    endpoint = buckets[1:]
    for i in reversed(range(n)):
      j = SA[i] - 1
      if j >= 0 and not isL[j]:
        endpoint[A[j]] -= 1
        SA[endpoint[A[j]]] = j
    return SA

  isLMS = [+(i and isL[i - 1] and not isL[i]) for i in range(n)]
  isLMS.append(1)
  LMS = [i for i in range(n) if isLMS[i]]
  if len(LMS) > 1:
    SA = induced_sort(LMS)
    LMS2 = [i for i in SA if isLMS[i]]
    prev = -1
    j = 0
    for i in LMS2:
      i1 = prev
      i2 = i
      while prev >= 0 and A[i1] == A[i2]:
        i1 += 1
        i2 += 1
        if isLMS[i1] or isLMS[i2]:
          j -= isLMS[i1] and isLMS[i2]
          break
      j += 1
      prev = i
      SA[i] = j
    LMS = [LMS[i] for i in SAIS([SA[i] for i in LMS])]
  return induced_sort(LMS)

def KASAI(A, SA):
  n = len(A)
  rank = [0] * n
  for i in range(n):
    rank[SA[i]] = i
  LCP = [0] * (n - 1)
  k = 0
  for i in range(n):
    SAind = rank[i]
    if SAind == n - 1:
      continue
    j = SA[SAind + 1]
    while i + k < n and A[i + k] == A[j + k]:
      k += 1
    LCP[SAind] = k
    k -= k > 0
  return LCP