## Z - функция.

### Определения:  
  
**Строка** - это конечная (возможно, пустая) последовательность символов алфавита. Длина строки s обозначается как |s|. Cимволы будем считать пронумерованными от 0 до |s|-1.  
  
Примеры строк: $s_1=$«$010101$», $s_2=$«abacaba», $s_3=[31,34,41]$ (символы — целые числа), $s_4$ = «».  
  
**Подстрока** - последовательность подряд идущих символов строки. Например, все подстроки строки «apple»: «apple», «appl», «pple», «app», «ppl», «ple», «ap», «pp», «pl», «le», «a», «p», «l», «e», «».  
  
  Обозначим $s[i ... j]$ подстроку, которая начинается в $i$ и заканчивается в $j$. Её длина равна $j-i+1$.  
    
**Вхождением** строки $p$ в строку $t$ будем называть такую пару индексов $(i, j)$, что $p = t[i ... j]$. Например, в строке $t$=«ababaaba» всего 3 вхождения строки $p$=«aba».   
  
**Префиксом** строки $s$ называется подстрока вида $s[0 ... i]$. Всего у строки $|s|+1$ префиксов (пустой и полный тоже учитываются). Например, если $s$=«abс», то префиксы это — «», «a», «ab», «abс».  

**Собственный префикс** - префикс строки, который не совпадает со строкой и который не является пустой строкой.
    
**Суффиксом** строки $s$ называется подстрока вида $s[i ... |s|-1]$. Всего у строки $|s|+1$ суффиксов (пустой и полный тоже учитываются). Например, если $s$= «abс», то суффиксы это — «», «c», «bc», «abс».  
  
**Собственный суффикс** - суффикс строки, который не совпадает со строкой и который не является пустой строкой.

###  Поиск подстроки в строке (задача точного поиска).

Задана строка **t** (текст) и строка **p** (образец). Найдите все вхождения строки **p** в строку **t**.  
Пример: **t**=«abacababa», **p**=«aba». Ответ содержит 3 вхождения:  

● **aba**cababa: (0, 2)  
● abac**aba**ba: (4, 6)  
● abacab**aba**: (6, 8)  


Если $n=|t|$ и $m=|p|$, то наивный алгоритм работает за время $O(nm)$.

### Поиск подстроки в строке (наивный алгоритм).

In [15]:
def f():
    occurrence = []
    for i in range(len(t) - len(p) + 1):
        mismatch = False
        for j in range(len(p)):
            if p[j] != t[i + j]:
                mismatch = True
                break
        if not mismatch:
            occurrence.append(i)
    return occurrence

In [16]:
t = 'abacababa'
p = 'aba'

In [17]:
print(f())

[0, 4, 6]


###  Z-функция: определение

Для заданной строки строки $s=s_0s_1...s_{n-1}$ её $z$-функцией является массив $z$ длины $n$, проиндексированный от $0$ до $n-1$, что $z[i]$ — это длина наидлиннейшего общего префикса всей строки $s$ и её
суффикса $s[i ... n-1]$.  

Для $i=0$ обычно $z[0] = 0$ (иногда удобно считать, что $z[0] = n$).

Пример. Пусть s=«abacaba»  

● z[0] = 0 — по определению  
● z[1] = 0 — ищем длину наидлиннейшего общего префикса у строки $abacaba$ и суффикса $bacaba$  
● z[2] = 1 — ищем ДНОП у $abacaba$ и $acaba$  
● z[3] = 0 — ищем ДНОП у $abacaba$ и $caba$  
● z[4] = 3 — ищем ДНОП у $abacaba$ и $aba$
● z[5] = 0 — ищем ДНОП у $abacaba$ и $ba$  
● z[6] = 1 — ищем ДНОП у $abacaba$ и $a$  

$z = [0, 0, 1, 0, 3, 0, 1]$

### Наивный алгоритм: реализация z-функции за $O(n^2)$.

In [None]:
for i in range(1, n):
        while z[i] + i < n and s[z[i] + i] == s[z[i]]:
            z[i] += 1

1. Мы вычисляем $z$-функцию в позиции $i$.  
2. Изначально в этой позиции значение $z$-функции равно нулю.  
   Таким образом мы сравниваем символ строки $s$ в нулевой позиции и символ строки s в $i$-ой  позиции.  
3. Если найдено совпадение, значение $z$-функции увеличивается на единицу и мы сравниваем второй и $i+1$ символ строки $s$.  
   $z[i]$ растет пока находятся совпадения.  
4. Если совпадения нет, переходим в позицию $i+1$ и повторяем все вышеизложенное для следующего суффикса строки $s$.

In [1]:
def zf(s):
    n = len(s)
    z = [0] * n
    for i in range(1, n):
        while z[i] + i < n and s[z[i] + i] == s[z[i]]:
            z[i] += 1
    return z

In [2]:
s = input()
print(zf(s))

dfghjklj
[0, 0, 0, 0, 0, 0, 0, 0]


###     


### Z-функция: использования для поиска вхождений.
 

Предположим, что умеем находить $z$-функцию эффективно.  
Тогда и задачу о нахождении подстроки в строке можно решить эффективно.  
Пусть дан текст $t$ и образец $p$. Требуется найти все вхождения образца $p$ в текст $t$.  
Построим новую строку $s$ следующим образом:  
$s := p + \# + t$,   
где $\#$ — это такой символ, которого нет ни в $t$ ни в $p$.  
    
$t = aabaababaa$  
$p = abaa$  
$s = abaa\#aabaababaa$  
  
Найдем $z$-функцию строки $s:$  
  
$s = abaa\#aabaababaa$  
$z = 001101401304011$  
  
$z[i] = |p|$ тогда и только тогда, когда в $t$ есть
вхождение $p$ с позиции $i$.  

In [4]:
t = 'aabaababaa'  
p = 'abaa'  
s = 'abaa#aabaababaa'
print(zf(s))

[0, 0, 1, 1, 0, 1, 4, 0, 1, 3, 0, 4, 0, 1, 1]


### Эффективный алгоритм вычисления Z-функции.

Чтобы получить эффективный алгоритм, будем вычислять значения $z[i]$ по очереди — от $i=1$ до $n-1,$ и при этом постараемся при вычислении очередного значения $z[i]$ максимально использовать уже вычисленные значения.  
  
Назовём для краткости подстроку, совпадающую с префиксом строки $s$, **отрезком совпадения**. Например, значение искомой $Z-функции$ $z[i]$ — это длина длиннейшего отрезка совпадения, который начинается в позиции $i$ и заканчивается он в позиции $i + z[i] - 1$).  
  
Для этого будем поддерживать координаты $[l;r]$ самого правого отрезка совпадения, т.е. из всех обнаруженных отрезков будем хранить тот, который оканчивается правее всего. В некотором смысле, индекс $r$ — это такая граница, до которой наша строка уже была просканирована алгоритмом, а всё остальное — пока ещё не известно.

Тогда если текущий индекс, для которого мы хотим посчитать очередное значение $Z-функции$, — это $i$, мы имеем один из двух вариантов:

- $i > r$ — т.е. текущая позиция лежит за пределами того, что мы уже успели обработать.  
  Тогда будем искать z[i] тривиальным алгоритмом, т.е. просто пробуя значения z[i]=0, z[i]=1, и т.д. Заметим, что в итоге, если z[i] окажется >0, то мы будем обязаны обновить координаты самого правого отрезка [l;r] — т.к. i + z[i] - 1 гарантированно окажется больше r.  
  
- $i \le r$ — т.е. текущая позиция лежит внутри отрезка совпадения [l;r]  
  1. Значения функции  z до подсчитаны до позиции i - 1																					
  2. z[L] = 6, самый правый отрезок совпадения [10, 15]																					
  3. Мы находимся в позиции i и хотим вычислить значение  функции z[i]																					
  4. Изначально значение z[i] инициализирована нулем																					
  5. Заметим, что подстроки s[l, r] и s[0, r-l] совпадают. Это означает, что в качестве начального приближения 
    для z[i] можно взять соответствующее ему значение из отрезка s[0, r-l], а именно, значение z[i-l]."																					
  6. Однако значение z[i-l] могло оказаться слишком большим: таким, что при применении его к позиции i 
    оно вылезет за пределы границы r. Этого допустить нельзя, т.к. про символы правее r мы ничего не знаем, 
        и они могут отличаться от требуемых.  
        
  7.Таким образом, в качестве начального приближения для z[i] безопасно брать только такое выражение:
 
                                                    $z[i] = min(R - i + 1, z[i = L])$     																					
8.Далее запускаем наивный алгоритм и ищем совпадения в позициях правее $R$.																					
9.Если такие совпадения будут найдены, пересчитаем самый правый отрезок совпадения, получим $[i, R']$  
  
Таким образом, весь алгоритм представляет из себя два случая, которые фактически различаются только начальным значением $z[i]$: в первом случае оно полагается равным нулю, а во втором — определяется по предыдущим значениям по указанной формуле. После этого обе ветки алгоритма сводятся к выполнению тривиального алгоритма, стартующего сразу с указанного начального значения.

Алгоритм получился весьма простым. Несмотря на то, что при каждом $i$ в нём так или иначе выполняется тривиальный алгоритм — мы достигли существенного прогресса, получив алгоритм, работающий за линейное время. Почему это так, рассмотрим ниже, после того, как приведём реализацию алгоритма.  

In [None]:
def zf(s):
    n = len(s)
    z = [0] * n
    L, R = 0, 0
    for i in range(1, n):
        if R >= i:
            if z[i - L] < R - i + 1:
                z[i] = z[i - L]
            else:
                z[i] = R - i + 1
                while z[i] + i < n and s[z[i] + i] == s[z[i]]:
                    z[i] += 1
        else:
            while z[i] + i < n and s[z[i] + i] == s[z[i]]:
                z[i] += 1
        if i + z[i] - 1 > R:
            L = i
            R = i + z[i] - 1
    return z


In [None]:
def zf(s):
    n = len(s)
    z = [0] * n
    L, R = 0, 0
    for i in range(1, n):
        if R >= i:
            z[i] = min(z[i - L], R - i + 1)
        while z[i] + i < n and s[z[i] + i] == s[z[i]]:
            z[i] += 1
        if i + z[i] - 1 > R:
            L = i
            R = i + z[i] - 1
    return z


### Нахождение количества различных подстрок строки $s$

Будем решать задачу методом динамического программирования.  
  
0. ans = 0.  
1. Возьмем строку $t$, равную минимальному суффиксу, $t = s[-1]$. Этот суффикс является первой найденной подстрокой длины $1$.  
2. Добавим к строке $t$ один символ слева: $t = s[-2] + t$.  
3. Все новые подстроки - префиксы строки $t$.  
4. К ответу добавляем те префиксы, которые не встречались ранее, которые не имеют другиз вхождений в $t$ (иначе они были бы учтены ранее).  
5. Таким образом, все префиксы строки $t$ можно разделить на две группы:
   - те, которые встречалтсь ранее и уже учтены;
   - те, которые ранее не встречались и их нужно учесть;  
6. Когда мы идем по префиксам строки $t$ от более коротких к более длинным, нам сначала встречаются те, которые были ранее, потом    **начиная с какой-то длины**, нам встречаются префиксы, которых ранее не было, новые, не учтенные подстроки.  
7. Найдем для строки $t$ длину такого наидлинейшего префикса, который имеет более чем одно вхождение в строку $t$.
8. Пусть $x$ - длина найденного префикса.
9. Тогда количество префиксов, не учтенных ранее равно $|t| - x$.
10. $x$ - это максимальное значение $z-функции$ строки $t$.
11. Пересчет ans на каждой итерации:  
  
    $ans = ans + len(t) - max(z(t))$