# Лабораторная работа 2. Методы поиска

Вариант: 10

## Алгоритм Кнута — Морриса — Пратта

### Классификация алгоритма:

- **Класс** - поиск по строке

- **Структура данных** - строки

- **Алгоритмическая сложность в худшем случае** - $O(m) - препроцессинг, O(n) - подбор$

- **Сложность по затратам памяти в худшем случае** - $O(m)$

### Описание алгоритма

Алгоритм Кнута-Морриса-Пратта (КМП) позволяет находить префикс-функцию от строки за линейное время, и имеет достаточно лаконичную реализацию, по длине не превышающую наивный алгоритм.

Дана цепочка T и образец P. Требуется найти все позиции, начиная с которых P входит в T. Построим строку S=P#T, где # — любой символ, не входящий в алфавит P и T. Посчитаем на ней значение префикс-функции p. Благодаря разделительному символу #, выполняется ∀i:p[i]⩽|P|. Заметим, что по определению префикс-функции при i>|P| и p[i]=|P| подстроки длины P, начинающиеся с позиций 0 и i−|P|+1, совпадают. Соберем все такие позиции i−|P|+1 строки S, вычтем из каждой позиции |P|+1, это и будет ответ. Другими словами, если в какой-то позиции i выполняется условие p[i]=|P|, то в этой позиции начинается очередное вхождение образца в цепочку.

![Визуализация алгоритма](src/decription.png)

### Блок-схема алгоритма

![Блок-схема](src/task1.jpg)

### Псевдокод алгоритма

```
algorithm kmp_table:
    input:
        an array of characters, W (the word to be analyzed)
    output:
        an array of integers, T (the table to be filled)

    define variables:
        an integer, pos ← 1 (the current position we are computing in T)
        an integer, cnd ← 0 (the zero-based index in W of the next character of the current candidate substring)

    let T[0] ← -1

    while pos < length(W) do
        if W[pos] = W[cnd] then
            let T[pos] ← T[cnd]
        else
            let T[pos] ← cnd
            while cnd ≥ 0 and W[pos] ≠ W[cnd] do
                let cnd ← T[cnd]
        let pos ← pos + 1, cnd ← cnd + 1

    let T[pos] ← cnd (only needed when all word occurrences are searched)
```


### Реализация алгоритма

In [1]:
def prefix(s):
    v = [0] * len(s)
    for i in range(1, len(s)):
        k = v[i - 1]
        while k > 0 and s[k] != s[i]:
            k = v[k - 1]
        if s[k] == s[i]:
            k = k + 1
        v[i] = k
    return v


def kmp(s, t, start_index):
    index = -1
    f = prefix(s)
    k = 0
    for i in range(start_index, len(t)):
        while k > 0 and s[k] != t[i]:
            k = f[k - 1]
        if s[k] == t[i]:
            k = k + 1
        if k == len(s):
            index = i - len(s) + 1
            break
    return index


def kmp_start(s, t):
    index = -len(s)
    found_indexes = []
    while True:
        index = kmp(s, t, index + 3)
        if index == -1:
            break
        else:
            found_indexes.append(index)
    return found_indexes


### Тестирование алгоритма


#### Обычные тесты

In [2]:
assert kmp_start('aba', 'abacaba') == [0, 4], 'Ошибка в тесте на несколько встреч'

assert kmp_start('aba', 'cabaca') == [1], 'Ошибка в тесте на среднее значение'

assert kmp_start('aba', 'acacaba') == [4], 'Ошибка в тесте последнее значение'

assert kmp_start('aba', 'aaaaaaaa') == [], 'Ошибка в тесте на отсутствие встреч'

#### Тест на Гарри Поттере

In [3]:
file = open('src/harry.txt', 'r')
text = file.read()

assert len(kmp_start('harry', text.lower())) == 1327, 'Ошибка в подсчетах количества встреченных случаев'
print(len(kmp_start('harry', text.lower())), '- количество встреченных \"Harry\"')

1327 - количество встреченных "Harry"
