# Лабораторная работа 2. Методы поиска

Вариант: 3

### Задание 2:
Алгоритм Кнута — Морриса — Пратта

## Алгоритм Кнута — Морриса — Пратта

Другие названия: 

- КМП-алгоритм

- Алгоритм наивного поиска

### Описание алгоритма:

Алгоритм Кнута — Морриса — Пратта (КМП-алгоритм) — эффективный алгоритм, осуществляющий поиск подстроки в строке. Время работы алгоритма линейно зависит от объёма входных данных, то есть разработать асимптотически более эффективный алгоритм невозможно.

Это алгоритм поиска подстроки в строке. Он основан на использовании префикс-функции строки.

Префикс-функция для строки S - это массив pi, где pi[i] - это длина максимального префикса строки S[0:i], который является также её суффиксом (т.е. начало строки S, совпадающее с её концом).

### Блок-схема алгоритма
```
+----------------------------------------------------+
|                       Начало                       |
+----------------------------------------------------+
                           |
                           v
+----------------------------------------------------+
|               Ввод строки и подстроки              |
+----------------------------------------------------+
                           |
                           v
+----------------------------------------------------+
|                Вычисление префикс-функции          |
+----------------------------------------------------+
                           |
                           v
+----------------------------------------------------+
|             Поиск подстроки в строке               |
+----------------------------------------------------+
                           |
                           v
+----------------------------------------------------+
|                   Вывод результата                 |
+----------------------------------------------------+
                           |
                           v
+----------------------------------------------------+
|                       Конец                        |
+----------------------------------------------------+
```

### Псевдокод алгоритма

```
function KMP(S, T) 
  k ← 0
  A ← ø   // A - пустое множество
  π ← Prefix_Function(S)    // считается префикс-функция от образца S
  for i = 1 to |T| do    // |T| - длина строки T
    while k > 0 and T[i] ≠ S[k + 1] do
      k ←  π[k]
    end while
    if T[i] = S[k + 1] then
      k ← k + 1
    end if
    if k = |S| then
      A ← A ⋃ {i - |S| + 1} // это если мы в начале считали префикс-функцию
      A ← A ⋃ {i}           // это если мы в начале считали z-функцию
      k ← π[k]
    end if
  end for
  return A  
end function
```


## Реализация алгоритма

### Достоинства алгоритма:
- Алгоритм наивного поиска довольно прост.
### Недостатки:
- Когда он обнаруживает несоответствие, он переходит к следующей позиции в тексте T и начинает сравнивать слово W с начала

In [9]:
def prefix_function(pattern):
    """Вычисляет префикс-функцию для заданной подстроки."""
    m = len(pattern)
    pi = [0] * m
    j = 0
    for i in range(1, m):
        while j > 0 and pattern[j] != pattern[i]:
            j = pi[j - 1]
        if pattern[j] == pattern[i]:
            j += 1
        pi[i] = j
    return pi


def kmp(text, pattern):
    """Находит все вхождения подстроки в строку с помощью алгоритма Кнута-Морриса-Пратта."""
    n, m = len(text), len(pattern)
    if m == 0:
        return list(range(n))

    # вычисляем префикс-функцию для искомой подстроки
    pi = prefix_function(pattern)

    # ищем подстроку в строке
    j = 0
    matches = []
    for i in range(n):
        while j > 0 and pattern[j] != text[i]:
            j = pi[j - 1]
        if pattern[j] == text[i]:
            j += 1
        if j == m:
            matches.append(i - m + 1)
            j = pi[j - 1]
    return matches

# Пример использования:
text = "abcabcabcab"
pattern = "abcab"
matches = kmp(text, pattern)
print(f"Вхождения подстроки '{pattern}' в строку '{text}': {matches}")

Вхождения подстроки 'abcab' в строку 'abcabcabcab': [0, 3, 6]


In [10]:
# Открываем файл с произведением и считываем его содержимое
with open("dead_souls.txt", encoding="utf-8") as f:
    text = f.read()

# Задаём имя главного героя и находим все его вхождения в произведении
pattern = "Чичиков"
matches = kmp(text, pattern)

# Выводим результат
print(f"Имя '{pattern}' встречается в тексте '{text[:100]}...' {len(matches)} раз(а) с позициями {matches}")

Имя 'Чичиков' встречается в тексте 'Николай Васильевич Гоголь
Мертвые души

ТОМ ПЕРВЫЙ
Глава первая
     
     В ворота гостиницы губерн...' 725 раз(а) с позициями [7977, 8088, 11724, 14780, 15890, 16853, 18553, 19118, 21615, 22056, 22602, 24746, 27796, 30400, 32284, 34317, 34661, 41970, 42159, 42610, 42962, 43423, 43826, 44082, 44488, 44837, 45331, 45587, 45808, 46404, 46742, 47397, 48044, 48434, 48702, 49378, 51059, 51131, 51713, 52621, 52713, 53296, 55000, 55090, 55279, 55410, 56042, 56270, 56492, 57783, 58191, 58617, 58686, 59744, 59995, 61578, 62972, 63529, 63832, 64832, 65185, 66020, 66296, 66557, 68728, 70449, 71227, 71536, 71667, 72053, 72495, 72844, 73596, 73966, 74595, 74913, 76727, 78088, 78789, 79174, 79516, 82531, 83063, 84295, 85078, 85527, 87585, 88408, 89570, 89937, 90952, 91790, 92780, 92978, 93286, 94318, 95631, 97611, 98215, 99587, 99789, 100217, 101138, 101433, 101700, 102044, 102264, 102482, 102854, 103397, 105012, 105698, 108352, 108503, 109987, 111153, 113295, 11