### Сортировки в Python

`Списки (List):`


    Списки — наиболее распространенная структура данных для сортировки.
    Python предоставляет методы list.sort() и функцию sorted(), которые можно использовать для сортировки списков.

Давайте рассмотрим оба метода с примерами.

Метод sort() сортирует список на месте (в оригинальном списке) и не создает новый объект. Он поддерживает два полезных параметра:

    reverse: сортировка в обратном порядке (по умолчанию False).
    key: функция для определения правила сортировки (например, сортировка по длине строк).


In [5]:
arr = [3, 1, 4, 1, 5, 9, 2]
arr.sort(reverse=True)
print(arr)
arr.sort(reverse=False)
print(arr)

[9, 5, 4, 3, 2, 1, 1]
[1, 1, 2, 3, 4, 5, 9]


In [7]:
arr_2 = [3, 1, 4, 1, 5, 9, 2]
# возвращает новый список
print(sorted(arr_2))

[1, 1, 2, 3, 4, 5, 9]


`Кортежи (Tuple):`

    Кортежи неизменяемы, поэтому их нельзя сортировать "на месте".
    Функция sorted() может использоваться для создания отсортированного списка на основе кортежа.

In [8]:
# Сортировка по ключам
my_dict = {'b': 3, 'a': 5, 'c': 1}
sorted_keys = sorted(my_dict)  # Получаем отсортированный список ключей
print("Отсортированные ключи:", sorted_keys)

Отсортированные ключи: ['a', 'b', 'c']


In [9]:
# Сортировка по значениям
sorted_by_values = sorted(my_dict.items(), key=lambda item: item[1])
print("Словарь, отсортированный по значениям:", sorted_by_values)

Словарь, отсортированный по значениям: [('c', 1), ('b', 3), ('a', 5)]


`Множества (Set):`

    Множества неупорядочены, но их можно преобразовать в список, а затем отсортировать с помощью sorted().


In [14]:
my_set = {5, 3, 1, 2, 4}
new_list = list(my_set)
print(sorted(new_list))

[1, 2, 3, 4, 5]


Теперь, когда мы знаем, что есть уже встроенные в Python методы сортировок - давайте ответим на последний в этой теме вопрос - А зачем нам тогда писать какие-то сортировки, если они уже есть в Python? Причин несколько, разберем основные.

1. Изучение сортировок помогает лучше понять алгоритмы и основы работы с данными. Ведь, зная, как работает та или иная сортировка - всегда проще понять почему что-то работает не так.

2. Встроенные методы Python используют Timsort, оптимизированный для реальных данных, но не всегда подходящий для всех ситуаций. Пользовательские алгоритмы могут быть полезны:

    Для маленьких массивов: Простейшие алгоритмы, такие как сортировка вставками или пузырьковая сортировка, могут быть быстрее для небольших массивов, так как имеют меньшие накладные расходы.
    Для частично отсортированных данных: Например, алгоритмы вроде сортировки вставками могут работать быстрее, если массив почти отсортирован.
    Для специализированных случаев, например, если известно, что данные ограничены определенным диапазоном значений (например, для поразрядной сортировки).

3. Не всегда алгоритмы сортировки, которые уже были преднаписанны подойдут с точки зрения использования памяти. Мы же не знаем на чем они тестировались и для чего подходят.

`Timsort`

Timsort — это комбинация сортировки вставками и сортировки слиянием. Он эффективно работает на небольших данных, особенно если они частично отсортированы.

    Худший и средний случай: O(n log n)
    Лучший случай: O(n)
    Пространственная сложность: O(n)

In [15]:
arr = [3, 1, 4, 1, 5, 9, 2]
arr.sort()  # Сортирует на месте
print("Timsort:", arr)

# Либо
arr = [3, 1, 4, 1, 5, 9, 2]
sorted_arr = sorted(arr)  # Создает новый отсортированный список
print("Timsort с sorted():", sorted_arr)

Timsort: [1, 1, 2, 3, 4, 5, 9]
Timsort с sorted(): [1, 1, 2, 3, 4, 5, 9]


<font color=yellow> <b> Cортировка слиянием. </b> </font>

Идея: Делим массив на две половины, рекурсивно сортируем каждую часть и объединяем.

Временная сложность: O(n log n) в худшем, среднем и лучшем случаях.

Пространственная сложность: O(n) из-за дополнительной памяти для объединения

По схеме выглядит следующим образом.

![](https://ucarecdn.com/f7298cba-1f61-457c-9b95-95c061ed1883/)

In [8]:
def merge_sort(arr):
    if len(arr) <= 1:
        return arr
    mid = len(arr) // 2
    print("mid", mid)
    print(arr[:mid], arr[mid:])
    left = merge_sort(arr[:mid])
    print("left", left)
    right = merge_sort(arr[mid:])
    print("right", right, "end")
    return merge(left, right)

def merge(left, right):
    result = []
    i = j = 0
    while i < len(left) and j < len(right):
        if left[i] < right[j]:
            result.append(left[i])
            i += 1
        else:
            result.append(right[j])
            j += 1
    result.extend(left[i:])
    result.extend(right[j:])
    return result

arr = [8, 3, 5, 1, 4, 2, 7, 6]
print("Merge Sort:", merge_sort(arr))

mid 4
[8, 3, 5, 1] [4, 2, 7, 6]
mid 2
[8, 3] [5, 1]
mid 1
[8] [3]
left [8]
right [3] end
left [3, 8]
mid 1
[5] [1]
left [5]
right [1] end
right [1, 5] end
left [1, 3, 5, 8]
mid 2
[4, 2] [7, 6]
mid 1
[4] [2]
left [4]
right [2] end
left [2, 4]
mid 1
[7] [6]
left [7]
right [6] end
right [6, 7] end
right [2, 4, 6, 7] end
Merge Sort: [1, 2, 3, 4, 5, 6, 7, 8]


<font color=yellow> <b> Быстрая сортировка </b> </font>

быстрая сортировка 
(медленных не существует, но они все равно есть)). Выбираем опорный элемент (pivot) и разделяем массив на две части: меньшие и большие элементы. Затем рекурсивно сортируем каждую часть.

Временная сложность:

    Средний случай: O(n log n)
    Худший случай: O(n²) (если опорный элемент выбран неудачно, например, для уже отсортированного массива)

Пространственная сложность: O(log n) из-за рекурсии.

Теперь схема.

![](https://ucarecdn.com/0700da75-4e96-4ad0-9087-8014f8af65d1/)

В примере опорным элементом (pivot) выбран 78 (первый элемент массива). Массив разбивается на две части относительно опорного элемента: элементы меньше pivot и элементы больше pivot. На каждом шаге элементы переставляются так, чтобы слева от pivot находились элементы меньше него, а справа — больше. Этот процесс продолжается, пока указатели L и R не пересекутся. На последнем шаге L > R, что означает завершение разделения. Когда L и R пересекаются, это значит, что массив был разделен на две части, и сортировка завершена для текущего pivot. Теперь для каждой части (слева и справа от pivot) рекурсивно применяется тот же процесс быстрой сортировки, пока весь массив не будет отсортирован.

In [19]:
def quick_sort(arr):
    print("arr", arr)
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    print("pivot", pivot)
    left = [x for x in arr if x < pivot]
    print("left", left)
    middle = [x for x in arr if x == pivot]
    print("middle", middle)
    right = [x for x in arr if x > pivot]
    print("right", right)
    return quick_sort(left) + middle + quick_sort(right)

arr = [3, 6, 8, 10, 1, 2, 1]
print("Quick Sort:", quick_sort(arr))

arr [3, 6, 8, 10, 1, 2, 1]
pivot 10
left [3, 6, 8, 1, 2, 1]
middle [10]
right []
arr [3, 6, 8, 1, 2, 1]
pivot 1
left []
middle [1, 1]
right [3, 6, 8, 2]
arr []
arr [3, 6, 8, 2]
pivot 8
left [3, 6, 2]
middle [8]
right []
arr [3, 6, 2]
pivot 6
left [3, 2]
middle [6]
right []
arr [3, 2]
pivot 2
left []
middle [2]
right [3]
arr []
arr [3]
arr []
arr []
arr []
Quick Sort: [1, 1, 2, 3, 6, 8, 10]


In [16]:
arr[len(arr) // 2]

10

<font color=yellow> <b> Cортировка кучей (пирамидальная сортировка) </b> </font>

![](https://ucarecdn.com/a8ec4d8d-6b83-499b-a829-845c7edc4d93/)

Идея: Преобразуем массив в двоичную кучу и извлекаем наибольший элемент (корень) на каждом шаге, уменьшая размер кучи.

Временная сложность: O(n log n) для всех случаев.

Пространственная сложность: O(1), так как сортировка выполняется на месте.

К сожалению (или к счастью) встроенной функции для сортировки кучей нет, но Python имеет модуль heapq для работы с кучами. 

In [21]:
def heapify(arr, n, i):
    largest = i
    left = 2 * i + 1
    right = 2 * i + 2
    if left < n and arr[i] < arr[left]:
        largest = left
    if right < n and arr[largest] < arr[right]:
        largest = right
    if largest != i:
        arr[i], arr[largest] = arr[largest], arr[i]
        heapify(arr, n, largest)

def heap_sort(arr):
    n = len(arr)
    for i in range(n // 2 - 1, -1, -1):
        heapify(arr, n, i)
    for i in range(n-1, 0, -1):
        arr[i], arr[0] = arr[0], arr[i]
        heapify(arr, i, 0)

arr = [12, 11, 13, 5, 6, 7]
heap_sort(arr)
print("Heap Sort:", arr)

Heap Sort: [5, 6, 7, 11, 12, 13]


<font color=yellow> <b> Cортировки вставками </b> </font>

Ну, и куда же мы без сортировки вставками.

Берем каждый элемент и вставляем его в нужное место в отсортированной части массива.

Временная сложность:

    Средний и худший случай: O(n²)
    Лучший случай (почти отсортированный массив): O(n)

Пространственная сложность: O(1)

![](https://ucarecdn.com/bd4d6309-0ad1-4f54-b0a5-2b4e1c428824/)

In [6]:
def insertion_sort(arr):
    for i in range(1, len(arr)):
        key = arr[i]
        j = i - 1
        print(key, j, arr[j])
        while j >= 0 and arr[j] > key:
            arr[j + 1] = arr[j]
            j -= 1
        arr[j + 1] = key
        print(arr, key)

arr = [12, 11, 13, 5, 6]
insertion_sort(arr)
print("Insertion Sort:", arr)

11 0 12
[11, 12, 13, 5, 6] 11
13 1 12
[11, 12, 13, 5, 6] 13
5 2 13
[5, 11, 12, 13, 6] 5
6 3 13
[5, 6, 11, 12, 13] 6
Insertion Sort: [5, 6, 11, 12, 13]


<font color=yellow> <b> Сортировка пузырьком </b> </font>

это простой алгоритм, который сравнивает каждую пару соседних элементов в списке и меняет их местами, если они расположены в неправильном порядке.

In [9]:
def bubble_sort(arr):
    n = len(arr)
    for i in range(n):
        for j in range(0, n-i-1):
            print(i, j)
            if arr[j] > arr[j+1]:
                arr[j], arr[j+1] = arr[j+1], arr[j]
        print(arr)
    return arr
    
arr_2 = [12, 11, 13, 5, 6, 7, 28, 18]

bubble_sort(arr_2)

0 0
0 1
0 2
0 3
0 4
0 5
0 6
[11, 12, 5, 6, 7, 13, 18, 28]
1 0
1 1
1 2
1 3
1 4
1 5
[11, 5, 6, 7, 12, 13, 18, 28]
2 0
2 1
2 2
2 3
2 4
[5, 6, 7, 11, 12, 13, 18, 28]
3 0
3 1
3 2
3 3
[5, 6, 7, 11, 12, 13, 18, 28]
4 0
4 1
4 2
[5, 6, 7, 11, 12, 13, 18, 28]
5 0
5 1
[5, 6, 7, 11, 12, 13, 18, 28]
6 0
[5, 6, 7, 11, 12, 13, 18, 28]
[5, 6, 7, 11, 12, 13, 18, 28]


[5, 6, 7, 11, 12, 13, 18, 28]

<font color=yellow> <b>  Реализация популярных алгоритмов на Python</b> </font>

In [12]:
# стандартная функция поиска
arr = [10, 20, 30, 40, 50, 9, 11, 60, 70]
arr.index(11)

6

`Жадные алгоритмы (Greedy algorithms)`<br> — это класс алгоритмов, которые принимают локально оптимальные решения на каждом шаге,
с надеждой, что эти решения приведут к глобально оптимальному решению всей задачи.

Основной принцип: "Берем то, что сейчас кажется наилучшим". 

Рассмотрим сразу же одну из популярных задач - задачу о размене монет.

Задача: У вас есть монеты разных номиналов. Нужно разменять определённую сумму минимальным количеством монет.
Номиналы монет — 1, 5, 10, 25. Разменять сумму 63.

```python
def coin_change(coins, amount):
    coins.sort(reverse=True)  # Сортируем монеты от большего к меньшему
    count = 0  # Количество монет
    for coin in coins:
        while amount >= coin:
            amount -= coin
            count += 1
    return count if amount == 0 else -1

coins = [1, 5, 10, 25]
amount = 63
print(coin_change(coins, amount))  # Output: 6 (25 + 25 + 10 + 1 + 1 + 1)
```
    Берём монеты самого крупного номинала, пока можем.
    Затем берем монеты меньшего номинала для остатка.

Внимание! Жадный алгоритм работает корректно только с определёнными наборами монет. 
Если набор монет другой (например, 1, 3, 4), жадный алгоритм может дать неверный ответ. В этом его большой недостаток.

`Поиск: Линейный и бинарный.`

> Графы: BFS и DFS.

> Динамическое программирование: Рюкзак и Фибоначчи.

> Строки: KMP для поиска подстроки.

Это, пожалуй, самые популярные и основные алгоритмические задачи.

Линейный поиск (Linear Search)

Сложность: O(n)

А также реализация.

In [11]:
def linear_search(arr, target):
    for index, element in enumerate(arr):
        print(index, element)
        if element == target:
            return index
    return -1

arr = [10, 20, 30, 40, 50]
print(linear_search(arr, 40))

0 10
1 20
2 30
3 40
3


`Бинарный поиск (Binary Search)`

Работает только на отсортированных массивах. Делит массив пополам и ищет элемент рекурсивно.

Сложность: O(log n)

In [8]:
def binary_search(arr, target):
    left, right = 0, len(arr) - 1
    while left <= right:
        mid = (left + right) // 2
        if arr[mid] == target:
            return mid
        elif arr[mid] < target:
            left = mid + 1
        else:
            right = mid - 1
    return -1

arr = [10, 20, 30, 40, 50]
print(binary_search(arr, 30))  # Output: 2

2


`графы`


<img src="https://ucarecdn.com/2d06e45e-cd31-4b64-9715-222300bd5da2/" alt="drawing" width="400"/>



Это граф, у которого 5 вершин и у каждого ребра есть свое расстояние. Стрелочек, они же связи, между ребрами неориентированны. Итак, обход в ширину, он же Breadth-First Search.


`Обход в ширину, BFS`

Рассмотрим граф, заданный в виде словаря, где ключ — это вершина, а значение — множество соседей этой вершины. Как это работает?

    Алгоритм начинается с указанной стартовой вершины и добавляет её в очередь.
    Затем он:
        Удаляет вершину из очереди.
        Посещает всех её соседей (вершины, связанные с текущей), добавляя их в очередь.
        Повторяет процесс, пока очередь не станет пустой.
    Алгоритм гарантирует, что каждая вершина будет обработана один раз, и обработка происходит по уровням (или расстоянию) от стартовой вершины.


<img src="https://ucarecdn.com/d4fc1470-7457-4f25-955f-92265c39cc1f/" alt="drawing" width="40%"/>


In [13]:
from collections import deque

def bfs(graph, start):
    visited = set()  # Множество для отслеживания посещённых вершин
    queue = deque([start])  # Создаём очередь и добавляем стартовую вершину

    while queue:
        vertex = queue.popleft()  # Извлекаем элемент из начала очереди
        if vertex not in visited:
            print(vertex, end=" ")  # Обрабатываем (например, выводим вершину)
            visited.add(vertex)  # Помечаем вершину как посещённую
            queue.extend(graph[vertex] - visited)  # Добавляем непосещённых соседей

# Граф, представленный в виде смежных вершин
graph = {
    'A': {'B', 'C'},
    'B': {'D', 'E'},
    'C': {'F'},
    'D': set(),
    'E': {'F'},
    'F': set()
}

# Запуск BFS с вершины 'A'
bfs(graph, 'A')  # Output: A B C D E F

A C B F E D 

`Обход в глубину, DFS`

Обход в глубину (DFS) — это алгоритм для обхода или поиска в графах и деревьях. В отличие от BFS, DFS погружается в глубину, переходя по каждому пути до конца, прежде чем вернуться и начать исследовать другие пути.

<img src="https://ucarecdn.com/4959af97-d1ee-4ba7-9948-fdffa68795d7/" width="60%">

Как работает думаю понятно, но все же поясню.

Алгоритм начинает с указанной стартовой вершины и посещает её. Затем он:

    Переходит к первому соседу (если такой есть).
    Погружается глубже по каждому пути до тех пор, пока не достигнет вершины без непосещённых соседей.
    После этого возвращается назад и начинает исследовать следующего непосещённого соседа.

Процесс повторяется, пока не будут посещены все вершины.

Давайте рассмотрим код.


In [15]:
def dfs(graph, start, visited=None):
    if visited is None:
        visited = set()  # Инициализируем множество для отслеживания посещённых вершин
    visited.add(start)  # Помечаем текущую вершину как посещённую
    print(start, end=" ")  # Обрабатываем вершину (например, выводим её)

    for neighbor in graph[start]:
        if neighbor not in visited:
            dfs(graph, neighbor, visited)  # Рекурсивно посещаем соседей

# Пример графа
graph = {
    'A': {'B', 'C'},
    'B': {'D', 'E'},
    'C': {'F'},
    'D': set(),
    'E': {'F'},
    'F': set()
}

# Запуск DFS
dfs(graph, 'A')  # Output: A B D E F C

A C F B E D 

Мы начинаем с вершины 'A'. Алгоритм рекурсивно проходит все вершины, следуя по каждому пути до конца:

    Из 'A' переходим в 'B', затем в 'D'. Так как у 'D' нет соседей, возвращаемся к 'B'.
    Из 'B' переходим в 'E', затем в 'F'. 'F' тоже не имеет соседей, поэтому возвращаемся к 'A'.
    Наконец, из 'A' переходим в 'C'.

Понимаю, что выглядит сложно. Но также давайте отрисуем этот граф, чтобы было понятнее сопоставить алгоритм с ним.

<img src="https://ucarecdn.com/970b1d60-071d-4d9e-90b5-b0062e3e0ff2/" width="40%">

`Динамическое программирование` 

— это метод решения задач, которые можно разбить на подзадачи, решения которых можно переиспользовать для решения более крупных задач. 

Вместо того, чтобы решать одну и ту же подзадачу несколько раз, как в простых рекурсивных алгоритмах, динамическое программирование сохраняет результаты уже вычисленных подзадач и использует их при необходимости.

И алгоритмов решения задач на динамическое программирование достаточно много, но мы рассмотрим самые популярные. Но предварительно рассмотрим и основные идеи динамического программирования.

1. `Разбиение задачи на подзадачи`: Каждая большая задача может быть решена с помощью результатов более мелких подзадач.

2. `Мемоизация или табулирование`: Хранение решений подзадач, чтобы избежать повторных вычислений.

    Мемоизация: Сохранение результатов подзадач в момент их вычисления (сверху вниз — Top-Down).
    Табулирование: Заполнение таблицы снизу вверх (Bottom-Up).

3. `Оптимальная подструктура`: Решение задачи можно составить из решений её подзадач.


    При каждом вызове функции fibonacci мы сначала проверяем, есть ли уже результат в memo (словарь с кэшем).
    Если число уже вычислено, мы его просто возвращаем, избегая повторных вызовов.


In [17]:
def fibonacci(n, memo={}):
    if n in memo:
        return memo[n]  # Если уже вычислено, берём из кэша
    if n <= 2:
        return 1  # Первые два числа Фибоначчи равны 1
    memo[n] = fibonacci(n - 1, memo) + fibonacci(n - 2, memo)
    return memo[n]

print(fibonacci(10))  # Output: 55

55


In [16]:
import time

# Реализация чисел Фибоначчи с мемоизацией (оптимизированная версия)
def fibonacci_memo(n, memo={}):
    if n in memo:
        return memo[n]  # Если уже вычислено, берём из кэша
    if n <= 2:
        return 1  # Первые два числа Фибоначчи равны 1
    memo[n] = fibonacci_memo(n - 1, memo) + fibonacci_memo(n - 2, memo)
    return memo[n]

# Простая рекурсивная реализация чисел Фибоначчи (без мемоизации)
def fibonacci_recursive(n):
    if n <= 2:
        return 1
    return fibonacci_recursive(n - 1) + fibonacci_recursive(n - 2)

# Сравнение времени выполнения
n = 35  # Значение n для тестирования

# Время для рекурсивной версии
start_recursive = time.time()
result_recursive = fibonacci_recursive(n)
end_recursive = time.time()
time_recursive = end_recursive - start_recursive

# Время для мемоизированной версии
start_memo = time.time()
result_memo = fibonacci_memo(n)
end_memo = time.time()
time_memo = end_memo - start_memo

# Вывод результатов
print(f"Рекурсивный результат: {result_recursive}, Время: {time_recursive:.6f} секунд")
print(f"Мемоизированный результат: {result_memo}, Время: {time_memo:.6f} секунд")

Рекурсивный результат: 9227465, Время: 1.125730 секунд
Мемоизированный результат: 9227465, Время: 0.000041 секунд


А также рассмотрим и вторую популярную в алгоритмах задачу. На самом деле их там две, поэтому решим их две. Итак, условие - 

У Вас есть рюкзак ограниченной вместимости и набор предметов, каждый из которых имеет вес и ценность. Ваша цель — выбрать предметы таким образом, чтобы максимизировать общую ценность, не превышая вместимость рюкзака.

In [18]:
def knapsack(weights, values, W):
    n = len(weights)
    # Создаём таблицу DP для хранения максимальной ценности для каждой комбинации
    dp = [[0] * (W + 1) for _ in range(n + 1)]

    # Заполняем таблицу снизу вверх
    for i in range(1, n + 1):
        for w in range(W + 1):
            if weights[i - 1] <= w:
                # Выбираем максимум между: взять или не брать предмет
                dp[i][w] = max(dp[i - 1][w], dp[i - 1][w - weights[i - 1]] + values[i - 1])
            else:
                dp[i][w] = dp[i - 1][w]

    # Возвращаем максимальную ценность, которую можно получить для данного W
    return dp[n][W]

# Пример использования
weights = [1, 2, 3]
values = [10, 15, 40]
W = 5  # Вместимость рюкзака

result = knapsack(weights, values, W)
print(f"Максимальная ценность: {result}")

Максимальная ценность: 55


```dp = [[0] * (W + 1) for _ in range(n + 1)]```

Создаем двумерную таблицу dp размером (n+1)×(W+1), где:

    n — количество предметов.
    W — вместимость рюкзака.
    dp[i][w] будет содержать максимальную ценность, которую можно получить, используя первые i предметов и рюкзак вместимости w.

```python
for i in range(1, n + 1):
    for w in range(W + 1):
        if weights[i - 1] <= w:
            dp[i][w] = max(dp[i - 1][w], dp[i - 1][w - weights[i - 1]] + values[i - 1])
        else:
            dp[i][w] = dp[i - 1][w]
```
Мы проходим через каждый предмет и проверяем, сможем ли мы взять его с текущей вместимостью w.

Если вес текущего предмета меньше или равен оставшейся вместимости w:

```dp[i][w] = max(dp[i - 1][w], dp[i - 1][w - weights[i - 1]] + values[i - 1])```

Мы выбираем максимум между двумя вариантами:

    Не брать предмет: Оставить ценность такой же, как для предыдущих предметов: dp[i - 1][w].
    Взять предмет: Добавить ценность текущего предмета к оптимальной ценности для оставшегося места в рюкзаке:
    
```dp[i - 1][w - weights[i - 1]] + values[i - 1].```

Если вес предмета больше оставшейся вместимости w:

```dp[i][w] = dp[i - 1][w]```

В этом случае мы не можем взять предмет, поэтому оставляем ценность такой же, как для предыдущих предметов. 

Следующим популярным алгоритмом является алгоритм Кнута-Морриса-Пратта для поиска подстроки. Алгоритм Кнута-Морриса-Пратта (KMP) предназначен для эффективного поиска подстроки (шаблона) в строке. Основная идея состоит в том, что при обнаружении несовпадения он не пересматривает символы, которые уже были проверены, а использует информацию о префиксах и суффиксах для правильного смещения шаблона. Эта информация хранится в массиве LPS (Longest Prefix Suffix).

Теперь давайте углубляться. Представьте, что у вас есть длинный текст, например, "ABABDABACDABABCABAB", и вам нужно найти в этом тексте короткую строку (подстроку) — например, "ABABCABAB". Вам нужно узнать, с какого места в тексте эта подстрока впервые появляется.

Обычно мы проверяем текст символ за символом. Если находим совпадение с началом подстроки, то продолжаем проверять символы дальше. Но если где-то в середине обнаруживается несовпадение, приходится возвращаться и начинать проверку с нуля. Этот подход работает, но он медленный, потому что мы постоянно возвращаемся назад и снова проверяем те же символы.

Алгоритм Кнута-Морриса-Пратта (KMP) делает так, чтобы при обнаружении несовпадения не начинать проверку с самого начала, а использовать информацию о совпавших символах.

Допустим, мы начали проверку и нашли, что часть символов уже совпадает:

    Текст: "ABABDABACDABABCABAB"
    Шаблон: "ABABCABAB"

Начинаем проверку и находим, что первые 4 символа совпадают (ABAB). На пятом символе мы встречаем несовпадение. Вместо того чтобы начинать проверку с самого начала, мы пытаемся понять, нет ли у нас среди первых четырех совпавших символов какой-то части, которая также встречается в начале шаблона.

Для этого KMP использует вспомогательный массив LPS (Longest Prefix Suffix): Этот массив показывает, сколько символов мы можем "пропустить" при несовпадении, чтобы начать проверку с нужного места.

Например, для шаблона "ABABCABAB":

    LPS[4] = 2 говорит нам, что если до четвертого символа у нас было совпадение, то при несовпадении можно сразу перейти к позиции 2 в шаблоне, так как первые два символа (AB) совпадают с началом подстроки.

А теперь реализация.

In [19]:
def compute_lps(pattern):
    """
    Вычисляет массив LPS для шаблона.
    LPS[i] показывает, сколько символов можно пропустить при несовпадении, 
    чтобы начать проверку с нужного места в шаблоне.
    """
    m = len(pattern)
    lps = [0] * m  # Инициализация массива LPS
    length = 0  # Длина предыдущего префикса, совпадающего с суффиксом
    i = 1

    # Заполнение массива LPS
    while i < m:
        if pattern[i] == pattern[length]:
            length += 1
            lps[i] = length
            i += 1
        else:
            if length != 0:
                length = lps[length - 1]  # Переход на предыдущий префикс
            else:
                lps[i] = 0
                i += 1
    return lps

def kmp_search(text, pattern):
    """
    Ищет шаблон в тексте с помощью алгоритма KMP.
    При нахождении полного совпадения возвращает индекс начала совпадения.
    """
    n = len(text)
    m = len(pattern)
    lps = compute_lps(pattern)  # Вычисляем LPS для шаблона

    i = j = 0  # Индексы для текста и шаблона

    while i < n:
        if pattern[j] == text[i]:
            i += 1
            j += 1

        if j == m:
            print(f"Найдено совпадение на индексе {i - j}")
            j = lps[j - 1]  # Продолжаем поиск для следующих совпадений

        elif i < n and pattern[j] != text[i]:
            if j != 0:
                j = lps[j - 1]  # Смещаем шаблон согласно LPS
            else:
                i += 1

# Пример использования
text = "ABABDABACDABABCABAB"
pattern = "ABABCABAB"
kmp_search(text, pattern)  # Output: Найдено совпадение на индексе 10

Найдено совпадение на индексе 10
