<a href="https://colab.research.google.com/github/SofronovaKA/programming/blob/main/s1_lab09_student.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
- title: Занятие 9


# Практическое занятие 9: динамическое программирование (продолжение)
## Цель: Получить практический навык реализации популярных алгоритмов динамического программирования на языке **Python**
## Задачи:
1. Алгоритм поиска расстояния Левенштейна
2. Z-функция строки. Z-алгоритм.
3. Пи-функция строки. Алгоритм Кнута-Морриса-Пратта

# 1. Алгоритм поиска расстояния Левенштейна
Для вычисления расстояния Левенштейна (или расстояния редактирования) между двумя строками можно использовать динамическое программирование. Алгоритм работает с таблицей, в которой вычисляются значения, представляющие минимальное количество операций для преобразования одного префикса строки в другой.

шаги алгоритма на примере строк "КАТОК" и "КАРТОН":

1. **Инициализация**:
   Мы создаём таблицу `F`, где `F(i, j)` будет хранить минимальное количество операций для преобразования первых `i` символов строки A в первые `j` символов строки B.

   Начальные условия:
   - `F(i, 0) = i` — для преобразования первых `i` символов строки A в пустую строку потребуется `i` удалений.
   - `F(0, j) = j` — для преобразования пустой строки в первые `j` символов строки B потребуется `j` вставок.

2. **Заполнение таблицы**:
   Для каждой пары индексов `i` и `j`, где `i` — индекс в строке A, а `j` — индекс в строке B, мы вычисляем значение `F(i, j)` в зависимости от следующих случаев:
   - Если символы на текущих позициях равны (`A[i-1] == B[j-1]`), то минимальные операции не требуются, и мы просто копируем значение `F(i-1, j-1)`.
   - Если символы не равны (`A[i-1] != B[j-1]`), то мы вычисляем:
     - Стоимость замены: `F(i-1, j-1) + 1` — заменить символ.
     - Стоимость удаления: `F(i-1, j) + 1` — удалить символ из A.
     - Стоимость вставки: `F(i, j-1) + 1` — вставить символ в B.

   В каждом шаге выбирается минимум из этих трёх значений.

3. **Пример**:
   Строки:
   - A = "КАТОК"
   - B = "КАРТОН"

   Шаги вычисления:
   ```
   0 1 2 3 4 5 6
   --------------
   1 | 1 1 2 3 4 5
   2 | 2 2 2 2 3 4
   3 | 3 3 3 3 2 3
   4 | 4 3 3 3 3 3
   5 | 5 4 4 4 4 3
   6 | 6 5 5 5 5 4
   ```

   В итоге, минимальное расстояние Левенштейна между строками "КАТОК" и "КАРТОН" равно 2 (замена "Т" на "Р" и добавление "Н" в конец).

Этот алгоритм работает за время O(m * n), где `m` — длина строки A, а `n` — длина строки B.


Рисунок ниже иллюстрирует применение рассмотренного алгоритма для расчета расстояния редактирования при преобразовании строки A = "КАТОК" в строку B = "КАРТОН". Стрелочки показывают какая из возможностей была выбрана на каждом шаге алгоритма при вычислении минимального расстояния редактирования. В итоге, строка A  преобразовывается в строку B за два шага:

<img src="https://drive.google.com/uc?id=1J7rr01Cu0Iqmq4gPOQfZ3wSEhG5FQw0o" width="600"/>


## **Задача 1** — напишите функцию, возвращающую расстояние Левенштейна для строк A и B:

In [3]:
def levenshtein_distance(A, B):
    # Создание таблицы для хранения результатов подзадач
    m, n = len(A), len(B)
    dp = [[0] * (n + 1) for _ in range(m + 1)]

    # Заполнение первой строки и первого столбца
    for i in range(m + 1):
        dp[i][0] = i
    for j in range(n + 1):
        dp[0][j] = j

    # Заполнение таблицы динамическим программированием
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if A[i - 1] == B[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]  # символы одинаковые, нет необходимости менять
            else:
                dp[i][j] = min(dp[i - 1][j] + 1,      # удаление
                               dp[i][j - 1] + 1,      # вставка
                               dp[i - 1][j - 1] + 1)  # замена

    return dp[m][n]

# Пример использования:
A = "kitten"
B = "sitting"
print(levenshtein_distance(A, B))

3


### Объяснение работы функции:
1. Мы создаем двумерную таблицу `dp`, где `dp[i][j]` — это минимальное количество операций для преобразования первых `i` символов строки A в первые `j` символов строки B.
2. Мы заполняем первый столбец и первую строку, поскольку для преобразования пустой строки в другую строку требуется количество операций, равное длине другой строки.
3. Для каждого символа строки A и B мы выбираем минимальную операцию: удаление, вставка или замена.
4. В конце значение в правом нижнем углу таблицы (`dp[m][n]`) дает расстояние Левенштейна между строками A и B.

Этот алгоритм работает за время O(m * n), где m и n — длины строк A и B соответственно.


### **Индивидуальные задания 1** на основе расстояния Левенштейна.


Для усложнения задачи можно превратить строки в более сложные предложения, которые часто встречаются в бизнес-информатике. Такие задания помогут студентам работать с реальными сценариями, где требуются сложные преобразования текста, например, в документации, отчетах и других формах коммуникации.

### **Индивидуальные задания 1 на основе расстояния Левенштейна.**

| №  | Строка A                                                                 | Строка B                                                                 | Описание задания                                                                 |
|----|--------------------------------------------------------------------------|--------------------------------------------------------------------------|-----------------------------------------------------------------------------------|
| 1  | "The company reported a profit increase this quarter."                   | "The company reported a proffit increase this quarter."                   | Рассчитать минимальное количество операций для исправления ошибки в предложении.|
| 2  | "The business strategy needs to be updated regularly."                   | "The bussiness strategy needs to be updated regularly."                   | Найти расстояние Левенштейна между словами "business" и "bussiness" в контексте.  |
| 3  | "The company has increased its market share over the years."             | "The comany has increased its market share over the years."               | Посчитать минимальное количество изменений для исправления опечатки в предложении.|
| 4  | "Our client has expressed interest in the new product."                 | "Our clint has expressed interest in the new product."                   | Рассчитать расстояние Левенштейна между "client" и "clint" в предложении.         |
| 5  | "The manager should review the report before the meeting."              | "The maneger should review the report before the meeting."               | Определить количество изменений для исправления ошибки в предложении.            |
| 6  | "The product is expected to launch next month."                          | "The prduct is expected to launch next month."                           | Рассчитать минимальное количество операций для исправления ошибки в предложении. |
| 7  | "The market trends show an upward trajectory for the next quarter."      | "The market trends show an markert trajectory for the next quarter."     | Посчитать, сколько изменений нужно для исправления орфографической ошибки.      |
| 8  | "Sales of the new product exceeded expectations."                       | "Sale of the new product exceeded expectations."                         | Найти минимальное количество операций для преобразования "sales" в "sale".       |
| 9  | "Revenue for the quarter has increased by 5%."                           | "Revenue for the quater has increased by 5%."                            | Определить минимальное количество операций для добавления одной буквы.          |
| 10 | "The analysis of the data was completed last week."                      | "The analysys of the data was completed last week."                      | Рассчитать, сколько операций нужно для исправления ошибки в слове "analysis".    |
| 11 | "The software update will improve system performance."                  | "The sofware update will improve system performance."                    | Рассчитать минимальное количество шагов для исправления опечатки в "software".   |
| 12 | "The strategy must align with the company's long-term goals."           | "The stragy must align with the company's long-term goals."              | Посчитать, сколько операций нужно для исправления орфографической ошибки.       |
| 13 | "The startup raised significant capital to expand."                      | "The startp raised significant capital to expand."                       | Найти минимальные изменения для исправления опечатки в "startup".               |
| 14 | "The innovation team presented their findings at the conference."        | "The innvation team presented their findings at the conference."         | Рассчитать минимальное количество операций для исправления ошибки в "innovation".|
| 15 | "The data analysis is crucial for making informed decisions."           | "The dtaa analysis is crucial for making informed decisions."            | Определить, сколько операций нужно для исправления ошибки в "data".              |
| 16 | "Consulting firms are advised to stay updated on industry trends."      | "Consultin firms are advised to stay updated on industry trends."        | Посчитать минимальное расстояние Левенштейна между "consulting" и "consultin".   |
| 17 | "Profit margins have been stable for the last few years."               | "Porfit margins have been stable for the last few years."                | Рассчитать минимальные операции для исправления ошибки в слове "profit".         |
| 18 | "The business model has been successful so far."                        | "The bisiness model has been successful so far."                         | Найти минимальное количество изменений для исправления ошибки в "business".     |
| 19 | "The customer satisfaction survey results were positive."               | "The custumer satisfaction survey results were positive."               | Посчитать минимальное количество операций для исправления опечатки в "customer".|
| 20 | "The employee turnover rate decreased significantly last year."        | "The employe turnover rate decreased significantly last year."          | Определить минимальные шаги для исправления ошибки в слове "employee".           |
| 21 | "The strategy for next year should focus on digital transformation."    | "The strategey for next year should focus on digital transformation."    | Рассчитать количество операций для добавления буквы "e" в слово "strategy".      |
| 22 | "The enterprise resource planning system has been upgraded."           | "The enterprize resource planning system has been upgraded."            | Рассчитать минимальное количество операций для преобразования "enterprise" в "enterprize". |
| 23 | "The transaction process was completed successfully."                   | "The transction process was completed successfully."                    | Посчитать минимальные изменения для исправления орфографической ошибки.         |
| 24 | "The report on last quarter's performance will be presented tomorrow."  | "The repot on last quarter's performance will be presented tomorrow."    | Рассчитать количество операций для исправления ошибки в слове "report".          |
| 25 | "Management has reviewed the proposed changes."                         | "Managment has reviewed the proposed changes."                           | Найти минимальные изменения для исправления ошибки в "management".               |




In [13]:
def levenshtein_distance(A, B):
    m, n = len(A), len(B)
    # Создание таблицы для хранения результатов подзадач
    dp = [[0] * (n + 1) for _ in range(m + 1)]

    # Заполнение первой строки и первого столбца
    for i in range(m + 1):
        dp[i][0] = i
    for j in range(n + 1):
        dp[0][j] = j

    # Заполнение таблицы динамическим программированием
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if A[i - 1] == B[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]  # символы одинаковые, нет необходимости менять
            else:
                dp[i][j] = min(dp[i - 1][j] + 1,      # удаление
                               dp[i][j - 1] + 1,      # вставка
                               dp[i - 1][j - 1] + 1)  # замена

    return dp[m][n]

# Пример
A = "Profit margins have been stable for the last few years."
B = "Porfit margins have been stable for the last few years."
print(f"Минимальные операции для исправления ошибки в слове '{A}' на '{B}': {levenshtein_distance(A, B)}")

Минимальные операции для исправления ошибки в слове 'Profit margins have been stable for the last few years.' на 'Porfit margins have been stable for the last few years.': 2


### **ПРИМЕР РЕШЕНИЯ**:

- **Строка A**: "data analysis"
- **Строка B**: "date analysis"

### Алгоритм решения:

1. Создайте таблицу размером (m+1) x (n+1), где m и n — это длины строк A и B соответственно.
2. Заполните первую строку и первый столбец значениями от 0 до m и от 0 до n, так как для преобразования пустой строки в другую требуется количество операций, равное длине другой строки.
3. Для каждой ячейки таблицы вычисляйте минимальное расстояние, учитывая операции:
   - **Вставка** (добавление символа в строку).
   - **Удаление** (удаление символа из строки).
   - **Замена** (замена одного символа на другой).
4. В конце таблица в правом нижнем углу будет содержать минимальное расстояние Левенштейна между строками A и B.

### Программа на Python:

```python
def levenshtein_distance(A, B):
    m, n = len(A), len(B)
    # Создание таблицы для хранения результатов подзадач
    dp = [[0] * (n + 1) for _ in range(m + 1)]
    
    # Заполнение первой строки и первого столбца
    for i in range(m + 1):
        dp[i][0] = i
    for j in range(n + 1):
        dp[0][j] = j
    
    # Заполнение таблицы динамическим программированием
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if A[i - 1] == B[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]  # символы одинаковые, нет необходимости менять
            else:
                dp[i][j] = min(dp[i - 1][j] + 1,      # удаление
                               dp[i][j - 1] + 1,      # вставка
                               dp[i - 1][j - 1] + 1)  # замена
    
    return dp[m][n]

# Пример
A = "data analysis"
B = "date analysis"
print(f"Расстояние Левенштейна для '{A}' и '{B}': {levenshtein_distance(A, B)}")
```

### Разбор:

**Строка A**: "data analysis"  
**Строка B**: "date analysis"  

Мы видим, что строка "date analysis" отличается от "data analysis" только одной буквой: "a" заменена на "e" в слове "data". Поэтому, чтобы преобразовать "data analysis" в "date analysis", нужно выполнить одну операцию замены буквы "a" на "e".

### Шаги алгоритма:

1. Таблица будет иметь размер (14 x 14), так как длины строк A и B равны 14.
2. После того как первая строка и первый столбец будут заполнены (от 0 до 14), начинаем заполнять таблицу, анализируя каждую пару символов из строк A и B.
3. Когда мы доходим до символов "a" в "data" и "e" в "date", мы понимаем, что нужно заменить "a" на "e". Это будет единственная операция.

### Результат:

Алгоритм выдаст минимальное расстояние Левенштейна **1**, что соответствует одной операции замены символа "a" на "e".


In [4]:
def levenshtein_distance(A, B):
    m, n = len(A), len(B)
    # Создание таблицы для хранения результатов подзадач
    dp = [[0] * (n + 1) for _ in range(m + 1)]

    # Заполнение первой строки и первого столбца
    for i in range(m + 1):
        dp[i][0] = i
    for j in range(n + 1):
        dp[0][j] = j

    # Заполнение таблицы динамическим программированием
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if A[i - 1] == B[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]  # символы одинаковые, нет необходимости менять
            else:
                dp[i][j] = min(dp[i - 1][j] + 1,      # удаление
                               dp[i][j - 1] + 1,      # вставка
                               dp[i - 1][j - 1] + 1)  # замена

    return dp[m][n]

# Пример
A = "data analysis"
B = "date analysis"
print(f"Расстояние Левенштейна для '{A}' и '{B}': {levenshtein_distance(A, B)}")

Расстояние Левенштейна для 'data analysis' и 'date analysis': 1


### **ПРИМЕР 2**

- **Строка A**: "business intelligence"
- **Строка B**: "business analytical intelligence"

В этом примере одна строка имеет дополнительное слово "analytical", которое нужно вставить, а также возможные изменения и удаления для приведения строки A в строку B.

### Алгоритм решения:

1. Создаем двумерную таблицу, где строки и столбцы будут содержать длины строк A и B соответственно.
2. Заполняем таблицу на основе трех операций:
   - **Вставка**: добавление символа в строку.
   - **Удаление**: удаление символа из строки.
   - **Замена**: замена одного символа на другой.
3. Таблица в правом нижнем углу будет содержать минимальное количество операций, требуемых для преобразования строки A в строку B.

### Программа на Python:

```python
def levenshtein_distance(A, B):
    m, n = len(A), len(B)
    # Создание таблицы для хранения результатов подзадач
    dp = [[0] * (n + 1) for _ in range(m + 1)]
    
    # Заполнение первой строки и первого столбца
    for i in range(m + 1):
        dp[i][0] = i
    for j in range(n + 1):
        dp[0][j] = j
    
    # Заполнение таблицы динамическим программированием
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if A[i - 1] == B[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]  # символы одинаковые, нет необходимости менять
            else:
                dp[i][j] = min(dp[i - 1][j] + 1,      # удаление
                               dp[i][j - 1] + 1,      # вставка
                               dp[i - 1][j - 1] + 1)  # замена
    
    return dp[m][n]

# Пример
A = "business intelligence"
B = "business analytical intelligence"
print(f"Расстояние Левенштейна для '{A}' и '{B}': {levenshtein_distance(A, B)}")
```

### Разбор примера:

**Строка A**: "business intelligence"  
**Строка B**: "business analytical intelligence"  

1. В строке B добавляется слово "analytical", которое нужно вставить между "business" и "intelligence".
2. Чтобы преобразовать строку A в строку B, нам нужно вставить слово "analytical" и ничего не менять в остальной части строки.

### Шаги алгоритма:

1. **Заполнение таблицы**:
   - Мы начинаем с создания таблицы размером (21 x 30), так как длины строк A и B равны 21 и 30 соответственно.
   - Начальная строка и столбец заполняются значениями от 0 до длины строк A и B, что означает количество операций для преобразования пустой строки в другую строку.
   
2. **Процесс заполнения таблицы**:
   - Мы начинаем с первого символа каждой строки и сравниваем их.
   - Когда встречаем совпадающие символы, просто копируем значение из ячейки по диагонали.
   - Когда символы разные, вычисляем минимальное расстояние с учетом вставки, удаления или замены.
   - В данном случае главное изменение будет связано с вставкой слова "analytical" в строку B.

3. **Конечный результат**:
   - Алгоритм вычисляет минимальное количество операций для преобразования строки A в строку B.

### Результат:

Алгоритм выведет:

```
Расстояние Левенштейна для 'business intelligence' и 'business analytical intelligence': 11
```

Это означает, что для преобразования строки "business intelligence" в строку "business analytical intelligence" требуется **11 операций**, в основном это будет связано с **вставкой** слова "analytical" и возможными мелкими изменениями или заменами символов.

### Описание изменений:

- Основная операция: вставка слова "analytical" (например, 11 вставок символов).
- Остальные изменения включают небольшие вставки и возможные замены символов для корректного приведения строк к единому виду.

Этот пример демонстрирует использование алгоритма Левенштейна для работы с более сложными строками, где требуется не только удаление или замена символов, но и вставка целых слов.


In [5]:
def levenshtein_distance(A, B):
    m, n = len(A), len(B)
    # Создание таблицы для хранения результатов подзадач
    dp = [[0] * (n + 1) for _ in range(m + 1)]

    # Заполнение первой строки и первого столбца
    for i in range(m + 1):
        dp[i][0] = i
    for j in range(n + 1):
        dp[0][j] = j

    # Заполнение таблицы динамическим программированием
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if A[i - 1] == B[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]  # символы одинаковые, нет необходимости менять
            else:
                dp[i][j] = min(dp[i - 1][j] + 1,      # удаление
                               dp[i][j - 1] + 1,      # вставка
                               dp[i - 1][j - 1] + 1)  # замена

    return dp[m][n]

# Пример
A = "business intelligence"
B = "business analytical intelligence"
print(f"Расстояние Левенштейна для '{A}' и '{B}': {levenshtein_distance(A, B)}")

Расстояние Левенштейна для 'business intelligence' и 'business analytical intelligence': 11


# 2. Z-функция строки. Z-алгоритм

# Z-функция


Здесь и далее строки индексируются с нуля, т.е. первый символ строки имеет номер 0. Также, здесь и далее `s[i…j]` обозначает подстроку строки `s` от i-го символа до j-го включительно.

Пусть дана строка `s` длины `n`. Тогда Z(s) - это массив длины `n`, i-ый элемент которого равен наибольшему числу символов, начиная с позиции `i`, совпадающих с первыми символами строки `s`.

Иными словами, `z[i]` — это длина наибольшего общего префикса строки `s` и её i-го суффикса (т.е. `s[i:n]`).

Первый элемент Z-функции, `z[0]`, обычно считают неопределённым. Мы будем считать, что он равен нулю.

Далее будет приведён алгоритм вычисления Z-функции за время O(n).

## Пример:  
Если строка $ s = "abacaba" $, то:
- $ z[0] = 0 $ (по соглашению).
- $ z[1] = 0 $, так как суффикс $ s[1:] = "bacaba" $ не начинается с символа $ s[0] = 'a' $.
- $ z[2] = 1 $, так как суффикс $ s[2:] = "acaba" $ имеет общий префикс длины 1 с $ s $ ("a").
- $ z[3] = 0 $, так как суффикс $ s[3:] = "caba" $ не начинается с символа $ s[0] = 'a' $.
- $ z[4] = 3 $, так как суффикс $ s[4:] = "aba" $ имеет общий префикс длины 3 с $ s $ ("aba").
- $ z[5] = 0 $, так как суффикс $ s[5:] = "ba" $ не начинается с символа $ s[0] = 'a' $.
- $ z[6] = 1 $, так как суффикс $ s[6:] = "a" $ имеет общий префикс длины 1 с $ s $ ("a").

Таким образом, для строки $ s = "abacaba" $, Z-функция будет:

$$
z = [0, 0, 1, 0, 3, 0, 1]
$$

## Тривиальный алгоритм

Формальное определение можно представить в виде следующей элементарной реализации за O(n²):

```python
def z_func(s, n):
    z = [0] * n
    for i in range(1, n - 1):
        while i + z[i] < n and s[z[i]] == s[i + z[i]]:
            z[i] += 1
    return z

```
Мы просто для каждой позиции i перебираем ответ для неё z[i], начиная с нуля, и до тех пор, пока мы не обнаружим несовпадение или не дойдём до конца строки. Разумеется, эта реализация слишком неэффективна, перейдём теперь к построению эффективного алгоритма.

## Эффективный алгоритм вычисления Z-функции

Чтобы получить эффективный алгоритм, будем вычислять значения $ z[i] $ по очереди — от $ i=1 $ до $ n−1 $, и при этом постараемся при вычислении очередного значения $ z[i] $ максимально использовать уже вычисленные значения.

### Определения и терминология

Назовём для краткости подстроку, совпадающую с префиксом строки $ s $, **отрезком совпадения**. Например, значение искомой Z-функции $ z[i] $ — это длина самого длинного отрезка совпадения, начинающегося в позиции $ i $ (и заканчиваться он будет в позиции $ i+z[i]−1 $).

Для этого будем поддерживать координаты $[l;r]$ самого правого отрезка совпадения, т.е. из всех обнаруженных отрезков будем хранить тот, который оканчивается правее всего. В некотором смысле, индекс $ r $ — это такая граница, до которой наша строка уже была просканирована алгоритмом, а всё остальное — пока ещё не известно.

### Алгоритм

Тогда если текущий индекс, для которого мы хотим посчитать очередное значение Z-функции, — это $ i $, мы имеем один из двух вариантов:

1. **$ i > r $**  
   Текущая позиция лежит за пределами того, что мы уже успели обработать. Тогда будем искать $ z[i] $ тривиальным алгоритмом, т.е. просто пробуя значения $ z[i]=0 $, $ z[i]=1 $, и т.д. Заметим, что в итоге, если $ z[i] $ окажется $ > 0 $, то мы будем обязаны обновить координаты самого правого отрезка $[l;r]$ — т.к. $ i+z[i]−1 $ гарантированно окажется больше $ r $.

2. **$ i \leq r $**  
   Текущая позиция лежит внутри отрезка совпадения $[l;r]$. Тогда мы можем использовать уже подсчитанные предыдущие значения Z-функции, чтобы проинициализировать значение $ z[i] $ не нулём, а каким-то возможно бОльшим числом. Для этого заметим, что подстроки $ s[l…r] $ и $ s[0…r−l] $ совпадают. Это означает, что в качестве начального приближения для $ z[i] $ можно взять соответствующее ему значение из отрезка $ s[0…r−l] $, а именно, значение $ z[i−l] $. Однако значение $ z[i−l] $ могло оказаться слишком большим: таким, что при применении его к позиции $ i $ оно "вылезет" за пределы границы $ r $. Этого допустить нельзя, т.к. про символы правее $ r $ мы ничего не знаем, и они могут отличаться от требуемых.

#### Пример

Приведём пример такой ситуации на примере строки "aaaabaa".

Когда мы дойдём до последней позиции $ i=6 $, текущим самым правым отрезком будет $[5;6]$. Позиции $ 6 $ с учётом этого отрезка будет соответствовать позиция $ 6−5=1 $, ответ в которой равен $ z[1]=3 $. Очевидно, что таким значением инициализировать $ z[6] $ нельзя, оно совершенно некорректно. Максимум, каким значением мы могли проинициализировать — это $ 1 $, поскольку это наибольшее значение, которое не вылезает за пределы отрезка $[l;r]$.

Таким образом, в качестве начального приближения для $ z[i] $ безопасно брать только такое выражение:
$$
z_0[i] = \min(r - i + 1, z[i-l])
$$

Проинициализировав $ z[i] $ таким значением $ z_0[i] $, мы снова дальше действуем тривиальным алгоритмом — потому что после границы $ r $, вообще говоря, могло обнаружиться продолжение отрезка совпадения, предугадать которое одними лишь предыдущими значениями Z-функции мы не можем.

### Итоговый алгоритм

Таким образом, весь алгоритм представляет из себя два случая, которые фактически различаются только начальным значением $ z[i] $: в первом случае оно полагается равным нулю, а во втором — определяется по предыдущим значениям по указанной формуле. После этого обе ветки алгоритма сводятся к выполнению тривиального алгоритма, стартующего сразу с указанного начального значения.

### Сложность алгоритма

Алгоритм получился весьма простым. Несмотря на то, что при каждом $ i $ в нём так или иначе выполняется тривиальный алгоритм — мы достигли существенного прогресса, получив алгоритм, работающий за линейное время $ O(n) $. Действительно, на каждый символ мы "посмотрим", т.е. сравним его с каким-либо предыдущим всего один раз.

## **Задача 2** — Напишите Z-функцию. Пусть заголовком ее будет **def z_func(s, n)**:

In [7]:
def z_func(s, n):
    z = [0]*n
    l, r = 0, 0 # l - левый индекс, r - правый индекс для области совпадений
    for i in range(1, n):
      if i<=r:
        z[i] = min(r - i + 1, z[i - l]) # минимизируем длину из уже вычисленных
      while i + z[i] < n and s[z[i]] == s[i + z[i]]:
        z[i] += 1 # увеличиваем длину совпадения
      if i + z[i] - 1 > r:
        l, r = i, i + z[i] - 1 # обновляем границы области совпадений
    return z
# Пример использования
s = 'aaabaab'
n = len(s)
result = z_func(s, n)
print("Z-функция для строки '{}':".format(s))
print(result)

Z-функция для строки 'aaabaab':
[0, 2, 1, 0, 2, 1, 0]


## Поиск подстроки в строке

Назовём одну строку **текстом** $ t $, другую — **образцом** $ p $. Таким образом, задача заключается в том, чтобы найти все вхождения образца $ p $ в текст $ t $.

### Метод решения

Для решения этой задачи составим новую строку $ s = p + \# + t $, т.е. к образцу припишем текст через символ-разделитель $ \# $ (который не встречается нигде в самих строках). Этот подход позволяет объединить обе строки в одну и использовать Z-функцию для поиска всех вхождений.

### Алгоритм

1. **Объединение строк**:  
   Создадим строку $ s = p + \# + t $, где $ \# $ — специальный символ, который не содержится ни в $ p $, ни в $ t $. Этот символ гарантирует, что значения Z-функции, вычисленные для позиций после $ \# $, будут зависеть только от вхождений образца $ p $ в текст $ t $.

2. **Вычисление Z-функции**:  
   Посчитаем Z-функцию для полученной строки $ s $. Напомним, что значение $ z[i] $ показывает максимальную длину префикса строки $ s $, совпадающего с подстрокой, начинающейся с позиции $ i $.

3. **Анализ результатов**:  
   Для любого индекса $ i $ в отрезке $[0; \text{len}(t) - 1]$ по соответствующему значению $ z[i + \text{len}(p) + 1] $ можно определить, входит ли образец $ p $ в текст $ t $, начиная с позиции $ i $:
   - Если значение Z-функции $ z[i + \text{len}(p) + 1] $ равно $ \text{len}(p) $, то образец $ p $ входит в текст $ t $, начиная с позиции $ i $.
   - В противном случае, образец $ p $ не входит в текст $ t $, начиная с позиции $ i $.

### Пример

Пусть $ p = "abc" $ и $ t = "dabcababc" $. Тогда:
- Объединённая строка будет $ s = "abc#dabcababc" $.
- Вычислим Z-функцию для строки $ s $:  
  $$
  z = [0, 0, 0, 0, 3, 0, 2, 0, 0, 3, 0, 0]
  $$
- Анализируя значения Z-функции для позиций после символа $ \# $ (начиная с индекса 4), находим:
  - $ z[4] = 3 $: Образец $ p $ входит в текст $ t $, начиная с позиции 0.
  - $ z[9] = 3 $: Образец $ p $ входит в текст $ t $, начиная с позиции 5.

Таким образом, образец $ p $ входит в текст $ t $ в позициях 0 и 5.

### Преимущества метода

Использование Z-функции для поиска подстроки позволяет решить задачу за линейное время $ O(n) $, где $ n = \text{len}(s) $. Это делает метод эффективным для больших строк.

In [9]:
def z_function(s):
    z = [0]*len(s)
    l, r, n = 0, 0, len(s)
    for i in range(1, n):
      if i <= r:
        z[i] += 1
      while i + z[i] < n and s[z[i]] == s[i + z[i]]:
        z[i] += 1
      if i + z[i] - 1 > r:
        l, r = i, i + z[i] - 1
    return z

def find_substring(t, p):
    # Формируем строку s = p + "#" + t
    s = p + "#" + t
    # Вычисляем Z-функцию для строки s
    z = z_function(s)

    # Длина образца
    len_p = len(p)

    # Находим все вхождения образца p в текст t
    positions = []
    for i in range(len_p + 1, len(s)):
      if z[i] == len_p:
        positions.append(i - len_p - 1) # Индексы начала вхождения в строку t

    return positions

# Пример использования
t = "ababcababcabc"
p = "abc"
positions = find_substring(t, p)
print("Positions:", positions)

Positions: [2, 7, 10]


### **Задача 3** — с помощью рассмотренного выше алгоритма найдите длину наибольшей возрастающей последовательности для списка `a = [1, 3, 2, 5, 4]`:

In [10]:
def longest_increasing_subsequence(a):
  n = len(a)
  dp = [1] * n # Инициализируем массив dp, где dp[i] - длина наиибольшей возрастающей подпоследовательности, заканчивающейся на элементе a[i]

  for i in range(1, n):
    for j in range(i):
      if a[i] > a[j]:
        dp[i] = max(dp[i], dp[j] + 1)

  return max(dp)  # Возвращаем максимальную длину возрастающей подпоследовательности

# Пример использования
a = [1, 3, 2, 5, 4]
result = longest_increasing_subsequence(a)
print("Длина наибольшей возрастающей подпоследовательности:", result)

Длина наибольшей возрастающей подпоследовательности: 3


### продолжение

## 3 Пи-функция строки. Алгоритм Кнута-Морриса-Пратта
# Пи-функция. Определение

Пусть дана строка $ s $ длины $ n $. Тогда $ \pi(s) $ — это массив длины $ n $, $ i $-ый элемент которого ($ \pi[i] $) определяется следующим образом: это длина наибольшего собственного суффикса подстроки $ s[0 \ldots i] $, совпадающего с её префиксом (собственный суффикс — значит не совпадающий со всей строкой). В частности, значение $ \pi[0] $ полагается равным нулю.

Математически определение префикс-функции можно записать следующим образом:
$$
\pi[i] = \max_{k=0 \ldots i} \{ k : s[0 \ldots k-1] = s[i-k+1 \ldots i] \}
$$

### Примеры

Для строки "abcabcd" префикс-функция равна: $ \pi = [0, 0, 0, 1, 2, 3, 0] $, что означает:
- у строки "a" нет нетривиального префикса, совпадающего с суффиксом;
- у строки "ab" нет нетривиального префикса, совпадающего с суффиксом;
- у строки "abc" нет нетривиального префикса, совпадающего с суффиксом;
- у строки "abca" префикс длины 1 совпадает с суффиксом;
- у строки "abcab" префикс длины 2 совпадает с суффиксом;
- у строки "abcabc" префикс длины 3 совпадает с суффиксом;
- у строки "abcabcd" нет нетривиального префикса, совпадающего с суффиксом.

Другой пример — для строки "aabaaab" она равна: $ \pi = [0, 1, 0, 1, 2, 2, 3] $.

### Тривиальный алгоритм

Непосредственно следуя определению, можно написать такой алгоритм вычисления префикс-функции:



In [11]:

def prefix_func(s, n):
    pi = [0] * n
    for i in range(1, n):  # Начинаем с 1, так как pi[0] всегда равно 0
        for k in range(1, i + 1):
            equal = True
            for j in range(k):
                if s[j] != s[i - k + 1 + j]:
                    equal = False
                    break
            if equal:
                pi[i] = k
    return pi

Примечание: данный алгоритм имеет кубическую сложность $ O(n^3) $ и используется в основном для демонстрации идеи. На практике применяются более эффективные методы.

# Алгоритм Кнута-Морриса-Пратта (Knuth-Morris-Pratt, KMP)

Алгоритм был разработан Дональдом Кнутом (Donald Knuth) и Vaughan Праттом (Vaughan Pratt), а независимо от них — Джеймсом Моррисом (James Morris) в 1977 году. Он является основным элементом для решения задачи поиска подстроки в строке. Алгоритм имеет линейную сложность O(n).

## Основные характеристики алгоритма

Алгоритм Кнута-Морриса-Пратта является **онлайновым**, то есть он обрабатывает данные по мере их поступления. Например, можно считывать строку по одному символу и сразу вычислять результат для текущей позиции. Для работы алгоритма требуется хранить саму строку и предыдущие значения префикс-функции.

Однако, если заранее известно максимальное значение, которое может принимать префикс-функция на всей строке, достаточно будет хранить лишь первые символы строки и соответствующие значения префикс-функции, превышающие это максимальное значение не более чем на единицу.

---

## Задача: Поиск подстроки в строке

Эта задача является классическим применением префикс-функции.

### Условие задачи:
Дан текст `t` и строка `s`. Требуется найти и вывести все позиции, где строка `s` встречается в тексте `t`.

Обозначим:
- `n` — длина строки `s`,
- `m` — длина текста `t`.

### Решение с использованием префикс-функции:

1. **Создание новой строки**:  
   Образуем строку вида `s + # + t`, где символ `#` — это разделитель, который не встречается ни в строке `s`, ни в тексте `t`. Этот разделитель гарантирует, что префикс-функция корректно различает части строки `s` и текста `t`.

2. **Вычисление префикс-функции**:  
   Посчитаем префикс-функцию для склеенной строки `s + # + t`. Напомним, что префикс-функция π[i] для позиции i определяется как длина наибольшего собственного суффикса строки, совпадающего с её префиксом.

3. **Поиск вхождений**:  
   После вычисления префикс-функции рассмотрим её значения для позиций после разделителя `#` (то есть для части строки `t`). Если в какой-то позиции `i` префикс-функция достигает значения `n` (длины строки `s`), это означает, что в позиции `i - (n + 1)` строки `t` начинается очередное вхождение строки `s`.

   Формула для определения начала вхождения:

### **Алгоритм Кнута-Морриса-Пратта (KMP)** для поиска подстроки в строке использует префикс-функцию для эффективного поиска всех вхождений строки в текст.

 Префикс-функция вычисляется для строки и используется для ускорения поиска подстроки в тексте.

Префикс-функция для строки `s` — это массив, где для каждого символа строки `s[i]` хранится длина наибольшего суффикса, который является префиксом строки `s[0..i]`.

### Шаги алгоритма:
1. **Вычисление префикс-функции для строки `s`**.
2. **Построение строки `s + '#' + t`**, где `s` — это образец, `#` — разделитель, а `t` — текст.
3. **Использование префикс-функции для поиска всех вхождений образца `s` в текст `t`**.

### Реализация на Python:

```python
def p_func(s, n):
    """
    Функция для вычисления префикс-функции для строки s длиной n.
    """
    pi = [0] * n
    j = 0  # длина текущего суффикса, который является префиксом
    for i in range(1, n):
        while j > 0 and s[i] != s[j]:
            j = pi[j - 1]  # сдвиг по префикс-функции
        if s[i] == s[j]:
            j += 1
        pi[i] = j
    return pi

def kmp_search(t, s):
    """
    Алгоритм Кнута-Морриса-Пратта для поиска всех вхождений строки s в текст t.
    """
    # Создание строки s + '#' + t
    combined = s + '#' + t
    n = len(s)
    m = len(combined)
    
    # Вычисляем префикс-функцию для строки s + '#' + t
    pi = p_func(combined, m)
    
    # Ищем все вхождения
    positions = []
    for i in range(n + 1, m):
        if pi[i] == n:
            positions.append(i - 2 * n)
    
    return positions

# Пример использования
t = "ababcababcabc"
s = "abc"
positions = kmp_search(t, s)
print("Positions:", positions)
```

1. **Функция `p_func(s, n)`**:
   - Эта функция принимает строку `s` и её длину `n` и возвращает массив префикс-функции для строки `s`.
   - Префикс-функция `pi[i]` — это длина наибольшего суффикса, который является префиксом подстроки `s[0..i]`.

2. **Функция `kmp_search(t, s)`**:
   - Строка `s + '#' + t` создается для того, чтобы избежать совпадений с разделителем.
   - Вычисляется префикс-функция для комбинированной строки.
   - Далее, если значение префикс-функции на позиции `i` равно длине строки `s`, то это означает, что в строке `t` на позиции `i - 2 * n` найдено вхождение строки `s`.

3. **Пример**:
   - Для строки `t = "ababcababcabc"` и образца `s = "abc"`, программа выведет все позиции, где образец встречается в тексте:
     ```
     Positions: [2, 7, 10]
     ```

### Время работы:
- Время работы алгоритма — **O(n + m)**, где `n` — длина строки образца `s`, а `m` — длина строки текста `t`.
- Пространственная сложность — **O(n)** для хранения префикс-функции.


### **Задача 4** — Префикс-функция. Напишите префикс-функцию. Пусть заголовком ее будет def p_func(s, n)

In [12]:
def p_func(s, n):
    """
    Функция для вычисления префикс-функции для строки s длиной n.
    """
    pi = [0] * n
    j = 0  # длина текущего суффикса, который является префиксом
    for i in range(1, n):
        while j > 0 and s[i] != s[j]:
            j = pi[j - 1]  # сдвиг по префикс-функции
        if s[i] == s[j]:
            j += 1
        pi[i] = j
    return pi

def kmp_search(t, s):
    """
    Алгоритм Кнута-Морриса-Пратта для поиска всех вхождений строки s в текст t.
    """
    # Создание строки s + '#' + t
    combined = s + '#' + t
    n = len(s)
    m = len(combined)

    # Вычисляем префикс-функцию для строки s + '#' + t
    pi = p_func(combined, m)

    # Ищем все вхождения
    positions = []
    for i in range(n + 1, m):
        if pi[i] == n:
            positions.append(i - 2 * n)

    return positions

# Пример использования
t = "ababcababcabc"
s = "abc"
positions = kmp_search(t, s)
print("Positions:", positions)

Positions: [2, 7, 10]


| №  | Задание                                                                                  | Описание задания                                                                                                                                                           |
|----|------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1  | Реализовать функцию для поиска вхождений строки в текст с использованием KMP алгоритма.   | Разработать функцию, которая находит все вхождения строки в текст с использованием алгоритма Кнута-Морриса-Пратта.                                                      |
| 2  | Оптимизация алгоритма KMP.                                                                | Улучшить алгоритм поиска, уменьшив использование памяти для хранения префикс-функции.                                                                                      |
| 3  | Адаптация алгоритма KMP для чувствительности к регистру.                                  | Изменить алгоритм так, чтобы поиск был чувствителен к регистру символов.                                                                                                 |
| 4  | Использование алгоритма KMP для поиска ключевых слов в большом массиве данных.            | Применить алгоритм для поиска ключевых слов в массиве текстов с учётом различных вариаций ввода.                                                                          |
| 5  | Сравнение алгоритмов поиска подстроки.                                                    | Написать сравнение производительности алгоритма KMP и наивного метода поиска подстроки.                                                                                   |
| 6  | Анализ времени выполнения алгоритма KMP для различных текстов.                            | Проанализировать скорость работы алгоритма при изменении длины строки и текста.                                                                                             |
| 7  | Разработка функции для поиска всех подстрок длиной n в строке с использованием KMP.       | Реализовать алгоритм, который ищет все подстроки определённой длины в строке с использованием метода Кнута-Морриса-Пратта.                                                |
| 8  | Применение алгоритма KMP для поиска шаблонов в логах.                                      | Использовать алгоритм для поиска определённых шаблонов в логах системы или веб-сайта.                                                                                      |
| 9  | Модификация алгоритма KMP для работы с мультиязычными текстами.                           | Изменить алгоритм так, чтобы он работал с текстами, содержащими символы разных алфавитов, например, с текстами на русском и английском языках.                           |
| 10 | Использование KMP для поиска идентичных товаров в базе данных.                           | Разработать алгоритм поиска одинаковых товаров по наименованию в базе данных с использованием KMP.                                                                          |
| 11 | Разработка отчёта о времени поиска подстрок с использованием различных алгоритмов.       | Написать отчёт, в котором сравниваются времена поиска подстрок с использованием различных алгоритмов поиска, включая KMP.                                                   |
| 12 | Обработка случаев отсутствия вхождений в строку с помощью алгоритма KMP.                  | Модифицировать алгоритм KMP так, чтобы он корректно обрабатывал случаи, когда искомая строка не встречается в тексте.                                                     |
| 13 | Разработка интерфейса для поиска по строкам с использованием алгоритма KMP.               | Создать графический интерфейс для поиска подстроки в тексте, используя алгоритм KMP для вычислений.                                                                      |
| 14 | Использование KMP для построения статистики повторяющихся строк.                         | Реализовать систему для поиска повторяющихся строк в большом массиве данных и построения статистики по этим строкам.                                                      |
| 15 | Реализация алгоритма для поиска всех возможных совпадений строки в большом наборе данных. | Написать программу, которая находит все возможные совпадения заданной строки в большом наборе данных с использованием KMP.                                                |
| 16 | Модификация алгоритма KMP для работы с данными, содержащими пробелы и знаки препинания.    | Адаптировать алгоритм KMP для работы с текстами, содержащими пробелы, знаки препинания и другие символы, которые могут быть игнорированы или учтены при поиске.            |
| 17 | Реализация поиска по базе данных с использованием алгоритма KMP.                           | Разработать функцию поиска в базе данных, которая использует алгоритм KMP для быстрого поиска строк в записях.                                                            |
| 18 | Применение алгоритма KMP для анализа торговых документов.                                | Использовать алгоритм для поиска определённых шаблонов в текстах торговых документов, например, наименований товаров, цен и дат.                                           |
| 19 | Сравнение времени работы KMP и других алгоритмов на текстах различной длины.              | Провести эксперимент, сравнив скорость работы алгоритма KMP и других известных алгоритмов на текстах разной длины.                                                          |
| 20 | Реализация поиска всех вхождений подстроки с учётом определённых условий.                | Написать программу, которая ищет все вхождения подстроки в строку, учитывая дополнительные условия, например, игнорируя определённые символы или учитывая порядок.          |
| 21 | Разработка системы для автоматического поиска ошибок в тексте с использованием KMP.      | Создать систему для поиска ошибок в текстах на основе алгоритма KMP, например, для поиска пропущенных или неверно вставленных слов.                                        |
| 22 | Применение алгоритма KMP для работы с XML-документами.                                   | Реализовать поиск строк или тегов в XML-документах с использованием алгоритма Кнута-Морриса-Пратта для ускорения обработки.                                                |
| 23 | Применение алгоритма KMP в системе мониторинга безопасности для поиска определённых паттернов. | Разработать систему, использующую алгоритм KMP для поиска подозрительных паттернов в логах безопасности.                                                                  |
| 24 | Реализация функции, которая может обрабатывать несколько запросов на поиск одновременно. | Разработать систему, которая позволяет одновременно искать несколько подстрок в тексте с использованием алгоритма KMP.                                                    |
| 25 | Построение визуализации работы алгоритма KMP.                                             | Написать код для визуализации работы алгоритма Кнута-Морриса-Пратта, показывая этапы нахождения префикс-функции и позиционирования совпадений в тексте.                      |