# Завдання на самостійну роботу: Алгоритми на рядках

## Повторення коду для довільних рядків та пояснення

Нижче наведено функцію `z_func` (Z-функція), яка є необхідною для функції стиснення. Сама функція `compress_with_z` працює за принципом знаходження найкоротшого періоду рядка.

```python
def z_func(s):
    n = len(s)
    z = [0] * n
    l, r = 0, 0
    for i in range(1, n):
        if i <= r:
            z[i] = min(r - i + 1, z[i - l])
        while i + z[i] < n and s[z[i]] == s[i + z[i]]:
            z[i] += 1
        if i + z[i] - 1 > r:
            l, r = i, i + z[i] - 1
    z[0] = n  # За визначенням Z-функції, Z[0] = довжині рядка
    return z

def compress_with_z(s):
    z_vec = z_func(s)

    for i in range(1, len(s)):
        if (i + z_vec[i] == len(s)) and (len(s) % i == 0):
            return s[:i]
    return s

# Приклади для довільних рядків
s1 = "abcabcabc"
print(f"Рядок: '{s1}'")
print(f"Z-функція: {z_func(s1)}")
print(f"Стиснутий рядок: '{compress_with_z(s1)}'\n")

s2 = "abababab"
print(f"Рядок: '{s2}'")
print(f"Z-функція: {z_func(s2)}")
print(f"Стиснутий рядок: '{compress_with_z(s2)}'\n")

s3 = "abacaba"
print(f"Рядок: '{s3}'")
print(f"Z-функція: {z_func(s3)}")
print(f"Стиснутий рядок: '{compress_with_z(s3)}'\n")

s4 = "abcdef"
print(f"Рядок: '{s4}'")
print(f"Z-функція: {z_func(s4)}")
print(f"Стиснутий рядок: '{compress_with_z(s4)}'\n")

# Теоретичні основи алгоритмів на рядках

---

## Пояснення асимптотики наївного алгоритму пошуку підрядка

**Наївний алгоритм пошуку підрядка** (також відомий як "прямий" або "брутфорс" алгоритм) — це найпростіший підхід для знаходження входжень одного рядка (шаблону) в іншому (тексті).

### Принцип роботи:

Алгоритм послідовно порівнює шаблон з усіма можливими підрядками тексту, починаючи з кожної можливої позиції:

1.  **Розміщуємо шаблон** на початку тексту.
2.  **Порівнюємо символи** шаблону з відповідними символами тексту.
3.  Якщо всі символи збігаються, **знайдено входження**.
4.  Якщо знайдена **невідповідність** або шаблон повністю порівняний, **зсуваємо шаблон** на одну позицію вправо і повторюємо порівняння.
5.  Продовжуємо доти, доки шаблон може поміститися в тексті.

### Асимптотична складність:

Нехай:
* $N$ — довжина тексту (основного рядка).
* $M$ — довжина шаблону (підрядка).

У **найгіршому випадку** (worst-case scenario), коли майже всі символи збігаються, але в кінці шаблону є невідповідність, або коли шаблон повторюється багато разів, алгоритм виконує максимальну кількість операцій.

**Розглянемо приклад:**
Текст: `AAAAAAAAB` ($N$ символів)
Шаблон: `AAAB` ($M$ символів)

* На першій позиції шаблон порівнюється з `AAAA`.
* На другій позиції шаблон порівнюється з `AAAA`.
* ...
* На $N-M+1$ позиції шаблон порівнюється з `AAAB`.

У кожному зсуві шаблону (яких $N-M+1$ можливих) алгоритм може виконати до $M$ порівнянь символів.
Таким чином, загальна кількість порівнянь у найгіршому випадку буде приблизно $(N-M+1) \times M$.

Якщо $M$ є значною частиною $N$ (наприклад, $M \approx N/2$), то складність буде приблизно $(N/2) \times (N/2) = N^2/4$.
В асимптотичних позначеннях це зводиться до $O(N \cdot M)$.

Якщо $M$ значно менше за $N$, складність наближається до $O(N)$.
Однак, загалом, **асимптотична складність наївного алгоритму пошуку підрядка складає $O(N \cdot M)$**. Це може бути неефективним для великих текстів або шаблонів.

---

## Обчислення асимптотичної складності алгоритму стиснення рядка за допомогою $Z$-функції

Алгоритм стиснення рядка `compress_with_z(s)` використовує допоміжну функцію `z_func(s)` для обчислення Z-вектора.

### 1. Асимптотична складність `z_func(s)`:

Алгоритм Z-функції обчислює Z-вектор за **лінійний час**. Це досягається завдяки ефективному використанню "вікна" $[l, r]$, що дозволяє уникнути повторних порівнянь.
Кожен символ рядка `s` відвідується константну кількість разів (у циклі `for i in range(1, n)` та у внутрішньому циклі `while`).

Таким чином, **асимптотична складність `z_func(s)` дорівнює $O(N)$**, де $N$ — довжина рядка `s`.

### 2. Асимптотична складність `compress_with_z(s)`:

Функція `compress_with_z(s)` виконує наступні кроки:

* **Виклик `z_func(s)`**: Це займає $O(N)$ часу, як було показано вище.
* **Цикл `for i in range(1, len(s))`**: Цей цикл ітерується $N-1$ раз (від $i=1$ до $N-1$).
    * Всередині циклу виконуються операції: доступ до елемента `z_vec[i]`, додавання, порівняння, операція модуля (`%`), доступ до частини рядка `s[:i]`. Всі ці операції виконуються за $O(1)$ час (окрім `s[:i]`, яка формально є копіюванням підрядка і може займати $O(i)$ часу. Однак, у контексті обчислення **найкоротшого** періоду, ми перевіряємо умову `len(s) % i == 0` і повертаємо *перший* відповідний `i`. Отже, в найгіршому випадку, якщо рядок не стискається, ми пройдемо весь цикл). Якщо розглядати повернення `s[:i]` як частину виводу, то воно додає $O(i)$ до останньої операції, але не змінює загальну асимптотику обчислень.

Таким чином, **домінуючою частиною за часом є обчислення Z-функції**.
**Загальна асимптотична складність алгоритму стиснення рядка за допомогою Z-функції (`compress_with_z(s)`) дорівнює $O(N)$**, де $N$ — довжина рядка.

Це дуже ефективний алгоритм, оскільки він дозволяє знайти найкоротше стисле представлення за лінійний час від довжини рядка.

---

## Контрольні питання

### 1. Що таке «префікс-функція» у контексті алгоритмів на рядках, і як вона відрізняється від Z-функції?

**Префікс-функція (ПФ)** — це функція, яка для кожного індексу $i$ в рядку $S$ обчислює довжину **найдовшого власного префікса** рядка $S$, який одночасно є суфіксом префікса $S[0 \dots i]$. Власний префікс означає, що він не може бути рівним самому префіксу $S[0 \dots i]$.

**Відмінності від Z-функції:**

| Характеристика          | **Префікс-функція ($\pi$-функція)** | **Z-функція** |
| :---------------------- | :----------------------------------------------------------------- | :-------------------------------------------------------------------- |
| **Визначення $\pi[i]$** | Довжина найдовшого власного префікса $S[0 \dots \pi[i]-1]$, який є суфіксом $S[0 \dots i]$. | Довжина найдовшого префікса $S$, який одночасно є префіксом суфікса $S[i \dots n-1]$. |
| **Діапазон $\pi[i]$** | $0 \dots i$                                                        | $0 \dots n-i$                                                         |
| **Основне застосування** | Алгоритм Кнута-Морріса-Пратта (KMP) для пошуку підрядків.        | Пошук входжень шаблону в тексті (з використанням конкатенації $P + \# + T$), стиснення рядків, пошук періодів. |
| **Приклад для "ababa"** | $\pi = [0, 0, 1, 2, 3]$                                           | $Z = [5, 0, 3, 0, 1]$                                               |
| **$S[0]$** | $\pi[0]$ завжди 0.                                               | $Z[0]$ завжди дорівнює довжині рядка $N$.                             |

---

### 2. Що таке Z-функція у вищому контексті алгоритмів на рядках, і яка її роль у вирішенні задач?

**Z-функція** для рядка $S$ довжини $N$ — це масив $Z$ довжини $N$, де $Z[i]$ для $i > 0$ дорівнює довжині найдовшого префікса рядка $S$, який також є префіксом суфікса $S$, що починається з позиції $i$. $Z[0]$ зазвичай дорівнює $N$.

**Роль Z-функції у вирішенні задач:**

* **Пошук входжень шаблону в тексті**: Це одна з найважливіших ролей. Щоб знайти всі входження шаблону $P$ у тексті $T$, можна побудувати Z-функцію для конкатенованого рядка $S = P + \text{'#'} + T$, де `#` — символ, що не зустрічається ні в $P$, ні в $T$. Якщо $Z[i]$ для деякого $i$ дорівнює довжині $P$, це означає, що $P$ зустрічається в $T$ починаючи з позиції $i - |P| - 1$. Цей метод є альтернативою KMP і може бути простішим у реалізації для пошуку.
* **Стиснення рядків / Знаходження періоду**: Як показано у вашому завданні, Z-функція дозволяє ефективно знайти найкоротший період рядка. Якщо $Z[i]$ дорівнює $N-i$ і $N$ ділиться на $i$, то $S[0 \dots i-1]$ є найкоротшим періодом.
* **Знаходження найдовшого спільного префікса для всіх суфіксів**: Z-функція по суті обчислює довжини таких префіксів.
* **Побудова суфіксних дерев/масивів**: Z-функція є фундаментальним інструментом у більш складних алгоритмах для роботи з суфіксними структурами даних.
* **Різноманітні задачі обробки рядків**: Завдяки своїй здатності швидко знаходити збіги префіксів та суфіксів, Z-функція є універсальним інструментом для багатьох інших алгоритмічних задач, пов'язаних з рядками.

---

### 3. Які існують підходи до вирішення задачі «найдовший спільний підрядок» для двох рядків?

Задача "**найдовший спільний підрядок**" (Longest Common Substring - LCS) для двох рядків $S_1$ та $S_2$ полягає в знаходженні найдовшого рядка, який є підрядком як $S_1$, так і $S_2$.

Існують кілька підходів до вирішення цієї задачі:

1.  **Динамічне програмування:**
    * **Принцип**: Створення двовимірної таблиці $DP[i][j]$, де $DP[i][j]$ зберігає довжину найдовшого спільного суфікса префіксів $S_1[0 \dots i-1]$ та $S_2[0 \dots j-1]$.
    * **Рекурентне співвідношення**: Якщо $S_1[i-1] == S_2[j-1]$, то $DP[i][j] = DP[i-1][j-1] + 1$. Інакше $DP[i][j] = 0$.
    * **Результат**: Максимальне значення в таблиці $DP$ є довжиною найдовшого спільного підрядка.
    * **Складність**: Час $O(N \cdot M)$, пам'ять $O(N \cdot M)$, де $N, M$ — довжини рядків.

2.  **Використання суфіксного дерева або суфіксного масиву:**
    * **Принцип**: Побудувати узагальнене суфіксне дерево (або суфіксний масив) для конкатенації двох рядків $S_1 + \text{'#'} + S_2 + \text{'\$'}$, де `#` і `$` — унікальні роздільники.
    * **Обхід/Аналіз**: Найдовший спільний підрядок відповідає найдовшому шляху в дереві (або послідовності суфіксів у масиві), який містить суфікси, що походять як з $S_1$, так і з $S_2$. Це зазвичай включає пошук найглибшого внутрішнього вузла, який має принаймні один лист, що походить від $S_1$, і принаймні один лист, що походить від $S_2$.
    * **Складність**: Побудова суфіксного дерева/масиву займає $O(N+M)$ час. Подальший обхід для знаходження LCS також лінійний. Загалом $O(N+M)$. Цей підхід є більш складним у реалізації, але асимптотично швидшим для дуже довгих рядків.

3.  **Z-функція / Алгоритм KMP (адаптований):**
    * **Принцип**: Хоча Z-функція та KMP безпосередньо не вирішують задачу LCS, їх можна адаптувати. Один із підходів полягає в тому, щоб для кожного суфікса першого рядка $S_1$ шукати його входження у другому рядку $S_2$ (або навпаки). Це буде неефективно. Більш складні модифікації можуть використовувати ідеї порівняння префіксів суфіксів. Це менш прямолінійний підхід, ніж динамічне програмування або суфіксні структури, і зазвичай не є оптимальним для загальної задачі LCS.

Найчастіше для задачі LCS обирають **динамічне програмування** через його відносну простоту реалізації, якщо обмеження за пам'яттю та часом дозволяють $O(N \cdot M)$. Для дуже великих рядків кращим є підхід з **суфіксним деревом/масивом**.

---

### 4. Як можна застосувати алгоритми на рядках у задачах обробки природної мови або обробки текстів?

Алгоритми на рядках є фундаментальними для багатьох задач в **обробці природної мови (NLP)** та **обробці текстів (Text Processing)**. Ось кілька прикладів:

* **Пошук і заміна (Find and Replace):**
    * **Застосування**: Класична задача в текстових редакторах. Алгоритми KMP, Бойєра-Мура або Z-функції дозволяють швидко знаходити всі входження підрядка.
    * **NLP**: Пошук ключових слів, фраз, іменованих сутностей (NER - Named Entity Recognition) у великих корпусах текстів.

* **Лексичний аналіз (Tokenization):**
    * **Застосування**: Розбиття тексту на "токени" (слова, розділові знаки, числа). Це перший крок у більшості NLP-задач. Алгоритми можуть включати простіші методи (розбиття за пробілами) до складніших (регулярні вирази, які використовують ідеї автоматної теорії).
    * **NLP**: Виділення слів для подальшого аналізу синтаксису, семантики.

* **Перевірка орфографії та автозаповнення:**
    * **Застосування**: Алгоритми обчислення **відстані редагування (редакційної відстані, наприклад, відстань Левенштейна)** використовуються для вимірювання схожості між словами. Низька відстань вказує на можливу помилку або схоже слово для автозаповнення.
    * **NLP**: Корекція помилок введення, пропозиції слів.

* **Виявлення плагіату:**
    * **Застосування**: Порівняння великих фрагментів текстів або документів для виявлення запозичень. Можна використовувати алгоритми пошуку найдовших спільних підрядків або схожості рядків (наприклад, з використанням хешування або суфіксних структур).
    * **NLP**: Аналіз текстів для визначення унікальності контенту.

* **Стиснення текстів (неархівне):**
    * **Застосування**: Виявлення повторюваних фрагментів для представлення тексту в більш компактній формі. Алгоритми, що використовують Z-функцію або суфіксні структури, можуть знаходити періоди та повтори.
    * **NLP**: Індексація великих обсягів даних, оптимізація зберігання.

* **Розпізнавання образів (наприклад, ДНК послідовностей):**
    * **Застосування**: Біологія та біоінформатика широко використовують алгоритми на рядках (наприклад, KMP, Z-функцію, суфіксні дерева) для пошуку певних послідовностей ДНК/РНК, вирівнювання послідовностей, аналізу геномів. Хоча це не зовсім "мова", принципи рядкових алгоритмів тут застосовуються.

* **Синтаксичний аналіз (Parsing):**
    * **Застосування**: Хоча синтаксичний аналіз більше покладається на контекстно-вільні граматики та парсери, базові операції з рядками (як токенізація) є його невід'ємною частиною. Деякі алгоритми парсингу можуть використовувати методи порівняння префіксів.

* **Аналіз тональності (Sentiment Analysis):**
    * **Застосування**: Хоча це високорівнева NLP-задача, на базовому рівні вона може включати пошук певних слів або фраз (емоційно забарвлених лексем) у тексті за допомогою ефективних алгоритмів пошуку підрядків.

Загалом, **алгоритми на рядках є основою для ефективної маніпуляції та аналізу текстових даних**, що є критично важливим у всіх галузях NLP.