## Лабораторна робота № 9 Алгоритми на рядках.
## Мета: освоїти низку основних алгоритмів на рядках засобами мови Python.
### Виконав: Яцентюк Євгеній, група: КІ-24-1 

**[GitHub](https://github.com/kefir4ikk)**

## 1. Наївний пошук підрядка (Naive String Matching)

In [6]:
def naive_match(p, t):
    assert len(p) <= len(t)
    occurrences = []
    for i in range(0, len(t) - len(p) + 1):
        match = True
        for j in range(0, len(p)):
            if t[i + j] != p[j]:
                match = False
                break
        if match:
            occurrences.append(i)
    return occurrences


text = "needleneedleneedle"
pattern = "needle"
print(naive_match(pattern, text))

[0, 6, 12]


## 2. Реалізація Z-функції

In [9]:
def z_func(s):
    Z = [0] * len(s)
    Z[0] = len(s)
    n = len(s)
    l = r = 0

    for i in range(1, n):
        if i <= r:
            Z[i] = min(r - i + 1, Z[i - l])
        while i + Z[i] < n and s[Z[i]] == s[i + Z[i]]:
            Z[i] += 1
        if i + Z[i] - 1 > r:
            l, r = i, i + Z[i] - 1
    return Z


print(z_func("abracadabra"))


[11, 0, 0, 1, 0, 1, 0, 4, 0, 0, 1]


## 3. Пошук підрядка через Z-функцію

In [10]:
def z_match(p, t):
    s = p + "$" + t
    Z = z_func(s)
    occurrences = []
    for i in range(len(p) + 1, len(s)):
        if Z[i] == len(p):
            occurrences.append(i - (len(p) + 1))
    return occurrences


text = "абабагаламага"
pattern = "аб"
print(z_match(pattern, text))

[0, 2]


## 4. Стиснення рядка через Z-функцію

In [12]:
def compress_with_z(s):
    z = z_func(s)
    n = len(s)
    for i in range(1, n):
        if i + z[i] == n and z[i] % i == 0:
            return s[:i]
    return s


s = "абырвалгабырвалгабырвалг"
print(compress_with_z(s))

абырвалг


## Відповіді на контрольні запитання

**1. Що таке «префікс-функція» у контексті алгоритмів на рядках, і як вона відрізняється від Z-функції?**

**Префікс-функція** (зазвичай позначається як $\pi$) для рядка $S$ — це масив чисел, де кожне значення $\pi[i]$ дорівнює довжині найдовшого *власного* префікса підрядка $S[0 \dots i]$, який одночасно є і суфіксом цього ж підрядка.

* **Математично:** $\pi[i] = \max \{k \mid S[0 \dots k-1] = S[i-(k-1) \dots i] \}$, де $k \le i$.
* **Основне застосування:** Алгоритм Кнута-Морріса-Пратта (КМП) для пошуку підрядка в рядку.

**Відмінність від Z-функції:**
Головна різниця полягає у визначенні того, *що саме* порівнюється з початком рядка.

| Характеристика | Префікс-функція ($\pi$) | Z-функція ($Z$) |
| :--- | :--- | :--- |
| **Що обчислює** | Довжину найдовшого префікса, що збігається з **суфіксом** поточного підрядка $S[0 \dots i]$. | Довжину найдовшого спільного префікса між рядком $S$ і його **суфіксом**, що починається в $i$ ($S[i \dots |S|-1]$). |
| **Напрямок порівняння** | Дивиться "назад" від поточної позиції $i$, порівнюючи кінець поточного фрагмента з початком рядка. | Дивиться "вперед" від позиції $i$, порівнюючи підрядок, що починається в $i$, з початком рядка $S$. |
| **Складність обчислення** | $O(n)$ | $O(n)$ |

**2. Що таке Z-функція у вищому контексті алгоритмів на рядках, і яка її роль у вирішенні задач?**

**Z-функція** для рядка $S$ довжиною $n$ — це масив, де $Z[i]$ дорівнює довжині найдовшого спільного префікса між рядком $S$ і його суфіксом, що починається з позиції $i$. Іншими словами, $Z[i]$ показує, скільки символів, починаючи з $i$-ї позиції, збігаються з початком рядка. (Зазвичай вважають $Z[0] = 0$).

**Роль у вирішенні задач:**
Z-функція є потужним інструментом для аналізу структури рядка і використовується для:

1.  **Пошуку підрядка в рядку:** Якщо створити новий рядок $T = P + "\#" + T_{ext}$ (де $P$ — зразок, $T_{ext}$ — текст), то всі $Z[i]$ рівні довжині $P$ вказуватимуть на входження зразка.
2.  **Пошуку періодичності:** Дозволяє визначити період рядка (найкоротшу довжину фрагмента, повторенням якого можна отримати рядок).
3.  **Стиснення рядків:** Допомагає знайти найкоротший стиснений вигляд рядка.
4.  **Кількості різних підрядків:** Використовується як проміжний етап у складніших алгоритмах.

**3. Які існують підходи до вирішення задачі «найдовший спільний підрядок» для двох рядків?**

Задача полягає в тому, щоб знайти рядок максимальної довжини, який входить як у рядок $A$, так і в рядок $B$. Основні підходи включають:

* **Динамічне програмування (DP):**
    * Будується таблиця $dp[i][j]$, де значення — це довжина спільного суфікса для префіксів $A[0 \dots i]$ та $B[0 \dots j]$.
    * *Складність:* $O(N \cdot M)$ за часом і пам'яттю. Це повільно для великих рядків.
* **Узагальнене суфіксне дерево (Generalized Suffix Tree):**
    * Будується суфіксне дерево для об'єднаного рядка $A + "\#" + B + "\$"$.
    * Шукається найглибший вузол, у піддереві якого є листки, що належать і до $A$, і до $B$.
    * *Складність:* $O(N + M)$ — лінійний час, найефективніший метод.
* **Суфіксний автомат (Suffix Automaton):**
    * Будується автомат для одного рядка (наприклад, $A$).
    * Другий рядок $B$ "проганяється" через цей автомат, відстежуючи поточну довжину збігу і переходи між станами. Максимальне досягнуте значення і буде відповіддю.
    * *Складність:* $O(N + M)$ — також дуже ефективно і часто простіше в реалізації, ніж суфіксне дерево.
* **Хешування + Бінарний пошук:**
    * Робимо бінарний пошук за довжиною відповіді. Для фіксованої довжини $L$ перевіряємо за допомогою рухомого хешу (Rolling Hash), чи є спільний підрядок такої довжини.
    * *Складність:* $O((N+M) \log (\min(N, M)))$.

**4. Як можна застосувати алгоритми на рядках у задачах обробки природної мови або обробки текстів?**

Хоча сучасна NLP часто базується на нейромережах (трансформери, LLM), класичні рядкові алгоритми залишаються фундаментом для попередньої обробки та специфічних задач:

1.  **Токенізація та стемінг:**
    * Ефективний пошук префіксів і суфіксів використовується для виділення основ слів (наприклад, алгоритм Портера) або розбиття тексту на токени.
2.  **Виявлення плагіату:**
    * Алгоритми на кшталт Рабіна-Карпа (хешування) або пошук найдовшого спільного підрядка дозволяють швидко знаходити запозичені фрагменти тексту у великих базах даних.
3.  **Автодоповнення (Autocomplete):**
    * Структури даних, такі як **Trie (префіксне дерево)**, використовуються для миттєвої пропозиції закінчення слова або фрази під час введення.
4.  **Виправлення помилок (Spell checking):**
    * Використання **відстані Левенштейна** (редакційна відстань) для знаходження слів у словнику, які найбільш схожі на введене слово з помилкою.
5.  **Біоінформатика (обробка текстів ДНК):**
    * Хоча це не "природна мова" у звичному сенсі, методи тут ідентичні: вирівнювання послідовностей, пошук мотивів (патернів) у геномах за допомогою суфіксних структур.
6.  **Пошук та заміна:**
    * Швидкі алгоритми пошуку (КМП, Боєра-Мура) використовуються в текстових редакторах та IDE для миттєвого знаходження фрагментів у коді чи документах.