# Лабораторна робота №9
## Тема: Алгоритми на рядках
## Виконав: Варакута Олександр
# Група: КІ-24-1

### Мета роботи: Ознайомитися з основними алгоритмами обробки рядків, реалізувати алгоритм пошуку підрядка у рядку та Z-функцію, а також дослідити їх ефективність.

## 1. Теоретичні відомості
Рядок — це впорядкована послідовність символів з деякого алфавіту.
Алгоритми обробки рядків широко використовуються у текстових редакторах,
пошукових системах, компіляторах, біоінформатиці та базах даних.

Однією з основних задач є пошук підрядка в рядку.
Нехай задано текст $t$ і шаблон $p$, де:
$$
|p| < |t|
$$
Потрібно знайти всі позиції входження шаблону $p$ у текст $t$.

## 2. Наївний алгоритм пошуку підрядка

In [5]:
def naive_match(p, t):
    assert len(p) <= len(t)
    occurrences = []

    for i in range(len(t) - len(p) + 1):
        match = True
        for j in range(len(p)):
            if t[i + j] != p[j]:
                match = False
                break
        if match:
            occurrences.append(i)

    return occurrences

text = "needleneedleneedle"
pattern = "needle"

naive_match(pattern, text)

[0, 6, 12]

### 3.Асимптотична складність наївного алгоритму

У найгіршому випадку:
$$
T(n, m) = O(|t| \cdot |p|)
$$
де $|t|$ — довжина тексту, $|p|$ — довжина шаблону.

## 4. Z-функція

Z-функція для рядка $s$ довжини $n$ — це масив $Z$, де:

$$Z[i] = \max \{ k : s[0 \ldots k-1] = s[i \ldots i+k-1] \}$$

Z-функція дозволяє порівнювати підрядки за лінійний час.

In [6]:
def z_function(s):
    n = len(s)
    Z = [0] * n
    Z[0] = n

    l, r = 0, 0
    for i in range(1, n):
        if i <= r:
            Z[i] = min(r - i + 1, Z[i - l])
        while i + Z[i] < n and s[Z[i]] == s[i + Z[i]]:
            Z[i] += 1
        if i + Z[i] - 1 > r:
            l, r = i, i + Z[i] - 1

    return Z

z_function("abracadabra")

[11, 0, 0, 1, 0, 1, 0, 4, 0, 0, 1]

## 5. Пошук підрядка з використанням Z-функції

Формуємо рядок:
$$
s = p + \$ + t
$$
де символ `$` не зустрічається у рядках $p$ і $t$.

Якщо:
$$
Z[i] = |p|
$$
то в тексті $t$ з позиції $i - |p| - 1$ починається входження шаблону.

In [7]:
def z_match(p, t):
    s = p + "$" + t
    Z = z_function(s)

    occurrences = []
    for i in range(len(p) + 1, len(s)):
        if Z[i] == len(p):
            occurrences.append(i - len(p) - 1)

    return occurrences

z_match(pattern, text)

[0, 6, 12]

### Асимптотична складність алгоритму на основі Z-функції

Часова складність:
$$
T(n, m) = O(|t| + |p|)
$$

Алгоритм є значно ефективнішим за наївний для великих текстів.

### 5.1 Порівняння алгоритмів

In [8]:
import time

def measure_time(func, p, t):
    start = time.time()
    func(p, t)
    return time.time() - start

long_text = "abc" * 10000 + "needle" + "abc" * 10000

time_naive = measure_time(naive_match, pattern, long_text)
time_z = measure_time(z_match, pattern, long_text)

time_naive, time_z


(0.04033184051513672, 0.05263566970825195)

Отримані результати підтверджують, що алгоритм на основі Z-функції
працює значно швидше для великих рядків.


## Контрольні питання

### 1. Що таке «префікс-функція» у контексті алгоритмів на рядках, і як вона відрізняється від Z-функції?

Префікс-функція — це масив $\pi$, де:
$$
\pi[i] = \text{довжина найбільшого власного префікса рядка } s[0..i],
$$
який одночасно є його суфіксом.

Префікс-функція використовується в алгоритмі Кнута–Морріса–Пратта (KMP).

Відмінності між префікс-функцією та Z-функцією:
- префікс-функція порівнює префікси з суфіксами;
- Z-функція порівнює префікс з підрядками, що починаються з позиції $i$**;
- обидві функції обчислюються за лінійний час:
$$
O(n)
$$
але використовуються для різних алгоритмічних задач.

### 2. Що таке Z-функція у контексті алгоритмів на рядках, і яке вона має значення для розв’язання задач?

Z-функція — це масив $Z$, де:
$$
Z[i] = \max \{ k : s[0..k-1] = s[i..i+k-1] \}
$$

Z-функція показує, на скільки символів підрядок,
що починається з позиції $i$, збігається з префіксом рядка.

Вона використовується для:
- пошуку підрядка у рядку;
- знаходження повторюваних фрагментів;
- задач стиснення рядків;
- аналізу періодичності рядків.

Її ключова перевага — лінійна складність:
$$
O(n)
$$

### 3. Які існують підходи до розв’язання задачі «найдовший спільний підрядок» для двох рядків?

Основні підходи:
1. Динамічне програмування 
   Складність:
   $$
   O(n \cdot m)
   $$

2. Суфіксні дерева або суфіксні масиви 
   Дозволяють знайти розв’язок за:
   $$
   O(n + m)
   $$

3. **Алгоритми на основі Z-функції**  
   Використовуються для оптимізованих рішень при певних обмеженнях.

Суфіксні структури є найефективнішими, але складнішими в реалізації.

### 4. Як можна застосувати алгоритми на рядках у задачах обробки природної мови або обробки текстів?

Алгоритми на рядках широко використовуються у:
- пошукових системах;
- аналізі текстових корпусів;
- перевірці орфографії;
- автоматичному перекладі;
- пошуку плагіату;
- біоінформатиці (аналіз ДНК-послідовностей).

Вони дозволяють ефективно працювати з великими обсягами текстових даних
та виконувати пошук, порівняння і стиснення інформації.