---
# <center> Лабораторна робота №9 </center>
## **Тема. Алгоритми на рядках**
## **Мета:** освоїти низку основних алгоритмів на рядках засобами мови Python.
### _Викoнав Данііл Танасієнко 12.12.24_
---

## <center> Хід роботи </center>

### **1.** Створюємо Notebook-документ і реалізовуємо контрольні приклади, що розглядаються у цій роботі, та виконуємо завдання, що надано на самостійну роботу.
### <center> Завдання для самостійної роботи </center>

#### **1)** Повторюємо код, наведений вище для довільних рядків;

##### Реалізування наївного пошуку шаблонів для довільних рядків

In [1]:
def naive_string_matching(text, pattern):
    """
    Наївний алгоритм пошуку шаблону у рядку.

    :param text: Рядок, у якому шукаємо (text).
    :param pattern: Шаблон, який шукаємо (pattern).
    :return: Список індексів початку входжень шаблону у текст.
    """
    n = len(text)  # Довжина тексту
    m = len(pattern)  # Довжина шаблону
    matches = []

    # Перебираємо всі можливі позиції в text, з яких може починатися pattern
    for i in range(n - m + 1):
        match_found = True
        for j in range(m):
            if text[i + j] != pattern[j]:
                match_found = False
                break
        if match_found:
            matches.append(i)

    return matches


if __name__ == "__main__":
    text = "абабаба"
    pattern = "аба"
    result = naive_string_matching(text, pattern)
    print(f"Шаблон знайдено на індексах: {result}")


Шаблон знайдено на індексах: [0, 2, 4]


##### Реалізування Z-функції для довільних рядків на python:

In [9]:
def z_function(s):
    """
    Обчислює Z-функцію для рядка s.

    Z-функція для рядка s обчислює масив z, де z[i] - це довжина найбільшого
    префікса рядка s, який є також суфіксом, починаючи з позиції i.

    Параметри:
        s (str): Рядок, для якого обчислюється Z-функція.

    Повертає:
        list: Масив Z-функції.
    """
    n = len(s)
    z = [0] * n
    l, r, z[0] = 0, 0, n

    for i in range(1, n):
        if i <= r:
            z[i] = min(r - i + 1, z[i - l])
        while i + z[i] < n and s[z[i]] == s[i + z[i]]:
            z[i] += 1
        if i + z[i] - 1 > r:
            l, r = i, i + z[i] - 1

    return z


if __name__ == "__main__":
    s = "abacaba"
    print("Рядок:", s)
    print("Z-функція:", z_function(s))

Рядок: abacaba
Z-функція: [7, 0, 1, 0, 3, 0, 1]


##### Реалізація наївного пошуку підрядка:

In [4]:
def naive_substring_search(text, substring):
    """
    Реалізація наївного пошуку підрядка у тексті.

    :param text: Рядок, у якому здійснюється пошук.
    :param substring: Підрядок, який шукаємо.
    :return: Список індексів початку входжень підрядка у текст.
    """
    n = len(text)
    m = len(substring)
    result = []

    for i in range(n - m + 1):
        match = True
        for j in range(m):
            if text[i + j] != substring[j]:
                match = False
                break
        if match:
            result.append(i)

    return result


if __name__ == "__main__":
    text = "цяцяцяцяця"
    substring = "цяця"
    matches = naive_substring_search(text, substring)
    print(f"Підрядок знайдено на індексах: {matches}")


Підрядок знайдено на індексах: [0, 2, 4, 6]


##### Реалізація cтиснення рядка:

In [5]:
def compress_string(s):
    """
    Стискає рядок, замінюючи повторювані символи кількістю їх появ.

    :param s: Рядок для стискання.
    :return: Стиснутий рядок.
    """
    if not s:
        return ""

    compressed = []
    count = 1

    for i in range(1, len(s)):
        if s[i] == s[i - 1]:
            count += 1
        else:
            compressed.append(s[i - 1] + (str(count) if count > 1 else ""))
            count = 1

    # Додати останній символ
    compressed.append(s[-1] + (str(count) if count > 1 else ""))

    return "".join(compressed)

# Приклад використання
if __name__ == "__main__":
    s = "ааабббвввввггггггг"
    compressed = compress_string(s)
    print(f"Стиснутий рядок: {compressed}")


Стиснутий рядок: а3б3в5г7


#### **2)** Пояснити асимптотику наївного алгоритму пошуку підрядка
# Асимптотика наївного алгоритму пошуку підрядка

## Основні моменти
Наївний алгоритм пошуку підрядка має часову складність, яка залежить від довжин тексту $n$ і підрядка $m$.

### Як працює алгоритм:
1. **Перевірка кожної позиції:**
   Алгоритм послідовно перевіряє всі можливі позиції в тексті, з яких може починатися підрядок.
   - Кількість таких позицій: $n - m + 1$.

2. **Порівняння символів:**
   Для кожної позиції перевіряється, чи збігаються символи підрядка з відповідними символами тексту.
   - У найгіршому випадку, для кожної позиції потрібно перевірити всі $m$ символів підрядка.

### Часова складність
- **Найгірший випадок:**  
  Уявімо текст із $n$ однакових символів та підрядок довжини $m$, що не збігається. Алгоритм виконає:
  $$
  O((n - m + 1) \cdot m) \approx O(n \cdot m)
  $$
  де $m \leq n$.

- **Середній випадок:**  
  Якщо текст і підрядок мають мало спільних повторюваних символів, алгоритм працює швидше, але все одно залишається асимптотика $O(n \cdot m)$.

### Просторова складність
- Просторова складність: $O(1)$, оскільки алгоритм не використовує додаткову пам'ять, крім змінних для індексів і лічильників.

## Переваги
- Простота реалізації.
- Ефективний для коротких текстів і підрядків.

## Недоліки
- Повільний для великих текстів і підрядків через квадратичну залежність у найгіршому випадку.


### **3)** Обчислюємо асимптотичну складність алгоритму стиснення рядка за допомогою 𝑧-функції.
# Аналіз складності алгоритму обчислення Z-функції

## Як працює Z-функція
Для кожної позиції $i$ обчислюється довжина максимального підрядка, який збігається з префіксом рядка. Алгоритм використовує дві межі $l$ та $r$ для оптимізації, щоб уникнути повторного порівняння символів.

### Приклад
Для рядка s = "abacaba":
- Z-функція: $[7, 0, 1, 0, 3, 0, 1]$.

---

## Аналіз складності

### 1. Ініціалізація масиву $z$
- Розмір масиву $z$ дорівнює довжині рядка $n$, тобто створення $z$ потребує $O(n)$ операцій.

### 2. Основний цикл від 1 до $n-1$
- Алгоритм проходить усі позиції від $i = 1$ до $n-1$, виконує перевірки і, за необхідності, запускає цикл порівнянь.
- Кожна позиція може бути оброблена у кілька способів:
  - Якщо $i \leq r$, використовується попередньо обчислене значення $z[i-l]$, що вимагає $O(1)$.
  - Якщо запускається цикл `while`, то збіг символів збільшує $z[i]$, але кожен символ рядка перевіряється не більше одного разу на всьому проміжку виконання алгоритму.

**Сумарно**: Незважаючи на те, що внутрішній цикл `while` виглядає вкладеним, він виконує не більше $n$ ітерацій за весь час роботи, оскільки значення $z[i]$ поступово зростає для кожної позиції $i$, і кожен символ рядка використовується один раз для порівняння.

### 3. Оновлення меж $l, r$
- Оновлення меж $l$ та $r$ виконується тільки тоді, коли знайдено новий збіг, і потребує $O(1)$ для кожної позиції.

---

## Асимптотична складність
Алгоритм проходить рядок один раз, і всі додаткові операції виконуються за константний час або сумарно $O(n)$ для всієї довжини рядка. Отже:
\[
T(n) = O(n)
\]

---

## Пояснення на прикладі
Для s = "abacaba":
1. На позиції $i = 1$: немає збігів, $z[1] = 0$ (1 перевірка).
2. На позиції $i = 2$: є збіг довжиною 1, $z[2] = 1$ (1 перевірка).
3. На позиції $i = 4$: є збіг довжиною 3, $z[4] = 3$ (3 перевірки).
4. На позиції $i = 6$: є збіг довжиною 1, $z[6] = 1$ (1 перевірка).

Для всього рядка виконано 7 перевірок (по числу символів), що підтверджує лінійну складність.

---




### **2.** Надаємо відповіді на контрольні запитання.
### <center> Контрольні питання </center>

#### **1)** Що таке «префікс-функція» у контексті алгоритмів на рядках, і як вона відрізняється від Z-функції?


**Префікс-функція:**
- Префікс-функція для рядка `S` довжиною `n` — це масив `π` довжиною `n`, де `π[i]` визначає довжину найбільшого власного префікса рядка `S[0:i]`, що також є суфіксом цього підрядка.
- Формально, $ \pi[i] = \max \{ k \mid S[0:k] = S[i-k+1:i] \} $.

**Z-функція:**
- Z-функція для рядка `S` довжиною `n` — це масив `Z` довжиною `n`, де `Z[i]` — це довжина найбільшого префікса підрядка `S[i:n]`, який співпадає з префіксом самого рядка `S`.
- Формально, $ Z[i] = \max \{ k \mid S[i:i+k] = S[0:k] \} $.

**Основні відмінності:**
- **Префікс-функція** аналізує власні префікси і суфікси підрядків.
- **Z-функція** оцінює співпадіння префіксів для підрядків з початковим префіксом рядка.



#### **2)** Що таке Z-функція у вищому контексті алгоритмів на рядках, і яка її роль у вирішенні задач?

Z-функція для рядка обчислює для кожної позиції довжину найбільшого префікса, який співпадає з підрядком, що починається з цієї позиції.

**Роль Z-функції:**
- **Пошук підрядків:** Застосовується для ефективного пошуку входжень шаблону в текст.
- **Стиснення рядків:** Використовується в алгоритмах стиснення та пошуку повторюваних частин.
- **Інші задачі:** Застосовується для вирішення задач на рядках, наприклад, для побудови префіксних дерев.


#### **3)** Які існують підходи до вирішення задачі «найдовший спільний підрядок» для двох рядків?

Існують кілька підходів до вирішення задачі пошуку найдовшого спільного підрядка (LCS) для двох рядків:

1. **Брутальний підхід (повне перебрання):**
   - Перевіряється кожен можливий підрядок одного рядка і перевіряється, чи є він підрядком іншого рядка. 
   - **Недолік:** має високу складність $O(n^3)$, де $n$ — довжина рядків.

2. **Динамічне програмування (DP):**
   - Створюється таблиця, де кожен елемент $dp[i][j]$ містить довжину найдовшого спільного підрядка для префіксів рядків $S_1[0:i]$ та $S_2[0:j]$.
   - **Алгоритм:**  
     Якщо $S_1[i-1] == S_2[j-1]$, то $dp[i][j] = dp[i-1][j-1] + 1$;  
     Інакше $dp[i][j] = 0$.  
   - **Часова складність:** $O(n \cdot m)$, де $n$ і $m$ — довжини двох рядків.

3. **Алгоритм на основі суфіксних масивів і LCP (Longest Common Prefix):**
   - Спочатку будується суфіксний масив для двох рядків, а потім знаходиться найдовший спільний префікс (LCP) для кожної пари суфіксів з різних рядків.
   - **Часова складність:** $O(n \log n)$ або $O(n)$ залежно від реалізації суфіксного масиву.

4. **Алгоритм з використанням бінарного пошуку та хешування:**
   - Використовує бінарний пошук для довжини спільного підрядка та хешування для перевірки наявності спільного підрядка заданої довжини.
   - **Часова складність:** $O((n + m) \log n)$.

5. **Алгоритм на основі структури даних «сегментне дерево»:**
   - Використовується для ефективного пошуку спільних підрядків у великих масивах.


#### **4)** Як можна застосувати алгоритми на рядках у задачах обробки природної мови або обробки текстів?

Алгоритми на рядках широко використовуються в NLP та обробці текстів для вирішення таких задач:
- **Пошук і заміна підрядків** — для швидкого виявлення і зміни частин тексту в документах.
- **Аналіз схожості текстів** — для порівняння документів, наприклад, для виявлення плагіату або схожих фрагментів.
- **Моделювання мови** — застосовується для токенізації, що дозволяє розділяти тексти на менші одиниці (наприклад, слова чи фрази).
- **Інформаційний пошук** — у пошукових системах для індексації і швидкого знаходження релевантних документів.
- **Аналіз частотності** — для підрахунку частоти слів і фраз у великих текстах, що корисно для текстового аналізу.
- **Морфологічний аналіз** — для обробки різних словоформ і розпізнавання їх значення в контексті.
- Використання цих алгоритмів значно покращує ефективність обробки текстів і аналізу природної мови.
