---
# <center> Лабораторна робота №9 </center>
## **Тема. Алгоритми на рядках**
## **Мета:** освоїти низку основних алгоритмів на рядках засобами мови Python.
---

## <center> Хід роботи </center>

### **1.** Створюємо Notebook-документ і реалізовуємо контрольні приклади, що розглядаються у цій роботі, та виконуємо завдання, що надано на самостійну роботу.
### <center> Завдання для самостійної роботи </center>

#### **1)** Повторюємо код, наведений вище для довільних рядків;

In [2]:
def naive_string_matching(text, pattern):
    """
    Реалізація наївного алгоритму пошуку шаблонів.
    
    Parameters:
    text (str): рядок, у якому здійснюється пошук.
    pattern (str): шаблон, який шукається в тексті.
    
    Returns:
    list: список індексів, на яких починається шаблон у тексті.
    """
    n = len(text)    # Довжина тексту
    m = len(pattern) # Довжина шаблону
    positions = []   # Список для збереження індексів знайдених входжень
    
    # Перебираємо всі можливі позиції початку шаблону в тексті
    for i in range(n - m + 1):
        match = True
        # Перевіряємо відповідність символів шаблону тексту
        for j in range(m):
            if text[i + j] != pattern[j]:
                match = False
                break
        if match:
            positions.append(i)  # Якщо збіг знайдено, додаємо індекс
        
    return positions

# Приклад використання
text = "ABABCABCABABABC"
pattern = "ABC"

positions = naive_string_matching(text, pattern)
print(f"Шаблон знайдено на позиціях: {positions}")

Шаблон знайдено на позиціях: [2, 5, 12]


In [4]:
def compute_z_function(s):
    """
    Обчислення Z-функції для рядка.
    
    Z-функція для рядка s визначається як масив Z,
    де Z[i] — це довжина найдовшого префіксу рядка s,
    який починається з позиції i.
    
    Parameters:
    s (str): рядок для обчислення Z-функції.
    
    Returns:
    list: масив Z-функції.
    """
    n = len(s)
    z = [0] * n  # Ініціалізація масиву Z
    l, r, k = 0, 0, 0  # Індекси меж поточного Z-блоку
    
    for i in range(1, n):
        if i <= r:  # Якщо i знаходиться в межах поточного Z-блоку
            k = i - l
            z[i] = min(r - i + 1, z[k])
        # Розширення меж збігу вручну
        while i + z[i] < n and s[z[i]] == s[i + z[i]]:
            z[i] += 1
        # Оновлення меж Z-блоку
        if i + z[i] - 1 > r:
            l, r = i, i + z[i] - 1
    z[0] = n  # Перший елемент Z-функції — довжина рядка
    return z

# Приклад використання
s = "abacaba"
z = compute_z_function(s)
print(f"Z-функція для рядка '{s}': {z}")


Z-функція для рядка 'abacaba': [7, 0, 1, 0, 3, 0, 1]


In [6]:
def naive_substring_search(text, pattern):
    """
    Наївний алгоритм пошуку підрядка у рядку.
    
    Parameters:
    text (str): рядок, у якому здійснюється пошук.
    pattern (str): підрядок, який шукається в тексті.
    
    Returns:
    list: список індексів, на яких починається підрядок у тексті.
    """
    n = len(text)    # Довжина тексту
    m = len(pattern) # Довжина підрядка
    positions = []   # Список для збереження індексів знайдених входжень

    # Перебір усіх можливих початкових позицій для підрядка
    for i in range(n - m + 1):
        # Перевіряємо, чи збігається підрядок з частиною тексту
        if text[i:i + m] == pattern:
            positions.append(i)  # Якщо знайдено збіг, додаємо індекс

    return positions

# Приклад використання
text = "abracadabra"
pattern = "abra"

positions = naive_substring_search(text, pattern)
print(f"Підрядок знайдено на позиціях: {positions}")


Підрядок знайдено на позиціях: [0, 7]


In [8]:
def compress_string(s):
    """
    Стискання рядка шляхом заміни послідовних однакових символів
    на символ і кількість повторень.
    
    Parameters:
    s (str): вхідний рядок для стискання.
    
    Returns:
    str: стиснений рядок.
    """
    if not s:  # Перевірка на порожній рядок
        return ""
    
    compressed = []
    count = 1  # Лічильник повторень символа

    for i in range(1, len(s)):
        if s[i] == s[i - 1]:
            count += 1  # Якщо символ збігається з попереднім, збільшуємо лічильник
        else:
            # Додаємо до результату символ і його кількість
            compressed.append(s[i - 1] + str(count))
            count = 1  # Скидаємо лічильник

    # Додаємо останню групу символів
    compressed.append(s[-1] + str(count))

    # Об'єднуємо всі частини в один рядок
    result = ''.join(compressed)
    return result

# Приклад використання
input_string = "aaabcccccaaa"
compressed_string = compress_string(input_string)
print(f"Стиснений рядок: {compressed_string}")


Стиснений рядок: a3b1c5a3


# Аналіз асимптотики наївного алгоритму пошуку підрядка

---

## Опис алгоритму

Наївний алгоритм пошуку підрядка перевіряє кожну можливу позицію в рядку `text`, з якої може починатися підрядок `pattern`. Для кожної позиції алгоритм порівнює символи підрядка з відповідними символами тексту.

---

## Аналіз часу виконання

### Нехай:
- $n$ — довжина тексту (`text`).
- $m$ — довжина підрядка (`pattern`).

### Найгірший випадок
У найгіршому випадку кожна з $n - m + 1$ можливих позицій у тексті перевіряється повністю. Для кожної позиції відбувається до $m$ порівнянь символів.

$$
T_{\text{worst}} = O((n - m + 1) \cdot m) = O(n \cdot m)
$$

### Приклад найгіршого випадку:
Текст: `aaaaaa`  
Підрядок: `aaa`  

Для кожної позиції алгоритм виконає $m = 3$ порівняння, що призводить до повного перегляду всього тексту для кожної позиції.

---

### Середній випадок
У середньому випадку підрядок буде збігатися лише частково або зовсім не збігатися для більшості позицій. У такому разі кількість порівнянь буде меншою, ніж у найгіршому випадку, але залежить від розподілу символів у тексті й підрядку.

Середній час виконання залежить від ймовірності випадкового збігу символів і становить:

$$
T_{\text{average}} = O(n \cdot m)
$$

---

### Найкращий випадок
У найкращому випадку алгоритм знаходить повний збіг підрядка на першій позиції або всі символи тексту та підрядка різні, тому перевірки швидко завершуються.

$$
T_{\text{best}} = O(n)
$$

---

## Просторові витрати
Наївний алгоритм використовує лише кілька змінних для ітерації та збереження результатів. Тому просторові витрати є константними:

$$
S = O(1)
$$

---

# Аналіз асимптотичної складності алгоритму стиснення рядка за допомогою $Z$-функції

---

## Опис алгоритму
Алгоритм стиснення рядка за допомогою $Z$-функції використовує властивості $Z$-функції, щоб знаходити повторювані підрядки в тексті. Стискання здійснюється шляхом заміни довгих повторів на компактне представлення у форматі "символ + кількість повторень".

---

## Ключові кроки алгоритму

1. Обчислення $Z$-функції для рядка $s$ довжини $n$.
2. Використання значень $Z[i]$ для визначення найдовшого префіксу, який збігається з підрядком, що починається з позиції $i$.
3. Побудова стисненого рядка на основі отриманих даних.

---

## Аналіз часу виконання

### Обчислення $Z$-функції
Обчислення $Z$-функції виконується за час $O(n)$, оскільки кожен символ тексту аналізується не більше двох разів.

### Прохід по значеннях $Z[i]$
Після обчислення $Z$-функції алгоритм проходить по всіх значеннях $Z[i]$ для визначення повторів і формування стисненого рядка. Цей етап також має складність $O(n)$, оскільки кожна позиція аналізується один раз.

### Загальна складність
Загальна складність алгоритму є сумою складностей обчислення $Z$-функції та проходу по значеннях $Z[i]$:

$$
T(n) = O(n) + O(n) = O(n)
$$

---

## Просторові витрати

Алгоритм потребує $O(n)$ пам’яті для зберігання значень $Z$-функції та змінних для побудови стисненого рядка. Таким чином, просторові витрати є:

$$
S(n) = O(n)
$$

---

### **2.** Надаємо відповіді на контрольні запитання.
### <center> Контрольні питання </center>

## 1. Що таке «префікс-функція» у контексті алгоритмів на рядках, і як вона відрізняється від $Z$-функції?

### Префікс-функція
- Префікс-функція $\pi[i]$ для рядка $s$ — це довжина найбільшого префікса рядка $s[0 \dots i]$, який одночасно є суфіксом цього підрядка, але не дорівнює йому повністю.
- Формально:
$$
\pi[i] = \max \{ k \,|\, k < i \text{ і } s[0 \dots k-1] = s[i-k+1 \dots i] \}.
$$
- Префікс-функція використовується в алгоритмі Кнута-Морріса-Пратта (KMP) для швидкого пошуку підрядків у тексті.

### $Z$-функція
- $Z[i]$ для рядка $s$ — це довжина найбільшого підрядка, починаючи з позиції $i$, який збігається з префіксом рядка $s$.
- Формально:
$$
Z[i] = \max \{ k \,|\, s[0 \dots k-1] = s[i \dots i+k-1] \}.
$$
- $Z$-функція знаходить усі збіги префікса з іншими частинами рядка і широко застосовується у задачах пошуку підрядків.

### Відмінності між префікс-функцією та $Z$-функцією:
| **Характеристика**          | **Префікс-функція** | **$Z$-функція**       |
|-----------------------------|---------------------|-----------------------|
| **Інтерпретація**           | Довжина префікса, який є суфіксом | Довжина префікса, який починається з $i$ |
| **Основна мета**            | Використовується в KMP для пошуку підрядка | Пошук усіх позицій збігу підрядків |
| **Часова складність**       | $O(n)$             | $O(n)$               |

---

## 2. Що таке $Z$-функція у вищому контексті алгоритмів на рядках, і яка її роль у вирішенні задач?

### Опис $Z$-функції
- $Z$-функція рядка $s$ є масивом довжин збігів префіксів із суфіксами, починаючи з кожної позиції.
- Основна властивість: $Z[0] = n$ (довжина рядка), а $Z[i]$ визначає довжину найбільшого префікса, що збігається з підрядком, починаючи з $i$.

### Роль у вирішенні задач
1. **Пошук підрядка:**
   - Об'єднують рядок `pattern` і `text`, додаючи роздільник, наприклад `$`, формуючи рядок `pattern$text`.
   - Після обчислення $Z$-функції шукають значення $Z[i]$, рівні довжині шаблона.

2. **Аналіз повторів:**
   - Використовується для знаходження періодичності рядка.

3. **Стиснення рядків:**
   - Використовується для визначення повторюваних підрядків, що допомагає оптимізувати зберігання тексту.

4. **Задачі комбінаторики на рядках:**
   - Наприклад, пошук всіх суфіксів, які є префіксами.

Часова складність обчислення $Z$-функції — $O(n)$, що робить її ефективним інструментом для задач на рядках.

---

## 3. Які існують підходи до вирішення задачі «найдовший спільний підрядок» для двох рядків?

### Опис задачі
Знайти найдовший підрядок, який зустрічається як у рядку $A$, так і в рядку $B$.

### Методи вирішення:
1. **Метод динамічного програмування:**
   - Створюється матриця $dp[i][j]$, де $dp[i][j]$ — це довжина найдовшого підрядка, що закінчується на позиціях $i$ в $A$ та $j$ в $B$.
   - Формула рекурентності:
     $$
     dp[i][j] = 
     \begin{cases} 
     dp[i-1][j-1] + 1, & \text{якщо } A[i] = B[j], \\
     0, & \text{інакше}.
     \end{cases}
     $$
   - Часова складність: $O(n \cdot m)$.

2. **Використання суфіксних структур:**
   - Створюється суфіксний масив для об'єднаного рядка $A\#B$.
   - Використовується для пошуку найдовшого спільного префікса між суфіксами.
   - Часова складність: $O(n \log n)$.

3. **Бінарний пошук + хешування:**
   - Здійснюється бінарний пошук довжини спільного підрядка.
   - Перевірка наявності підрядка здійснюється за допомогою хеш-функцій.
   - Часова складність: $O(n \log n)$.

---


## 4. Як можна застосувати алгоритми на рядках у задачах обробки природної мови або обробки текстів?

### Приклади застосувань:
1. **Пошук ключових слів:**
   - Використання алгоритмів, таких як KMP або $Z$-функція, для швидкого пошуку ключових слів у тексті.

2. **Аналіз текстових документів:**
   - Пошук повторюваних фраз, визначення унікальних слів.

3. **Стиснення даних:**
   - Використання алгоритмів для пошуку повторюваних підрядків у тексті (наприклад, $Z$-функція) для стиснення текстів.

4. **Порівняння текстів:**
   - Використання суфіксних структур або алгоритмів пошуку спільного підрядка для визначення схожості між документами.

5. **Аналіз ДНК-послідовностей:**
   - Алгоритми на рядках застосовуються для знаходження схожості між ДНК-ланцюгами, пошуку мутацій і аналізу повторюваних сегментів.

6. **Машинне навчання та NLP:**
   - Обробка токенів, пошук часткових збігів, кластеризація текстів на основі схожості.

Алгоритми на рядках є основою багатьох задач у галузі обробки текстів і природної мови, забезпечуючи ефективне вирішення навіть складних проблем.





