## Лабораторна робота № 10 Стиснення даних. Жадібна стратегія на прикладі кодування Гафмена
## Мета: навчитись реалізовувати алгоритм побудови дерева оптимальних кодів Гафмена на основі черги з пріоритетом (за допомогою купи) засобами Python.
### Виконав: Яцентюк Євгеній, група: КІ-24-1 

**[GitHub](https://github.com/kefir4ikk)**

## 1.Алгоритм побудови дерева Гафмена

In [9]:
text = "AABAABBAABCBCAAADAAAABAAABABABCBC" # Мій варіант 23-22=(1)
print(f"Вхідний текст: {text}\n")

# Обчислення частот
chars, freq = calculate_frequencies(text)
print("Символи:", chars)
print("Частоти:", freq)
print("-" * 20)

# Створення купи (Priority Queue)
nodes = []
for x in range(len(chars)):
    heapq.heappush(nodes, Node(freq[x], chars[x]))

# Побудова дерева Гафмена
while len(nodes) > 1:
    left = heapq.heappop(nodes)
    right = heapq.heappop(nodes)

    left.huff = 0
    right.huff = 1

    new_node = Node(left.freq + right.freq, left.symbol + right.symbol, left, right)
    
    heapq.heappush(nodes, new_node)

root = nodes[0]

# Генерація кодів
print("Коди Гафмена:")
huffman_codes = print_codes(root)
print("-" * 20)

# Кодування повідомлення
encoded_msg = "".join([huffman_codes[char] for char in text])
print(f"Закодоване повідомлення (біти): {encoded_msg}")

# Декодування (Перевірка)
decoded_msg = huffman_decoding(encoded_msg, root)
print(f"Декодоване повідомлення: {decoded_msg}")

# Перевірка на співпадіння
if text == decoded_msg:
    print("\nУСПІХ: Декодований текст збігається з оригіналом.")
else:
    print("\nПОМИЛКА: Тексти не збігаються.")

Вхідний текст: AABAABBAABCBCAAADAAAABAAABABABCBC

Символи: ['A', 'B', 'C', 'D']
Частоти: [18, 10, 4, 1]
--------------------
Коди Гафмена:
'D' -> 000
'C' -> 001
'B' -> 01
'A' -> 1
--------------------
Закодоване повідомлення (біти): 11011101011101001010011110001111011110110110100101001
Декодоване повідомлення: AABAABBAABCBCAAADAAAABAAABABABCBC

УСПІХ: Декодований текст збігається з оригіналом.


## Відповіді на контрольні питання

### Відповіді на контрольні запитання

**1. Що таке жадібні алгоритми?**
Жадібні алгоритми (Greedy algorithms) — це алгоритми, які на кожному кроці приймають рішення, що є оптимальним у даний конкретний момент (локальний оптимум), з надією, що серія таких рішень призведе до глобально оптимального рішення задачі.
* **У контексті роботи:** Алгоритм Гафмена є жадібним, тому що на кожному кроці він обирає два вузли з *найменшими* частотами для об'єднання, не замислюючись про структуру дерева в майбутньому.

**2. Що таке префіксний код? Який код використовується у коді Гафмена?**
Префіксний код — це система кодування, в якій код жодного символу не є початком (префіксом) коду іншого символу.
* **Перевага:** Це дозволяє декодувати потік бітів однозначно, не використовуючи спеціальних розділювачів між символами.
* **У Гафмена:** Використовуються **бінарні префіксні коди змінної довжини**. Найчастіші символи отримують найкоротші коди, а рідкісні — довші.



**3. Як пов’язана структура даних «купа» зі структурою даних «черга з пріоритетами»?**
Це відношення реалізації та абстракції:
* **Черга з пріоритетами (Priority Queue)** — це *абстрактний тип даних (ADT)*, який визначає інтерфейс: ми повинні вміти додавати елементи та витягувати елемент з найвищим (або найнижчим) пріоритетом.
* **Купа (Heap)** — це конкретна *структура даних*, яка найчастіше використовується для ефективної реалізації черги з пріоритетами. Вона дозволяє виконувати операції вставки та видалення пріоритетного елемента за час $O(\log n)$.

**4. Що таке стиснення даних і для чого воно використовується? Які його основні переваги?**
Стиснення даних — це процес перекодування інформації таким чином, щоб зменшити кількість бітів, необхідних для її представлення.
* **Використання:** Для зменшення обсягу файлів та пришвидшення передачі даних мережею.
* **Переваги:** Економія місця на носіях інформації (HDD/SSD), зменшення витрат на трафік, швидше завантаження веб-сторінок та передача мультимедіа.

**5. Які кроки необхідно виконати для стиснення даних за допомогою алгоритму кодування Гафмена?**
1.  **Аналіз частот:** Просканувати вхідний текст і підрахувати кількість входжень кожного символу.
2.  **Створення черги:** Створити вузли для кожного символу і помістити їх у чергу з пріоритетами (Min-Heap).
3.  **Побудова дерева:** Циклічно витягувати два вузли з найменшими частотами, об'єднувати їх у новий батьківський вузол (сума частот) і повертати назад у купу, доки не залишиться один корінь.
4.  **Генерація кодів:** Пройти від кореня до кожного листа дерева. Лівий перехід — 0, правий — 1. Записати отримані шляхи як коди символів.
5.  **Кодування:** Замінити кожен символ вхідного повідомлення на відповідний бітовий код.

**6. Які основні обмеження та недоліки алгоритму кодування Гафмена? Чи можливо покращити його продуктивність?**
* **Недоліки:**
    * *Статичність:* Потрібно знати частоти символів наперед (прочитати файл двічі) або передавати таблицю кодів разом з даними, що збільшує розмір малих файлів.
    * Алгоритм не враховує залежності між сусідніми символами (наприклад, після "q" часто йде "u").
* **Покращення:** Використання **адаптивного алгоритму Гафмена**. Він будує дерево динамічно в процесі читання даних, що дозволяє стискати дані за один прохід і адаптуватися до зміни частот у файлі.

**7. Які існують альтернативні методи стиснення даних, що можуть конкурувати з алгоритмом Гафмена?**
* **Арифметичне кодування:** Зазвичай забезпечує кращий ступінь стиснення, оскільки може кодувати символ дробовою кількістю бітів (Гафмен — лише цілою).
* **LZW (Lempel-Ziv-Welch):** Словниковий метод (використовується в GIF, PDF).
* **LZ77 / LZ78 (Deflate):** Комбінація словникового стиснення та Гафмена (використовується в ZIP, PNG).
* **BWT (Burrows-Wheeler Transform):** Використовується в архіваторах типу bzip2.

**8. Які практичні застосування можуть мати алгоритми стиснення даних, зокрема алгоритм Гафмена, у сучасних інформаційних системах?**
* **Архіватори:** ZIP, GZIP, WinRAR (часто як останній етап після LZ77).
* **Мультимедіа:** Формати JPEG (останній етап стиснення коефіцієнтів), MP3 (стиснення аудіопотоку), PNG.
* **Веб:** Стиснення HTTP-відповідей (GZIP/Brotli) для швидшого завантаження сайтів.