## Вступ

**Тема:** Стиснення даних. Жадібна стратегія на прикладі кодування Гафмена

**Мета:** навчитись реалізовувати алгоритм побудови дерева оптимальних кодів Гафмена на основі черги з пріоритетом (за допомогою купи) засобами Python.

## Хід роботи

### 1. Налаштування оточення

In [1]:
import heapq
from collections import Counter

### 2. Реалізація класу вузла дерева Гафмена

In [2]:
class node:
    def __init__(self, freq, symbol, left=None, right=None):
        # частота символу
        self.freq = freq
        # назва символу (символ)
        self.symbol = symbol
        # вузол ліворуч від поточного вузла
        self.left = left
        # вузол праворуч від поточного вузла
        self.right = right
        # напрямок дерева (0/1)
        self.huff = ''
    
    def __lt__(self, nxt):
        return self.freq < nxt.freq

### 3. Функція для виведення кодів Гафмена

In [3]:
def printNodes(node, val=''):
    # Код Гафмена для поточного вузла
    newVal = val + str(node.huff)
    
    # якщо вершина не є реберною вершиною
    # то пройти всередині неї
    if(node.left):
        printNodes(node.left, newVal)
    if(node.right):
        printNodes(node.right, newVal)
        
    # якщо node є реберною вершиною тоді
    # вивести його хаффманівський код
    if(not node.left and not node.right):
        print(f"{node.symbol} -> {newVal}")

### 4. Реалізація алгоритму побудови дерева Гафмена

In [4]:
def huffman_encoding(chars, freq):
    # список, що містить невикористані вершини
    nodes = []
    
    # перетворення символів та частот у вузли дерева Гафмена
    for x in range(len(chars)):
        heapq.heappush(nodes, node(freq[x], chars[x]))
    
    while len(nodes) > 1:
        # відсортувати всі вершини за зростанням на основі їх частоти
        left = heapq.heappop(nodes)
        right = heapq.heappop(nodes)
        
        # присвоїти значення напрямку цим вузлам
        left.huff = 0
        right.huff = 1
        
        # об'єднати 2 найменші вершини, щоб створити новий вузол як їхній батько
        newNode = node(left.freq+right.freq, left.symbol+right.symbol, left, right)
        heapq.heappush(nodes, newNode)
    
    return nodes[0]

### 5. Тестування на прикладі з лабораторної роботи

In [5]:
# символи для дерева Гафмена
chars = ['a', 'b', 'c', 'd', 'e', 'f']
# частота символів
freq = [5, 9, 12, 13, 16, 45]

print("Коди Гафмена для символів:")
root = huffman_encoding(chars, freq)
printNodes(root)

Коди Гафмена для символів:
f -> 0
c -> 100
d -> 101
a -> 1100
b -> 1101
e -> 111


### 6. Функція для обчислення символів та їх частот з повідомлення

In [6]:
def get_frequency(message):
    """Обчислює частоту символів у повідомленні"""
    counter = Counter(message)
    chars = list(counter.keys())
    freq = list(counter.values())
    return chars, freq

# Тестування на прикладі
test_message = "hello world"
chars_test, freq_test = get_frequency(test_message)
print(f"Символи: {chars_test}")
print(f"Частоти: {freq_test}")

Символи: ['h', 'e', 'l', 'o', ' ', 'w', 'r', 'd']
Частоти: [1, 1, 3, 2, 1, 1, 1, 1]


### 7. Реалізація декодування Гафмена

In [7]:
def huffman_decode(encoded_data, root):
    """Декодує повідомлення за допомогою дерева Гафмена"""
    decoded_output = []
    current_node = root
    
    for bit in encoded_data:
        if bit == '0':
            current_node = current_node.left
        else:
            current_node = current_node.right
            
        # Якщо досягли листка дерева
        if not current_node.left and not current_node.right:
            decoded_output.append(current_node.symbol)
            current_node = root
    
    return ''.join(decoded_output)

# Приклад декодування
encoded_example = "01001011101111"
decoded_message = huffman_decode(encoded_example, root)
print(f"Декодоване повідомлення: {decoded_message}")

Декодоване повідомлення: fcaef


## Відповіді на контрольні питання

**1. Що таке жадібні алгоритми?**

Жадібні алгоритми - це клас алгоритмів, які на кожному кроці роблять локально оптимальний вибір, сподіваючись знайти глобальний оптимум. Вони приймають рішення на основі поточної інформації, не переглядаючи попередні вибори.

**2. Що таке префіксний код? Який код використовується у коді Гафмена?**

Префіксний код - це код, в якому жоден кодовий символ не є префіксом іншого. У кодуванні Гафмена використовуються саме префіксні коди змінної довжини, що забезпечує однозначність декодування.

**3. Як пов'язана структура даних «купа» зі структурою даних «черга з пріоритетами»?**

Купа є ефективним способом реалізації черги з пріоритетами. Мінімальна купа дозволяє швидко (за O(log n)) витягувати елемент з найменшим пріоритетом та додавати нові елементи.

**4. Що таке стиснення даних і для чого воно використовується?**

Стиснення даних - це процес зменшення розміру даних за рахунок видалення надлишковості. Використовується для економії пам'яті, прискорення передачі даних та зменшення вартості зберігання.

**5. Які кроки необхідно виконати для стиснення даних за допомогою алгоритму кодування Гафмена?**

1. Підрахувати частоту кожного символу
2. Створити мінімальну купу з вузлів для кожного символу
3. Побудувати дерево Гафмена, об'єднуючи найменші вузли
4. Присвоїти коди символам на основі шляху в дереві
5. Закодувати вихідне повідомлення

**6. Які основні обмеження та недоліки алгоритму кодування Гафмена?**

- Потребує двох проходів по даних
- Необхідно зберігати дерево разом з закодованими даними
- Неефективний для рівномірного розподілу символів
- Часова складність O(n log n)

**7. Які існують альтернативні методи стиснення даних?**

- Кодування Шеннона-Фано
- Адаптивне кодування Гафмена
- Арифметичне кодування
- LZ77, LZ78 та їх варіанти
- Алгоритм Лемпеля-Зіва-Велча (LZW)

**8. Які практичні застосування алгоритмів стиснення даних?**

- Формати файлів: ZIP, GZIP, RAR
- Мультимедійні кодеки: JPEG, PNG, MP3
- Передача факсів та текстів
- Веб-технології (стиснення HTTP)
- Архівування даних
- Потокове відео та аудіо

## Висновки

У ході виконання лабораторної роботи було успішно реалізовано алгоритм кодування Гафмена засобами Python. Вивчено принципи роботи жадібних алгоритмів та структур даних "купа" і "черга з пріоритетами".

Основні досягнення:
- Реалізовано клас вузла дерева Гафмена
- Створено алгоритм побудови оптимального дерева кодів
- Розроблено функції кодування та декодування
- Протестовано роботу алгоритму на контрольних прикладах

Алгоритм Гафмена демонструє ефективність жадібної стратегії для задач оптимізації і має широке практичне застосування у сфері стиснення даних.