Алгоритм Гаффмана
У цьому ноутбуці ми реалізуємо процес кодування та декодування тексту за допомогою алгоритму Гаффмана.

In [11]:
import heapq
from collections import defaultdict

In [12]:
class Node:
    def __init__(self, char, freq):
        self.char = char
        self.freq = freq
        self.left = None
        self.right = None

    # Перевизначення операторів для порівняння вузлів
    def __lt__(self, other):
        return self.freq < other.freq

In [13]:
def calculate_frequency(data):
    """Функція для підрахунку частоти використання символів."""
    freq_dict = defaultdict(int)
    for char in data:
        freq_dict[char] += 1
    return freq_dict

In [14]:
def build_huffman_tree(frequencies):
    """Створення дерева Гаффмана з використанням черги з пріоритетами."""
    priority_queue = [Node(char, freq) for char, freq in frequencies.items()]
    heapq.heapify(priority_queue)

    # Об'єднуємо вузли поки не залишиться - кореневий вузол
    while len(priority_queue) > 1:
        left = heapq.heappop(priority_queue)  # Найменший вузол
        right = heapq.heappop(priority_queue)  # Другий найменший вузол
        merged = Node(None, left.freq + right.freq)  # Об'єднаний вузол
        merged.left = left
        merged.right = right
        heapq.heappush(priority_queue, merged)

    return priority_queue[0]  # Кореневий вузол дерева

In [15]:
def build_codes(node, current_code="", codes={}):
    """Рекурсивно створює коди Гаффмана."""
    if node is None:
        return

    # Якщо символ - це лист (кінцевий вузол), прив'язати код
    if node.char is not None:
        codes[node.char] = current_code
        return

    # Рекурсія для лівої та правої гілки
    build_codes(node.left, current_code + "0", codes)
    build_codes(node.right, current_code + "1", codes)

In [16]:
def huffman_encode(data):
    """Кодує вхідні дані за допомогою алгоритму Гаффмана."""
    frequencies = calculate_frequency(data)
    root = build_huffman_tree(frequencies)
    codes = {}
    build_codes(root, "", codes)

    # Кодування тексту
    encoded_data = "".join([codes[char] for char in data])
    return encoded_data, codes

In [17]:
def huffman_decode(encoded_data, codes):
    """Декодування рядка, закодованого алгоритмом Гаффмана."""
    reverse_codes = {v: k for k, v in codes.items()}
    decoded_data = ""

    current_code = ""
    for bit in encoded_data:
        current_code += bit
        if current_code in reverse_codes:
            decoded_data += reverse_codes[current_code]
            current_code = ""

    return decoded_data

In [18]:
data = "02020244121212454545"
print("Вхідні дані:", data)

Вхідні дані: 02020244121212454545


In [19]:
encoded_data, codes = huffman_encode(data)
print("Закодовані дані:", encoded_data)
print("Коди символів:", codes)

Закодовані дані: 0010001000100101111101111011110011100111001110
Коди символів: {'0': '00', '4': '01', '2': '10', '5': '110', '1': '111'}


In [20]:
decoded_data = huffman_decode(encoded_data, codes)
print("Декодовані дані:", decoded_data)

Декодовані дані: 02020244121212454545
