## Сячинова Ксения, НММбд-02-22



Алгоритм Хаффмана — это алгоритм сжатия данных, который использует переменную длину кодирования для каждого символа на основе их частоты в сообщении. Символам с более высокой частотой присваиваются более короткие коды, что позволяет уменьшить общий объем передаваемых данных.

In [1]:
import heapq
from collections import defaultdict

class Node:
    def __init__(self, char, freq):
        self.char = char
        self.freq = freq
        self.left = None
        self.right = None

    def __lt__(self, other):
        return self.freq < other.freq

def build_huffman_tree(data):
    frequency = defaultdict(int)
    for char in data:
        frequency[char] += 1

    priority_queue = [Node(char, freq) for char, freq in frequency.items()]
    heapq.heapify(priority_queue)

    while len(priority_queue) > 1:
        left = heapq.heappop(priority_queue)
        right = heapq.heappop(priority_queue)
        merged = Node(None, left.freq + right.freq)
        merged.left = left
        merged.right = right
        heapq.heappush(priority_queue, merged)

    return priority_queue[0]

def build_huffman_codes(root):
    codes = {}

    def traverse(node, code):
        if node.char is not None:
            codes[node.char] = code
            return
        traverse(node.left, code + '0')
        traverse(node.right, code + '1')

    traverse(root, '')
    return codes

def encode(data, codes):
    encoded_data = ''
    for char in data:
        encoded_data += codes[char]
    return encoded_data

def decode(encoded_data, root):
    decoded_data = ''
    current = root
    for bit in encoded_data:
        if bit == '0':
            current = current.left
        else:
            current = current.right
        if current.char is not None:
            decoded_data += current.char
            current = root
    return decoded_data

Рассмортим какой-нибудь пример и убедимся, что код работает корректно.

In [None]:
data = "abbbcccsdddasdzxcxzzxc"
root = build_huffman_tree(data)
codes = build_huffman_codes(root)
encoded_data = encode(data, codes)
decoded_data = decode(encoded_data, root)

print("Original data:", data)
print("Huffman Codes:", codes)
print("Encoded data:", encoded_data)
print("Decoded data:", decoded_data)

Original data: abbbcccsdddasdzxcxzzxc
Huffman Codes: {'d': '00', 'c': '01', 'x': '100', 'z': '101', 'b': '110', 's': '1110', 'a': '1111'}
Encoded data: 1111110110110010101111000000011111110001011000110010110110001
Decoded data: abbbcccsdddasdzxcxzzxc


Описание кода.

Для начала реализуем класс "Node" - это класс, представляющий узел в дереве Хаффмана. Узел содержит символ (char), его частоту (freq) и ссылки на левого и правого потомков.

Затем напишем функции, которые соответсвенно кодируют и декодируют сообщение.


*  build_huffman_tree(data) - функция для построения дерева Хаффмана на основе
входных данных. Она создает приоритетную очередь узлов, сортируя их по частоте, а затем объединяет узлы с наименьшей частотой, пока не останется один корневой узел.

*  build_huffman_codes(root) - функция для создания таблицы кодов Хаффмана на основе построенного дерева. Она рекурсивно проходит по дереву, присваивая битовые коды символам.

*  encode(data, codes) - функция для кодирования входных данных с использованием таблицы кодов Хаффмана. Данная функция заменяет каждый символ его соответствующим битовым кодом.

*  decode(encoded_data, root) - функция для декодирования закодированных данных с использованием дерева Хаффмана, функция последовательно проходит по битам и восстанавливает исходные символы.

Можно сделать вывод, что aлгоритм Хаффмана позволяет эффективно сжимать данные, используя переменную длину кодирования для каждого символа в зависимости от его частоты в сообщении.