In [1]:
import heapq
from collections import defaultdict

class Node:
    def __init__(self, char, freq):
        self.char = char
        self.freq = freq
        self.left = None
        self.right = None

    # Для использования в heapq, определяем сравнение узлов по частоте
    def __lt__(self, other):
        return self.freq < other.freq

def build_huffman_tree(text):
    """
    Строит дерево Хаффмана на основе частоты символов в тексте.
    Возвращает корневой узел дерева Хаффмана.
    """

    # 1. Подсчет частоты символов
    frequency = defaultdict(int)
    for char in text:
        frequency[char] += 1

    # 2. Создание узлов для каждого символа и добавление их в кучу
    heap = [Node(char, freq) for char, freq in frequency.items()]
    heapq.heapify(heap)  # Преобразуем список в кучу

    # 3. Объединение узлов до тех пор, пока в куче не останется только один узел (корень дерева)
    while len(heap) > 1:
        node1 = heapq.heappop(heap)  # Извлекаем узел с наименьшей частотой
        node2 = heapq.heappop(heap)  # Извлекаем следующий узел с наименьшей частотой

        # Создаем новый родительский узел с частотой, равной сумме частот дочерних узлов
        merged_node = Node(None, node1.freq + node2.freq)  # Код None для родительского узла
        merged_node.left = node1
        merged_node.right = node2

        heapq.heappush(heap, merged_node)  # Добавляем новый узел в кучу

    return heap[0]  # Возвращаем корень дерева

def build_huffman_codes(root):
    """
    Генерирует коды Хаффмана на основе построенного дерева.
      root: Корневой узел дерева Хаффмана.
    Возвращает словарь, где ключи - символы, а значения - соответствующие коды Хаффмана (строки).
    """

    codes = {}

    def traverse(node, current_code):
        if node.char is not None:  # Если это листовой узел (символ)
            codes[node.char] = current_code
            return

        traverse(node.left, current_code + "0")  # Рекурсивно обходим левое поддерево (добавляем "0")
        traverse(node.right, current_code + "1")  # Рекурсивно обходим правое поддерево (добавляем "1")

    traverse(root, "")  # Начинаем обход с корня, с пустым кодом

    return codes

def huffman_encode(text, codes):
    """
    Кодирует текст по кодам Хаффмана.
      codes: Словарь кодов Хаффмана (символ -> код).
    """

    encoded_text = ""
    for char in text:
        encoded_text += codes[char]

    return encoded_text

def huffman_decode(encoded_text, root):
    """
    Декодирует закодированный текст по дереву Хаффмана.
      root: Корневой узел дерева Хаффмана.
    """

    decoded_text = ""
    current_node = root

    for bit in encoded_text:
        if bit == "0":
            current_node = current_node.left
        else:
            current_node = current_node.right

        if current_node.char is not None:  # Если не достигли вершины
            decoded_text += current_node.char
            current_node = root  # Возвращаемся к корню для следующего символа

    return decoded_text

# Пример использования:
text = "Съешь же ещё этих мягких французских булок да выпей чаю"

# 1. Построение дерева Хаффмана
root = build_huffman_tree(text)

# 2. Генерация кодов Хаффмана
codes = build_huffman_codes(root)
print("Коды Хаффмана:", codes)

# 3. Кодирование текста
encoded_text = huffman_encode(text, codes)
print("Закодированный текст:", encoded_text)

# 4. Степень сжатия
compression = len(text) * 8 / len(encoded_text)
print("Степень сжатия:", compression)

# 5. Декодирование текста (проверка)
decoded_text = huffman_decode(encoded_text, root)
print("Декодированный текст:", decoded_text)

Коды Хаффмана: {' ': '00', 'а': '0100', 'и': '0101', 'к': '0110', 'ъ': '011100', 'н': '011101', 'т': '011110', 'ь': '011111', 'п': '100000', 'л': '100001', 'у': '10001', 'б': '100100', 'с': '100101', 'ф': '100110', 'ю': '100111', 'С': '101000', 'щ': '101001', 'ж': '101010', 'в': '101011', 'ы': '101100', 'я': '101101', 'д': '101110', 'м': '101111', 'г': '110000', 'о': '110001', 'з': '110010', 'ц': '110011', 'е': '1101', 'ч': '111000', 'й': '111001', 'ё': '111010', 'ш': '111011', 'э': '111100', 'р': '111101', 'х': '11111'}
Закодированный текст: 10100001110011011110110111110010101011010011011010011110100011110001111001011111100101111101101110000011001011111100100110111101010001110111001110001110010100101011001011111100100100100011000011100010110001011100100001010111011001000001101111001001110000100100111
Степень сжатия: 1.673003802281369
Декодированный текст: Съешь же ещё этих мягких французских булок да выпей чаю
