Кодирование методом Хаффмана

In [1]:
import heapq
from typing import Dict, List

In [2]:
class Node:  #нода двоичного дерева
    def __init__(self, char: str, freq: int) -> None:
        self.char = char  #символ
        self.freq = freq  #частота появления символа
        self.left = None  #левый потомок
        self.right = None  #правый потомок

    #оператор сравнения, чтобы можно было вставлять и забирать нужный узел
    def __lt__(self, other):
        return self.freq < other.freq

In [3]:
def countFreq(textToEncode: str) -> Dict[str, int]: #функция подсчета частоты встречаний различных символов
    freqDict = {}  #создаем словарь ключ - уникальный символ, значение - количество этого символа в тексте
    for char in textToEncode:  #итерируемся по тексту
        if char in freqDict:
            freqDict[char] += 1  #если ключ уже есть, то значение +1
        else:
            freqDict[char] = 1   #иначе значение = 1
    return freqDict

In [4]:
def createPriorityQueue(freqDict: Dict[str, int]) -> List[Node]: #функция создания приоритетной очереди
    priorityQueue = []  #пустой список для хранения нод
    for char, freq in freqDict.items(): #итерируемся по словарю с частотой встречаний символов
        priorityQueue.append(Node(char, freq))  #добавляем в список ноду
    heapq.heapify(priorityQueue) #вызываем heapify, чтобы создать приоритетную очередь
    return priorityQueue

In [5]:
def buildHuffmanTree(heap: List[Node]) -> Node: #создаем двоичное дерево хаффмана
    while len(heap) > 1:  #пока в очереди больше 1 элемента
        l = heapq.heappop(heap)  #достаем ноду с наименьшей частотой
        r = heapq.heappop(heap)  #достаем вторую ноду с наименьшей частотой

        merged = Node(None, l.freq + r.freq)  #создаем смерженную ноду
        merged.left = l  #левый потомок
        merged.right = r  #правый потомок

        heapq.heappush(heap, merged) #пушим обратно в очередь

    return heap[0]  #возвращаем корень нашего дерева хаффмана

In [6]:
def buildHuffmanCodes(root: Node, current_code="", codes=None) -> Dict[str, int]: #функция составления кодов хаффмана
    if codes is None: #передаем изначально codes = None, т.к есть прикол с mutable defaults)
        codes = {}

    if root is None: #если доходим до листа дерева, то возвращаем его
        return codes

    if root.char is not None:
        codes[root.char] = current_code

    buildHuffmanCodes(root.left, current_code + "0", codes)  #далее рекурсивно обходим дерево, сохраняя 0 для левого поддерева и 1 для правого
    buildHuffmanCodes(root.right, current_code + "1", codes)

    return codes

In [7]:
def encode(text: str, huffmanCodes: Dict[str, int]) -> str:
    return ''.join([huffmanCodes[char] for char in text])  #генератором списка кодируем с помощью кодов хаффмана наш текст и преобразовываем наш список в строку

In [8]:
def decode(encodedText: str, root: Node) -> str:  # Декодирование закодированного текста
    decodedText = ""  # Восстановленный текст
    currentNode = root  # Начинаем с корня дерева

    for bit in encodedText:  # Проходим по каждому биту закодированной строки
        if bit == '0':
            currentNode = currentNode.left  # Переход влево
        else:
            currentNode = currentNode.right  # Переход вправо

        if currentNode.left is None and currentNode.right is None:  # Если это лист, добавляем символ
            decodedText += currentNode.char
            currentNode = root  # Возвращаемся к корню

    return decodedText

In [9]:
def solution():
    textToEncode = ("Множество целых чисел, представимых в памяти ЭВМ, ограничено. Диапазон значений зависит от размера области памяти, используемой для размещения чисел.")
    freqDict = countFreq(textToEncode)  #словарь с частотой появления символов
    priorityQueue = createPriorityQueue(freqDict)  #приоритетная очередь с нодами
    treeNode = buildHuffmanTree(priorityQueue)    #дерево хаффмана
    huffmanCodes = buildHuffmanCodes(treeNode)    #коды хаффмана
    encodedText = encode(textToEncode, huffmanCodes)  #полученный закодированный текст
    decodedText = decode(encodedText, treeNode)
    print("Коды Хаффмана:", huffmanCodes, '\n')
    print("Закодированное сообщение:", encodedText, '\n')
    print('Раскодированное сообщение:', decodedText)

In [10]:
solution()

Коды Хаффмана: {'т': '0000', 'с': '0001', 'н': '0010', 'й': '001100', 'М': '001101', 'Д': '0011100', 'г': '0011101', 'ц': '0011110', 'щ': '0011111', 'я': '01000', 'ы': '010010', 'д': '010011', 'ч': '01010', '.': '010110', 'ь': '0101110', 'б': '0101111', 'у': '0110000', 'ж': '0110001', 'х': '011001', 'в': '01101', 'о': '0111', ' ': '100', 'В': '1010000', 'Э': '1010001', ',': '101001', 'р': '10101', 'п': '10110', 'з': '10111', 'е': '1100', 'а': '1101', 'л': '11100', 'м': '11101', 'и': '1111'} 

Закодированное сообщение: 00110100100111011000111000001000001101011110000111101100111000100100110011000101011110001110011100101001100101101010111000100110001000011010110111111110101001001100110001101100101101101111010100000001111100101000110100000011011010011000111001110110101110100101111010101100001001110101101000011100111111011011011011011101110010100101110010110101010110000101111001100100101111101011011111000111110000100011100001001010111011011111101110010101110110001110101111111001101000100001