In [1]:
import heapq
from collections import defaultdict, Counter

class Node: #узел дерева Хаффмана

    def __init__(self, char: str, freq: float):
        self.char = char  #символ
        self.freq = freq  #частота
        self.left = None  #левый потомок
        self.right = None  #правый потомок

    def __lt__(self, other): #сравнение узлов по частотсе
        return self.freq < other.freq
    
def build_huffman_tree(frequencies: dict) -> Node: #функция для создания дерева Хаффмана
    heap = [Node(char, freq) for char, freq in frequencies.items()]  #создаем узлы
    heapq.heapify(heap)  #преобразуем список узлов в очередь с приоритетом

    while len(heap) > 1:  #пока в куче больше одного элемента
        node1 = heapq.heappop(heap)  #извлекаем узел с наименьшей частотой
        node2 = heapq.heappop(heap)  #извлекаем второй узел с наименьшей частотой
        merged = Node(None, node1.freq + node2.freq)  #создаем объединенный узел
        merged.left = node1  #присваеваем левого потомка
        merged.right = node2  #присваеваем правого потомка
        heapq.heappush(heap, merged)  #добавляем объединенный узел обратно в кучу
    return heap[0]  #возвращаем корень

def generate_huffman_codes(node, prefix: str='', huffman_codes: dict ={}) -> dict: #рекурсивная генерация кодов
    if node is None:
        return
    if node.char is not None: #если узел - лист, т.е символ, присваеваем код
        huffman_codes[node.char] = prefix
    else:
        generate_huffman_codes(node.left, prefix + '0', huffman_codes)  #налево - добавляем 0
        generate_huffman_codes(node.right, prefix + '1', huffman_codes)  #направо - добавляем 1
    return huffman_codes

def huffman_encoding(message: str) -> tuple:
    frequencies = Counter(message)  #подсчитываем частоты символов
    root = build_huffman_tree(frequencies)  #строим дерево Хаффмана
    huffman_codes = generate_huffman_codes(root)  #генерируем коды для каждого символа
    encoded_text = ''.join([huffman_codes[char] for char in message])
    return encoded_text, huffman_codes


file = open(r"..\cache\dz\ex1.txt", "r", encoding="utf-8")
message = file.read() 
encoded_text, huffman_codes = huffman_encoding(message)  
print(f"{message}")
print(f"Characters' codes: {huffman_codes}")
print(f"Encoded: {encoded_text}")
    


Все символы такого алфавита пронумерованы от 0 до 255, а каждому номеру соответствует 8-разрядный двоичный код от 00000000 до 11111111. Этот код является порядковым номером символа в двоичной системе счисления.

Characters' codes: {'ы': '00000', 'л': '00001', 'е': '0001', 'с': '0010', 'к': '00110', '.': '001110', 'ч': '001111', 'в': '0100', 'Э': '0101000', 'п': '0101001', 'й': '010101', 'я': '01011', 'о': '011', 'т': '1000', 'р': '10010', '1': '10011', ' ': '101', 'ж': '11000000', ',': '11000001', '2': '11000010', '\n': '11000011', 'г': '11000100', 'В': '11000101', '-': '11000110', '8': '11000111', 'н': '11001', '5': '1101000', 'ф': '11010010', 'з': '11010011', 'у': '110101', 'и': '11011', 'д': '11100', 'м': '11101', 'а': '11110', '0': '11111'}
Encoded: 11000101001000011010010110111110101000110000100000101100011110001100111100010001110111110000011101001011110010011011100011110101010100110010011110011101011110100011001001101001111011001000001010111000101111111011110001110111000010110100

In [13]:
file = open(r"..\cache\dz\ex2.txt", "r", encoding="utf-8")
message = file.read()
encoded_text, huffman_codes = huffman_encoding(message)
print(f"{message}")
print(f"Characters' codes: {huffman_codes}")
print(f"Encoded: {encoded_text}")

Множество целых чисел, представимых в памяти ЭВМ, ограничено. Диапазон значений зависит от размера области памяти, используемой для размещения чисел.
Characters' codes: {'у': '0110000', 'ы': '010010', 'е': '1100', 'с': '0001', 'к': '110111', 'л': '11100', 'в': '01101', 'ч': '01010', 'й': '001100', 'я': '01000', 'о': '0111', 'т': '0000', 'р': '10101', '-': '0001100', '8': '10011001', 'ж': '0110001', ',': '101001', '2': '10011100', 'Э': '1010001', 'ф': '10011110', 'з': '10111', ' ': '100', 'н': '0010', '1': '11001', 'и': '1111', 'г': '0011101', 'В': '1010000', '5': '1101101', '.': '010110', 'п': '10110', 'м': '11101', 'д': '010011', 'а': '1101', '0': '11111', 'М': '001101', 'Д': '0011100', 'ц': '0011110', 'щ': '0011111', 'ь': '0101110', 'б': '0101111', 'х': '011001', 'i': '000000', 'ю': '000100', 'ш': '000001', 'u': '0001110', 'n': '1010100', 'A': '00010110', '\n': '00100101', '—': '0010001', 'О': '00100110', 'П': '01100010', 'o': '001110', 'c': '0011111', 'l': '0011110', 'z': '00101001'

In [12]:
file = open(r"..\cache\dz\ex3.txt", "r", encoding="utf-8")
message = file.read()
encoded_text, huffman_codes = huffman_encoding(message)
print(f"{message}")
print(f"Characters' codes: {huffman_codes}")
print(f"Encoded: {encoded_text}")

Он подошел к Анне Павловне, поцеловал ее руку, подставив ей свою надушенную и сияющую лысину, и покойно уселся на диване. — Avant tout dites-moi, comment vous allez, chère amie? Успокойте меня, — сказал он, не изменяя голоса и тоном, в котором из-за приличия и участия просвечивало равнодушие и даже насмешка.
Characters' codes: {'у': '01101', 'ы': '00100101', 'е': '1000', 'с': '11010', 'к': '110111', 'л': '10100', 'в': '10110', 'ч': '1011100', 'й': '1011101', 'я': '00001', 'о': '1100', 'т': '100111', 'р': '101011', '-': '0001100', '8': '10011001', 'ж': '00010111', ',': '00110', '2': '10011100', 'Э': '1010001', 'ф': '10011110', 'з': '001011', ' ': '111', 'н': '0111', '1': '11001', 'и': '0101', 'г': '00100100', 'В': '1010000', '5': '1101101', '.': '0001010', 'п': '110110', 'м': '100110', 'д': '101111', 'а': '0100', '0': '11111', 'М': '001101', 'Д': '0011100', 'ц': '00101011', 'щ': '00100111', 'ь': '0101110', 'б': '0101111', 'х': '011001', 'i': '000000', 'ю': '000100', 'ш': '000001', 'u': 

In [3]:
import heapq
from collections import defaultdict, Counter

class Node: #узел дерева Хаффмана

    def __init__(self, char: str, freq: float):
        self.char = char  #символ
        self.freq = freq  #частота
        self.left = None  #левый потомок
        self.right = None  #правый потомок

    def __lt__(self, other): #сравнение узлов по частотсе
        return self.freq < other.freq
    
def build_huffman_tree(frequencies: dict) -> Node: #функция для создания дерева Хаффмана
    heap = [Node(char, freq) for char, freq in frequencies.items()]  #создаем узлы
    heapq.heapify(heap)  #преобразуем список узлов в очередь с приоритетом

    while len(heap) > 1:  #пока в куче больше одного элемента
        node1 = heapq.heappop(heap)  #извлекаем узел с наименьшей частотой
        node2 = heapq.heappop(heap)  #извлекаем второй узел с наименьшей частотой
        merged = Node(None, node1.freq + node2.freq)  #создаем объединенный узел
        merged.left = node1  #присваеваем левого потомка
        merged.right = node2  #присваеваем правого потомка
        heapq.heappush(heap, merged)  #добавляем объединенный узел обратно в кучу
    return heap[0]  #возвращаем корень

def generate_huffman_codes(node, prefix: str='', huffman_codes: dict ={}) -> dict: #рекурсивная генерация кодов
    if node is None:
        return
    if node.char is not None: #если узел - лист, т.е символ, присваеваем код
        huffman_codes[node.char] = prefix
    else:
        generate_huffman_codes(node.left, prefix + '0', huffman_codes)  #налево - добавляем 0
        generate_huffman_codes(node.right, prefix + '1', huffman_codes)  #направо - добавляем 1
    return huffman_codes

def huffman_encoding(message: str) -> tuple:
    frequencies = Counter(message)  #подсчитываем частоты символов
    root = build_huffman_tree(frequencies)  #строим дерево Хаффмана
    huffman_codes = generate_huffman_codes(root)  #генерируем коды для каждого символа
    encoded_text = ''.join([huffman_codes[char] for char in message])
    return encoded_text, huffman_codes



message = "hello huffman"
encoded_text, huffman_codes = huffman_encoding(message)
print(f"{message}")
print(f"Characters' codes: {huffman_codes}")
print(f"Encoded: {encoded_text}")

hello huffman
Characters' codes: {'h': '00', 'm': '010', 'f': '011', 'l': '100', 'o': '1010', 'a': '1011', 'u': '1100', 'n': '1101', ' ': '1110', 'e': '1111'}
Encoded: 0011111001001010111000110001101101010111101
