In [1]:
import numpy as np
from collections import Counter, namedtuple
import heapq

# Жадные алгоритмы

__Жадный алгоритм__ — алгоритм, заключающийся в принятии локально оптимальных решений на каждом этапе, допуская, что конечное решение также окажется оптимальным.

__Надёжный шаг.__ Существует оптимальное решение, согласованное с локальным жадным шагом. 

__Оптимальность подзадач.__ Задача, остающаяся после жадного шага, имеет тот же тип.

# Код Хаффмана

## Описание
Алгоритм Хаффмана — жадный алгоритм оптимального префиксного кодирования алфавита с минимальной избыточностью. Был разработан в 1952 году аспирантом Массачусетского технологического института Дэвидом Хаффманом при написании им курсовой работы. В настоящее время используется во многих программах сжатия данных.

Этот метод кодирования состоит из двух основных этапов:
- Построение оптимального кодового дерева.
- Построение отображения код-символ на основе построенного дерева.

## Коды переменной длины

Естественная идея: присвоить более короткие коды более частым символам.

$$s = abacabad$$

коды символов: $a: 0, b: 10, c: 110, d: 111$

закодированная строка: $01001100100111$ (14 битов)

Код называется беспрефиксным, если никакой код символа не является префиксом другого кода символа.

## Функции
### Кодирование
По данной непустой строке $s$ длины не более $10^4$, состоящей из строчных букв латинского алфавита, постройте оптимальный беспрефиксный код. В первой строке выведите количество различных букв $k$, встречающихся в строке, и размер получившейся закодированной строки. В следующих $k$ строках запишите коды букв в формате "letter: code". В последней строке выведите закодированную строку.

In [2]:
class Node(namedtuple("Node", ["left", "right"])):
    def walk(self, code, acc):
        self.left.walk(code, acc + "0")
        self.right.walk(code, acc + "1")
        
class Leaf(namedtuple("Leaf", ["char"])):
    def walk(self, code, acc):
        code[self.char] = acc or "0"
        

def huffman_encode(s):
    h = []
    for ch, freq in Counter(s).items():
        h.append((freq, len(h), Leaf(ch)))
    
    heapq.heapify(h)
    
    count = len(h)
    while len(h) > 1:
        freq1, _count1, left = heapq.heappop(h)
        freq2, _count2, right = heapq.heappop(h)
        heapq.heappush(h, (freq1 + freq2, count, Node(left, right)))
        count += 1
    
    
    code = {}
    if h:
        [(_freq, _count, root)] = h
        root.walk(code, "")
    return code

### Декодирование
Восстановите строку по её коду и беспрефиксному коду символов. 

В первой строке входного файла заданы два целых числа $k$ и $l$ через пробел — количество различных букв, встречающихся в строке, и размер получившейся закодированной строки, соответственно. В следующих $k$ строках записаны коды букв в формате "letter: code". Ни один код не является префиксом другого. Буквы могут быть перечислены в любом порядке. В качестве букв могут встречаться лишь строчные буквы латинского алфавита; каждая из этих букв встречается в строке хотя бы один раз. Наконец, в последней строке записана закодированная строка. Исходная строка и коды всех букв непусты. Заданный код таков, что закодированная строка имеет минимальный возможный размер.


В первой строке выходного файла выведите строку $s$. Она должна состоять из строчных букв латинского алфавита. Гарантируется, что длина правильного ответа не превосходит $10^4$ символов.

In [3]:
def huffman_decode(letters, main_code):
    dic = {}
    for letter_and_code in letters_and_codes:
        letter = letter_and_code[0].replace(":", "")
        dic[letter_and_code[1]] = letter

    buf = ''
    decode = ''
    for char in main_code:
        buf += char
        if buf in dic:
            decode += dic[buf]
            buf = ''
    return decode

In [4]:
#import sys
#reader = (tuple(map(str,line.split())) for line in sys.stdin)
#k, l = next(reader)
#other = list(reader)
#assert len(others) == int(k) + 1
#letters_and_codes = other[:-1]
#main_code = other[-1][0]

## Тестирование

In [5]:
source_string = 'abacaabac'
letters_and_codes = [['a:', '1'], ['b:', '00'], ['c:', '01']]
main_code = '1001011100101'

In [6]:
codes = huffman_encode(source_string)
encoded_code = "".join(codes[ch] for ch in source_string)
print(codes)
for ch in sorted(codes):
    print("{}: {}".format(ch, codes[ch]))
print(encoded_code == main_code)

{'b': '00', 'c': '01', 'a': '1'}
a: 1
b: 00
c: 01
True


In [7]:
print(huffman_decode(letters_and_codes, main_code) == source_string)

True
