# Жадные алгоритмы: кодирование Хаффмана

## Сжатие данных
- Вход: строка $s$.
- Выход: бинарный код символов строки $s$, обеспечивающий кратчайшее представление $s$.

## Пример
$s = abacabad$

коды символов: $a:00,\ b:01,\ c:10,\ d:11$

закодированная строка: $0001001000010011$ ($16$ битов)

## Коды переменной длины
$s = abacabad$

коды символов: $a:0,\ b:10,\ c:110,\ d:111$

закодированная строка: $01001100100111$ ($14$ битов)

код называется *беспрефиксным*, если никакой код символа не является префиксом другого кода символа.

## Можно кодировать двоичным деревом, все символы в листьях

## Код Хаффмана
- Вход: частоты символов $f_1, \ldots, f_n \in \mathbb{N}$
- Выход: строго двоичное дерево (у каждой вершины либо ноль, либо два сына), листья которого помечены частотами $f_1,\ldots, f_n$, минимизирующее $$\sum_{i=1}^{n}f_i \cdot (глубина\ листа\ f_i).$$

## Частоты для внутренних вершин

Частотой (некорневой) вершины назовем количество раз, которое вершина будет посещена в процессе кодировки/декодировки.

## Надежный шаг
Таким образом, мы ищем строго двоичное дерево с минимальной суммой пометок в вершинах, в котором листья помечены входными частотами, а внутренние вершины - суммами пометок их детей.

Двумя наименьшими частотами помечены листья на нижнем уровне.

*Надежный жадный шаг*: выбрать две минимальные частоты $f_i$ и $f_j$, сделать их детьми новой вершины с пометкой $f_i + f_j$; выкинуть частоты $f_i$ и $f_j$, добавить $f_i + f_j$.

# Очередь с приоритетами

Insert($p$) добавляет новый элемент с приоритетом $p$.

ExtractMin() извлекает из очереди элемент с минимальным приоритетом.

### Процедура Huffman(F[1...n])

## Время работы 
$O(n^2)$ если очередь с приоритетами реализована на базе массива, $O(n\log n)$ если на базе кучи.

# Задачи

### Задача №1 - кодирование Хаффмана
По данной непустой строке $s$ длины не более $10^4$, состоящей из строчных букв латинского алфавита, постройте оптимальный беспрефиксный код. В первой строке выведите количество различных букв $k$, встречающихся в строке, и размер получившейся закодированной строки. В следующих $k$ строках запишите коды букв в формате "letter: code". В последней строке выведите закодированную строку.

In [9]:
import heapq
from collections import Counter, namedtuple

class Node(namedtuple('Node', ['left', 'right'])):
    def walk(self, code, acc):
        self.left.walk(code, acc + '0')
        self.right.walk(code, acc + '1')
        
class Leaf(namedtuple('Leaf', ['char'])):
    def walk(self, code, acc):
        code[self.char] = acc or '0'

def huffman_encode(s):
    h = []
    for ch, freq in Counter(s).items():
        h.append((freq, len(h), Leaf(ch)))
        
#     h = [(freq, Leaf(ch)) for ch, freq in Counter(s).items()] - будет ошибка, когда при сравнении пар,
#                                                                           будет сравнение строки и листа
    heapq.heapify(h)
    
    count = len(h)
    while len(h) > 1:
        freq1, _count1, left = heapq.heappop(h)
        freq2, _count2, right = heapq.heappop(h)
        heapq.heappush(h, (freq1 + freq2, count, Node(left, right)))
        count += 1
    
    code = {}
    if h:
        [(_freq, _count, root)] = h  
        root.walk(code, '')
    return code


def main():
    s = input()
    code = huffman_encode(s)
    encoded = ''.join(code[ch] for ch in s)
    print(len(code), len(encoded))
    for ch in code:
        print('{}: {}'.format(ch, code[ch]))
    print(encoded)
    
main()

a
1 1
a: 0
0


### Задача №2 - декодирование Хаффмана

Восстановите строку по её коду и беспрефиксному коду символов. 

В первой строке входного файла заданы два целых числа $k$ и $l$ через пробел — количество различных букв, встречающихся в строке, и размер получившейся закодированной строки, соответственно. В следующих $k$ строках записаны коды букв в формате "letter: code". Ни один код не является префиксом другого. Буквы могут быть перечислены в любом порядке. В качестве букв могут встречаться лишь строчные буквы латинского алфавита; каждая из этих букв встречается в строке хотя бы один раз. Наконец, в последней строке записана закодированная строка. Исходная строка и коды всех букв непусты. Заданный код таков, что закодированная строка имеет минимальный возможный размер.


В первой строке выходного файла выведите строку $s$. Она должна состоять из строчных букв латинского алфавита. Гарантируется, что длина правильного ответа не превосходит $10^4$ символов.

In [10]:
def decode(codes_dict, s):
    s_decode = ''
    cur_s = ''
    for i in s:
        cur_s += i
        if cur_s in codes_dict.keys():
            s_decode += codes_dict[cur_s]
            cur_s = ''
    return s_decode


def main():
    k, l = map(int, input().split())
    codes_dict = dict()
    for i in range(k):
        ch, code = input().split()
        codes_dict[code] = ch[:-1]
    encode_str = input()   
    s = decode(codes_dict, encode_str)
    print(s)
    
main()

1 1
a: 0
0
a


In [5]:
'ab'[0]

'a'