# Жадные алгоритмы: кодирование Хаффмана

## Сжатие данных
- Вход: строка $s$.
- Выход: бинарный код символов строки s, обеспечивающий кратчайшее представление s.

## Пример
$s = abacabad$

коды символов: $a:00, b:01, c:10, d:11$

закодированная строка: 0001001000010011 (16 битов)

## Коды переменной длины
$s = abacabad$

коды символов: $a:0, b:10, c:110, d:111$

закодированная строка: 01001100100111 (14 битов)

код называется *беспрефиксным*, если никакой код символа не является префиксом другого кода символа.

## Можно кодировать двоичным деревом, все символы в листьях

## Код Хаффмана
- Вход: частоты символов $f_1, \ldots, f_n \in \mathbb{N}$
- Выход: строго двоичное дерево (у каждой вершины либо ноль, либо два сына), листья которого помечены частотами $f_1,\ldots, f_n$, минимизирующее $$\sum_{i=1}^{n}f_i \cdot (глубина\ листа f_i).$$

## Частоты для внутренних вершин

Частотой (некорневой) вершины назовем количество раз, которое вершина будет посещена в процессе кодировки/декодировки.

## Надежный шаг
Таким образом, мы ищем строго двоичное дерево с минимальной суммой пометок в вершинах, в котором листья помечены входными частотами, а внутренние вершины - суммами пометок их детей.

Двумя наименьшими частотами помечены листья на нижнем уровне.

*Надежный жадный шаг*: выбрать две минимальные частоты $f_i$ и $f_j$, сделать их детьми новой вершины с пометкой $f_i + f_j$; выкинуть частоты $f_i$ и $f_j$, добавить $f_i + f_j$.

# Очередь с приоритетами

Insert($p$) добавляет новый элемент с приоритетом $p$.

ExtractMin() извлекает из очереди элемент с минимальным приоритетом.

### Процедура Huffman(F[1...n])

## Время работы 
$O(n^2)$ если очередь с приоритетами реализована на базе массива, $O(n\log n)$ если на базе кучи.

# Задачи

### Задача №1 - кодирование Хаффмана
По данной непустой строке $s$ длины не более $10^4$, состоящей из строчных букв латинского алфавита, постройте оптимальный беспрефиксный код. В первой строке выведите количество различных букв $k$, встречающихся в строке, и размер получившейся закодированной строки. В следующих $k$ строках запишите коды букв в формате "letter: code". В последней строке выведите закодированную строку.

In [22]:
import heapq
from collections import Counter


def huffman_encode(s):
    h = [(freq, ch) for ch, freq in Counter(s).items()]
    heapq.heapify(h)
    while len(h) > 1:
        freq1, ch1 = heapq.heappop(h)
        freq2, ch2 = heapq.heappop(h)
        heapq.heappush((freq1 + freq2, ch1 + ch2))
    code = {}
    return code


def main():
    s = input()
    code = huffman_encode(s)
    encoded = ''.join(code[ch] for ch in s)
    print(len(code), len(encoded))
    for ch in code:
        print('{}: {}'.format(ch, code[ch]))
    print(encoded)
    
main()

asds


KeyError: 'a'