## Кодування Гафмена

### Вхідний текст: ABCDABCDABCDABCDABCDABCDABCD

---

### Частоти символів:
| Символ | Кількість |
|--------|-----------|
| A      | 7         |
| B      | 7         |
| C      | 7         |
| D      | 7         |

> Усі символи мають однакову частоту — це дає **симетричне дерево**.

---

### Побудова дерева

Для рівномірних частот дерево Гафмена створює двійкові коди довжиною 2 біта. Наприклад:

| Символ | Код |
|--------|-----|
| A      | 00  |
| B      | 01  |
| C      | 10  |
| D      | 11  |

---

## Контрольні питання

1. **Що таке кодування Гафмена та як воно працює?**  
   Це алгоритм безвтратного стиснення, який присвоює коротші коди символам з більшою частотою. Будується дерево, де листками є символи, а шляхи до них — коди.

2. **Як визначається оптимальний двійковий код?**  
   Алгоритм будує бінарне дерево за принципом злиття найменш вірогідних символів, забезпечуючи мінімальну середню довжину коду.

3. **Переваги над іншими методами:**  
   - Оптимальний для відомих частот
   - Простий у реалізації
   - Гарантовано без втрат

4. **Як відбувається декодування?**  
   За допомогою дерева: кожен біт веде ліворуч (0) або праворуч (1), і при досягненні листа ми відновлюємо символ.

5. **Можливі недоліки:**  
   - Не працює ефективно при малій кількості унікальних символів
   - Необхідно зберігати таблицю або дерево для декодування

6. **Для чого дерево?**  
   Дерево дозволяє уникнути двозначності коду та забезпечує однозначне декодування.


In [1]:
from collections import Counter
import heapq

text = "ABCDABCDABCDABCDABCDABCDABCD"

# Підрахунок частот
freq = Counter(text)
print("Частоти символів:", freq)

# Побудова дерева Гафмена
heap = [[weight, [symbol, ""]] for symbol, weight in freq.items()]
heapq.heapify(heap)

while len(heap) > 1:
    lo = heapq.heappop(heap)
    hi = heapq.heappop(heap)
    for pair in lo[1:]:
        pair[1] = '0' + pair[1]
    for pair in hi[1:]:
        pair[1] = '1' + pair[1]
    heapq.heappush(heap, [lo[0] + hi[0]] + lo[1:] + hi[1:])

# Коди Гафмена
huff_codes = sorted(heap[0][1:], key=lambda p: (len(p[1]), p[0]))
print("\nКоди Гафмена:")
for symbol, code in huff_codes:
    print(f"{symbol}: {code}")

# Закодувати текст
code_map = dict(huff_codes)
encoded = ''.join(code_map[char] for char in text)

print("\nЗакодований текст:", encoded)
print("Довжина закодованого тексту:", len(encoded), "біт")

# Оцінка ефективності
original_bits = len(text) * 8
huffman_bits = len(encoded)
optimal_bits = len(text) * 2  # бо 4 символи = 2 біта в ідеалі

print("\nОцінка ефективності:")
print(f"Початковий розмір (ASCII): {original_bits} біт")
print(f"Гафменівське кодування: {huffman_bits} біт")
print(f"Оптимальний розмір (по 2 біта): {optimal_bits} біт")
print(f"Стиснення: {round(100 * (1 - huffman_bits / original_bits), 2)}%")

Частоти символів: Counter({'A': 7, 'B': 7, 'C': 7, 'D': 7})

Коди Гафмена:
A: 00
B: 01
C: 10
D: 11

Закодований текст: 00011011000110110001101100011011000110110001101100011011
Довжина закодованого тексту: 56 біт

Оцінка ефективності:
Початковий розмір (ASCII): 224 біт
Гафменівське кодування: 56 біт
Оптимальний розмір (по 2 біта): 56 біт
Стиснення: 75.0%
