---
title: 'Лабораторна робота №10. Жадібна стратегія на прикладі кодування Гафмена'
description:
   Документ зроблено за допомогою [Quarto](https://quarto.org/)
author: "Яркоий Тимофій"
date: "05.29.2024"
lang: ukr
format:
  html:
    code-fold: true
    toc: true # меню
    toc_float: # спливаюче меню  
      collapsed: true # авто
      number_sections: true
jupyter: python3
---

### Алгоритм побудови дерева Гафмена

_Вхід_: масив унікальних символів разом з частотою їх входження.  
_Вихід_: дерево Гафмена. 

1. Для кожного унікального символу створити вершину і побудувати мінімальну купу з усіх вершин (Min Heap використовується як [черга з пріоритетом](https://uk.wikipedia.org/wiki/%D0%A7%D0%B5%D1%80%D0%B3%D0%B0_%D0%B7_%D0%BF%D1%80%D1%96%D0%BE%D1%80%D0%B8%D1%82%D0%B5%D1%82%D0%BE%D0%BC#:~:text=priority%20queue). Значення поля частоти використовується для порівняння двох вершин у мінімальній купі. Спочатку в корені знаходиться символ з найменшою частотою).
1. Витягнути дві вершини з мінімальною частотою з min heap.
1. Створити новий внутрішній вузол з частотою, що дорівнює сумі частот цих двох вузлів. Зробити першу вилучену вершину її лівим дочірнім елементом, а другу -- правим дочірнім елементом. Додати цю вершину до мінімальної купи.
1. Повторювати кроки 2 і 3 до тих пір, поки в купі не залишиться лише одна вершина. Вузол, що залишився, є кореневою вершиною, і дерево завершено.

На Python алгоритм може бути реалізований, наприклад, за допомогою бібліотеки [heapq](https://www.geeksforgeeks.org/heap-queue-or-heapq-in-python/) (див. також документацію [heapq — Heap queue algorithm](https://docs.python.org/3/library/heapq.html)), яка надає засоби для реалізації купи і, відповідно, черги з пріоритетами. Наведемо код згідно з [Huffman Coding | Greedy Algo-3](https://www.geeksforgeeks.org/huffman-coding-greedy-algo-3/)

In [7]:
# A Вузол дерева Гафмана 
import heapq 


class node: 
	def __init__(self, freq, symbol, left=None, right=None): 
		# частота символу 
		self.freq = freq 

		# назва символу (символ) 
		self.symbol = symbol 

		# вузол ліворуч від поточного вузла 
		self.left = left 

		# вузол праворуч від поточного вузла 
		self.right = right 

		# напрямок дерева (0/1) 
		self.huff = '' 

	def __lt__(self, nxt): 
		return self.freq < nxt.freq 


# утиліта для виведення кодів Гафмена для  
#  всіх символів у щойно створеному дереві Гафмена 
def printNodes(node, val=''): 

	# Код Гафмена для поточного вузла  
	newVal = val + str(node.huff) 

# якщо вершина не є реберною вершиною 
# то пройти всередині неї 
	if(node.left): 
		printNodes(node.left, newVal) 
	if(node.right): 
		printNodes(node.right, newVal) 

		# якщо node є реберною вершиною тоді 
        # вивести його хаффманівський код 
	if(not node.left and not node.right): 
		print(f"{node.symbol} -> {newVal}") 


# символи для дерева Гафмена 
chars = ['a', 'b', 'c', 'd', 'e', 'f'] 

# частота символів 
freq = [5, 9, 12, 13, 16, 45] 

# список, що містить невикористані вершини 
nodes = [] 

# перетворення символів та частот 
# у вузли дерева Гафмена 

for x in range(len(chars)): 
	heapq.heappush(nodes, node(freq[x], chars[x])) 

while len(nodes) > 1: 

	# відсортувати всі вершини за зростанням 
	# на основі їх частоти 
	left = heapq.heappop(nodes) 
	right = heapq.heappop(nodes) 

	# присвоїти значення напрямку цим вузлам 
	left.huff = 0
	right.huff = 1

	# об'єднати 2 найменші вершини, щоб створити 
	# новий вузол як їхній батько 
	newNode = node(left.freq+right.freq, left.symbol+right.symbol, left, right) 

	heapq.heappush(nodes, newNode) 

# Друк кодів Гафмена
printNodes(nodes[0]) 


f -> 0
c -> 100
d -> 101
a -> 1100
b -> 1101
e -> 111


Часов складність алгоритму: $O(nlogn)$, де $n$ -- кількість унікальних символів. Якщо є $n$ вузлів, `extractMin()` викликається $2(n - 1)$ разів. `extractMin()` займає $O(logn)$ часу, оскільки викликає `minHeapify()`. Отже, загальна складність складає $O(nlogn)$.
Якщо вхідний масив відсортовано, існує алгоритм з лінійним часом. 

Просторова складність :- $O(N)$

Застосування кодування Гафмена:

* Використовується для передачі факсу і тексту.
* Використовується звичайними форматами стиснення, такими як PKZIP, GZIP тощо.
* Мультимедійні кодеки, такі як JPEG, PNG і MP3, використовують кодування Гафмена (точніше, префіксні коди).
 
 Це корисно у випадках, коли є ряд символів, що часто зустрічаються.

### Завдання на самостійну роботу

* Побудувати дерево кодів Гафмена *згідно з варіантом індивідуального завдання практичної роботи № 9*, виданим викладачем вручну і візуалізувати дерево.
* Перевірити результат за допомогою коду, наведеному вище.
* Написати процедуру на Python, яка для вхідного повідомлення обчислює список символів  `chars` та список їх частот `freq`. 
* Опрацювати самостійно тему [декодування Гафмена](https://www.geeksforgeeks.org/huffman-decoding/?ref=gcse) і скориставшись наведеним там кодом, декодувати повідомлення, задане варіантом.

#### Побудувати дерево кодів Гафмена *згідно з варіантом індивідуального завдання практичної роботи № 9*, виданим викладачем вручну і візуалізувати дерево.

Текст: "abggbaaaababg". Частота a=6, b=4, g=3.

                 #(13)
               /       \
             a(6)      #(7)
                       / \
                    b(4) g(3)  
a=0, b=10, g=11 

#### Перевірити результат за допомогою коду, наведеному вище.

In [10]:
# A Вузол дерева Гафмана 
import heapq 


class node: 
	def __init__(self, freq, symbol, left=None, right=None): 
		# частота символу 
		self.freq = freq 

		# назва символу (символ) 
		self.symbol = symbol 

		# вузол ліворуч від поточного вузла 
		self.left = left 

		# вузол праворуч від поточного вузла 
		self.right = right 

		# напрямок дерева (0/1) 
		self.huff = '' 

	def __lt__(self, nxt): 
		return self.freq < nxt.freq 


# утиліта для виведення кодів Гафмена для  
#  всіх символів у щойно створеному дереві Гафмена 
def printNodes(node, val=''): 

	# Код Гафмена для поточного вузла  
	newVal = val + str(node.huff) 

# якщо вершина не є реберною вершиною 
# то пройти всередині неї 
	if(node.left): 
		printNodes(node.left, newVal) 
	if(node.right): 
		printNodes(node.right, newVal) 

		# якщо node є реберною вершиною тоді 
        # вивести його хаффманівський код 
	if(not node.left and not node.right): 
		print(f"{node.symbol} -> {newVal}") 


# символи для дерева Гафмена 
chars = ['a', 'b', 'g'] 

# частота символів 
freq = [6, 4, 3] 

# список, що містить невикористані вершини 
nodes = [] 

# перетворення символів та частот 
# у вузли дерева Гафмена 

for x in range(len(chars)): 
	heapq.heappush(nodes, node(freq[x], chars[x])) 

while len(nodes) > 1: 

	# відсортувати всі вершини за зростанням 
	# на основі їх частоти 
	left = heapq.heappop(nodes) 
	right = heapq.heappop(nodes) 

	# присвоїти значення напрямку цим вузлам 
	left.huff = 0
	right.huff = 1

	# об'єднати 2 найменші вершини, щоб створити 
	# новий вузол як їхній батько 
	newNode = node(left.freq+right.freq, left.symbol+right.symbol, left, right) 

	heapq.heappush(nodes, newNode) 

# Друк кодів Гафмена
printNodes(nodes[0]) 


a -> 0
g -> 10
b -> 11


#### Написати процедуру на Python, яка для вхідного повідомлення обчислює список символів  `chars` та список їх частот `freq`.

In [19]:
def calculate_char_frequencies(message):
    # Створюємо порожні словник для підрахунку частот
    frequency_dict = {}

    # Проходимо по кожному символу в повідомленні
    for char in message:
        if char in frequency_dict:
            frequency_dict[char] += 1
        else:
            frequency_dict[char] = 1

    # Створюємо списки символів та їх частот
    chars = list(frequency_dict.keys())
    freq = list(frequency_dict.values())

    return chars, freq

message = "abggbaaaababg"
chars, freq = calculate_char_frequencies(message)
print("Символи:", chars)
print("Частоти:", freq)


Символи: ['a', 'b', 'g']
Частоти: [6, 4, 3]


#### Опрацювати самостійно тему [декодування Гафмена](https://www.geeksforgeeks.org/huffman-decoding/?ref=gcse) і скориставшись наведеним там кодом, декодувати повідомлення, задане варіантом

In [27]:
import heapq
from collections import defaultdict

# to map each character its huffman value
codes = {}

# To store the frequency of character of the input data
freq = defaultdict(int)

# A Huffman tree node
class MinHeapNode:
	def __init__(self, data, freq):
		self.left = None
		self.right = None
		self.data = data
		self.freq = freq

	def __lt__(self, other):
		return self.freq < other.freq

# utility function to print characters along with
# there huffman value
def printCodes(root, str):
	if root is None:
		return
	if root.data != '$':
		print(root.data, ":", str)
	printCodes(root.left, str + "0")
	printCodes(root.right, str + "1")

# utility function to store characters along with
# there huffman value in a hash table
def storeCodes(root, str):
	if root is None:
		return
	if root.data != '$':
		codes[root.data] = str
	storeCodes(root.left, str + "0")
	storeCodes(root.right, str + "1")

# function to build the Huffman tree and store it
# in minHeap
def HuffmanCodes(size):
	global minHeap
	for key in freq:
		minHeap.append(MinHeapNode(key, freq[key]))
	heapq.heapify(minHeap)
	while len(minHeap) != 1:
		left = heapq.heappop(minHeap)
		right = heapq.heappop(minHeap)
		top = MinHeapNode('$', left.freq + right.freq)
		top.left = left
		top.right = right
		heapq.heappush(minHeap, top)
	storeCodes(minHeap[0], "")

# utility function to store map each character with its
# frequency in input string
def calcFreq(str, n):
	for i in range(n):
		freq[str[i]] += 1

# function iterates through the encoded string s
# if s[i]=='1' then move to node->right
# if s[i]=='0' then move to node->left
# if leaf node append the node->data to our output string
def decode_file(root, s):
	ans = ""
	curr = root
	n = len(s)
	for i in range(n):
		if s[i] == '0':
			curr = curr.left
		else:
			curr = curr.right

		# reached leaf node
		if curr.left is None and curr.right is None:
			ans += curr.data
			curr = root
	return ans + '\0'

# Driver code
if __name__ == "__main__":
	minHeap = []
	str = "abggbaaaababg"
	encodedString, decodedString = "", ""
	calcFreq(str, len(str))
	HuffmanCodes(len(str))
	print("Character With there Frequencies:")
	for key in sorted(codes):
		print(key, codes[key])

	for i in str:
		encodedString += codes[i]

	print("\nEncoded Huffman data:")
	print(encodedString)

	# Function call
	decodedString = decode_file(minHeap[0], encodedString)
	print("\nDecoded Huffman Data:")
	print(decodedString)


Character With there Frequencies:
a 0
b 11
g 10

Encoded Huffman data:
01110101100001101110

Decoded Huffman Data:
abggbaaaababg 


## Завдання на лабораторну роботу

1. Створити Notebook-документ за допомогою Jupyter Notebook. (Див. [тут](https://devpractice.ru/python-lesson-1-install/), [тут](https://devpractice.ru/python-lesson-6-work-in-jupyter-notebook/) і [тут](https://jupyter-notebook.readthedocs.io/en/stable/notebook.html)) і  реалізувати контрольні приклади, що розглядаються у даній роботі та виконати завдання, що винесено на самостійну роботу.

1. Дати відповіді на контрольні запитання.

1. Робочий документ оформити у вигляді Notebook-документу (файл __.ipynb__).

1. Скомпілювати звіт у форматі __.html__. Для цього необхідно завантажити термінал і у командному рядку запустити наступну команду:

`jupyter nbconvert lab_10_StudentLasName.ipynb --to html`

1. Представити звіт у вигляді архіву. Проект має складатися мінімум з двох файлів: `lab_10_StudentLasName.ipynb` та `lab_10_StudentLasName.html`

## Контрольні запитання

1. Що таке жадібні алгоритми?

Жадібний алгоритм – це евристичний метод для знаходження наближеного розв’язку екстремальних задач. Він послідовно робить локально
оптимальні вибори, сподіваючись, що вони приведуть до глобально оптимального розв’язку. 

2. Що таке префіксний код? Який код використовується у коді Гафмена?

Коди змінної довжини, що присвоюються вхідним символам, є префіксними кодами, тобто коди (послідовності бітів) присвоюються таким чином, що код, присвоєний одному символу, не є префіксом коду, присвоєного будь-якому іншому символу.

3. Як пов’язана структура даних «купа» зі структурою даних «черга з пріоритетами»?

Черга з пріорітетами - це один із можливих випадків купи. 

4. Що таке стиснення даних і для чого воно використовується? Які його головні переваги?

Процес перекодування даних, яка проводиться з метою зменшення їхнього обсягу. Переваги: зменшення розміру файлів для зберігання та економії місця на диску, легше керування та організація файлів у вигляді одного архіву.

5. Які кроки необхідно виконати для стиснення даних за допомогою алгоритму кодування Гафмена?

 Для кожного унікального символу створити вершину і побудувати
мінімальну купу з усіх вершин (min heap використовується як черга з
пріоритетом. Значення поля частоти використовується для порівняння двох
вершин у мінімальній купі. Спочатку в корені знаходиться символ з
найменшою частотою).

 Витягнути дві вершини з мінімальною частотою з min heap.
 
 Створити новий внутрішній вузол з частотою, що дорівнює сумі частот
цих двох вузлів. Зробити першу вилучену вершину її лівим дочірнім
елементом, а другу – правим дочірнім елементом. Додати цю вершину до
мінімальної купи.

 Повторювати кроки 2 і 3 до тих пір, поки в купі не залишиться лише
одна вершина. Вузол, що залишився, є кореневою вершиною, і дерево
завершено.


6. Які головні обмеження та недоліки алгоритму кодування Гафмена? Чи можливо покращити його продуктивність?

Алгоритм Гафмена краще працює при великій різниці в частоті символів. Для покращення можна попередньо відсортувати масив вхідних даних.

7. Які існують альтернативні методи стиснення даних, що можуть конкурувати з алгоритмом Гафмена?

Арифметичне кодування, алгоритми Лемпела-Зіва, трансформація Барроуза-Вілера, Шеннон-Фано кодування.

8. Які практичні застосування можуть мати алгоритми стиснення даних, зокрема алгоритм Гафмена, у сучасних інформаційних ситемах?

Застосування кодування Гафмена:

− Використовується для передачі факсу і тексту.

− Використовується звичайними форматами стиснення, такими як PKZIP,
GZIP тощо.

− Мультимедійні кодеки, такі як JPEG, PNG і MP3, використовують
кодування Гафмена (точніше, префіксні коди).

− Це корисно у випадках, коли є ряд символів, що часто зустрічаються.
