## 3. Реалізуйте алгоритм Хаффмана для стиснення текстових даних. Напишіть код для стиснення та розпакування текстового файлу за допомогою цього алгоритму.


In [27]:
import os
from bitstring import BitArray

In [28]:
# Node of a Huffman Tree  
class Nodes:  
    def __init__(self, probability, symbol, left = None, right = None):  
        # probability of the symbol  
        self.probability = probability  
  
        # the symbol  
        self.symbol = symbol  
  
        # the left node  
        self.left = left  
  
        # the right node  
        self.right = right  
  
        # the tree direction (0 or 1)  
        self.code = ''  
        
""" A supporting function in order to calculate the probabilities of symbols in specified data """  
def CalculateProbability(the_data):  
    the_symbols = dict()  
    for item in the_data:  
        if the_symbols.get(item) == None:  
            the_symbols[item] = 1  
        else:   
            the_symbols[item] += 1       
    return the_symbols  
  
""" A supporting function in order to print the codes of symbols by travelling a Huffman Tree """  
the_codes = dict()  
  
def CalculateCodes(node, value = ''):  
    # a huffman code for current node  
    newValue = value + str(node.code)  
  
    if(node.left):  
        CalculateCodes(node.left, newValue)  
    if(node.right):  
        CalculateCodes(node.right, newValue)  
  
    if(not node.left and not node.right):  
        the_codes[node.symbol] = newValue  
           
    return the_codes  
  
""" A supporting function in order to get the encoded result """  
def OutputEncoded(the_data, coding):  
    encodingOutput = []  
    for element in the_data:  
        # print(coding[element], end = '')  
        encodingOutput.append(coding[element])  
          
    the_string = ''.join([str(item) for item in encodingOutput])      
    return the_string  
          
""" A supporting function in order to calculate the space difference between compressed and non compressed data"""      
def TotalGain(the_data, coding):  
    # total bit space to store the data before compression  
    beforeCompression = len(the_data) * 8  
    afterCompression = 0  
    the_symbols = coding.keys()  
    for symbol in the_symbols:  
        the_count = the_data.count(symbol)  
        # calculating how many bit is required for that symbol in total  
        afterCompression += the_count * len(coding[symbol])  
#     print("Space usage before compression (in bits):", beforeCompression)  
#     print("Space usage after compression (in bits):",  afterCompression)  

def HuffmanEncoding(the_data):  
    symbolWithProbs = CalculateProbability(the_data)  
    the_symbols = symbolWithProbs.keys()  
    the_probabilities = symbolWithProbs.values()  
    print("symbols: ", the_symbols)  
    print("probabilities: ", the_probabilities)  
      
    the_nodes = []  
      
    # converting symbols and probabilities into huffman tree nodes  
    for symbol in the_symbols:  
        the_nodes.append(Nodes(symbolWithProbs.get(symbol), symbol))  
      
    while len(the_nodes) > 1:  
        # sorting all the nodes in ascending order based on their probability  
        the_nodes = sorted(the_nodes, key = lambda x: x.probability)  
        # for node in nodes:    
        #      print(node.symbol, node.prob)  
      
        # picking two smallest nodes  
        right = the_nodes[0]  
        left = the_nodes[1]  
      
        left.code = 0  
        right.code = 1  
      
        # combining the 2 smallest nodes to create new node  
        newNode = Nodes(left.probability + right.probability, left.symbol + right.symbol, left, right)  
      
        the_nodes.remove(left)  
        the_nodes.remove(right)  
        the_nodes.append(newNode)  
              
    huffmanEncoding = CalculateCodes(the_nodes[0])  
    print("symbols with codes", huffmanEncoding)  
    TotalGain(the_data, huffmanEncoding)  
    encodedOutput = OutputEncoded(the_data,huffmanEncoding)  
    return encodedOutput, the_nodes[0]  
   
def HuffmanDecoding(encodedData, huffmanTree):  
    treeHead = huffmanTree  
    decodedOutput = []  
    for x in encodedData:  
        if x == '1':  
            huffmanTree = huffmanTree.right     
        elif x == '0':  
            huffmanTree = huffmanTree.left  
        try:  
            if huffmanTree.left.symbol == None and huffmanTree.right.symbol == None:  
                pass  
        except AttributeError:  
            decodedOutput.append(huffmanTree.symbol)  
            huffmanTree = treeHead  
          
    string = ''.join([str(item) for item in decodedOutput])  
    return string  

### Reading text file 

In [29]:
filename = 'text.txt'
with open(filename, 'r', encoding='utf8') as file:
    text = file.read() 
print('Original text:\n\n', text)    

Original text:

 Image Feature Extraction – це процес отримання важливих ознак зображення з метою його подальшого аналізу та розпізнавання об'єктів на ньому. Він включає використання математичних методів та алгоритмів, що дозволяють зменшити обсяг даних та виокремити значущі ознаки.
Одним з основних методів Feature Extraction є використання фільтрів, які дозволяють виокремлювати конкретні деталі зображення, наприклад, контури, границі та текстури.
Іншим методом є використання алгоритмів класифікації, таких як Principal Component Analysis (PCA) та Independent Component Analysis (ICA), які дозволяють зменшити розмірність даних та виокремити найважливіші ознаки зображення.



### Creating HuffmanTree & encoding text

In [30]:
encoding, tree = HuffmanEncoding(text)  

symbols:  dict_keys(['I', 'm', 'a', 'g', 'e', ' ', 'F', 't', 'u', 'r', 'E', 'x', 'c', 'i', 'o', 'n', '–', 'ц', 'е', 'п', 'р', 'о', 'с', 'т', 'и', 'м', 'а', 'н', 'я', 'в', 'ж', 'л', 'х', 'з', 'к', 'б', 'ю', 'й', 'г', 'д', 'ь', 'ш', 'і', 'у', "'", 'є', '.', 'В', 'ч', ',', 'щ', '\n', 'О', 'ф', 'І', 'ї', 'P', 'p', 'l', 'C', 'A', 'y', 's', '(', ')', 'd'])
probabilities:  dict_values([3, 3, 8, 1, 10, 80, 2, 9, 2, 5, 2, 2, 3, 6, 6, 12, 1, 4, 18, 4, 22, 42, 9, 35, 39, 19, 41, 41, 15, 23, 5, 15, 6, 18, 22, 5, 6, 2, 6, 12, 7, 5, 22, 5, 1, 4, 4, 1, 3, 7, 2, 3, 1, 2, 1, 1, 2, 4, 3, 4, 4, 2, 4, 2, 2, 2])
symbols with codes {'є': '00000000', 'п': '00000001', 'a': '0000001', 'л': '000001', 'я': '000010', 'ц': '00001100', 'F': '000011010', 'ї': '000011011', ',': '0000111', 'ь': '0001000', 'l': '00010010', '\n': '00010011', 'ч': '00010100', 'c': '00010101', 'm': '00010110', 'I': '00010111', 'г': '0001100', 'ю': '0001101', 'х': '0001110', 'o': '0001111', 'д': '001000', 'n': '001001', 'в': '00101', 'і': 

In [31]:
print('Encoded output: ', encoding)  

Encoded output:  00010111000101100000001111010101101001100000011010101001000000111000111110101101000110100110011110100111100111100011010001000000100010101110001010010000011110010011001110101001000000110011100100000000010100001010000110011100110000100010111010100010111010101110110011000001010000101011110100000000011011001011011000111010001011100101100111001111001100101010100111010000111101000011100011001100000101001100110010101111001101010100011011001111001001010001100010110000000001010100100001110000010001000010011001010001100010110001110110011100000100110110010100101100110101111000100001011100100000001001101100101100111001010111011001100000101000101010011111101001100000000001111101001100010110001100111100011000010000101101010100101111111110011101001000110011010000101001110000010001101000101000111000000001000010110110011101010100010111100001101011101100110000010100101010111110111100101010111110110110001010001101011000111010010101111001101010100100000110001011001101011110001110000010001

### Converting code to bytes & writing compressed file

In [32]:
n = int(encoding, 2)
b = n.to_bytes((n.bit_length() + 7) // 8, 'big')

with open('text.cmpr', 'wb') as opened_file:
        opened_file.write(b)

In [33]:
print(f'Original file size: {os.path.getsize("text.txt")}')
print(f'Compressed file size: {os.path.getsize("text.cmpr")}')

Original file size: 1130
Compressed file size: 428


### Reading compressed file, converting bytes to string, decoding

In [34]:
with open('text.cmpr', mode='rb') as file:
    text = file.read()

In [35]:
code_ls = list(BitArray(text).bin)
while code_ls[0] == '0' and len(encoding) < len(code_ls) :    
    code_ls.pop(0)
str_code = ''.join(code_ls)   

In [36]:
print('Restored text:\n\n', HuffmanDecoding(str_code, tree))  

Restored text:

 Image Feature Extraction – це процес отримання важливих ознак зображення з метою його подальшого аналізу та розпізнавання об'єктів на ньому. Він включає використання математичних методів та алгоритмів, що дозволяють зменшити обсяг даних та виокремити значущі ознаки.
Одним з основних методів Feature Extraction є використання фільтрів, які дозволяють виокремлювати конкретні деталі зображення, наприклад, контури, границі та текстури.
Іншим методом є використання алгоритмів класифікації, таких як Principal Component Analysis (PCA) та Independent Component Analysis (ICA), які дозволяють зменшити розмірність даних та виокремити найважливіші ознаки зображення.

