# Pattern maching - wyszukiwanie wzorców
## Paweł Kruczkiewicz
#### 31.03.2021 r.

### Treść
Zadanie polega na implementacji dwóch algorytmów kompresji:

1. statycznego algorytmu Huffmana (1 punkt)
2. dynamicznego algorytmu Huffmana (2 punkty)

Dla każdego z algorytmów należy wykonać następujące zadania:

1. Opracować format pliku przechowującego dane.
2. Zaimplementować algorytm kompresji i dekompresji danych dla tego formatu pliku.
3. Zmierzyć współczynnik kompresji (wyrażone w procentach: 1 - plik_skompresowany / plik_nieskompresowany) dla plików tekstowych o rozmiarach: 1kB, 10kB, 100kB, 1MB, dla różnych typów plików: plik tekstowy z portalu Guttenberga, plik źródłowy z Githubu, plik ze znakami losowanymi z rozkładu jednostajnego.
4. Zmierzyć czas kompresji i dekompresji dla plików z punktu 3 dla każdego algorytmu.

Zadanie dla chętnych:
Zaimplementować dowolny algorytm ze zmiennym blokiem kompresji, który uzyska lepszy współczynnik kompresji na większości danych wejściowych, niż algorytmy Huffmana  (+2 punkty).

## Implementacje
### Kod Huffmana statyczny
**Tworzenie drzewa**

In [6]:
from collections import deque
from math import inf


class Internal_node:
    def __init__(self, weight, left, right):
        self.weight = weight
        self.left = left
        self.right = right

        
class Leaf:
    def __init__(self, weight, letter):
        self.weight = weight
        self.letter = letter
    
    
def count_weights(text):
    result = dict()
    for c in text:
        val = resul.get(c, 0)
        result[c] = val + 1
    return result
        

def smallest_two_elems(deq1, deq2):
    result = []
    while len(result) < 2:
        smallest1 = smallest2 = inf
        if len(deq1):
            smallest1 = deq1[0]
        if len(deq2):
            smallest2 = deq2[0]
            
        if smallest1.weight < smallest2.weight:
            result.append(deq1.popleft())
        else:
            result.append(deq2.popleft())
        
    return tuple(result)
    

def static_huffman(letter_count):
    n = len(letter_count)
    
    leaves = [Leaf(sign, weight) for sign, weight in letter_count.items()]
    leaves.sort(key=lambda x: x.weight)
    d_leaves = deque(leafs)
    
    internal_nodes = deque()
    
    for _ in range(n-1):
        elem1, elem2 = smallest_two_elems(leaves, internal_nodes)
        internal_nodes.append(Internal_Node(elem1, elem2, elem1.weight+elem2.weight))
    
    return internal_nodes[-1]  # == root

**Kodowanie**


In [8]:
def is_instance(obj, class_name):
    return obj.__class__.__name__ == class_name


def give_dict(node, result, acc=""):
    if is_instance(node, "Leaf"):
        dict[node.letter] = acc
    
    if is_instance(node, "Internal_node"):
        give_dict(node.left, result, acc + "0")
        give_dict(node.right, result, acc + "1")
        
def encode(text):
    weight_dict = count_weights(text)
    huff_tree_root = static_huffman(weight_dict)
    code_dict = dict()
    give_dict(huff_tree_root, code_dict)
        
    