In [1]:
from static_huffman import SHuffman
from dynamic_huffman import DHuffman
import os

Implementacje obu algorytmów znajdują się w plikach *static_huffman.py* i *dynamic_huffman.py*.

In [2]:
def compare_files(file1, file2):
    with open(file1, "r") as f1:
        data1 = f1.read()
    with open(file2, "r") as f2:
        data2 = f2.read()
    print(f'Files equal: {data1 == data2}')
    
def compression_ratio(file1, file2):
    print(f'Compression ratio: {100 * (1 - os.stat(file1).st_size/os.stat(file2).st_size)}%')

# Statyczne kodowanie Huffmana

Dla statycznego kodowania Huffmana opracowano następujący format pliku:
* W pierwszej kolejności do pliku kodowane jest drzewo z pomocą rekurencyjnej funkcji, która, idąc od korzenia, dla każdego wierzchołka koduje najpierw jego lewe dziecko, a następnie jego prawe dziecko. Jeśli dziecko jest węzłem wewnętrznym jest oznaczane przez $0$. Jeśli dziecko jest liściem oznaczane jest przez $1$, po którym na 8 bitach zakodowany jest kod ASCII znaku kodowanego przez dany liść.
* Następnie zapisywany jest zakodowany tekst
* Na koniec otrzymany kod jest dopełniany tak, aby jego długość była podzielna przez 8 (tak, aby dało się też potem to odkodować) poprzez dodanie na początek fragmentu $0^{8 - liczba\_bitów\%8 -1}1$.


**1kB**

In [43]:
s = SHuffman("data/1000B", file=True)

In [44]:
%%timeit
s.compress()

792 µs ± 30.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [45]:
compression_ratio("sh_compressed", "data/1000B")

Compression ratio: 42.472582253240276%


In [46]:
s = SHuffman()

In [47]:
%%timeit
s.decompress()

2.95 ms ± 696 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [48]:
compare_files("sh_decompressed.txt", "data/1000B")

Files equal: True


**10kB**

In [37]:
s = SHuffman("data/10000B", file=True)

In [38]:
%%timeit
s.compress()

2.49 ms ± 112 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [39]:
compression_ratio("sh_compressed", "data/10000B")

Compression ratio: 46.12777833150603%


In [40]:
s = SHuffman()

In [41]:
%%timeit
s.decompress()

19.9 ms ± 1.85 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [42]:
compare_files("sh_decompressed.txt", "data/10000B")

Files equal: True


**100kB**

In [31]:
s = SHuffman("data/100000B", file=True)

In [32]:
%%timeit
s.compress()

19.6 ms ± 2.37 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [33]:
compression_ratio("sh_compressed", "data/100000B")

Compression ratio: 46.503074822338064%


In [34]:
s = SHuffman()

In [35]:
%%timeit
s.decompress()

196 ms ± 6.83 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [36]:
compare_files("sh_decompressed.txt", "data/100000B")

Files equal: True


**1MB**

In [23]:
s = SHuffman("data/1000000B", file=True)

In [24]:
%%timeit
s.compress()

178 ms ± 1.53 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [30]:
compression_ratio("sh_compressed", "data/1000000B")

Compression ratio: 46.55068274693511%


In [26]:
s = SHuffman()

In [27]:
%%timeit
s.decompress()

2.73 s ± 212 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [28]:
compare_files("sh_decompressed.txt", "data/1000000B")

Files equal: True


# Dynamiczne kodowanie Huffmana

Dla dynamicznego kodowania Huffmana do pliku zapisano tylko otrzymany kod tekstu uzupełniony tak, aby liczba jego bitów była podzielna przez 8 (sposób uzupełnienia taki sam, jak dla statycznego kodowania Huffmana).

**1kB**

In [3]:
s = DHuffman("data/1000B", file=True)

In [4]:
%%timeit
s.compress()

10 ms ± 489 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [5]:
compression_ratio("dh_compressed", "data/1000B")

Compression ratio: 42.871385842472584%


In [6]:
s = DHuffman()

In [7]:
%%timeit
s.decompress()

9.43 ms ± 226 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [8]:
compare_files("dh_decompressed.txt", "data/1000B")

Files equal: True


**10kB**

In [9]:
s = DHuffman("data/10000B", file=True)

In [10]:
%%timeit
s.compress()

87.1 ms ± 1.33 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [11]:
compression_ratio("dh_compressed", "data/10000B")

Compression ratio: 46.11781122296422%


In [12]:
s = DHuffman()

In [13]:
%%timeit
s.decompress()

98.4 ms ± 13.2 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [14]:
compare_files("dh_decompressed.txt", "data/10000B")

Files equal: True


**100kB**

In [15]:
s = DHuffman("data/100000B", file=True)

In [16]:
%%timeit
s.compress()

855 ms ± 8.85 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [17]:
compression_ratio("dh_compressed", "data/100000B")

Compression ratio: 46.5000847195782%


In [18]:
s = DHuffman()

In [19]:
%%timeit
s.decompress()

875 ms ± 57.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [20]:
compare_files("dh_decompressed.txt", "data/100000B")

Files equal: True


**1MB**

In [21]:
s = DHuffman("data/1000000B", file=True)

In [22]:
%%timeit
s.compress()

8.93 s ± 240 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [23]:
compression_ratio("dh_compressed", "data/1000000B")

Compression ratio: 46.5483903119705%


In [24]:
s = DHuffman()

In [25]:
%%timeit
s.decompress()

8.76 s ± 537 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [26]:
compare_files("dh_decompressed.txt", "data/1000000B")

Files equal: True
