In [1]:
from os import path as osp
from hashlib import md5

import bitarray as ba

# KODOWANIE O STALEJ DŁUGOŚCI

Jaki jest rozmiar oryginalnego pliku, a jaki pliku (lub plików) z kodem i
zakodowaną reprezentacją?
Zastanów się nad poniższymi zagadnieniami:

## Co można zrobić, żeby bardziej skompresować tekst?
Zastowoswać inny typ kodowania. Być możę lepsze okażą się kody o różnej długośći.
## Co z nieużytymi kodami?
Można służyć do rozszerzenia reprezentacji dokumentu. (Dodać nowe znaki do korpusu)
## Jak odkodowywać kody o zmiennej długości (ang. variable-length code)?
Kody powinny być jedoznacznie dekodowalne. 
## Jaka jest granica wydajności takich kodów (ang. symbol-by-symbol)?
Sufit z wartość logarytmu o podstawie 2 z N. Gdzie N to liczność alfabetu.
W przypadku tego korpusu ceil(log2(37)) =  6

In [2]:
from encoders.fixed_length_encoder import FixedLengthEncoder

In [3]:
normalized_file_path = osp.join('data','norm_wiki_sample.txt')
fle_text_path = osp.join('outputs','wiki.fle')
fle_code_path = osp.join('outputs','fle_code.json')

In [4]:
# Load standard file
with open (normalized_file_path,'r') as file:
    original_text = file.read()

In [5]:
fle = FixedLengthEncoder()
fle.create(original_text)

In [6]:
fle.code

{' ': bitarray('000000'),
 '0': bitarray('000001'),
 '1': bitarray('000010'),
 '2': bitarray('000011'),
 '3': bitarray('000100'),
 '4': bitarray('000101'),
 '5': bitarray('000110'),
 '6': bitarray('000111'),
 '7': bitarray('001000'),
 '8': bitarray('001001'),
 '9': bitarray('001010'),
 'a': bitarray('001011'),
 'b': bitarray('001100'),
 'c': bitarray('001101'),
 'd': bitarray('001110'),
 'e': bitarray('001111'),
 'f': bitarray('010000'),
 'g': bitarray('010001'),
 'h': bitarray('010010'),
 'i': bitarray('010011'),
 'j': bitarray('010100'),
 'k': bitarray('010101'),
 'l': bitarray('010110'),
 'm': bitarray('010111'),
 'n': bitarray('011000'),
 'o': bitarray('011001'),
 'p': bitarray('011010'),
 'q': bitarray('011011'),
 'r': bitarray('011100'),
 's': bitarray('011101'),
 't': bitarray('011110'),
 'u': bitarray('011111'),
 'v': bitarray('100000'),
 'w': bitarray('100001'),
 'x': bitarray('100010'),
 'y': bitarray('100011'),
 'z': bitarray('100100')}

In [7]:
fle_encoded_text = fle.encode(original_text)


In [8]:
fle._save_code(fle_code_path)
fle._save_encoded_file(fle_text_path,fle_encoded_text)

### Porówanmianie rozmiarów plików

In [9]:
print(f'Original file size: {osp.getsize(normalized_file_path)}')
print(f'FLE file size: {osp.getsize(fle_text_path)}')
print(f'FLE/Original file size: {osp.getsize(fle_text_path)/osp.getsize(normalized_file_path)}')

Original file size: 10788941
FLE file size: 8091706
FLE/Original file size: 0.7500000231718758


### Wczytanie pliku i kodu

In [10]:
fle_2 = FixedLengthEncoder()

In [11]:
fle_2.code

{}

In [12]:
fle_2._load_code(fle_code_path)
fle_2.code

{' ': bitarray('000000'),
 '0': bitarray('000001'),
 '1': bitarray('000010'),
 '2': bitarray('000011'),
 '3': bitarray('000100'),
 '4': bitarray('000101'),
 '5': bitarray('000110'),
 '6': bitarray('000111'),
 '7': bitarray('001000'),
 '8': bitarray('001001'),
 '9': bitarray('001010'),
 'a': bitarray('001011'),
 'b': bitarray('001100'),
 'c': bitarray('001101'),
 'd': bitarray('001110'),
 'e': bitarray('001111'),
 'f': bitarray('010000'),
 'g': bitarray('010001'),
 'h': bitarray('010010'),
 'i': bitarray('010011'),
 'j': bitarray('010100'),
 'k': bitarray('010101'),
 'l': bitarray('010110'),
 'm': bitarray('010111'),
 'n': bitarray('011000'),
 'o': bitarray('011001'),
 'p': bitarray('011010'),
 'q': bitarray('011011'),
 'r': bitarray('011100'),
 's': bitarray('011101'),
 't': bitarray('011110'),
 'u': bitarray('011111'),
 'v': bitarray('100000'),
 'w': bitarray('100001'),
 'x': bitarray('100010'),
 'y': bitarray('100011'),
 'z': bitarray('100100')}

## Porównanie plików

In [13]:
fle_loaded_encoded_text = fle_2._load_encoded_file(fle_text_path)

In [14]:
fle_decoded_text = fle_2.decode(fle_loaded_encoded_text)[:len(original_text)]

In [15]:
fle_decoded_text_hash = md5(fle_decoded_text.encode()).hexdigest()

In [16]:
fle_decoded_text_hash

'47e54e43556131eef79bb946a10d2da3'

In [17]:
original_text_hash = md5(original_text.encode()).hexdigest()

In [18]:
original_text_hash

'47e54e43556131eef79bb946a10d2da3'

In [19]:
fle_decoded_text_hash == original_text_hash

True

# KODOWANIE O HUFFMANA

In [20]:
from encoders.huffman_encoder import HuffmanEncoder

In [21]:
normalized_file_path = osp.join('data','norm_wiki_sample.txt')
huffman_text_path = osp.join('outputs','wiki.huffman')
huffman_code_path = osp.join('outputs','huffman_code.json')

In [22]:
# Load standard file
with open (normalized_file_path,'r') as file:
    original_text = file.read()

In [23]:
huffman = HuffmanEncoder()
huffman.create(original_text)

In [24]:
huffman.code

{' ': bitarray('000'),
 'u': bitarray('001000'),
 '1': bitarray('00100100'),
 '7': bitarray('0010010100'),
 '6': bitarray('0010010101'),
 'z': bitarray('0010010110'),
 'q': bitarray('0010010111'),
 '0': bitarray('00100110'),
 'j': bitarray('001001110'),
 '8': bitarray('001001111'),
 'h': bitarray('00101'),
 'a': bitarray('0011'),
 'l': bitarray('01000'),
 'f': bitarray('010010'),
 'p': bitarray('010011'),
 't': bitarray('0101'),
 'g': bitarray('011000'),
 'v': bitarray('0110010'),
 '9': bitarray('01100110'),
 '2': bitarray('01100111'),
 'd': bitarray('01101'),
 'i': bitarray('0111'),
 'n': bitarray('1000'),
 'o': bitarray('1001'),
 'r': bitarray('1010'),
 'c': bitarray('10110'),
 'b': bitarray('101110'),
 'w': bitarray('101111'),
 's': bitarray('1100'),
 '3': bitarray('110100000'),
 '5': bitarray('110100001'),
 'x': bitarray('110100010'),
 '4': bitarray('110100011'),
 'k': bitarray('1101001'),
 'y': bitarray('110101'),
 'm': bitarray('11011'),
 'e': bitarray('111')}

In [25]:
huffman_encoded_text = huffman.encode(original_text)


In [26]:
huffman._save_code(huffman_code_path)
huffman._save_encoded_file(huffman_text_path,huffman_encoded_text)

### Porówanmianie rozmiarów plików

In [27]:
print(f'Original file size: {osp.getsize(normalized_file_path)}')
print(f'Huffman file size: {osp.getsize(huffman_text_path)}')
print(f'Huffman/Original file size: {osp.getsize(huffman_text_path)/osp.getsize(normalized_file_path)}')

Original file size: 10788941
Huffman file size: 5811215
Huffman/Original file size: 0.5386270070436014


### Wczytanie pliku i kodu

In [28]:
huffman_2 = HuffmanEncoder()

In [29]:
huffman_2.code

{}

In [30]:
huffman_2._load_code(huffman_code_path)
huffman_2.code

{' ': bitarray('000'),
 'u': bitarray('001000'),
 '1': bitarray('00100100'),
 '7': bitarray('0010010100'),
 '6': bitarray('0010010101'),
 'z': bitarray('0010010110'),
 'q': bitarray('0010010111'),
 '0': bitarray('00100110'),
 'j': bitarray('001001110'),
 '8': bitarray('001001111'),
 'h': bitarray('00101'),
 'a': bitarray('0011'),
 'l': bitarray('01000'),
 'f': bitarray('010010'),
 'p': bitarray('010011'),
 't': bitarray('0101'),
 'g': bitarray('011000'),
 'v': bitarray('0110010'),
 '9': bitarray('01100110'),
 '2': bitarray('01100111'),
 'd': bitarray('01101'),
 'i': bitarray('0111'),
 'n': bitarray('1000'),
 'o': bitarray('1001'),
 'r': bitarray('1010'),
 'c': bitarray('10110'),
 'b': bitarray('101110'),
 'w': bitarray('101111'),
 's': bitarray('1100'),
 '3': bitarray('110100000'),
 '5': bitarray('110100001'),
 'x': bitarray('110100010'),
 '4': bitarray('110100011'),
 'k': bitarray('1101001'),
 'y': bitarray('110101'),
 'm': bitarray('11011'),
 'e': bitarray('111')}

## Porównanie plików

In [31]:
huffman_loaded_encoded_text = huffman_2._load_encoded_file(huffman_text_path)

In [None]:
huffman_decoded_text = huffman_2.decode(huffman_loaded_encoded_text)[:len(original_text)]

In [None]:
huffman_decoded_text_hash = md5(huffman_decoded_text.encode()).hexdigest()

In [None]:
huffman_decoded_text_hash

In [None]:
original_text_hash = md5(original_text.encode()).hexdigest()

In [None]:
original_text_hash

In [None]:
huffman_decoded_text_hash == original_text_hash

# Adaptive Huffman

W tym zadaniu nie należało sprawdzić jakości kompresji, tylko przygotować program, który utworzy dla dowolnego tekstu kod.

Na potrzebę prezentacji zostały użyte tylko przykłady z http://ben-tanen.com/adaptive-huffman/

In [None]:
from encoders.adaptive_huffman_encoder import AdaptiveHuffmanCodeTree

In [None]:
def visualize(text :str) -> None:
    ahct = AdaptiveHuffmanCodeTree()
    for i, char in enumerate(text):
        print(f' State for : {text[:i + 1]}')
        ahct.add_character(char)
        print(ahct.get_code(left_tree_char = '0', right_tree_char= '1'))
        print()

## bookkeeper

In [None]:
test_1 = 'bookkeeper'
visualize('bookkeeper')

## mississippi

In [41]:
visualize('mississippi')

 State for : m
{'m': '1'}

 State for : mi
{'m': '1', 'i': '01'}

 State for : mis
{'m': '0', 'i': '11', 's': '101'}

 State for : miss
{'m': '101', 'i': '11', 's': '0'}

 State for : missi
{'m': '101', 'i': '11', 's': '0'}

 State for : missis
{'m': '101', 'i': '11', 's': '0'}

 State for : mississ
{'m': '001', 'i': '01', 's': '1'}

 State for : mississi
{'m': '001', 'i': '01', 's': '1'}

 State for : mississip
{'m': '101', 'i': '11', 's': '0', 'p': '1001'}

 State for : mississipp
{'m': '1001', 'i': '11', 's': '0', 'p': '101'}

 State for : mississippi
{'m': '1001', 'i': '11', 's': '0', 'p': '101'}



## sleeplessness

In [42]:
visualize('sleeplessness')

 State for : s
{'s': '1'}

 State for : sl
{'s': '1', 'l': '01'}

 State for : sle
{'s': '0', 'l': '11', 'e': '101'}

 State for : slee
{'s': '101', 'l': '11', 'e': '0'}

 State for : sleep
{'s': '111', 'l': '10', 'e': '0', 'p': '1101'}

 State for : sleepl
{'s': '111', 'l': '10', 'e': '0', 'p': '1101'}

 State for : sleeple
{'s': '111', 'l': '10', 'e': '0', 'p': '1101'}

 State for : sleeples
{'s': '111', 'l': '10', 'e': '0', 'p': '1101'}

 State for : sleepless
{'s': '10', 'l': '111', 'e': '0', 'p': '1101'}

 State for : sleeplessn
{'s': '10', 'l': '01', 'e': '11', 'p': '001', 'n': '0001'}

 State for : sleeplessne
{'s': '10', 'l': '01', 'e': '11', 'p': '001', 'n': '0001'}

 State for : sleeplessnes
{'s': '10', 'l': '01', 'e': '11', 'p': '001', 'n': '0001'}

 State for : sleeplessness
{'s': '0', 'l': '101', 'e': '11', 'p': '1001', 'n': '10001'}



# LZW
Wypisywanie kodu na wyjściu ma charakter tylko poglądowy. Podczas dekodowaina słownik jest dynamcznie tworzony na podsawie wejścia.

# Norm wiki

In [43]:
from encoders.LZW_encoder import LZWEncoder
from math import pow


In [44]:
normalized_file_path = osp.join('data','norm_wiki_sample.txt')
lzw_text_path = osp.join('outputs','wiki.lzw')
lzw_code_path = osp.join('outputs','lzw_wiki_code.json')

In [45]:
# Load standard file
with open (normalized_file_path,'r') as file:
    original_text = file.read()

In [46]:
DICT_SIZE = pow(2,18)

In [47]:
lzw = LZWEncoder(max_dict_size=DICT_SIZE)

In [48]:
lzw.code

{}

In [49]:
lzw_encoded_text = lzw.encode(original_text)


In [50]:
lzw._save_code(lzw_code_path)
lzw._save_encoded_file(lzw_text_path,lzw_encoded_text)

### Porówanmianie rozmiarów plików

In [51]:
print(f'Original file size: {osp.getsize(normalized_file_path)}')
print(f'LZW file size: {osp.getsize(lzw_text_path)}')
print(f'LZW/Original file size: {osp.getsize(lzw_text_path)/osp.getsize(normalized_file_path)}')

Original file size: 10788941
LZW file size: 21595260
LZW/Original file size: 2.001610723425033


### Wczytanie pliku i kodu

In [52]:
lzw_2 = LZWEncoder(max_dict_size=DICT_SIZE)

In [53]:
lzw_2.code

{}

## Porównanie plików

In [54]:
lzw_loaded_encoded_text = lzw_2._load_encoded_file(lzw_text_path)

In [55]:
lzw_decoded_text = lzw_2.decode(lzw_loaded_encoded_text)

In [56]:
lzw_decoded_text_hash = md5(lzw_decoded_text.encode()).hexdigest()

In [57]:
lzw_decoded_text_hash

'47e54e43556131eef79bb946a10d2da3'

In [58]:
original_text_hash = md5(original_text.encode()).hexdigest()

In [59]:
original_text_hash

'47e54e43556131eef79bb946a10d2da3'

In [60]:
lzw_decoded_text_hash == original_text_hash

True

## Wiki

In [78]:
wiki_file_path = osp.join('data','wiki_sample.txt')
lzw_text_path = osp.join('outputs','wiki_sample.lzw')
lzw_code_path = osp.join('outputs','wiki_sample_code.json')

In [79]:
lzw_wiki = LZWEncoder(max_dict_size=DICT_SIZE)

In [81]:
# Load standard file
with open (wiki_file_path,'r') as file:
    wiki_text = file.read()
lzw_encoded_text = lzw_wiki.encode(wiki_text)


In [82]:
lzw_wiki._save_code(lzw_code_path)
lzw_wiki._save_encoded_file(lzw_text_path,lzw_encoded_text)

In [83]:
print(f'Original file size: {osp.getsize(wiki_file_path)}')
print(f'LZW file size: {osp.getsize(lzw_text_path)}')
print(f'LZW/Original file size: {osp.getsize(lzw_text_path)/osp.getsize(wiki_file_path)}')

Original file size: 11909016
LZW file size: 24237936
LZW/Original file size: 2.0352593362877336


## Plik tylko z literami `a`

In [68]:
aaa_file_path = osp.join('data','aaa.txt')
lzw_text_path = osp.join('outputs','aaa.lzw')
lzw_code_path = osp.join('outputs','aaa_code.json')

In [69]:
lzw_a = LZWEncoder(max_dict_size=DICT_SIZE)

In [70]:
# Load standard file
with open (aaa_file_path,'r') as file:
    aaa_text = file.read()
lzw_encoded_text = lzw.encode(aaa_text)


In [71]:
lzw_a._save_code(lzw_code_path)
lzw_a._save_encoded_file(lzw_text_path,lzw_encoded_text)

In [72]:
print(f'Original file size: {osp.getsize(aaa_file_path)}')
print(f'LZW file size: {osp.getsize(lzw_text_path)}')
print(f'LZW/Original file size: {osp.getsize(lzw_text_path)/osp.getsize(aaa_file_path)}')

Original file size: 279001
LZW file size: 1683
LZW/Original file size: 0.006032236443596977


Dla plików z Wikipedii osiągnięto wzrost objętości.
Powodem jest prawdopodobnie, kiepska implementacja LZW. Kolejne klucze słownika zajmują zbyt dużo miejsca.
W przypadku pliku zawierającego tylko jeden typ znaków (Przypadek idealny dla LZW), udało się zmniejszyć rozmiar pliku do rozmiaru 0.6% oryginalnego rozmiaru.