In [1]:
from os import path as osp
from hashlib import md5

import bitarray as ba

# KODOWANIE O STALEJ DŁUGOŚCI

Jaki jest rozmiar oryginalnego pliku, a jaki pliku (lub plików) z kodem i
zakodowaną reprezentacją?
Zastanów się nad poniższymi zagadnieniami:

## Co można zrobić, żeby bardziej skompresować tekst?
Zastowoswać inny typ kodowania. Być możę lepsze okażą się kody o różnej długośći.
## Co z nieużytymi kodami?
Można służyć do rozszerzenia reprezentacji dokumentu. (Dodać nowe znaki do korpusu)
## Jak odkodowywać kody o zmiennej długości (ang. variable-length code)?
Kody powinny być jedoznacznie dekodowalne. 
## Jaka jest granica wydajności takich kodów (ang. symbol-by-symbol)?
Sufit z wartość logarytmu o podstawie 2 z N. Gdzie N to liczność alfabetu.
W przypadku tego korpusu ceil(log2(37)) =  6

In [2]:
from encoders.fixed_length_encoder import FixedLengthEncoder

In [3]:
normalized_file_path = osp.join('data','norm_wiki_sample.txt')
fle_text_path = osp.join('outputs','wiki.fle')
fle_code_path = osp.join('outputs','fle_code.json')

In [4]:
# Load standard file
with open (normalized_file_path,'r') as file:
    original_text = file.read()

In [5]:
fle = FixedLengthEncoder()
fle.create(original_text)

In [6]:
fle.code

{' ': bitarray('000000'),
 '0': bitarray('000001'),
 '1': bitarray('000010'),
 '2': bitarray('000011'),
 '3': bitarray('000100'),
 '4': bitarray('000101'),
 '5': bitarray('000110'),
 '6': bitarray('000111'),
 '7': bitarray('001000'),
 '8': bitarray('001001'),
 '9': bitarray('001010'),
 'a': bitarray('001011'),
 'b': bitarray('001100'),
 'c': bitarray('001101'),
 'd': bitarray('001110'),
 'e': bitarray('001111'),
 'f': bitarray('010000'),
 'g': bitarray('010001'),
 'h': bitarray('010010'),
 'i': bitarray('010011'),
 'j': bitarray('010100'),
 'k': bitarray('010101'),
 'l': bitarray('010110'),
 'm': bitarray('010111'),
 'n': bitarray('011000'),
 'o': bitarray('011001'),
 'p': bitarray('011010'),
 'q': bitarray('011011'),
 'r': bitarray('011100'),
 's': bitarray('011101'),
 't': bitarray('011110'),
 'u': bitarray('011111'),
 'v': bitarray('100000'),
 'w': bitarray('100001'),
 'x': bitarray('100010'),
 'y': bitarray('100011'),
 'z': bitarray('100100')}

In [7]:
fle_encoded_text = fle.encode(original_text)


In [8]:
fle._save_code(fle_code_path)
fle._save_encoded_file(fle_text_path,fle_encoded_text)

### Porówanmianie rozmiarów plików

In [9]:
print(f'Original file size: {osp.getsize(normalized_file_path)}')
print(f'FLE file size: {osp.getsize(fle_text_path)}')
print(f'FLE/Original file size: {osp.getsize(fle_text_path)/osp.getsize(normalized_file_path)}')

Original file size: 10788941
FLE file size: 8091706
FLE/Original file size: 0.7500000231718758


### Wczytanie pliku i kodu

In [10]:
fle_2 = FixedLengthEncoder()

In [11]:
fle_2.code

{}

In [12]:
fle_2._load_code(fle_code_path)
fle_2.code

{' ': bitarray('000000'),
 '0': bitarray('000001'),
 '1': bitarray('000010'),
 '2': bitarray('000011'),
 '3': bitarray('000100'),
 '4': bitarray('000101'),
 '5': bitarray('000110'),
 '6': bitarray('000111'),
 '7': bitarray('001000'),
 '8': bitarray('001001'),
 '9': bitarray('001010'),
 'a': bitarray('001011'),
 'b': bitarray('001100'),
 'c': bitarray('001101'),
 'd': bitarray('001110'),
 'e': bitarray('001111'),
 'f': bitarray('010000'),
 'g': bitarray('010001'),
 'h': bitarray('010010'),
 'i': bitarray('010011'),
 'j': bitarray('010100'),
 'k': bitarray('010101'),
 'l': bitarray('010110'),
 'm': bitarray('010111'),
 'n': bitarray('011000'),
 'o': bitarray('011001'),
 'p': bitarray('011010'),
 'q': bitarray('011011'),
 'r': bitarray('011100'),
 's': bitarray('011101'),
 't': bitarray('011110'),
 'u': bitarray('011111'),
 'v': bitarray('100000'),
 'w': bitarray('100001'),
 'x': bitarray('100010'),
 'y': bitarray('100011'),
 'z': bitarray('100100')}

## Porównanie plików

In [13]:
fle_loaded_encoded_text = fle_2._load_encoded_file(fle_text_path)

In [14]:
fle_decoded_text = fle_2.decode(fle_loaded_encoded_text)[:len(original_text)]

In [15]:
fle_decoded_text_hash = md5(fle_decoded_text.encode()).hexdigest()

In [16]:
fle_decoded_text_hash

'47e54e43556131eef79bb946a10d2da3'

In [17]:
original_text_hash = md5(original_text.encode()).hexdigest()

In [18]:
original_text_hash

'47e54e43556131eef79bb946a10d2da3'

In [19]:
fle_decoded_text_hash == original_text_hash

True

# KODOWANIE O HUFFMANA DŁUGOŚCI

In [20]:
from encoders.huffman_encoder import HuffmanEncoder

In [21]:
normalized_file_path = osp.join('data','norm_wiki_sample.txt')
huffman_text_path = osp.join('outputs','wiki.huffman')
huffman_code_path = osp.join('outputs','huffman_code.json')

In [22]:
# Load standard file
with open (normalized_file_path,'r') as file:
    original_text = file.read()

In [23]:
huffman = HuffmanEncoder()
huffman.create(original_text)

In [24]:
huffman.code

{' ': bitarray('000'),
 'u': bitarray('001000'),
 '1': bitarray('00100100'),
 '7': bitarray('0010010100'),
 '6': bitarray('0010010101'),
 'z': bitarray('0010010110'),
 'q': bitarray('0010010111'),
 '0': bitarray('00100110'),
 'j': bitarray('001001110'),
 '8': bitarray('001001111'),
 'h': bitarray('00101'),
 'a': bitarray('0011'),
 'l': bitarray('01000'),
 'f': bitarray('010010'),
 'p': bitarray('010011'),
 't': bitarray('0101'),
 'g': bitarray('011000'),
 'v': bitarray('0110010'),
 '9': bitarray('01100110'),
 '2': bitarray('01100111'),
 'd': bitarray('01101'),
 'i': bitarray('0111'),
 'n': bitarray('1000'),
 'o': bitarray('1001'),
 'r': bitarray('1010'),
 'c': bitarray('10110'),
 'b': bitarray('101110'),
 'w': bitarray('101111'),
 's': bitarray('1100'),
 '3': bitarray('110100000'),
 '5': bitarray('110100001'),
 'x': bitarray('110100010'),
 '4': bitarray('110100011'),
 'k': bitarray('1101001'),
 'y': bitarray('110101'),
 'm': bitarray('11011'),
 'e': bitarray('111')}

In [25]:
huffman_encoded_text = huffman.encode(original_text)


In [26]:
huffman._save_code(huffman_code_path)
huffman._save_encoded_file(huffman_text_path,huffman_encoded_text)

### Porówanmianie rozmiarów plików

In [27]:
print(f'Original file size: {osp.getsize(normalized_file_path)}')
print(f'Huffman file size: {osp.getsize(huffman_text_path)}')
print(f'Huffman/Original file size: {osp.getsize(huffman_text_path)/osp.getsize(normalized_file_path)}')

Original file size: 10788941
Huffman file size: 5811215
Huffman/Original file size: 0.5386270070436014


### Wczytanie pliku i kodu

In [28]:
huffman_2 = HuffmanEncoder()

In [29]:
huffman_2.code

{}

In [30]:
huffman_2._load_code(huffman_code_path)
huffman_2.code

{' ': bitarray('000'),
 'u': bitarray('001000'),
 '1': bitarray('00100100'),
 '7': bitarray('0010010100'),
 '6': bitarray('0010010101'),
 'z': bitarray('0010010110'),
 'q': bitarray('0010010111'),
 '0': bitarray('00100110'),
 'j': bitarray('001001110'),
 '8': bitarray('001001111'),
 'h': bitarray('00101'),
 'a': bitarray('0011'),
 'l': bitarray('01000'),
 'f': bitarray('010010'),
 'p': bitarray('010011'),
 't': bitarray('0101'),
 'g': bitarray('011000'),
 'v': bitarray('0110010'),
 '9': bitarray('01100110'),
 '2': bitarray('01100111'),
 'd': bitarray('01101'),
 'i': bitarray('0111'),
 'n': bitarray('1000'),
 'o': bitarray('1001'),
 'r': bitarray('1010'),
 'c': bitarray('10110'),
 'b': bitarray('101110'),
 'w': bitarray('101111'),
 's': bitarray('1100'),
 '3': bitarray('110100000'),
 '5': bitarray('110100001'),
 'x': bitarray('110100010'),
 '4': bitarray('110100011'),
 'k': bitarray('1101001'),
 'y': bitarray('110101'),
 'm': bitarray('11011'),
 'e': bitarray('111')}

## Porównanie plików

In [31]:
huffman_loaded_encoded_text = huffman_2._load_encoded_file(huffman_text_path)

In [32]:
huffman_decoded_text = huffman_2.decode(huffman_loaded_encoded_text)[:len(original_text)]

In [33]:
huffman_decoded_text_hash = md5(huffman_decoded_text.encode()).hexdigest()

In [34]:
huffman_decoded_text_hash

'47e54e43556131eef79bb946a10d2da3'

In [35]:
original_text_hash = md5(original_text.encode()).hexdigest()

In [36]:
original_text_hash

'47e54e43556131eef79bb946a10d2da3'

In [37]:
huffman_decoded_text_hash == original_text_hash

True