In [1]:
from os import path as osp
from hashlib import md5

import bitarray as ba

# KODOWANIE O STALEJ DŁUGOŚCI

Jaki jest rozmiar oryginalnego pliku, a jaki pliku (lub plików) z kodem i
zakodowaną reprezentacją?
Zastanów się nad poniższymi zagadnieniami:

## Co można zrobić, żeby bardziej skompresować tekst?
Zastowoswać inny typ kodowania. Być możę lepsze okażą się kody o różnej długośći.
## Co z nieużytymi kodami?
Można służyć do rozszerzenia reprezentacji dokumentu. (Dodać nowe znaki do korpusu)
## Jak odkodowywać kody o zmiennej długości (ang. variable-length code)?
Kody powinny być jedoznacznie dekodowalne. 
## Jaka jest granica wydajności takich kodów (ang. symbol-by-symbol)?
Sufit z wartość logarytmu o podstawie 2 z N. Gdzie N to liczność alfabetu.
W przypadku tego korpusu ceil(log2(37)) =  6

In [2]:
from encoders.fixed_length_encoder import FixedLengthEncoder

In [3]:
normalized_file_path = osp.join('data','norm_wiki_sample.txt')
fle_text_path = osp.join('outputs','fle_.fle')
fle_code_path = osp.join('outputs','code.flec')

In [4]:
# Load standard file
with open (normalized_file_path,'r') as file:
    original_text = file.read()

In [5]:
fle = FixedLengthEncoder()
fle.create(original_text)

In [6]:
fle.code

{' ': bitarray('000001'),
 '0': bitarray('000010'),
 '1': bitarray('000011'),
 '2': bitarray('000100'),
 '3': bitarray('000101'),
 '4': bitarray('000110'),
 '5': bitarray('000111'),
 '6': bitarray('001000'),
 '7': bitarray('001001'),
 '8': bitarray('001010'),
 '9': bitarray('001011'),
 'a': bitarray('001100'),
 'b': bitarray('001101'),
 'c': bitarray('001110'),
 'd': bitarray('001111'),
 'e': bitarray('010000'),
 'f': bitarray('010001'),
 'g': bitarray('010010'),
 'h': bitarray('010011'),
 'i': bitarray('010100'),
 'j': bitarray('010101'),
 'k': bitarray('010110'),
 'l': bitarray('010111'),
 'm': bitarray('011000'),
 'n': bitarray('011001'),
 'o': bitarray('011010'),
 'p': bitarray('011011'),
 'q': bitarray('011100'),
 'r': bitarray('011101'),
 's': bitarray('011110'),
 't': bitarray('011111'),
 'u': bitarray('100000'),
 'v': bitarray('100001'),
 'w': bitarray('100010'),
 'x': bitarray('100011'),
 'y': bitarray('100100'),
 'z': bitarray('100101')}

In [7]:
fle_encoded_text = fle.encode(original_text)


In [8]:
fle._save_code(fle_code_path)
fle._save_encoded_file(fle_text_path,fle_encoded_text)

### Porówanmianie rozmiarów plików

In [9]:
print(f'Original file size: {osp.getsize(normalized_file_path)}')
print(f'FLE file size: {osp.getsize(fle_text_path)}')
print(f'FLE/Original file size: {osp.getsize(fle_text_path)/osp.getsize(normalized_file_path)}')

Original file size: 10788941
FLE file size: 8091706
FLE/Original file size: 0.7500000231718758


### Wczytanie pliku i kodu

In [10]:
fle_2 = FixedLengthEncoder()

In [11]:
fle_2.code

{}

In [12]:
fle_2._load_code(fle_code_path)
fle_2.code

{' ': bitarray('000001'),
 '0': bitarray('000010'),
 '1': bitarray('000011'),
 '2': bitarray('000100'),
 '3': bitarray('000101'),
 '4': bitarray('000110'),
 '5': bitarray('000111'),
 '6': bitarray('001000'),
 '7': bitarray('001001'),
 '8': bitarray('001010'),
 '9': bitarray('001011'),
 'a': bitarray('001100'),
 'b': bitarray('001101'),
 'c': bitarray('001110'),
 'd': bitarray('001111'),
 'e': bitarray('010000'),
 'f': bitarray('010001'),
 'g': bitarray('010010'),
 'h': bitarray('010011'),
 'i': bitarray('010100'),
 'j': bitarray('010101'),
 'k': bitarray('010110'),
 'l': bitarray('010111'),
 'm': bitarray('011000'),
 'n': bitarray('011001'),
 'o': bitarray('011010'),
 'p': bitarray('011011'),
 'q': bitarray('011100'),
 'r': bitarray('011101'),
 's': bitarray('011110'),
 't': bitarray('011111'),
 'u': bitarray('100000'),
 'v': bitarray('100001'),
 'w': bitarray('100010'),
 'x': bitarray('100011'),
 'y': bitarray('100100'),
 'z': bitarray('100101')}

## Porównanie plików

In [13]:
loaded_encoded_text = fle._load_encoded_file(fle_text_path)

In [14]:
decoded_text = fle_2.decode(loaded_encoded_text)

In [15]:
decoded_text_hash = md5(decoded_text.encode()).hexdigest()

In [16]:
decoded_text_hash

'47e54e43556131eef79bb946a10d2da3'

In [17]:
original_text_hash = md5(original_text.encode()).hexdigest()

In [18]:
original_text_hash

'47e54e43556131eef79bb946a10d2da3'

In [19]:
decoded_text_hash == original_text_hash

True