# Fanocodierung
Für dieses Praktikum verwenden wir die Klassen für `BitArray`, `BSC` und `CRC` aus dein ersten beiden Praktika.

In [1]:
from math import ceil


class BitArray:
    def __init__(self, bits=None, length=None, file=None):
        if bits is None:
            self.array = 0
            self.length = 0
            if file is not None:
                self.write(file)
        elif type(bits) in {chr, str}:
            self.array = int(bits, 2)
            self.length = len(bits)
            if file is not None:
                self.write(file)
        elif type(bits) == int:
            self.array = bits
            self.length = length if length else bits.bit_length()
            if file is not None:
                self.write(file)
        elif type(bits) == BitArray:
            self.array = bits.array
            self.length = bits.length
            if file is not None:
                self.write(file)
        elif type(bits) == bytes:
            temp = BitArray(int.from_bytes(bits, 'big'))
            cutoff = int(temp[:8])
            self.array = int(temp[8 + cutoff:])
            self.length = len(temp) - (8 + cutoff)
            del temp
            if file is not None:
                self.write(file)
        elif bits is None and file is not None:
            try:
                self.__init__(self.read(file))
            except:
                raise Exception(f'File {file} is invalid!')
        else:
            raise Exception(f"""
Bits must be of type str or int.
{type(bits)} is something completly different.
""")
    
    def __call__(self, step=1):
        for i in range(0, len(self), step):
            if i+step <= len(self):
                yield self[i:i+step]
    
    def __iter__(self):
        for i in range(len(self)):
            yield self[i]
    
    def __getitem__(self, idx):
        if type(idx) == slice:
            start = (idx.start if idx.start is not None else 0) % len(self)
            stop = (idx.stop if idx.stop is not None else len(self)) % (len(self) + 1)
            return BitArray((self.array >> len(self) - stop) & ((1 << stop - start) - 1),
                            length=stop-start)
        else:
            return BitArray((self.array & 1 << (len(self) - idx - 1)) >> (len(self) - idx - 1) , length=1)
    
    def __setitem__(self, idx, value):
        if type(value) != BitArray:
            raise Exception(f"""
Value must be of type BitArray.
{type(value)} is something completly different.
""")
        cutoff = min(len(self), idx + len(value))
        self.array = (self[:idx]|value[:cutoff]|self[cutoff:]).array
    
    def __hash__(self):
        return hash(str(self))
    
    def __or__(self, other):
        return BitArray(self.array << len(other)|other.array, length=len(self) + len(other))
    
    def __xor__(self, other):
        if isinstance(other, BitArray):
            return BitArray(self.array ^ other.array, length=max(len(self), len(other)))
        else:
            return BitArray(self.array ^ other, length=max(len(self), other.bit_length()))
    
    def __repr__(self):
        return f'BitArray[{str(self)}]'
    
    def __str__(self):
        if self.array is not None:
            return bin(self.array).replace('0b', '').zfill(len(self))[:len(self)]
        else:
            return ''
    
    def bytes(self):
        return (BitArray(-len(self) % 8, length=8)|self).array.to_bytes(ceil(len(self)/8) + 1, 'big')
    
    def __len__(self):
        return self.length
    
    def __int__(self):
        return self.array
    
    def __bool__(self):
        return bool(self.array)
    
    def __eq__(self, other):
        return self.array == other.array and len(self) == len(other)
    
    def __lshift__(self, idx):
        return BitArray(self.array << idx, length=self.length + idx)
    
    def __rshift__(self, idx):
        return BitArray(self.array >> idx, length=max(self.length - idx, 0))


def concatenate(args):
    result = BitArray()
    for arg in args:
        result = result | BitArray(arg)
    return result

In [2]:
from random import uniform


class BSC:
    def __init__(self, p):
        self.p = p
    
    def error(self, n):
        return BitArray(''.join('0' if uniform(0, 1) > self.p else '1' for _ in range(n)))
    
    def __call__(self, m):
        return self.error(len(m)) ^ m

In [3]:
class CRC:
    def __init__(self, g, k):
        self.g = g
        self.k = k
    
    def add(self, a, b):
        return a ^ b
    
    def mul(self, a, b):
        result = BitArray()
        for i, v in enumerate(a):
            i = len(a) - i - 1
            result = result ^ (int(v) * int(b) << i)
        return result
    
    def mod(self, a):
        result = BitArray()
        rest = BitArray(a)
        for i, v in enumerate(rest[:-len(self.g)]):
            result <<= 1
            result = result ^ v
            rest = rest ^ (int(rest[i]) * int(self.g) << (len(a) - len(self.g) - i))
        rest.length = self.g.length - 1
        return rest

    def p(self, s):
        return self.mod(s<<(len(self.g)-1))
    
    def c(self, s):
        return self.add(self.p(s), s<<(len(self.g)-1))
    
    def secure(self, stream):
        output = BitArray()
        for s in stream(self.k):
            output = output|self.c(s)
        return output
    
    def check(self, stream):
        return all(not self.mod(c) for c in stream(self.k + len(self.g) - 1)) 

## Häufigkeitsanalyse

Beginnen wir nun mit dem tatsächlichen Praktikum. Zu aller erst wollen wir eine Funktion erstellen, welche für eine gegebene Datei eine Häufigkeitsanalyse (FA, frequency analysis) erstellt. Für diese haben wir folgende Möglichkeiten ein Alphabet zu wählen:

1. Wir wählen ein predeterminiertes Alphabet aus. Beispielsweise indem wir uns von anfang an auf Ascii festlegen und alle Buchstaben die nicht darunter fallen ignorieren.
2. Wir wählen ein Alphabet wie ISO-XXXX oder UTF-X adaptiv, indem wir schauen, welches der Alphabete alle Buchstaben unserer Datei beinhaltet.
3. Wir erstellen unser eigenes Alphabet aus den Zeichen, welche in der Datei vorhanden sind.

Letztere Option scheint die effizienteste und am leichtesten zu implementierende zu sein. Sie birgt jedoch den Nachteil, dass Mögliche *artverwandte* aber nicht im Text vorhandene Buchstaben garnicht erst aufführt. Wird z.B. eine Textdatei die nur aus Kleinbuchstaben besteht erfasst, so finden sich keine Daten über Großbuchstaben in unserer FA obwohl diese auf Grund ihrer *Verwandheit* zu Kleinbuchstaben dort erwartet werden könnten. Sollte also ein Programm mit der erstellten Häufigkeitsanalyse arbeiten und auf einen Buchstaben zugreifen wollen, der nicht vorhanden ist, so werden sich einige NullptrExceptions anhäufen. In unserem Falle wird eine FA nur mit dem Text verwendet, von dem sie erstellt wurde, womit wir diese Problematik umgehen können.

Zur Erinnerung:
$$H(X) := - \sum_{i=1}^{|X|} \text{ld}(P(x_i))P(x_i)$$

In [4]:
from math import log2 as ld


I = lambda p: -ld(p)
H = lambda ps: sum(I(p) * p for p in ps)


def frequency_analysis(file_name):
    with open(file_name, 'r') as file:
        data = file.read()
        frequency = {char: data.count(char)/len(data) for char in set(data)}
    print(f'File entropy: {H(frequency.values())}')
    return frequency


encoding_file_name = 'Burrows Wheeler Transformation.md'
decoding_file_name = encoding_file_name.replace('.', ' (decoded).')


frequencies = frequency_analysis(encoding_file_name)
for key, frequency in frequencies.items():
    print(f'Char: {repr(key)},\tFrequency: {round(frequency * 100, 2)}%,\tInformation: {round(I(frequency), 2)}[bit]')

File entropy: 4.601474664809744
Char: '1',	Frequency: 1.16%,	Information: 6.43[bit]
Char: 'S',	Frequency: 0.29%,	Information: 8.42[bit]
Char: 'H',	Frequency: 0.03%,	Information: 11.95[bit]
Char: '(',	Frequency: 0.21%,	Information: 8.9[bit]
Char: 'T',	Frequency: 0.2%,	Information: 8.95[bit]
Char: 'l',	Frequency: 2.74%,	Information: 5.19[bit]
Char: 'A',	Frequency: 0.58%,	Information: 7.44[bit]
Char: 'b',	Frequency: 1.01%,	Information: 6.62[bit]
Char: '.',	Frequency: 0.25%,	Information: 8.66[bit]
Char: '`',	Frequency: 0.23%,	Information: 8.78[bit]
Char: '9',	Frequency: 0.01%,	Information: 12.95[bit]
Char: '?',	Frequency: 0.02%,	Information: 12.36[bit]
Char: 'j',	Frequency: 0.22%,	Information: 8.86[bit]
Char: '3',	Frequency: 0.22%,	Information: 8.82[bit]
Char: '\t',	Frequency: 0.18%,	Information: 9.14[bit]
Char: '7',	Frequency: 0.36%,	Information: 8.11[bit]
Char: 'v',	Frequency: 0.27%,	Information: 8.52[bit]
Char: '*',	Frequency: 0.03%,	Information: 11.95[bit]
Char: 'm',	Frequency: 0.47%,	

## Fanocode

Die Parentfunktion dieser Implementierung des FanoCodes `FanoCodeBook` erstellt eine sortierte Liste aus Tupeln, welche jeweils einen Buchstaben und dessen Häufigkeit beinhalten. Hier werden lediglich Datenstrukturen gewechselt.
`FanoRecursive` erstellt ein Codebuch durch Aufteilung der sortierten Liste in möglichst gleichgroße Hälften, welche rekursive zu zusammen gesetzt werden.

## Codebuch Encoding
Da wir das Codebuch mitverschicken wollen müssen wir es vorab codieren. Dies wird von der `CodeBookEncode` funktion getan. Das codierte Codebuch wird als Prefix vor dem Codierten Fanocode gesendet und zur Dekodierung abgetrennt und wieder rekonstruiert. So ist lediglich der Bitstream zu vollständigen Decodierung notwendig.

In [5]:
def CodeBookEncode(codebook):
    char_len = max(ord(char).bit_length() for char in codebook.keys())
    freq_len = max(len(freq) for freq in codebook.values())
    block = concatenate(BitArray(len(val), length=freq_len)|BitArray(ord(key), length=char_len)|BitArray(val) for key, val in codebook.items())
    return BitArray(len(codebook), length=16)|BitArray(char_len, length=8)|BitArray(freq_len, length=8)|block


def CodeBookDecode(stream):
    block_num = int(stream[:16])
    char_len = int(stream[16:24])
    freq_len = int(stream[24:32])
    codebook = dict()
    idx = 32
    for _ in range(block_num):
        val_len = int(stream[idx:idx+freq_len])
        char = chr(int(stream[idx+freq_len:idx+freq_len+char_len]))
        val = str(stream[idx+freq_len+char_len:idx+freq_len+char_len+val_len])
        codebook[char] = val
        idx += freq_len + char_len + val_len
    return codebook, stream[idx:]


def FanoCodeBook(frequencies):
    frequencies = sorted(list(frequencies.items()), key=lambda x: x[1], reverse=True)
    return FanoRecursive(frequencies)


def FanoRecursive(frequencies):
    if len(frequencies) == 1:
        return {frequencies[0][0]: ''}
    half_sum, max_sum = 0, sum(x for _, x in frequencies)
    for idx, (_, frequency) in enumerate(frequencies):
        if (half_sum + frequency) * 2 > max_sum:
            if (half_sum + frequency) * 2 - max_sum > max_sum - half_sum * 2:
                cut_off = idx
            else:
                cut_off = idx + 1
            result = {key: '0' + val for key, val in FanoRecursive(frequencies[:cut_off]).items()}
            result.update({key: '1' + val for key, val in FanoRecursive(frequencies[cut_off:]).items()})
            return result
        half_sum += frequency
        


def FanoEncode(file_name):
    frequencies = frequency_analysis(file_name)
    codebook = FanoCodeBook(frequencies)
    with open(file_name, 'r') as file:
        data = file.read()
        result = BitArray()
        for char in data:
            result = result | BitArray(codebook[char])
        return CodeBookEncode(codebook)|result

    
def FanoDecode(stream):
    codebook, stream = CodeBookDecode(stream)
    codebook = {val: key for key, val in codebook.items()}
    start, end, result = 0, 0, []
    while end < len(stream):
        if (bits := str(stream[start:end])) in codebook:
            result.append(codebook[bits])
            start = end
        else:
            end += 1
    return ''.join(result)

## Simulation

Im Folgenden durchläuft die Datei eine Simulation zur Übertragung. Hierbei werden zu Anfang gewisse Parameter für das Transmissions Protokoll festgelegt.

|Variable|Beschreibung|
|---|---|
|`block_size`| Länge der zu verschickenden bereits quellencodierten Blöcke|
|`p`|Fehlerwahrscheinlichkeit pro Bit|
|`CRC_8`| Bluetooth CRC Polynom|
|`package_size`|Länge der Blöcke nach Codierung mittels CRC|

`transmission` immitiert ein kleines Transmissionsprotokoll. Wird ein Paket fehlerhaft erhalten so muss es erneut gesended werden. `padding` ermöglicht die Veränderung der Länge der zu sendenden Daten auf ein vielfaches von `package_size`; `padding_inv` reversiert diesen Vorgang.

In [6]:
block_size = 24
p = 1e-4
channel = BSC(p)
CRC_8 = BitArray('111010101') # Bluetooth
GaloisField = CRC(CRC_8, block_size)
package_size = block_size + len(CRC_8) -1


def transmission(stream): # TCP style transmission 
    for block in stream(package_size):
        while not GaloisField.check((transmitted := channel(block))):
            print(f'Error ocurred in {transmitted}')
        yield transmitted

        
def padding(stream):
    offset = -(8 + len(stream)) % block_size
    return BitArray(bits=offset, length=8) | stream | BitArray('0'*offset)


def padding_inv(stream):
    offset = int(stream[:8])
    return stream[8:len(stream)-offset]


# Simulation startet
fano_encoding = FanoEncode(encoding_file_name)
padded_encoding = padding(fano_encoding)
crc_encoding = GaloisField.secure(padded_encoding)
crc_decoding = concatenate(block[:block_size] for block in transmission(crc_encoding))
unpadded_decoding = padding_inv(crc_decoding)
decoding = FanoDecode(unpadded_decoding)
# Simulation endet


with open(decoding_file_name, 'w') as file:
    file.write(decoding+'\n')

File entropy: 4.601474664809744
Error ocurred in 00000000011101111111111101110110
Error ocurred in 01001100101010101100011110101011
Error ocurred in 01111011101000110000001110111111
Error ocurred in 00111110101110101001100010111101
Error ocurred in 11001110100000110000100101110011
Error ocurred in 01111011110110001000010000001101
Error ocurred in 10111000111100001101101001001011
Error ocurred in 10101001110101110010101111111000
Error ocurred in 11010100111111110000010111010101
Error ocurred in 10000000000000000000000000000000
Error ocurred in 01010011001111100111010000001010
Error ocurred in 01100101001101101101011111101001
Error ocurred in 10001100101001110111010000000001
Error ocurred in 10010101010011001111100110100000
Error ocurred in 11111101011111110101001100100101


## Test
Wir testen nun ob die decodierte Datei der originalen Datei gleicht. Das ausbleiben eines `AssertionErrors` zeigt das Bestehen des Tests.

In [7]:
original = open(encoding_file_name, 'r').read()
decoding = open(decoding_file_name, 'r').read()
assert original == decoding

## Kompressionsrate

Um die Kompressionsrate $K$ zu berechnen, teilen wir die Anzahl $|\_|$ der Bits nach der Codierung $C(x)$ durch die Anzahl der Bits vor der Codierung $|x|$.
$$K = \frac{|C(x)|}{|x|}$$

In [8]:
import os
c_x = len(fano_encoding)
x = (os.path.getsize(encoding_file_name) * 8 )
K = c_x/x

print(f'Kompression um {round(K*100, 2)}%')

Kompression um 60.49%
