# Codierungstheorie

## Auftrag

Durch die Codierungstheorie eines Rohworts wird es möglich eventuelle Fehler, die während der Übertragung enstanden sind zu erkennen und zu korrigieren. Richard Hamming publizierte in den 1940er den perfekten Hamming-Code. In dieser Arbeit wird die Theorie und ein Anwendungsbeispiel an dem kleinen binären Hamming-Code mit der Länge sieben durchgeführt.

### Umgebung
Damit die Snippets funktionieren, müssen die folgenden Python-Module installiert sein.

* NumPy [1]

In [1]:
# pip install numpy

## Theorie
In diesem Kapitel wird der theoretische Teil aufgeführt, welcher für das Anwendungspeispiel relevant ist.

### Kanalcodierung
Das Vorgehen, welches bei der Anwendung eines entsprechenden Codes angewandt wird, wird Kanalcodierung genannt. Ist $K=\mathbb{Z}_q$ ein endlicher Körper, dann besteht eine zu übertragende Information aus Blöcken, die $k\in \mathbb{Z}$ entalten. Ein endlicher Körper folgt den folgenden Gesetzen: Kommutativgesetz, Assoziativgesetz und Distributivgesetz. Des Weiteren gibt es bei der Addition das neutrale Element Null und jedes Element $a$ hat ein inverses Element $-a$ wenn $b\neq0$. Zudem ist bei der Multiplikation das neutrale Element Eins und ein inverses Element $b^{-1}$ vorhanden. Die Blöcke werden in einem Code $C$ kanalcodiert, welcher ein Unterraum des Vektorraums der $K^n$, wobei $n>k$, ist. Um nach dem Empfang der n-Tupl die Codewärter zurück nach $K^k$ zu konvertieren, müssen fehlerhafte Bits in den n-Tupel korrigiert werden. Wieviele Bits korrigiert werden können, hängt vom jeweiligen Hemming-Code Typ ab. Anschliessend kann die Kanalcodierung vollzogen werden, wodurch die ursprüngliche Information aus den $k$-Tupel erstellt wird [2].

### (7,4)-Hamming-Code
Ein Hamming-Code ist anhand seiner Parameter zu erkennen. Es handelt sich bei diesem Code um ein eindeutig bestimmter linearer Code, der häufig als (n,m)-Hamming Code geschrieben wird. Der Minimalabstand $d$ oder $d_{min}$ ist bei dem (7,4)-Hamming-Code immer drei und die lineare Schreibweise lautet $[n,n-k,3]_q$. Der Parameter $q$ bestimmt die Basis des endlichen Körpers $K=\mathbb{Z}_q$. Bei binären Hamming-Codes ist die Basis immer zwei. Über den Parameter $k\in\mathbb{N}$ wird die Anzahl der verwendeten Paritätbits in einem Codewort $c$ beschrieben. Der Parameter $n$ definiert die totale Länge eines Codeworts $c$ und es gilt dabei $n=2^k-1$. Bei dem Hamming-Code werden die Blöcke, welche übermittelt werden in Daten- und Prüfbits unterteilt. Die Anzahl der Datenbits wird durch $n-k=m$ ermittelt. Somit ist der kleine binäre Hemming-Code mit der Länge sieben wie folgt definiert [2]:  

$$n=7$$
$$n=2^k-1\to7+1=2^k\to k=3$$
$$m=n-k=7-3=4$$

Dadurch wird dieser Hamming-Code auch (7,4)-Hamming-Code gennant.

#### Paritätbits
Paritätbits werden anhand der Datenbits beziehungsweise durch die Datenbits berechnet. Die Paritätbits betrachten immer die Summe mehrerer Datenbits. Wenn die Summe gerade ist, wird das Paritätsbit den Wert eine Eins annehmen, wenn die Summe ungerade ist wird das Paritätsbit den Wert Null annehmen. Stimmt dies bei einem empfangenen $n$-Tuple so nicht, wird der Fehler erkannt. Da die verschiedenen Paritätbits entsprechend den verschiedenen Datenbits zugeteilt sind, kann auch erkannt werden, welches Daten- oder Paritätbit verfälscht wurde. Die Anzahl korrigierbaren Fehler $e$ wird über den Mindestabstand $d=2e+1$ berechnet. Der Mindesabstand $d$ ist beim (7,4)-Hamming-Code wie in Kapitel "(7,4)-Hamming-Code" erläutert drei. Somit ergibt sich folgende Gelichung: 

$$3=2e+1$$
$$\frac{3-1}{2} e=1$$

Beim (7,4)-Hamming-Code kann somit ein Fehler erkannt und korrigiert werden [2].

### Matrizen
Bei jedem linearen Code gibt es eine Generatormatrix $G$ und eine Prüfmatrix $H$. Für beide Matrizen gibt es eine systematische und eine nicht-systematische Schreibweise. Wobei systematisch bedeutet, dass ein Block von aufeinander folgender Zeilen eine Einheitsmatrix $E_k$ darstellt und der darauf folgende Block durch die Zeilen der Paritätbits zusammengesetzt wird [2]. 

#### Generatormatrix $G$
Sind die Paramteter wie folgt gegeben $[n, n-k,3]$, ergibt sich eine Matrix mit der Grösse $n\times k$. Die $k$-Tupels der zu codierenden Informationen sollen jeweils zu einem $n$-Tuple umgewandelt werden. Dafür benötigt die Generatormatrix eines lineareen Codes die Basisvektoren, um die Stellen eiens Codewortes mittels Matrixmultiplikation zu berechnen.  
Da bei einer Generatormatrix $G$ die $k$ Zeilen der Einheitsmatrix $E_k$ ensprechen, werden die restlichen $m$ Zeilen zur Bestimmung der Paritäbits verwerndet. Bei der nicht-systematischen Matrix befinden sich die Paritätbits in der Matrix an den Stellen $2^i$, wobei $i\in\{0,1,2,...,m-1\}$ entsprechen muss. Für das Beispiel (7,4)-Hamming-Code ergeben sich die Stellen $\{2^0, 2^1, 2^2\}=\{1,2,4\}$. Durch die Paritätsbit-Stellen können nun einfach die Stellen $\{3,5,6,7\}$ der Einheitsmatrix $E_k$ evaluiert werden. Wodurch sich folgende initiale Matrix ergibt [2]:

$$ G_{init} =
\begin{pmatrix}
0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 \\
1 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 \\
0 & 1 & 0 & 0 \\
0 & 0 & 1 & 0 \\
0 & 0 & 0 & 1
\end{pmatrix}
$$

Um nun die $m$ Zeilen der Paritätsbits zu bestimmen, wird jeweils das $i$-te Paritätsbit, das bei Index $j$ liegt, genommen. Alle darauffolgendnen Zeilen $\{j + 1,...,n\}$ werden durchiteriert und zur Zeile $j$ dazuaddiert, welche an der $i$-ten Stelle (bei der binären Schreibweise) eine Eins besitzen. Bei binären Zahlen wird jeweils von rechts nach links indexiert [2]. 

#### Beispiel
Bei dem (7,4)-Hamming-Code besitzt das erste Paritätbit aus $\{1,2,4\}$ den Index Eins. Somit besitzen die darauffolgenden Zeilen als $j$-Wert folgende Werte:

|Zahlensystem||||||||
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
|Dezimal|2|3|4|5|6|7|
|Binär|010|011|100|101|110|111|

Die $j$-ten Zeilenwerten, welche bei dem $i$-ten Index eine Eins besitzen, werden verwendet und zusammengezählt. Für den Index Eins wären dies die Zeilen drei, fünf und sieben.

$$z_1=z_3+z_5+z_7=[1,0,0,0]+[0,1,0,0]+[0,0,0,1]=[1,1,0,1]$$

Dieses Resultat stellt, das erste Paritätsbit dar. Dieser Ablauf wird für die zwei weiteren $i$-ten Werte zwei und vier wiederholt. Somit ergibt sich folgende Matrix:

$$ G_{nicht systematische} =
\begin{pmatrix}
1 & 1 & 0 & 1 \\
1 & 0 & 1 & 1 \\
1 & 0 & 0 & 0 \\
0 & 1 & 1 & 1 \\
0 & 1 & 0 & 0 \\
0 & 0 & 1 & 0 \\
0 & 0 & 0 & 1
\end{pmatrix}
$$

Da bei einem linearen Code die Zeilen linear unabhängig sind, können diese beliebig untereinander vertauscht werden. Damit kann die berechnete Generatormatrix in die systematische Form gebracht werden. Die drei Paritätsbit-Zeilen werden zusammen zu $G_p$ und die Einheitsmatrix wird zu $E_k$ zusammengefasst, wodurch sich die systematische Generatormatrix $G_{systematische}$ ergibt [2].

$$ G_{systematische} = \begin{pmatrix}
E_k \\
G_p
\end{pmatrix} =
\begin{pmatrix}
1 & 0 & 0 & 0 \\
0 & 1 & 0 & 0 \\
0 & 0 & 1 & 0 \\
0 & 0 & 0 & 1 \\
1 & 1 & 0 & 1 \\
1 & 0 & 1 & 1 \\
0 & 1 & 1 & 1 \\
\end{pmatrix}
$$

Werden bei der Generatormatrix Zeilen vertauscht, müssen die gleichen vVerschiebungen von Spalten in der Prüfmatrix durchgeführt werden. Ansonsten kann keine korrekte Decodierung vollzogen werden. 

Die Generatormatrix kann nun verwendet werden um den Rohwert $w$ zu codieren. Die Codierung geschieht durch k-Tuple Matrixmultiplikationen $G*w=c$ [2].

#### Prüfmatrix $H$
Um die $n$-Tuple kontrollieren zu können, wird ein Prüfmatrix $H$ mit der Grösse $k\times n$ benötigt. Bei der Decodierung eines Hamming-Codes wird ein möglicher Fehler erkannt und korrigiert. Zum Schluss werden die Paritätsbits vom Codwort losgelöst und somit erhält man das ursprüngliche Rohwort.  
Eine nicht systematische Prüfmatrix wird erstellt, indem ihre Spalten den binären Wert des Spaltenindex enthält.  
Die systematische Form von $H$ kann aus der Generatormatrix generiert werden, indem die $G_p$ und $E_k$ Matrizen zusammengesetzt werden [2].

$$ H_{systematische} = \begin{pmatrix}
G_p & E_k
\end{pmatrix} =
\begin{pmatrix}
1 & 1 & 0 & 1 & 1 & 0 & 0 \\
1 & 0 & 1 & 1 & 0 & 1 & 0 \\
0 & 1 & 1 & 1 & 0 & 0 & 1 
\end{pmatrix}
$$

Ein Codeword wird zur Fehlererkennung mit der transponierten Prüfmatrix multipliziert. Ist das Resultat aus $c*H^T=0$, so liegt kein Fehler vor und die Partitätbis können entfert werden. Ist jedoch das Resultat aus der Matrizenmultiplikation nicht gleich null, dan gibt das Ergebnis den Index an, welches Bit von $c$ falsch ist. Dieses Bit wird, darauf invertiert und der Fehler wird dadurch beseitigt [2].

## Implementierung
Für die Umsetzung kann die obenaufgeführte Theorie in Code umgewandelt werden. Hierfür muss nur beachtet werden, dass bei der Theorie der Index der jeweiligen Elemente bei Eins starten und bei der Programmiersprache Python wird der erste Index über den Wert null angesprochen.  
Für die Logik des Hamming-Codes wurde eine Klasse `HammingCode` erstellt, welche über einen Konstruktor den Parameter `k` übergeben werden kann. Als Standardwert ist der Wert drei gesetzt, welcher somit ein (7,4)-Hamming-Code erzeugt. Die Klasse verfügt über zwei öffentliche Methoden `encode` und `decode`. Mit der ersten Methode kann eine Zeichenkette encodiert werden. Mit der zweiten Methode kann das Resultat der `encode`-Methode wieder decodiert werden. Dabei prüft die `decode`-Methode die Daten auf allfälige Fehler und korrigiert diese.

### Beschreibung


In [2]:
import numpy as np


class HammingCode:
    """
    Enthält die Logik um ein Rohwert zu codieren und zu decodieren.
    """

    def __init__(self, k=3):
        """
        Konstruktor für die Erstellung eines HammingCode-Objekts.
        @param: self: Objektreferenz.
        @param: k: Parameter für die Berechnung des Hamming-Codes.
        """

        if isinstance(k, int) and k < 1:
            raise ValueError("Das Argument 'k' muss eine Ganzzahl und grösser als 1 sein.")

        self.k = k
        self.n = np.power(2, self.k) - 1
        self.m = self.n - self.k

        # Positionen der Paritätsbits von einer nicht systematischen Matrix ermitteln.
        self.paritaetsbit_pos = np.zeros(self.k, dtype=int)
        for index in range(self.k):
            self.paritaetsbit_pos[index] = np.power(2, index) - 1

        self.G = self.__erstelle_generatormatrix()
        self.H = self.__erstelle_puefmatrix()

    def __erstelle_generatormatrix(self):
        """
        Generiert für den definierten Hamming-Code die Generatormatrix.
        @param: self: Objektreferenz.
        @return: Systematische Generatormatrix.
        """

        G = np.zeros((self.n, self.m), dtype=int)  # Generatormatrix n x m.

        # Einheitsmatrix m x m.
        E = np.identity(self.m, dtype=int)
        E_list = E.tolist()
        E_list.reverse()

        # Einheitsmatrix in Generatormatrix eintragen.
        for i in range(self.n):
            if i not in self.paritaetsbit_pos:
                G[i] = np.asanyarray(E_list.pop())

        # Zeilen der Paritätsbits berechnen.
        paritaetbit_index = 1
        for paritaetsbit in self.paritaetsbit_pos:
            zeile = np.zeros(self.m, dtype=int)
            for j in range(paritaetsbit + 1, self.n):
                if np.binary_repr(j + 1)[-paritaetbit_index] == "1" and j not in self.paritaetsbit_pos:
                    zeile = zeile + G[j]
            G[paritaetsbit] = zeile
            paritaetbit_index += 1

        # Generatormatrix zu einer systematischen umformen.
        P = np.zeros((self.k, self.m), dtype=int)
        for index, i in enumerate(self.paritaetsbit_pos):
            P[index] = G[i]

        return np.concatenate((E, P))

    def __erstelle_puefmatrix(self):
        """
        Generiert für den definierten Hamming-Code die Prüfmatrix.
        @param: self: Objektreferenz.
        @return: Systematische Prüfmatrix.
        """

        if self.G is None:
            self.__erstelle_generatormatrix()

        # Systematische Prüfmatrix erstellen.
        E = np.identity(self.k, dtype=int)
        G_p = self.G[-self.k:]

        return np.hstack((G_p, E))

    def encode(self, rohwort):
        """
        Codiert eine Zeichenkette anhand der Generatormatrix.
        @param: self: Objektreferenz.
        @param: rohwort: Zeichenkette, welche codiert wird.
        @return: Die codierte Zeichenkette.
        """

        if not isinstance(rohwort, str):
            raise ValueError("Es können nur Zeichenketten codiert werden.")

        code = str()
        for character in rohwort:
            code += format(ord(character), 'b').zfill(8)

        blocks = []
        for length in range(len(code), 0, -self.m):
            binaer_wort = code[np.maximum(length - self.m, 0):length].zfill(self.m)
            block = np.zeros(self.m, dtype=int)
            for index, number in enumerate(binaer_wort):
                block[index] = int(number)
            blocks.insert(0, block.tolist())

        return [np.remainder(np.dot(self.G, block), 2).tolist() for block in blocks]

    def decode(self, codeword):
        """
        Decodiert ein binäres Wort und wandelt dieses in eine Zeichenkette um.
        @param: self: Objektreferenz.
        @param: codeword: Ein codiertes binäres Wort.
        @return: Zeichenkette.
        """

        # Prüfung, ob es sich um ein binäres Wort handelt.
        if not self.__check_binaer(codeword):
            raise ValueError('Nur binäre Wörter können decodiert werden.')

        # Decodierung der binären Zeichenkette.
        datenbits = list()
        for block in codeword:
            index, fehler = self.__check(block)
            if index is not None:
                # Fehlerbehebung.
                block_fehler = block[index]
                block[index] = 0 if block[index] == 1 else 1
                print(f'Fehler {block_fehler} korrigiert zu {block[index]}')
            datenbits.append([block[index] for index in range(self.m)])

        # Binäre Zeichen in Zeichenfolge umformen.
        rohwort = list()
        datenbits = [str(bits) for sublist in datenbits for bits in sublist]
        for daten in range(len(datenbits), 0, -8):
            daten_str = [str(item) for sublist in datenbits[daten - 8:daten] for item in sublist]
            rohwort.insert(0, chr(int(''.join(daten_str), 2)))

        return ''.join(rohwort)

    def __check_binaer(self, wort):
        """
        Prüfung, ob es sich um ein Binärwort handelt.
        @param: wort: Das zu prüfende word.
        @return: Gibt das Resultat der der Prüfung zurück.
        """

        flat_list = [item for sublist in wort for item in sublist]
        errors = [number for number in flat_list if number != 1 and number != 0]
        return len(errors) == 0

    def __check(self, wort):
        """
        Prüft ein Wort auf Fehler.
        @param: wort: Wort, welches auf Fehler geprüft wird.
        @return: Index des Fehlers und den Block des Fehlers.
        """

        resultat = np.remainder(np.dot(wort, self.H.T), 2)
        if np.count_nonzero(resultat) != 0:
            for index, line in enumerate(self.H.T):
                print(f'Spalte von H mit Index {index + 1}: {line}, wort*H: {resultat}')
                if list(line) == list(resultat):
                    print(f'Fehler erkannt bei Index {index + 1}!')
                    return index, wort[index]
        return None, None

### Anwendung
Um die Anwendung aufzuzeigen wird zuerst ein (7,4)-Hamming-Code erzeugt. Danach wird jeweils ein String codiert, welcher danach an einer Stelle manipuliert wird. Die fehlerhafte binär Zeichenfolge wird danach decodiert. Der Fehler wird korrekt erkannt und korrigiert.

In [3]:
hamming_code = HammingCode()
hallo = 'Hallo'
encode_A = hamming_code.encode(hallo)
print(f"Der Wert '{hallo}' ist encodiert: \n{encode_A}.")
print("Bei Index 3 wird ein Fehler eingebaut...")
encode_A[0][2] = 1
encode_A_manipuliert = encode_A
decode_A = hamming_code.decode(encode_A)
print(f"Der Wert: \n{encode_A} \nist decodiert '{decode_A}'.")

Der Wert 'Hallo' ist encodiert: 
[[0, 1, 0, 0, 1, 0, 1], [1, 0, 0, 0, 1, 1, 0], [0, 1, 1, 0, 1, 1, 0], [0, 0, 0, 1, 1, 1, 1], [0, 1, 1, 0, 1, 1, 0], [1, 1, 0, 0, 0, 1, 1], [0, 1, 1, 0, 1, 1, 0], [1, 1, 0, 0, 0, 1, 1], [0, 1, 1, 0, 1, 1, 0], [1, 1, 1, 1, 1, 1, 1]].
Bei Index 3 wird ein Fehler eingebaut...
Spalte von H mit Index 1: [1 1 0], wort*H: [0 1 1]
Spalte von H mit Index 2: [1 0 1], wort*H: [0 1 1]
Spalte von H mit Index 3: [0 1 1], wort*H: [0 1 1]
Fehler erkannt bei Index 3!
Fehler 1 korrigiert zu 0
Der Wert: 
[[0, 1, 0, 0, 1, 0, 1], [1, 0, 0, 0, 1, 1, 0], [0, 1, 1, 0, 1, 1, 0], [0, 0, 0, 1, 1, 1, 1], [0, 1, 1, 0, 1, 1, 0], [1, 1, 0, 0, 0, 1, 1], [0, 1, 1, 0, 1, 1, 0], [1, 1, 0, 0, 0, 1, 1], [0, 1, 1, 0, 1, 1, 0], [1, 1, 1, 1, 1, 1, 1]] 
ist decodiert 'Hallo'.


## Diskussion
Wird nun der (7,4)-Hamming-Code betrachtet ist die eigentliche Effizienz der Übertragung nicht besonders gut. Denn es  können von sieben Bit nur vier Bit verwendet werden um Daten zu übertragen. Zudem werden drei Bits benötigt um einen allfäligen Fehler bei der Übertragung zu erkennen. Um eine bessere Effizienz bei der Übertragung zu erzielen könnte nun ein (15,11)-Hamming-Code oder (31,26)-Hamming-Code verwendet werden.  

|$k$|$2^k-1$|$2^k-1-k$|Prozent|Bezeichnung|
|:-:|:-:|:-:|:-:|:-:|
|3|$2^3-1=7$|$2^3-1-3=4$|~57%|(7,4)-Hamming-Code|
|4|$2^4-1=15$|$2^4-1-4=11$|~73%|(15,11)-Hamming-Code|
|5|$2^5-1=31$|$2^5-1-5=26$|~84%|(31,26)-Hamming-Code|

Eine bessere Effizienz bei der Übertragung ist nicht immer besser, denn der Hamming-Code kann nur einen Fehler korrigiere. Je mehr Daten übertragen werden, desto grösser ist die Chance, dass mehr als ein Fehler auftritt. Somit könnten diese Fehler nicht mehr korrigiert werden. Hier muss je nach Anwendungfall der richte Code verwendet werden [2].

## Fazit
Die Aufgabe hat mir sehr geholfen ein besseres Verständis über die Struktur und Charakteristik der Generatormatrix und Prüfmatrix zu erlangen. Zudem ist mir wieder aufgefallen wie mächtig die Matrixmultiplikation ist und wie dadurch viele mathematische Operationen sehr effizient durchgefürt werden können. Was für mich neu war, war die Umformung von Zeichenketten in binäre Zeichenketten und umgekehrt.

## Literaturverzeichnis  
[1] NumPy Developers. (2020). NumPy. Abgerufen am 27.10.2020 von https://numpy.org/    
[2] G. Teschl, S. Teschl. (2014) Mathematik für Informatiker. Springer-Verlag Berlin Heidelberg.  