# Codierungstheorie

## Auftrag
**Autor:** Gregor von Flüe  

Durch die Codierungstheorie eines Rohworts wird es möglich eventuelle Fehler die während der Übertragung enstanden sind zu erkennen und zu korrigieren. Richard Hamming publizierte in den 1940er den perfekten Hamming-Code. In dieser Arbeit wird die Theorie und Anwendungsbeispiel an dem kleinen binären Hamming-Code mit der Länge sieben durchgeführt.

### Umgebung
Damit die Snippets funktionieren, müssen die folgenden Python-Module installiert sein.

* Sympy [1]
* NumPy [2]

In [1]:
# pip install sympy

In [2]:
# pip install numpy

## Theorie
In diesem Kapitel wird der theoretische Teil aufgeführt, welcher für die Anwendungspeispiele relevant ist.

### Kanalcodierung
Das Vorgehen, welches bei der Anwendung eines entsprechenden Codes angewandt wird, wird Kanalcodierung genannt. Ist $K=\mathbb{Z}_q$ ein endlicher Körper, dann besteht eine zu übertragende Information aus Blöcken, die $k\in \mathbb{/}$ entalten. Ein endlicher Körper folgt den folgenden Gesetzten: Kommutativgesetz, Assoziativgesetz und Distributivgesetz. Des weiteren gibt es ein neutrales Elemente null bezüglich der Addition und jedes Element $a$ hat ein inverses Element $-a$ wenn $b\neq0$. Zudem ist ein weiteres neutrales Element eins bezüglich der Multiplikation vorhanden und ein inverses Element $b^{-1}$. Die Blöcke werden in einem Code $C$, welcher ein Unterraum des Vektorraums der $K^n$ wobei $n>k$ ist, kanalcodiert. Um nach dem Empfang der n-Tupl die Codewärter zurück nach $K^k$ zu konvertieren, müssen fehlerhafte Bits in den n-Tupel korrigiert werden, wieviele Bits korrigiert werden können hängt vom jeweiligen Hemming-Code ab. Anschliessend kann die Kanalcodierung vollzogen werden wodurch die ursprüngliche Information in $k$-Tupel.

### (7,4)-Hamming-Code
Ein Hamming-Code ist anhand seiner Parameter zu erkennen. Es handelt sich bei diesem Code um ein eindeutig bestimmter linearer Code, der häufig als (n,m)-Hamming Code geschrieben wird. Der Minimalabstand $d$ oder $d_{min}$ ist bei dem (7,4)-Hamming-Code immer drei und die lineare Schreibweise lautet $[n,n-k,3]_q$. Der Parameter $q$ bestimmt die Basis des endlichen Körpers $K=\mathbb{Z}_q$. Bei binären Hamming-Codes ist die Basis immer zwei. Über den Parameter $k\in\mathbb{N}$ wird die Anzahl der verwendetet Paritätbits in einem Codewort $c$ beschrieben. Der Parameter $n$ definiert die totale Länge eines Codeworts $c$ und es gilt dabei $n=2^k-1$. Bei dem Hamming-Code werden die Blöcke, welche übermittelt werden in Daten- und Prüfbits unterteilt. Die Anzahl der Datenbits wird durch $n-k=m$ ermittelt. Somit ist der kleine binäre Hemming-Code mit der Länge sieben wie folgt definiert:  
$$n=7$$
$$n=2^k-1\to7+1=2^k\to k=3$$
$$m=n-k=7-3=4$$

Dadurch wird dieser Hamming-Code auch (7,4)-Hamming-Code gennant.

#### Paritätbits
Paritätbits oder Kontrollbits genannt und werden anhand der Datenbits bzw. durch die Datenbits berechnet. Die Paritätbits betrachten immer die Summe mehrerer Datenbits, wenn diese gerade ist, wird das Paritätsbit den Wert eins annehmen, wenn die Summe ungerade ist wird das Paritätsbit den Wert null annehmen. Stimmt dies bei einem empfangenen $n$-Tuple so nicht, wird der Fehler erkannt. Da die verschiedenen Paritätbits entsprechend den verschiedenen Datenbits zugeteilt sind, kann auch erkannt werden, welches Daten- oder Paritätbit verfälscht wurde. Die Anzahl zu korrigierbaren Fehler $e$ wird über den Mindestabstand $d=2e+1$ berechnet. Was bei dem kleinen Hamming-Code eins ergibt und somit nur ein Fehler korrigiert werden kann.

### Matrizen
Bei jedem linearen Code gibt es eine Generatormatrix $G$ und eine Prüfmatrix $H$. Für beide Matrizen gibt es eine systematische und eine nicht-symatische Schreibweise. Wobei systematisch bedeutet, dass ein Block von aufeinander folgender Zeilen eine Einheitsmatrix $E_k$ darstellt und somit darauf folgende Block durch die Zeilen der Paritätbits zusammengesetzt wird. 

#### Generatormatrix $G$
Sind die Paramteter wie folgt gegeben $[n, n-k,3]$, ergibt sich eine Matrix mit der Grösse $n\times k$. Die $k$-Tupels der zu codierenden Informationen sollen jeweils zu einem $n$-Tuple umgewandelt werden. Dafür benötigt die Generatormatrix eines lineareen Codes die Basisvektoren, um die Stellen eiens Codewortes mittels Matrixmultiplikation zu berechnen.  
Da bei einer Generatormatrix $G$ $k$ Zeilen der Einheitsmatrix $E_k$ ensprechen werden die restlichen $m$ Zeilen zur Bestimmung der Paritäbits verwerndet. Bei der nicht-systematischen Matrix befinden sich die Paritätbits in der Matrix an den Stellen $2^i$ wobei $i\in\{0,1,2,...,m-1\}$ ensprechen muss. Für das Beispiel (7,4)-Hamming ergibt sich sommit die Stellen $\{2^0, 2^1, 2^2\}=\{1,2,4\}$. Durch die Paritätsbit Stellen können nun einfach die Stellen $\{3,5,6,7\}$ der Einheitsmatrix $E_k$ evaluiert werden. Wodurch sich folgende initiale Matrix ergibt:

$$ G_{init} =
\begin{pmatrix}
0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 \\
1 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 \\
0 & 1 & 0 & 0 \\
0 & 0 & 1 & 0 \\
0 & 0 & 0 & 1
\end{pmatrix}
$$

Um nun die $m$ Zeilen der Paritätsbits zu bestimmen, wird jeweils das $i$-te Paritätsbit, das bei Index $j$ liegt genommen und dafür alle darauffolgendnen Zeilen $\{j + 1,...,n\}$ durchgegeangen und zur Zeile $j$ werden genau diese Zeilen hinzu addiert, die an der $i$-ten Stelle bei der binären Schreibweise eine eins besitzen.  

**Beispiel**  
Bei dem (7,4)-Hamming-Code besitzt das erste Paritätbits aus $\{1,2,4\}$ den Index eins. Somit besitzen die darauffolgendne Zeilen als $j$-Wert folgende Werte:

|Zahlensystem||||||||
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
|Dezimal|2|3|4|5|6|7|
|Binär|010|011|100|101|110|111|

Bei den $j$-ten Zeilenwerten welche bei dem $i$-ten Index eine eins besitzen werden verwendet und zusammengezählt. Für den Index eins wären dies die Zeilen drei, fünf und sieben.

$$z_1=z_3+z_5+z_7=[1,0,0,0]+[0,1,0,0]+[0,0,0,1]=[1,1,0,1]$$

Bei binären Zahlen wird jeweils von rechts nach links indexiert. Dieses Resultat stellt, die erste Paritätsbit dahr.  
Dieser Ablauf wird für die zwei weiteren $i$-ten Werte zwei und vier wiederholt. Somit ergibt sich folgende Matrix:

$$ G_{nicht systematische} =
\begin{pmatrix}
1 & 1 & 0 & 1 \\
1 & 0 & 1 & 1 \\
1 & 0 & 0 & 0 \\
0 & 1 & 1 & 1 \\
0 & 1 & 0 & 0 \\
0 & 0 & 1 & 0 \\
0 & 0 & 0 & 1
\end{pmatrix}
$$

Da bei einem linearen Code die Zeilen linear unabhängig sind, können diese beliebig untereinander vertauscht werden. Damit kann die berechnete Generatormatrix in die systematische Form gebracht werden. Die drei Paritätsbit Zeilen werden zusammen zu $G_p$ und die Einheitsmatrix wird zu $E_k$ zusammengefasst, wodurch die systematische Generatormatrix $G_{symatisch}$ ergibt.

$$ G_{systematische} = \begin{pmatrix}
E_k \\
G_p
\end{pmatrix} =
\begin{pmatrix}
1 & 0 & 0 & 0 \\
0 & 1 & 0 & 0 \\
0 & 0 & 1 & 0 \\
0 & 0 & 0 & 1 \\
1 & 1 & 0 & 1 \\
1 & 0 & 1 & 1 \\
0 & 1 & 1 & 1 \\
\end{pmatrix}
$$

Werden bei der Generatormatrix Zeilen vertauscht müssen die gleiche verschiebungen von Spalten in der Prüfmatrix durchgeführt werden, ansonsten kann keine korrekte Decodierung vollzogen werden. 

Die Generatormatrix kann nun verwendet werden um den Rohwert $w$ zu Codieren. Die Codierung geschieht durch k-Tuple Matrizen Multiplikationen $G*w=c$.

#### Prüfmatrix $H$
Damit die $n$-Tuple kontrollieren zu können, wird dafür ein Prüfmatrix $H$ mit der Grösse $k\times n$ benötigt. Bei der Decodierung wird ein möglicher Fehler erkannt und korrigiert. Zum Schluss werden die Paritätsbit vom Codwort losgelöst und somit erhält man das ursprüngliche Rohwort.  
Eine nicht systematische Prüfmatrix wird erstellt, indem ihre Spalten den binär Wert des Spaltenindex enthält.  
Die systematische Form von $H$ kann aus der Generatormatrix generiert werden, indem die $G_p$ und $E_k$ Matrizen zusammengesetzt werden.

$$ H_{systematische} = \begin{pmatrix}
G_p & E_k
\end{pmatrix} =
\begin{pmatrix}
1 & 1 & 0 & 1 & 1 & 0 & 0 \\
1 & 0 & 1 & 1 & 0 & 1 & 0 \\
0 & 1 & 1 & 1 & 0 & 0 & 1 
\end{pmatrix}
$$

Ein Codeword wird zur Fehlererkennung mit der transponierten Prüfmatrix multipliziert. Ist das Resultat aus $c*H^T=0$, so liegt kein Fehler vor und die Partitätbis können enfert werden. Ist jedoch das Resultat aus der Matrizenmultiplikation nicht gleich null, dan gibt das Ergebnis den Index an, welches Bit von $c$ falsch ist. Dieses Bit wird, darauf invertiert und der Fehler wird dadurch beseitigt.

## Implementierung
Schreiben Sie eine Python-Klasse HammingCode:
* Die Klasse besitze einen Konstruktor HammingCode(k) für Codes der Länge \(n=2^k-1\).  

Die Klasse besitze die folgenden Methoden:

* get_generator_matrix()
* get_check-matrix()
* encode(word)

Erzeuge ein Codewort aus einem 0-1-Wort  

* decode(codeword)

Decodiere ein Codewort und führe allenfalls eine Fehlerkorrektur durch  

* check(codeword)

Überprüfe, ob ein angegebenes Codewort ein korrektes Codewort ist.

### Beschreibung


In [1]:
import sys
import numpy as np
from sympy import init_printing, pprint

# Für lange Arrays (z.B. bei n=255) - damit wird verhindert, dass ein Array auf [x1, x2, ..., xn-1, xn] gestaucht wird.
np.set_printoptions(threshold=sys.maxsize)

# Damit die mehrdimensionalen Lists und Arrays mit sympy.pprint() (Pretty Print) dargestellt werden können.
init_printing()

"""
k = 3
m = 4
n = 7
"""


class HammingCode:
    """
    Enthält die Logik um ein Rohwert zu codieren und zu decodieren.
    """

    def __init__(self, k=3):
        """
        Konstruktor für die Erstellung eines Parallelepiped-Objekts.
        @param: self: Objektreferenz.
        @param: k: Parameter für die Berechnung des Hammingcodes.
        """

        if isinstance(k, int) and k < 1:
            raise ValueError("Das Argument 'k' muss eine Ganzahl und grösser als 1 sein.")

        self.k = k
        self.n = np.power(2, self.k) - 1
        self.m = self.n - self.k

        # Positionen der Paritätsbit von einer nicht systematischen Matrix ermitteln.
        self.paritaetsbit_pos = np.zeros(self.k, dtype=int)
        for index in range(self.k):
            self.paritaetsbit_pos[index] = np.power(2, index) - 1

        self.G = self.erstelle_generatormatrix()
        self.H = self.erstelle_pruefmatrix()

    def erstelle_generatormatrix(self):
        """
        Generiert für den definierten Hamming-Code die Generatormatrix.
        @param: self: Objektreferenz.
        """

        # Einheitsmatrix m x m.
        E = np.identity(self.m, dtype=int)

        G = np.zeros((self.n, self.m), dtype=int) # Generatormatrix n x m.
        Ilist = E.tolist()
        Ilist.reverse()  # um die pop()-Funktion nutzen zu können.
        p = 1  # Nr Parity-Bit, bei dem wir gerade sind

        # Einheitsmatrix eintragen
        for i in range(self.n):
            if i not in self.paritaetsbit_pos:
                G[i] = np.asanyarray(Ilist.pop())

        # Parity-Bits berechnen
        for i in self.paritaetsbit_pos:
            d = np.zeros(self.m, dtype=int)
            for j in range(i + 1, self.n):
                jbin = np.binary_repr(j + 1)
                if jbin[-p] == "1" and j not in self.paritaetsbit_pos:
                    d = d + G[j]
            G[i] = d
            p += 1

        # Systematisierung - macht alles einfacher :)
        P = np.zeros((self.k, self.m), dtype=int)
        for index, i in enumerate(self.paritaetsbit_pos):
            P[index] = G[i]
        Gsys = np.concatenate((E, P))
        return (Gsys, G)

    # Systematische Prüfmatrix berechnen
    def erstelle_pruefmatrix(self):
        if self.G is None:
            self.erstelle_generatormatrix()
        self.paritaetsbit_pos = self.paritaetsbit_pos
        m = self.k
        I = np.identity(m, dtype=int)
        P = self.G[0][-m:]
        Hsys = np.hstack((P, I))
        H = np.zeros(np.shape(Hsys.T), dtype=int)
        for i, line in enumerate(H):
            b = bin(int(i + 1))[2:]
            l = self.kformat(b, len(line))[0]
            H[i] = l

        return (Hsys, H.T)

    # Rohwort codieren
    def encode(self, rohwort, mat='orig'):
        if mat == 'orig':
            G = self.G[1]
        else:
            G = self.G[0]
        k = self.m
        if not self.checkBin(self.toString(rohwort)):
            rohwort = self.toString(rohwort)
            code = ''
            for c in rohwort:
                code += format(ord(c), 'b').zfill(8)
        else:
            code = rohwort
        blocks = self.kformat(code, k)

        wort = []
        for b in blocks:
            w = np.remainder(np.dot(G, b), 2)
            wort.append(w.tolist())

        return wort

    # Wort decodieren
    def decode(self, wort, mat='orig'):
        if mat == 'orig':
            H = self.H[1].T
        else:
            H = self.H[0].T
        k = self.m
        if not self.checkBin(wort):
            raise ValueError('Nur binäre Wörter (oder Arrays) können decodiert werden...')

        if not (type(wort) == 'list' or isinstance(wort, np.ndarray)):
            wort = self.toString(wort)

        blocks = self.kformat(wort, self.n)
        rohwort_ = []
        for block in blocks:
            while not np.count_nonzero(np.remainder(np.dot(block, H), 2)) == 0:
                blockalt = block.copy()
                block, epos = self.correct(block, H)
                print('Fehler erkannt bei Index {}! {} --> {}'.format(epos + 1, blockalt, block))
            w = []
            for i in range(len(block)):
                if i not in self.paritaetsbit_pos:
                    w.append(block[i])
            rohwort_.append(w)
        rohwort = self.fromBits(self.toString(rohwort_))
        if rohwort.isspace() or not rohwort.isprintable() or not rohwort:
            return rohwort_
        else:
            return rohwort

    # Wort korrigieren
    def correct(self, wort, H):
        u = np.remainder(np.dot(wort, H), 2)
        for i, line in enumerate(H):
            print("Spalte von H mit Index {}: {}, wort*H: {}".format(i + 1, line, u))
            if list(line) == list(u):
                epos = i
                break

        if wort[epos] == 1:
            wort[epos] = 0
        else:
            wort[epos] = 1
        return (wort, epos)

    # Hilfsklassen
    def checkBin(self, wort):
        b = set('01')
        return b.issuperset(self.toString(wort))

    def kformat(self, wort, k):
        wort = self.toString(wort)
        blocks = []
        for i in range(len(wort), 0, -k):
            w = wort[np.maximum(i - k, 0):i].zfill(k)
            b = np.zeros((k,), dtype=int)
            for i, c in enumerate(w):
                b[i] = int(c)
            blocks.insert(0, b.tolist())

        while all(b == 0 for b in blocks[0]) and len(blocks) > 1:
            del blocks[0]

        return blocks

    # Beliebiges Format in einen String umformen
    def toString(self, wort):
        string = np.array2string(np.asanyarray(wort))
        # Unnötige Zeichen entfernen
        weg = '\[|\]|\'|\n'
        if type(wort) is list or isinstance(wort, np.ndarray):
            weg += '\ |\,'

        for c in weg:
            string = string.replace(c, '')

        return string

    # Nach Decodierung Umformung der binären Zeichenfolge
    def fromBits(self, bits):
        rohwort = []
        for b in range(len(bits), 0, -8):
            byte = bits[b - 8:b]
            if byte != '':
                rohwort.insert(0, chr(int(self.toString(byte), 2)))
        return ''.join(rohwort)


from random import randrange


def printit(inp, fehler=False, pbits=3):
    hc = HammingCode(pbits)
    print("Input: {}".format(inp))
    enc = hc.encode(inp)
    print("Encoded: {}".format(enc))
    print("Decoded: {}".format(hc.decode(enc)))
    print()

    n = np.power(2, pbits) - 1
    i = randrange(0, n, 1)

    if fehler:
        print("Mit Korrektur (Fehler bei Index {}):".format(i + 1))
        if enc[0][i] == 1:
            enc[0][i] = 0
        else:
            enc[0][i] = 1
        print("Decoded mit Korrektur: {}".format(hc.decode(enc)))
        print()
    print()


printit("a", True, 3)
printit(1100, True, 4)
printit("Hallo! Wie geht es dir?", True, 3)
printit([1, 1, 0, 0], True, 5)
printit([[1, 1, 0, 0], [1, 0, 0, 1]], True, 2)
printit(np.array([1, 1, 0, 0]), True, 6)




Hamming(7, 4)

Input: a
Encoded: [[1, 1, 0, 0, 1, 1, 0], [1, 1, 0, 1, 0, 0, 1]]
Decoded: a

Mit Korrektur (Fehler bei Index 6):
Spalte von H mit Index 1: [0 0 1], wort*H: [1 1 0]
Spalte von H mit Index 2: [0 1 0], wort*H: [1 1 0]
Spalte von H mit Index 3: [0 1 1], wort*H: [1 1 0]
Spalte von H mit Index 4: [1 0 0], wort*H: [1 1 0]
Spalte von H mit Index 5: [1 0 1], wort*H: [1 1 0]
Spalte von H mit Index 6: [1 1 0], wort*H: [1 1 0]
Fehler erkannt bei Index 6! [1, 1, 0, 0, 1, 0, 0] --> [1, 1, 0, 0, 1, 1, 0]
Decoded mit Korrektur: a


Hamming(15, 11)

Input: 1100
Encoded: [[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0]]
Decoded: [[0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0]]

Mit Korrektur (Fehler bei Index 8):
Spalte von H mit Index 1: [0 0 0 1], wort*H: [1 0 0 0]
Spalte von H mit Index 2: [0 0 1 0], wort*H: [1 0 0 0]
Spalte von H mit Index 3: [0 0 1 1], wort*H: [1 0 0 0]
Spalte von H mit Index 4: [0 1 0 0], wort*H: [1 0 0 0]
Spalte von H mit Index 5: [0 1 0 1], wort*H: [1 0 0 0]
Spalte von H mit Ind

  if not byte is '':


### Anwendung


## Diskusion

## Fazit

## Literaturverzeichnis
[1] SymPy. (2020). SymPy. Abgerufen am 27.10.2020 von https://www.sympy.org/    
[2] NumPy Developers. (2020). NumPy. Abgerufen am 27.10.2020 von https://numpy.org/    
[3] G. Teschl, S. Teschl. (2014) Mathematik für Informatiker. Springer-Verlag Berlin Heidelberg.  