## Kryptologie

Die **Kryptologie** ist die Wissenschaft von der sicheren Übermittlung (auch Speicherung) von Information (Daten).
Üblich ist eine Unterteilung in **Kryptographie** (wie erstellt man eine Chiffre, d.h. ein Verschlüsselungssystem) und in **Kryptoanalyse** (wie knackt man eine Chiffre).


Unsere Themen in der Kryptologie
* Kryptographie
  * Cäsar-Chiffre
  * Vigenere-Chiffre
  * Diffie-Hellman
  * RSA
* Kryptoanalyse
  * Häufigkeitsanalyse
  * Friedmanscher Koinzidenzindex
  * Kasiski-Test 













#### Ausgangssituation und Rollen
**Alice** will **Bob** eine Nachricht schicken. Dazu wandelt sie den **Klartext** in einen **Geheimtext** um (**Chiffrierung**) und verschickt den Geheimtext. Bob wandelt den Geheimtext wieder in einen Klartext um (**Dechiffrierung**).

**Angreifer**: **Eve** will den Text mitlesen (ohne ihn zu verändern). **Mallory** will die verschickte Nachricht verändern.



#### Sicherheitsziele  

* **Vertraulichkeit**: Die Nachricht, die man erhält, ist nicht von dritten Personen gelesen worden.
* **Integrität**: Die Nachricht, die man erhält, ist von keiner dritten Person manipuliert worden.
* **Authentizität**: Die Nachricht, die man erhält, stammt wirklich von der Person, die als Absender angegeben ist.
* **Verbindlichkeit**: Der Urheber kann nachträglich nicht bestreiten, die Nachricht verfasst zu haben.

#### Vorbereitung des Klartexts
In unseren Beispielen wandeln wir den Klartext zunächst in einen Text um, der keine Umlaute hat, keine Satzzeichen, keine Leerzeichen und der nur aus Großbuchstaben besteht. Dazu verwenden wir die Funktion *prepare*

In [1]:
def prepare(s):
    '''
    s: Klartext
    returns: String, Klartext ohne Umlaute, Satzzeichen, Leerzeichen, nur Großbuchstaben
    '''
    s = s.upper()
    s = s.replace('Ö','OE').replace('Ü','UE').replace('Ä','AE').replace('ß','SS')
    return ''.join([c for c in list(s) if c.isalpha()]) 

In [2]:
s = """
Dies ist mein geheimer Text
"""
print(prepare(s))

DIESISTMEINGEHEIMERTEXT


#### Cäsar-Chiffre

Die Cäsar-Chiffre gehört zu den **monoalphabetischem Substitutionschiffren**: Jeder Klartextbuchstabe wird durch immer denselben Geheimtextbuchstaben ersetzt. Bei der Cäsar-Chiffre geschieht die Ersetzung durch Verschiebung im Alphabet um einen festen Betrag.



[Cäsar-Chiffre](https://kryptografie.de/kryptografie/chiffre/caesar.htm)

Für die Cäsar-Chiffre gibt es nur 25 verschiedene Schlüssel. Der **key-space** hat die Größe 25. Mit einem **brute-force-Angriff** lässt sich eine Cäsar-Chiffre brechen.

Ein konkretes Verschlüsselungsverfahren besteht aus dem Verschlüsselungsalgorithmus und einem Schlüssel, z.B. Cäsar-Chiffre mit Schlüssel 3.

#### Kerckhoffs' Prinzip

Das Kerckhoffs’sche Prinzip ist ein im Jahr 1883 von Auguste Kerckhoffs formulierter Grundsatz der modernen Kryptographie, welcher besagt, dass die Sicherheit eines Verschlüsselungsverfahrens auf der Geheimhaltung des Schlüssels beruht und nicht auf der Geheimhaltung des Verschlüsselungsalgorithmus.

#### Monoalphabetische Substitution

Dabei wird ein Buchstabe durch einen anderen ersetzt. Es muss nicht mehr eine feste Verschiebung sein (wie bei Cäsar), sondern kann eine beliebige Permutation sein.
Der Schlüssel ist diese Permutation.

In [3]:
import random
random.seed(1)
s = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
a = list(s)
random.shuffle(a)
s1 = ''.join(a)
print(f'{s},{s1}')

ABCDEFGHIJKLMNOPQRSTUVWXYZ,XYLKWBFZTNJRQAHVGMUOPDICSE


[Monoalphabetische Substitution](https://kryptografie.de/kryptografie/chiffre/monoalphabetische-substitution.htm)

Der *key-space* besteht aus allen Permutationen der 26 Buchstaben. Eine brute-force Angriff ist nicht mehr möglich.

In [4]:
import math
a = math.factorial(26)
print(f'{a}, {a:5.2e}')

403291461126605635584000000, 4.03e+26


Mit einer Häufigkeitsanalyse lassen sich monoalphabetische Substitutionen brechen.

In [36]:
hf_deutsch = {'E': 17.4, 'N': 9.8, 'I': 7.6, 'S': 7.3, 'R': 7.0, 'A': 6.5, 'T': 6.2, 'D': 5.1, 
              'H': 4.8, 'U': 4.4, 'L': 3.4, 'C': 3.0, 'G': 3.0, 'M': 2.5, 'O': 2.5, 'B': 1.9, 
              'W': 1.9, 'F': 1.7, 'K': 1.2, 'Z': 1.1, 'P': 0.8, 'V': 0.7, 'J': 0.3, 'Y': 0.04, 'X': 0.03, 'Q': 0.02}

#### Vigenere-Chiffre
Die Vigenere-Chiffre gehört zu den polyalphabetischen Substitutionschiffren. Derselbe Klartextbuchstabe kann durch unterschiedliche Geheimtextbuchstaben ersetzt werden. Es kommt auf seine Position im Text an.
Sender und Empfänger vereinbaren ein Schlüsselwort. Oft schreibt man es mit Wiederholungen unter den Klartext. Der Schlüsselbuchstabe bestimmt dann, mit welchem Alphabet der Klartextbuchstabe verschlüsselt wird. Häufig verwendet man dazu
ein **Vigenere-Quadrat**.

[Vigenere](https://kryptografie.de/kryptografie/chiffre/vigenere.htm)

Die Vigenere-Chiffre wurde um 1500 entwickelt und galt ca. 350 Jahre als sicher. Das Hauptproblem beim Brechen der Chiffre ist die Bestimmung der Schlüssellänge. Zwei Verfahren zur Bestimmung der Schlüssellänge sind der **Kasiski-Test** und der **Friedman-Test**. Beide benötigen einen nicht zu kurzen Geheimtext.

[Kasiski-Test](https://kryptografie.de/kryptografie/kryptoanalyse/kasiski-test.htm)

Wenn häufig vorkommende Buchstabenfolgen zufällig auf dieselbe Schlüsselposition fallen, wiederholen sich auch gleichartige Sequenzen im Geheimtext. Der Abstand dieser Sequenzen ist also ein Vielfaches der Schlüssellänge.

[Friedman-Test](https://kryptografie.de/kryptografie/kryptoanalyse/friedman-test.htm)

Der Friedman-Test nutzt den **Friedmanschen Koinzidenzindex**. 
Der Koinzidenzindex einer Zeichenfolge m ist die Wahrscheinlichkeit, an zwei zufällig gewählten Positionen von m den gleichen Buchstaben zu finden. Für einen hinreichend langen deutschen Text liegt der Koinzidenindex bei 0.076.
Für einen zufällig erzeugten Text liegt er bei 0.0385. 

Den Koinzidenzindex des gegebenen Textes kann man berechnen und diesen darstellen als Summe zweier Wahrscheinlichkeiten. Die Wahrscheinlichkeit, 2 Buchstaben aus Bereichen zu ziehen, die zum selben Verschlüsselungsbuchstaben gehören (dieser Bereich hat einen Koinzidenzindex von ca 0.076) und die Wahrscheinlichkeit,  2 Buchstaben aus Bereichen zu ziehen die zu unterschiedlichen Verschlüsselungsbuchstaben gehören (dieser Bereich hat Koinzidenzindex 0.0358). Man erhält daraus eine Formel, die man nach der Schlüssellänge d auflösen kann.

Kasiski-Test zusammen mit Friedman-Test liefern häufig die korrekte Schätzung des Schlüssels.

 

#### One Time Pad

Das One Time Pad können wir uns vorstellen wie eine Vigenere-Chiffre, bei dem der Schlüssel genauso lang ist wie die zu verschlüsselnde Nachricht und bei der die Buchstabenreihenfolge des Schlüssels zufällig ist. Das One Time Pad ist absolut sicher, denn bei unbekanntem Schlüssel ist zu einem gegebenen Geheimtext jeder Klartext gleich wahrscheinlich.

Das One Time Pad ist aber auch äußerst unpraktisch, denn der unter Umständen sehr lange Schlüssel muss ja irgendwie zwischen den Kommunikationspartnern ausgetauscht werden - er lässt sich wegen der Zufälligkeit der Buchstabenfolge in der Regel auch nicht "auswendig lernen".

### Rechnen in Restklassenringen

Um moderne kryptologische Verfahren zu verstehen, schauen wir uns zuvor das Rechnen in Restklassenringen an.

Mit $Z_7$ bezeichnen wir den *Restklassenring modulo 7*, d.h. wir fassen alle Zahlen als gleich auf, die bei der Division von 7 denselben Rest ergeben.

<img src='z7.png' width='400'>

Alle folgenden Beispiele in $Z_7$:

*Addition*, Beispiel $3+6$: wir wandern erst Kreisbogen 3, dann Kreisbogen 6.

In [39]:
(3+6)%7

2

*Subtraktion*, Beispiel $4-6$: wir wandern erst Kreisbogen 4 im Uhrzeigersinn, dann Kreisbogen 6 gegen Uhrzeigersinn

In [40]:
(4-6)%7

5

*Multiplikation*, Beispiel $4*3$: wir setzen den Kreisbogen 4 dreimal hintereinander.

In [41]:
(4*3)%7

5

*Division*, Beispiel $\dfrac{1}{5}$: Gesucht ist das $x$ mit $5*x = 1$. D.h. wir suchen das x, das angibt,
wieviel mal wir den Kreisbogen 5 hintereinander setzen müssen, damit wir bei der 1 rauskommen.

In [42]:
for i in range(1,7):
    print(i,5*i%7)

1 5
2 3
3 1
4 6
5 4
6 2


Antwort: $\dfrac{1}{5} = 3$

Anmerkung: Wenn beim Rechnen in $Z_p$ p eine Primzahl ist, ist dieser Bruch wohldefiniert.

*Exponentiation*, 
Beispiel $4^5 = 4*4*4*4*4$

In [43]:
(4**5)%7

2

*(Diskreter) Logarithmus*,
Beispiel: $5^x = 2$.  Wir suchen die Zahl, hoch die wir 5 nehmen müssen, um bei der 2 zu landen.

In [44]:
for i in range(1,7):
    print(i,5**i%7)

1 5
2 4
3 6
4 2
5 3
6 1


Antwort: $x = 4$

**Außer dem diskreten Logarithmus** lassen sich alle Operationen  auch für sehr große Zahlen effektiv durchführen.

Beim Rechnen im Restklassenring können wir Zwischenergebnisse durch kleinere Zahlen in derselben Restklasse ersetzen. 

In $Z_7$:

$17*15-25*9 = 3*1 -(-3)*2) = 3+6=9=2$

In [45]:
(17*15-25*9)%7

2

#### Das Powermod Verfahren

Für die Exponentiation nutzen wir das *Powermod-Verfahren*. Wir berechnen die Bestandteile des Ergebnisses durch fortgesetztes Quadrieren. Die Umwandlung des Exponenten in eine Dualzahl gibt an, welche Teilergebnisse wir miteinander multiplizieren müssen.

<img src='powermod.png'>

In [46]:
19**123%7

6

#### Erweiterter Euklidscher Algorithmus 

Zum Berechnen von $1/k$ nutzen wir den *erweiterten Euklidschen Algorithmus*

Satz: Seien a, b natürliche Zahlen, dann gibt es ganze Zahlen x, y mit: $a*x + b*y = ggT(a,b)$. Der erweiterte euklidsche Algorithmus ist ein effektives Verfahren, um die beiden Zahlen x und y zu finden.

Beispiel: $a = 110, b = 32$

<img src='ggt.png' width='600'>


In [28]:
110*7 + 32*(-24)

2

<img src='division.png'>

In [34]:
13*16%29

5

#### Diffie-Hellman Schlüsselaustausch


Alice und Bob vereinbaren eine Primzahl $p$ und eine Generatorzahl $g \in \{1,2,...p-1\}$, am besten eine Primitivwurzel in 
$\mathbb{Z}_p$. Alice wählt geheim eine Zahl $a$ aus, Bob geheim eine Zahl $b$ mit $a,b \in \{1,2,...p-1\}$.  
Alice berechnet $A = g^a \text{ mod } p$, Bob berechnet $B = g^b \text{ mod } p$.  Dann tauschen beide $A$ und $B$ aus.  Das bedeutet, 
$p,g,A,B$ sind öffentlich bekannt, $a$ kennt nur Alice, $b$ nur Bob.  

Beide können nun den gemeinsamen Schlüssel $K$ berechnen: <br>
Alice: $B^a = (g^b)^a = g^{ba} = K \text{ mod } p$ <br>
Bob: $A^b = (g^a)^b = g^{ab} = K \text { mod }p$ 

<img src='diffie.png'>

#### Man-in-the-middle Angriff auf Diffie-Hellman

Mallory kontrolliert das Netzwerk. Er gibt sich gegenüber Alice als Bob aus und gegenüber Bob als Alice. Mit beiden vereinbart er getrennte Schlüssel $g^{am}$ und $g^{bm}$.

<img src='middleMan.png'>

#### RSA-Verfahren

Alice wählt zwei Primzahlen $p$ und $q$ und berechnet $m = p \cdot q$ und $\tilde{m} = (p-1)(q-1)$.
Alice wählt Verschlüsselungsexponent $e$ mit $1 < e < \tilde{m}$ und $\text{ggT}(e,\tilde{m}) = 1$ und berechnet
Entschlüsselungsexponent $d$ mit  $d$ mit $d = \dfrac{1}{e}$ in $\mathbb{Z}_{\tilde{m}}$.

Dann ist der öffentliche Schlüssel  $(m,e)$ und der private Schlüssel $(m,d)$.

Für die zu verschlüsselnde Nachricht $n$ muss gelten: $0<n<m$.

Bob verschlüsselt $n: N = n^e \text{ mod } m$ <br>
Alice entschlüsselt $N:  n = N^d\text{ mod } m$ 

<img src='rsa.png'>


Die Sicherheit des Verfahrens hängt davon ab, dass der Angreifer das öffentlich bekannte $m$ nicht in die beiden
Primfaktoren $p$ und $q$ zerlegen kann. Sonst könnte er $\tilde{m}$ berechnen und dann auch das Inverse zu dem öffentlichen $e$ in $\mathbb{Z}_{\tilde{m}}$. 

**Aufwand für die Faktorensuche**

Wenn wir versuchen, die Faktoren einer Primzahl mit 300 Stellen zu finden, testen wir nur Primzahlen, die kleiner als
$\sqrt{10^{300}} = 10^{150}$ sind. Nach der Abschätzung von Euler gilt für große $n$, dass es ca. $\frac{n}{\ln(n)}$ Primzahlen unterhalb von $n$ gibt.


$\ln(10^{150}) = 150 \cdot \ln(10) \approx 150 \cdot 2.3 = 345.4$. Also müssen wir $\frac{10^{150}}{345.5} \approx 3 \cdot 10^{147}$ Kandidaten testen.

Annahme: 1 Computer schafft $10^{12}$ Prüfungen pro Sekunde (1 Million Millionen). Das sind im Dauerbetrieb pro Jahr: 
$10^{12} \cdot 60 \cdot 60 \cdot 24 \cdot 365 \approx 3 \cdot 10^{19}$ Prüfungen. Das bedeutet $\frac{3 \cdot 10^{147}}{3 \cdot 10^{19}} = 10^{128}$ Jahre für alle Prüfungen (Alter des Weltalls: ca. $10^{10} Jahre)$.



#### Kryptographische Hashfunktionen 

Hashfunktionen bilden Eingabewerte (z.B. ein Text oder eine Datei) auf einen Wert fester Länge ab, den **Hash** der Eingabe.  Beispiel: SHA-256 bildet Eingaben auf eine Bitfolge der Länge 256 ab.  

Kryptographische Hashfunktionen sind kollisionsresistene Einwegfunktionen. Kollisionsresistent bedeutet, es ist praktisch unmöglich, zwei Eingaben zu finden, die denselben Hash ergeben. Einwegfunktion bedeutet, es ist praktisch unmöglich, aus dem Hashwert den Eingabewert zu rekonstruieren.

In [47]:
from hashlib import sha256 
hash = sha256(b"Dies ist eine geheime Botschaft").hexdigest()
hash

'e61000e5186a1e65c85ad713d438f85a3b2028eb1c7b9cfe69c1954c3976146a'

In [54]:
int(hash,16)        # hex in Dezimal

104060230903586659970490076555349987883149714790405932888550679235298292274282

In [55]:
bin(int(hash,16))    # Dezimal in Binär

'0b1110011000010000000000001110010100011000011010100001111001100101110010000101101011010111000100111101010000111000111110000101101000111011001000000010100011101011000111000111101110011100111111100110100111000001100101010100110000111001011101100001010001101010'

In [58]:
len(bin(int(hash,16))[2:])    # Die Binärdarstellung des hash-Wertes hat 256 Ziffern

256

#### Digitale Signatur

Mit dem RSA-Verfahren und einer kryptographischen Hashfunktion kann eine digitale Signatur erstellt werden. 

<img src='bild4.png'>

Durch eine digitale Signatur wird der Diffie-Hellman Schlüsselaustausch vor einem
Man-in-the-middle-Angriff geschützt.  

<img src='bild5.png'>

#### Public Key Infrastruktur (PKI)

Ein Problem des RSA-Verfahrens ist die *Authentizität* des öffentlichen Schlüssels, also die Frage, ob der öffentliche Schlüssel wirklich zu der Person gehört, die ihn (z.B. auf einer Internetseite) präsentiert. Um dies sicherzustellen, muss der öffentliche Schlüssel von einem anerkannten Vertrauensbüro, einen Trust-Center, zertifiziert werden. Der prinzipielle Ablauf:

<img src='zertifizierung.png'>

[youtube](https://www.youtube.com/watch?v=0ctat6RBrFo)