# Enkratna podloga in napadi nanjo

Cilji laboratorijske vaje so sledeči:
- spoznati postrojitev podatkov za potrebe šifriranja,
- spoznati delovanje enkratne podloge (OTP) in posledično tokovnih šifer,
- spoznati tehniko napada na enkratno podlogo, ko se ključ uporabi večkrat,
- spoznati tehniko napada na enkratno podlogo, ko lahko napadalec spremeni tajnopis.

**POMEMBNO**

Namen te laboratorijske vaje se je seznaniti z načinom ravnanja s šiframi. Naša implementacija šifer bo osnovana na preprostosti in bo narejena **zgolj v pedagoške namene**. Kot taka ni primerna za uporabo v praksi. 

Šifre, ki so za uporabo v praksi primerne in primerno implementirane, bomo spoznali kasneje.

## Ustvarjanje pravih naključnih vrednosti

Naključne vrednosti bomo v Pythonu ustvarili s pomočjo modula `secrets`. Za zdaj bo to najboljši približek pravim naključnim vrednostim; [povezava na dokumentacijo.](https://docs.python.org/3/library/secrets.html)

Najprej modul uvozimo, nato pa imlementiramo funkcijo, katera ustvari seznam naključnih bajtov za podano dolžino.

In [None]:
import secrets

In [None]:
def gen_key(length):
    """Vrne nakljucni niz bajtov podane dolzine"""
    return secrets.token_bytes(length)

## Naloga 1: Postroj podatkov

Vse moderne šifre delujejo na bitih (in bajtih). To pomeni, da moramo visokonivojske podatke (števila, nize, podatkovne strukture) pretvoriti v zaporedje ničel in enic, da jih lahko šifriramo.

Pri pretvorbi nizov uporabimo kodirno shemo. Najbolj pogosti možnosti sta ASCII ter UTF-8. 

Če uporabimo zgolj znake s kodirne tabele ASCII, dobimo pri obeh kodirnih shemah isti rezultat

In [None]:
sporocilo1 = "dober dan"
sporocilo1_ascii = sporocilo1.encode("ascii")
sporocilo1_utf8 = sporocilo1.encode("utf8")

assert sporocilo1_ascii == sporocilo1_utf8

print(sporocilo1)
print(sporocilo1_ascii)
print(sporocilo1_utf8)
print(list(sporocilo1_ascii))

Če pa uporabimo tudi znake, ki jih na kodirni tabeli ASCII ni, denimo šumnike, pa pride do razlik.

In [None]:
sporocilo2 = "dober večer"
sporocilo2_utf8 = sporocilo2.encode("utf8")
print(sporocilo2_utf8)

ASCII kodiranje v tem primeru ne deluje: pri kodiranju znaka `č` bo prišlo do napake.

In [None]:
sporocilo2.encode("ascii")

Včasih želimo bajte predstaviti v šestnajstiškem zapisu. V ta namen uporabimo funkcijo `hex()`.

In [None]:
print(f"Sporočilo '{sporocilo2}' predstavljeno kot:\nSeznam bajtov: {list(sporocilo2_utf8)}\nŠestnajstiški niz: {sporocilo2_utf8.hex()}")

Tako npr. prva dva znaka (`64`) predstavljata šestnajstiški zapis števila `100` ($100 = 6 \cdot 16^1 + 4 \cdot 16^0$), medtem ko vrednost `100` v ASCII/UTF-8 kodiranju predstavlja znak `d`

Funkcija, ki deluje v obratni smeri tj. ki iz seznama bajtov zgradi niz znakov, se imenuje `bytes.decode()`. 

In [None]:
bajti = b'dober ve\xc4\x8der'
print(bajti.decode("utf8"))

Kodiranje celih števil je preprosteje: le uporabimo [funkcijo `int.to_bytes()`](https://docs.python.org/3/library/stdtypes.html#int.to_bytes) Funkciji moramo podati vsaj 2 argumenta: število bajtov, ki se naj uporabijo za kodiranje (tj. dolžina) in pravilo po katerem so bajti urejeni tj. ali gre za pravilo debelega ali tankega konca (`big` ali `little`). Opcijsko lahko nastavimo še, ali gre za predznačeno število.

In [None]:
stevilo = 100
print(stevilo.to_bytes(1, 'big').hex())
print(stevilo.to_bytes(1, 'big'))

Včasih nas zanima, kateri številčni vrednosti (v kodiranju unikod) pripada posamezen znak. To izvemo s pomočjo funkcije `ord()`.

In [None]:
for ch in "dober večer":
    print(ch, ord(ch))

Funkcija, ki deluje v obratno smer, tj. iz podane unikod vrednosti vrne pripadajoč znak, se imenuje `chr()`.

In [None]:
for code in [100, 111, 98, 101, 114, 32, 118, 101, 269, 101, 114]:
    print(code, chr(code))

## Naloga 2: Implementacija ekskluzivne disjunkcije

Implementirajte metodo `xor_bytes(s1, s2)`, ki spremje seznama bajtov, `s1` in `s1`, in vrne seznam, kjer so vrednosti posameznih bajtov izračunane kot rezultat operacije ekskluzivne disjunkcije nad posameznimi elementi seznama `s1` in `s2`.

Operacija ekskluzivne disjukncije v Pythonu je mogoča z uporabo znaka `^`:
```python
>>> 1 ^ 2
3
```

V sledeči celici lahko delovanje vaše funkcije preverite na treh enotskih testih. Če testi ne vrnejo napake, jih je vaša implementacija uspešno prestala.

In [None]:
def xor_bytes(s1, s2):
    """Izvede operacijo XOR med podanima seznamoma bajtov in vrne seznam bajtov"""
    pass


xor_bytes([1, 16], [2, 1])

In [None]:
assert xor_bytes([1, 2, 3], [3, 2, 1]) == bytes([2, 0, 2])
assert xor_bytes([0, 0, 0], [3, 2, 1]) == bytes([3, 2, 1])
assert xor_bytes([1, 1, 1], [1, 1, 1]) == bytes([0, 0, 0])

## Naloga 3: Šifra enkratne podloge (OTP)

Implementirajte šifrirni in dešifrirni algorite enkratne podloge. Če uporabite rešitev iz prve naloge, bo implementacija trivialno kratka.

In [None]:
def enc_otp(key, pt):
    """Sifrirni algoritem enkratne podloge"""
    pass

In [None]:
assert enc_otp([1, 2, 3], [1, 1, 1]) == xor_bytes([1, 2, 3], [1, 1, 1])

In [None]:
def dec_otp(key, ct):
    """Desifrirni algoritem enkratne podloge"""
    pass

In [None]:
assert dec_otp([1, 2, 3], [1, 1, 1]) == xor_bytes([1, 2, 3], [1, 1, 1])

## Naloga 4: Šifriranje in dešifriranje

Uporabite metodi šifriranja in dešifriranja iz prejšnje naloge in zašifrirajte sporočilo `Enkratna podloga je popolno tajna šifra.` 

Implementacijo šifriranja podajte v telesu funkcije `example_enc()`. Za ključ uporabite vrednost `3d26ebcbc0b2ad0d15c6be1f6259fd89495451fc2245cd8dad40c480a87bbb3a7525a9ba4abb930417`. Pozor: podano vrednost ključa je potrebno prebrati kot seznam bajtov. To storite s pomočjo funkcije `bytes.fromhex(...)`.

In [None]:
def example_enc():
    pass

example_enc()

In [None]:
assert example_enc().hex() == "784880b9a1c6c36c35b6d17b0e369ae8693e34dc522abde2c12eaba0dc1ad15414056c1b23dde16539"

V telesu funkcije `example_dec()` dešifrirajte sporočilo `784880b9a1c6c36c35b6d17b0e369ae8693e34dc522abde2c12eaba0dc1ad15414056c1b23dde16539` in pri tem uporabite isti ključ kot ste ga pri šifriranju.

In [None]:
def example_dec():
    pass

example_dec().decode("utf8")

In [None]:
assert example_dec().decode("utf8") == "Enkratna podloga je popolno tajna šifra."

## Naloga 5: Napad na večkratno podlogo

Poglejmo, kaj lahko naredi napadalec, če isto podlogo uporabimo za šifriranje več sporočil.

### Naloga 5.1: Delno dešifriranje

Za začetek si pripravimo implementacijo dešifriranega algoritma, ki dešifrira tajnopis tudi, če nam kakšen del ključa manjka. Dešifrirani algoritem naj dešifrira kot običajno, edina izjema so znaki, ki je vrednost ključa enaka 0. V tem primeru, naj kot pripadajoč znak v tajnopisu nastavi vrednost `*`.

In [None]:
def dec_otp_partial(key, ct):
    """Desifrira samo tiste znake, kjer kljuc ni 0 -- ce je, kot znak nastavi simbol *"""
    pass

dec_otp_partial(
    bytes.fromhex("0000ebcbc0b2ad0d15c6be1f6259fd89495451fc0000cd8dad40c480a87bbb3a7525a9ba4abb930000"),
    bytes.fromhex("784880b9a1c6c36c35b6d17b0e369ae8693e34dc522abde2c12eaba0dc1ad15414056c1b23dde16539")
).decode("utf8")

In [None]:
assert dec_otp_partial([1, 0, 1], [2, 2, 2]) == bytes([3, ord("*"), 3])
assert dec_otp_partial([1, 1, 1], [2, 2, 2]) == dec_otp([1, 1, 1], [2, 2, 2])

### Tajnopisi

Tajnopisi so shranjeni v binarni obliki v datotekah `data/ct_i.bin`. Preberimo jih z diska.

In [None]:
def load_cts():
    cipher_texts = []
    for i in range(10):
        with open(f"data/ct_{i}.bin", "rb") as h:
            cipher_texts.append(h.read())
    return cipher_texts

cipher_texts = load_cts()

print("Izpis prvih 50 bajtov tajnopisa šestnajstiško")
for i, c in enumerate(cipher_texts):
    print(f"Tajnopis {i}, dolžina {len(c)}:  {c.hex()[:100]}...")

Opazimo, da so vsi tajnopisi dolgi 109 bajtov. 

Vaša naloga je, da ugotovite ključ in z njim dešifrirajte sporočila. Pri tem lahko upoštevate še, da so sporočila v Slovenščini ter sestojijo le iz malih črk in presledkov: šumniki, števke in vsa ostala ločila so odstranjeni.

### Naloga 5.2: Funkcija `multiple_xor(pos, cts)`

Implementirajte funkcijo `multiple_xor(pos, cts)`, ki na vhodu prejme pozicijo znaka v tajnopisu in seznam tajnopisov. Metoda nato vrne bajt ključa oz. vrednost 0, če določi, da bajta v ključu na dani poziciji ni mogoče ugotoviti.

Namig: implementacija je dokaj kratka, če uporabite vgrajeno funkcijo `all`. V nasprotnem primeru boste potrebovali vgnezdeno zanko.

In [None]:
def multiple_xor(pos, cts):
    pass


def test_multiple_xor():
    """Testira implementacijo funkcije multiple_xor
    
    Če ne vrne napake, je implementacija pravilna"""
    
    test_key = bytes.fromhex("cd04c883d62ca6e58f3cc3c554bc77")
    test_cts = [
      enc_otp(test_key, "v ponedeljek in".encode("ascii")),
      enc_otp(test_key, "ob uri na mestu".encode("ascii")),
      enc_otp(test_key, "zelo nenavadno ".encode("ascii"))
    ]

    assert multiple_xor(0, test_cts) == 0
    assert multiple_xor(1, test_cts) == test_key[1]
    assert multiple_xor(2, test_cts) == test_key[2]
    assert multiple_xor(3, test_cts) == 0
    assert multiple_xor(4, test_cts) == test_key[4]
    assert multiple_xor(5, test_cts) == 0
    assert multiple_xor(6, test_cts) == test_key[6]
    assert multiple_xor(7, test_cts) == 0
    assert multiple_xor(8, test_cts) == 0
    assert multiple_xor(9, test_cts) == test_key[9]
    assert multiple_xor(10, test_cts) == 0
    assert multiple_xor(11, test_cts) == 0
    assert multiple_xor(12, test_cts) == test_key[12]
    assert multiple_xor(13, test_cts) == 0
    assert multiple_xor(14, test_cts) == test_key[14]
    
test_multiple_xor()

### Naloga 5.3: Funkcija `guess_key(cts)`

Implementirajte funkcijo `guess_key(cts)`, ki na vhodu prejme seznam tajnopisov in nato vrne seznam bajtov, ki predstavljajo ključ, s katerim so bili tajnopisi ustvarjeni. V primeri, da kakšen bajt v ključu ni mogoče ugotoviti, nastavite njegovo vrednost na 0.

In [None]:
def guess_key(ciphertexts):
    pass


gk = guess_key(cipher_texts)
for c in cipher_texts:
    print(dec_otp_partial(gk, c).decode("ascii"))

Nekatere bajte v ključih ugotovi algoritem, ostale pa poskusite dopolniti sami. 

## Naloga 6: Gnetljivost tajnopisa

Pri zadnji nalogi bomo kot napadalec spremenili tajnopis, tako da bo sprememba vidna v čistopisu. Zgodba je sledeča.

Ana želi poslati zaupno pošto Boru, vas, ki igrate vlogo napadalca Nandija, pa vsebina sporočila _zares_ zanima.

Na srečo vam gre nekaj reči na roko. 

Prvič, Anin računalnik nima internetne povezave, vaš mobilni telefon pa. Zato ji prijazno ponudite, da zanjo postavite mobilno dostopno točko, preko katere se bo lahko povezala v internet in dostopala do poštnega strežnika. Poštni strežnik bo nato sporočilo dostavil Boru. 

Ana in Bor uporabljata poseben protokol za pošto: protokol FMTP -- Funny Mail Transfer Protocol.  Gre za preprost besedilno-osnovan protokol: prva vrstica označuje naslov prejemnika, druga naslov pošiljatelja, tretja zadevo, četrta je vedno prazna in na koncu je sporočilo.

Vse, kar mora Anin poštni odjemalec storiti, da pošlje sporočilo, je, da strežniku FMTP dostavi besedilni niz, podoben naslednjemu.

```txt
prejemnik@enadomena.com
posiljatelj@drugadomena.com
Zadeva sporocila

<Samo sporocilo>
```

Vse morebitne predhodne ali zaključne presledke v vsaki vrstici poštni strežnik ignorira oz. odstrani pred obdelavo. Na primer, e-pošto zgoraj bi lahko napisali kot spodnjo in ne bi bilo nobene razlike.


```txt
                    prejemnik@enadomena.com               
    posiljatelj@drugadomena.com                    
Zadeva sporocila

<Samo sporocilo>
```

Tretjič, Ana vam v dobri veri -- kakšna naivnost! -- pove, da pošilja elektronsko sporočilo Boru in da uporablja protokol FMTP. (Torej poznate strukturo sporočila in vsebino prve vrstice čistopisa.)

Četrtič, Ana uporablja enkratno podlogo, mehanizmov za zagotavljanje celovitosti pa ni.

Ker nastopate v vlogi **posrednika**, lahko sedaj spremenite sporočilo tako, da strežnik FMTP ne bo poslal pošte Boru, temveč jo bo poslal na naslov, ki ga nadzirate vi, npr. `nandi@obvlada.si`.

In [None]:
# Ana in Bor si enkrat tedensko v zivo izmenjata 1000 bajtov
# nakljucnih vrednosti za morebitne potrebe sifriranja
ana_bor_psk = gen_key(1000)

In [None]:
# Ana pripravi sporočilo
email = """bor@student.uni-lj.si
ana@student.uni-lj.si
Hej

Na faksu si pozabil kapo.""".strip()

# In ga šifrira z enkratno podlogo
ct = enc_otp(ana_bor_psk, email.encode("utf8"))

# Nato ga pošlje (to simuliramo) na streznik FMTP
print("Ana pošilja šifrirano sporočilo na strežnik")
print("Tajnopis (HEX):", ct.hex())

Sedaj je na potezi napadalec Nandi.

Implementirajte funckijo `change_ct(ct, new_email)`, ki na vhodu prejme tajnopis in email naslov. Spremenite tajnopis tako, da ga bo strežnik FMTP še vedno brez dešifriral, a kot prejemnik ne bo naveden Bor, temveč email naslov, ki je podan v argumentu `new_email`. Predpostavite lahko, da bo `new_email` vedno krajši ali enak od naslova `bor@student.uni-lj.si`.

In [None]:
def change_ct(ct, new_email):
    pass

S poganjanjem spodnje celice lahko preverite, ali vaša funkcija deluje pravilno. 

In [None]:
def fmtp_receive(key, ct):
    print("Streznik FMTP prejel sporocilo:", ct.hex())
    pt = dec_otp(key, ct)
    print("Desifrirano sporocilo:")
    print(pt.decode("utf8"))

fmtp_receive(ana_bor_psk, change_ct(ct, "nandi@obvlada.si"))