# Zadanie 1

W zadaniu 1 naszym celem jest wykorzystanie faktu, że rozmiar używanego klucza RSA jest niewielki (368 bitów). Taka sytuacja umożliwia nam znalezienie klucza prywatnego poprzez faktoryzację liczby $N$ (modułu, na którym wykonujemy dzielenie modularne). 

Strategia rozwiązania tego zadania jest następująca: 
<br>
> 1. Z dostarczonego certyfikatu należy wyekstrahować klucz publiczny $(N, e)$ gdzie $N$ to moduł, a $e$ to publiczny wykładnik.
> 2. Wykorzystać którąś z podanych na liście bibliotek, w celu faktoryzacji modułu $N$ na dwie liczby pierwsze $p$ i $q$.
> 3. Z uzyskanych liczb pierwszych obliczyć klucz prywatny, który został zastosowany do generowania podpisów. Można to zrobić poprzez obliczenie odwrotności publicznego wykładnika $e$ modulo $(p-1)(q-1)$.
> 4. Otrzymany klucz należy zakodować (zgodnie ze standardem _ANS1_), a następnie zapisać go w pliku _.pem_.
> 5. Tak przygotowany klucz prywatny może być używany do podrabiania cyfrowych podpisów.
    

## 1 - Ekstrakcja klucza publicznego z certyfikatu 

W celu wydobycia klucza publicznego z certyfikatu (czyli pary $(N, e)$) zastosowałem następującą komendę narzędzia 
_openssl_:
> **bw@bw-NBLK-WAX9X:~/Documents/Kryptografia/L1/z1$ openssl x509 -pubkey -in cacertificate.pem -noout**

Oto wynik działania tej komendy (czyli zakodowany klucz publiczny):
> **-----BEGIN PUBLIC KEY----- <br>
> MEkwDQYJKoZIhvcNAQEBBQADOAAwNQIuAOZJ1X9v+c/2Vct57jg4DI+CeOs3SpAF <br>
> mw/wZTSCnTN8dT0OWa/tb6SJ8BXPMwIDAQAB <br>
> -----END PUBLIC KEY-----**

W celu otrzymania danych na temat klucza publicznego, należy zdekodować otrzymaną powyżej zawartość.
Można to zrobić używając dostępnych bibliotek lub dekoderów online. Po zdekodowaniu, otrzymałem następujące dane o 
kluczu publicznym: <br>
<br>
\begin{equation}
N = 2112664634855999140031945945998785346946804826144846396410436155861557104011009549879696604291518474904522547
\end{equation}

Oraz: <br>
\begin{equation}
e = 65537
\end{equation}

Widać, że wykładnik jest jedną ze standardowo używanych wiadomości. 

## 2 - Faktoryzacja modułu (N)

Do faktoryzacji modułu, wykorzystałem bibliotekę _CADO-NFS_, ponieważ lepiej sobie radzi (w porównaniu do drugiej biblioteki) z liczbami, które mają więcej niż 100 cyfr. Faktoryzację modułu uruchomiłem następującą komendą: <br>
> **./cado-nfs.py 2112664634855999140031945945998785346946804826144846396410436155861557104011009549879696604291518474904522547**


<br>

Wynikiem faktoryzacji są dwie liczby pierwsze: <br>
\begin{equation}
p = 1524938362073628791222322453937223798227099080053904149
\end{equation}
<br>
Oraz
\begin{equation}
q = 1385409854850246784644682622624349784560468558795524903
\end{equation}
<br>
To, że ich iloczyn daje $N$ można zweryfikować poniżej:

In [25]:
p = 1524938362073628791222322453937223798227099080053904149
q = 1385409854850246784644682622624349784560468558795524903
N = 2112664634855999140031945945998785346946804826144846396410436155861557104011009549879696604291518474904522547

print(p*q == N)

True


## 3 - Obliczanie klucza prywatnego


Kluczem prywatnym $d$ jest odwrotność publicznego wykładnika $e$ modulo $(p-1)(q-1)$. Zatem w celu obliczenia go,
stosuje rozszerzony algorytm Euklidesa. Kod przedstawiający obliczenia znajduje się poniżej:

In [18]:
def extended_euclid(a, b):
    x, y, u, v = 0, 1, 1, 0
    while a != 0:
        quotient, r = b // a, b % a
        m, n = x - u * quotient, y - v * quotient
        b, a, x, y, u, v = a, r, u, v, m, n
    gcd = b
    return gcd, x, y

p = 1524938362073628791222322453937223798227099080053904149
q = 1385409854850246784644682622624349784560468558795524903
e = 65537

_, _, d = extended_euclid((p - 1)*(q - 1), e)

print(f'Otrzymany klucz prywatny: d = {d}')

Otrzymany klucz prywatny: d = 585377376205045827301220782663105468898592075285171211065018186416365699827074434761795565062334913589643145


Zatem klucz prywatny jest równy:
\begin{equation}
d = 585377376205045827301220782663105468898592075285171211065018186416365699827074434761795565062334913589643145
\end{equation}

## 4 - kodowanie klucza prywatnego

W praktycznym użytkowaniu, klucze publiczne i prywatne są kodowane zgodnie ze standardem _ANS1_. Zatem przed wykorzystaniem, musimy odpowiednio zakodować klucz prywatny. Do tego służy poniżej zaprezentowany program: <br>


In [21]:
import pyasn1.codec.der.encoder
import pyasn1.type.univ
import base64


def encode_key(_n, _e, _d, _p, _q, _dP, _dQ, _qInv):
    template = '-----BEGIN RSA PRIVATE KEY-----\n{}-----END RSA PRIVATE KEY-----\n'
    seq = pyasn1.type.univ.Sequence()
    for i, x in enumerate((0, _n, _e, _d, _p, _q, _dP, _dQ, _qInv)):
        seq.setComponentByPosition(i, pyasn1.type.univ.Integer(x))
    der = pyasn1.codec.der.encoder.encode(seq)
    return template.format(base64.encodebytes(der).decode('ascii'))


p = 1524938362073628791222322453937223798227099080053904149
q = 1385409854850246784644682622624349784560468558795524903
N = 2112664634855999140031945945998785346946804826144846396410436155861557104011009549879696604291518474904522547
d = 585377376205045827301220782663105468898592075285171211065018186416365699827074434761795565062334913589643145
e = 65537
dP = d % (p - 1)
dQ = d % (q - 1)
qInv = pow(q, p - 2, p)

print(f'Wygeneorwany plik .pem: \n {encode_key(N, e, d, p, q, dP, dQ, qInv)}')

Wygeneorwany plik .pem: 
 -----BEGIN RSA PRIVATE KEY-----
MIHkAgEAAi4A5knVf2/5z/ZVy3nuODgMj4J46zdKkAWbD/BlNIKdM3x1PQ5Zr+1vpInwFc8zAgMB
AAECLT/O74A7F53+5HDX3SDortpIzZZnIJrU93O2hwZom1NeFGiJkzyyMi8aQTGHiQIXD+vNKx7X
RLvtGKRfICO2s5DWEwOGUxUCFw523+PB/OAFczNkupoX1C9wkosNKEsnAhcLd9fesqVvXkqn0Gaw
+Oi2qaJ6KbTNDQIXAZClKuyLYuXUECR++DtJzxQ8FuWGjZMCFwYnXyGcz8NzMENGa/lNLrkQ9D0g
utHw
-----END RSA PRIVATE KEY-----



Dodatkowe wartości, które są obliczane powyżej (takie jak: $dP$, $dQ$ oraz $qInv$), wynikają ze standardu kodowania kluczy. Plik z wygenerowanym kluczem prywatnym, znajduje się w pliku o nazwie _cakey.pem_.

## 5 - podrabianie podpisów cyfrowych


Mając wszystkie potrzebne rzeczy, można zacząć podrabiać podpisy cyfrowe. Powiedzmy, że mamy plik _grade.txt_, w którym zmieniliśmy ocenę z $0$ na $5$: <br>
> Student number: 123456 <br>
> Problem number: 5/1 <br>
> Grade: 5 <br>

Oczywiście plik nie przejdzie weryfikacji za pomocą podpisu cyfrowego: <br>
> **openssl dgst -md5 -verify <(openssl x509 -in cacertificate.pem -pubkey -noout) -signature grade.sign grade.txt**
<br>
> **Verification Failure**
<br>


Jednak mając klucz prywatny, można podrobić podpis: <br>
> **openssl dgst -md5 -sign cakey.pem -out grade.sign grade.txt**
<br>

Po podrobieniu podpisu weryfikacja przechodzi: <br>
> **openssl dgst -md5 -verify <(openssl x509 -in cacertificate.pem -pubkey -noout) -signature grade.sign grade.txt**
<br>
> **Verified OK**
<br>

Zatem cel został osiągnięty.

# Zadanie 2

W zadaniu 2 należało wykorzystać fakt, że do podpisywania plików nadal jest stosowana funkcja haszująca _md5_ (rozmiar generowanego klucza został zwiększony do 2048 bitów co powoduje, że jego faktoryzacja jest niewykonalna w rozsądnym czasie), która jest "zepsuta" w tym sensie, że jest podatna na kolizje (2 różne wejścia tej funkcji dają tą samą wartość funkcji haszującej). Prześledźmy proces podpisu cyfrowego za pomocą metody RSA na wiadomości $m$:
<bar>
> 1. Najpierw obliczana jest wartość funkcji haszującej na wiadomości _msg_ : $h = \mathcal{h}\left(m\right)$.
<bar>
> 2. Następnie wiadomość jest podpisywana za pomocą prywatnego wykładnika $d$ i modułu $N$: $s = h^d mod N$.
<bar>
> 3. Załóżmy, że przychodzi do nas jakaś wiadomość $m'$ i chcemy (za pomocą podpisu) zweryfikować jej prawdziwość (tzn. chcemy sprawdzić, że ma np. taką samą zawartość jak $m$).
<bar>
> 4. Obliczamy wartość funkcji haszującej na wiadomości $m'$: $h' = \mathcal{h}\left(m'\right)$.
<bar>
> 5. Obliczamy: $s^e = h^{de} mod N = h$. Jeśli $h' = h$, to wiadomość przejdzie weryfikacje za pomocą cyfrowego podpisu. 
    

Z powyższego wynika sposób "oszukania" weryfikacji przez cyfrowy podpis - należy np. znaleźć dwie takie wiadomości $m$ oraz $m'$, że wartości funkcji haszującej na nich będą takie same. Dodatkowy fakt, że do podpisów jest stosowana funkcja _md5_ umożliwia przeprowadzenie takiego "oszustwa".

Istnieją dwa sposoby atakowania funkcji haszującej _md5_:
<bar>
> 1. **Chosen prefix collision attack** - mając dwa prefiksy $x_{1}$ oraz $x_{2}$ szukamy takich $y_{1}$ oraz $y_{2}$, że $\mathcal{h}\left(x_{1} \parallel y_{1}\right) = \mathcal{h}\left(x_{2} \parallel y_{2}\right)$.
<bar>
> 2.**Identical prefix collision attack** - mając ten sam prefiks $x$ szukamy takich $y_{1}$ oraz $y_{2}$, że $\mathcal{h}\left(x \parallel y_{1}\right) = \mathcal{h}\left(x \parallel y_{2}\right)$.
<bar>

W zadaniu 2 przeprowadziłem drugi z wymienionych ataków, ponieważ jest on łatwiejszy w tym sensie, że jest mniej wymagający obliczeniowo. Do przeprowadzenia ataków wykorzystałem bibliotekę _hashclash_, która służy właśnie do generowania kolidujących wejść. Dla porównania przeprowadzenie drugiego ataku zajmuje około kilku minut (w zależności od zawartości pliku z prefiksem), a pierwszego ataku z dwoma prefiksami ("yes" i "no") zajęło 24 godziny na maszynie z 24 rdzeniami.
<bar>

W celu przeprowadzenia ataku drugiego użyłem następującej komendy:
<br>
>  ~/hashclash/scripts/poc_no.sh grade1.txt
<br>

Zawartość pliku _grade.txt_:
<br>
> Student number: 123456
<br>
> Problem number: 5/1
<br>
> Grade: 5
<br>
> aaaaaaaaaaa
<br>

Po kilku minutach otrzymałem pliki _collision1.bin_ oraz _collision2.bin_, które różnią się zawartością ale _md5_ przyjmuje na nich taką samą wartość:
<br>
**collision1.bin**
<br>
> Student number:
<br>
> 123456.Problem n
<br>
> umber: 5/1.Grade
<br>
> : 5.aaaaaaaaaaa.
<br>
> ..y._....V.\S..,
<br>
> E......s...Q....
<br>
> .....O......Z...
<br>
> r!.,a...k....3..
<br>
> ........kO(...w.
<br>
> R.&........WNv..
<br>
> G.........F.yq..
<br>
> 0.V...fa..:..1%. 
<br>

<br>

**collision2.bin**
<br>
> Student number:
<br>
> 123456.Problem n
<br>
> umber: 5/1.Grade
<br>
> : 5.aaaaaaaaaaa.
<br>
> ..y._....W.\S..,
<br>
> E......s...Q....
<br>
> .....O......Z...
<br>
> r!.,a...k....3..
<br>
> ........kN(...w.
<br>
> R.&........WNv..
<br>
> G.........F.yq..
<br>
> 0.V...fa..:..1%.
<br>

Wartości funkcji _md5_ na obu plikach:
<br>
> md5sum collision1.bin
<br>
> **fe79c558d533f18a43e39c59976c49d7  collision1.bin**
<br>
<br>
> md5sum collision2.bin
<br>
> **fe79c558d533f18a43e39c59976c49d7  collision2.bin**
<br>

Jeśli uda mi się przekonać kogoś, aby podpisał plik **collision1.bin**, to wtedy plik **collision2.bin** przejdzie weryfikacje, ponieważ funkcja _md5_ przyjmuje na nim taką samą wartość (mimo, że plik **collision2.bin** nie został podpisany).

Zatem mamy 2 pliki z różniącą się zawartością i plik niepodpisany przechodzi weryfikacje za pomocą podpisu cyfrowego. To oznacza, że mając wiadomość $m$ i podpis $s$, byliśmy w stanie zweryfikować wiadomość $m'$ co stoi w sprzeczności z założeniami co do cyfrowego podpisywania - mając $i$ wiadomości i podpisów $(m_{i}, s_{i})$ nie jesteśmy w stanie zweryfikować wiadomości $m'$ takiej, że $m' \notin  \{m_{1}, m_{2}, ..., m_{i}\}$.

W celu przeprowadzenia ataku pierwszego należy użyć komendy:
<br>
> ~/hashclash/scripts/cpc.sh grade1.txt grade2.txt
<br>

Zawartość plików _grade1.txt_ oraz _grade2.txt_:
<br>
> Student number: 123456
<br>
> Problem number: 5/1
<br>
> Grade: 0
<br>
<br>
> Student number: 250070
<br>
> Problem number: 7/2
<br>
> Grade: 5
<br>


Wówczas (po pewnym czasie) zostaną wygenerowane sufiksy $x_{1}$ oraz $x_{2}$ takie, że dokonkatenowanie ich do plików _grade1.txt_ oraz _grade2.txt_ spowoduje, że wartość funkcji _md5_ będzie taka sama na obu plikach. To spowoduje, że jeśli ktoś podpisze plik _grade1.txt_, to plik _grade2.txt_ również przejdzie weryfikacje za pomocą podpisu cyfrowego.