## Funzioni hash:

Una funzione hash $H$ è un algoritmo <b>deterministico</b> (si chiama proprio <i>funzione</i>) che mappa un messaggio di <b>lunghezza arbitraria</b> * in un messaggio di <b>lunghezza fissa</b> $l$ (questo messaggio si chiama <b>message digest</b>, sintesi del messaggio):

$\quad H \in \{0,1\}^* \rightarrow \{0,1\}^l$

In algoritmi e strutture dati, le funzioni hash sono utilizzate per implementare le <b>tabelle hash</b>, strutture dati efficienti con operazione di ricerca efficiente in tempo costante $O(1)$: l'indice del dato è l'indice della tabella hash.

La funzione $H$ deve ridurre le <i>collisioni</i>: coppie di messaggi <b>diversi</b> che producono però lo <b>stesso hash</b>

$(x,\ x') \quad x \neq x' \quad H(x) = H(x')$ 

In <i>crittografia</i> vogliamo che trovare le collisioni sia un'operazione <b>inefficiente</b>.

## Funzioni hash crittografiche (definizione incompleta):

Una funzione hash crittografica $H$ con <b>digest lenght</b> $l(n)$ dove $n$ è il <b>parametro di sicurezza</b> è un algoritmo <b>deterministico</b>:

$\quad H \in \{0,1\}^* \rightarrow \{0,1\}^{l(n)}$

Intuitivamente, aumentando il parametro $n$, aumentiamo anche la dimensione del message digest, riducendo la probabilità di trovare una collisione (aumentando così la sicurezza).

## Funzione di compressione:

In generale, non siamo interessati esclusivamente a tutte le funzioni che prendono in input un messaggio di lunghezza arbitraria.\
Certe volte ci interessano le funzioni hash dove la dimensione dell'input è <b>fissata</b>.

Funzione di compressione per messaggi di lunghezza fissata: $\ \forall n \ \ \exists l' : \ \ H \in \{0,1\}^{l'(n)} \rightarrow \{0,1\}^{l(n)} \quad l'(n) > l(n)$

$l'(n) > l(n) \rightarrow H \ non \ è \ iniettiva$

Se $l'(n) \leq l(n) \ $ sarebbe banale evitare le collisioni, come per esempio nella funzione identità $H(x) = x$ che ovviamente non ci interessa.\
In generale, <b>non</b> ci interessano le funzioni hash <i>iniettive</i>, le collisioni ci saranno ma è importante che calcolare queste collisioni, per l'attaccante, sia un'<b>operazione inefficiente</b>.

## Funzione hash collision resistant (definizione errata):

Definiamo <b>erroneamente</b> l'esperimento di <b>collision resistance</b> come: 

$Hash$-$coll_{M,H}(n):$

$M: \ (x,x') \quad$ <i>$M$ deve trovare una collisione</i>

L'esperimento ha successo se $M$ ha trovato una collisione: $\ Hash$-$coll_{M,H}(n) = 1 \ \ se \ \ x \neq x' ,\ \ H(x) = H(x')$

Definiamo (<b>erroneamente</b>) $H$ <b>collision resistant</b> se $\ \forall M \in PPTIME: \ \ Pr(Hash$-$coll_{M,H}(n) = 1) \leq negl(n)$

Questa definizione <b>ha un problema</b>: \
Abbiamo detto che se $l'(n) > l(n)$, la funzione $H$ <b>non</b> può essere iniettiva, quindi ci saranno per forza delle collisioni...

Se $M$ è un avversario che non calcola niente, ma <b>si limita a</b> restituire una <b>collisione$\ (x, x') \ $ hardcoded</b>, allora

$\exists M \in O(1): \ Hash$-$coll_{M,H}(n) = 1 \rightarrow$ $H \ $ <b>non</b> è collision resistant

## Funzioni hash crittografiche (definizione completa):

$M$ si limitava a restituire una <b>collisione hardcoded</b>, per evitare questo problema, aggiungiamo una <b>chiave</b> (o seed) $s$ come <b>parametro</b> della funzione hash; questa chiave però non è segreta, ma visibile, infatti serve solo per migliorare la definizione di collisione resistance escludendo l'avversario con la collisione hardcoded:

$s \leftarrow Gen(1^n)$\
$H^s(x) \quad$ <i>adesso $H$ prende come parametro anche $s$</i>

Una funzione hash crittografica $\boldsymbol{H}$ con digest lenght $l(n)$, allora, è una <b>coppia di algoritmi</b>:

$\boldsymbol{H} = (H, \ Gen)$

$Gen \in 1^n \rightarrow \{0,1\}^n$\
$H \in (\{0,1\}^* \rightarrow \{0,1\}^n) \rightarrow \{0,1\}^{l(n)}$

## Funzione hash collision resistant (definizione corretta):

$Hash$-$coll_{M,\boldsymbol{H}}(n):$

$1. \ A: \quad s \leftarrow Gen(1^n)$\
$2. \ M: (x,x')$

L'esperimento ha successo se $M$ ha trovato una collisione: $\ Hash$-$coll_{M,\boldsymbol{H}}(n) = 1 \ \ se \ \ x \neq x' ,\ \ \boldsymbol{H}^s(x) = \boldsymbol{H}^s(x')$\
(una collisione questa volta in $\boldsymbol{H}^s$ e non più in $H$ senza la chiave/seed random)

$\boldsymbol{H}$ <b>collision resistant</b> se $\ \forall M \in PPTIME: \ \ Pr(Hash$-$coll_{M,\boldsymbol{H}}(n) = 1) \leq negl(n)$

### Esercizio:

$Gen(1^n) = \{s \leftarrow \{0,1\}^n\}$\
$H^s(x) = x[1..n] ⊕ s$

$|x| = n+1 \quad l'(n) = n+1 > n = l(n)$

$H$ è collision resistant? 

L'ultimo bit di $x$ non viene mai usato:

$M: \quad x=0^{n+1} \quad x'=0^n1$

$H^s(x) = 0^n ⊕ s = s$\
$H^s(x') = 0^n ⊕ s = s$

$H^s(0^{n+1}) = H^s(0^n1) \ \rightarrow H^s(x) = H^s(x')$

$M \in PPTIME \ \ Pr(Hash$-$coll_{M,\boldsymbol{H}}(n) = 1)=1$

### Unkeyed hash functions: 

Nella pratica, le funzioni hash sono <b>unkeyed</b>, non c'è $Gen$

$\quad H \in \{0,1\}^* \rightarrow \{0,1\}^{l(n)}$

Quindi le funzioni hash unkeyed non possono essere <b>collision resistant</b> secondo la definizione formale.

Indoboliamo allora la nozione sicurezza: definiamole <b>sicure se</b> è infattibile trovare una collisione utilizzando meno di $2^{l/2}$ invocazioni della funzione $H$ (<b>birthday attack</b>)

#### Esempi noti di unkeyed hash functions:

Empiricamente, $\ l \geq 160$

##### MD5 (1991), $\ \ l=128$

Non più sicuro: si è in grado di produrre <b>collisioni controllate</b>. Attacchi noti del 2004 e 2005.

##### SHA-1 (1995), $\ \ l=160$

SHA: Secure Hash Algorithm (famiglia di cinque algoritmi prodotti dalla NSA americana).\
Ipotizzato attacco teorico nel 2005 con meno tentativi del birthday attack.\
Realizzato con successo un attacco da parte di Google nel 2017 rendendo così l'algoritmo insicuro. 

##### SHA-2 (2001), $\ \ l \in \{256, 512\}$

Variante considerata sicura del SHA-1

##### SHA-3 (2012), $\ \ l \in \{224, 256, 384, 512\}$

Appartenente a una nuova famiglia di funzioni hash diverse da SHA-2 e SHA-1

## Preimage resistance: 

L'attaccante conosce l'hash di un $x$ random e per vincere, deve trovare un $x'$ (preimage) con lo stesso hash di $x$

$Hash$-$preimg_{M,\boldsymbol{H}}(n):$

$1. \ A \rightarrow M: \quad (s, \ H^s(x)) \quad s \leftarrow Gen(1^n), \quad x \leftarrow \{0,1\}^{l'(n)}$\
$2. \ M \rightarrow A: \quad x'$

$Hash$-$preimg_{M,\boldsymbol{H}}(n) = 1 \ \ se \ H^s(x') = H^s(x)$.

$H$ è <b>preimage resistant</b> se:

$\forall M \in PPTIME: \ \ Pr(Hash$-$preimg_{M,\boldsymbol{H}}(n) = 1) \leq negl(n) $

### Esercizio: 

$Gen(1^n) = \{s \leftarrow \{0,1\}^n \}$\
$H^s \in \{0,1\}^{m \cdot n} \rightarrow \{0,1\}^n \quad m>1 \quad \rightarrow$ $H^s$ è una funzione di compressione 

$H^s(x_1 .. x_m) = s ⊕ shL_1(x_1) \ ⊕ \ ... \ ⊕ \ shL_m(x_m) \quad |x_i| \in \{0,1\}^n$

$H$ è preimage resistant? 

$Hash$-$preimg_{M,\boldsymbol{H}}(n):$

$1. \ A \rightarrow M: \quad (s, \ y) \quad s \leftarrow Gen(1^n), \quad y = H^s(x) \quad x \leftarrow \{0,1\}^{m \cdot n}$\
$2. \ M \rightarrow A: \quad x'=x_1 \ x_2$

Strategia: riprodurre hash $y$:

$H^s(x_1 \ x_2) = y = s ⊕ shL_1(x_1) ⊕ shL_2(x_2)$

Per avere $H^s(x_1 \ x_2) = y$, $\ \  shL_1(x_1) ⊕ shL_2(x_2) = s ⊕ y \ $ così ottengo:

$H^s(x_1 \ x_2) = \cancel{s} ⊕ (\cancel{s} ⊕ y) = y$

$x_1 = shR_1(s)$\
$x_2 = shR_2(y)$

$H^s(x_1 \ x_2) = H^s(shR_1(s) \ shR_2(y)) = s ⊕ shL_1(shR_1(s)) ⊕ shL_2(shR_2(y)) = s ⊕ \cancel{shL_1}(\cancel{shR_1}(s)) ⊕ \cancel{shL_2}(\cancel{shR_2}(y)) = \cancel{s} ⊕ \cancel{s} ⊕ y = y$

## Second-preimage resistance: 

L'attaccante riceve un <b>messaggio</b> $x$ e, per vincere deve trovare un $x' \in \{0,1\}^* \neq x$ che abbia lo stesso hash di $x$.\
Ovviamente, $M$ può calcolare l'hash di $x$

$Hash$-$2preimg_{M,\boldsymbol{H}}(n):$

$1. \ A \rightarrow M: \quad (s, \ x) \quad s \leftarrow Gen(1^n), \quad x \leftarrow \{0,1\}^{l'(n)}$\
$2. \ M \rightarrow A: \quad x'$

$Hash$-$2preimg_{M,\boldsymbol{H}}(n) = 1 \ \ se \ x \neq x' \ and \ H^s(x) = H^s(x')$.

$H$ è <b>second-preimage resistant</b> se:

$\forall M \in PPTIME: \ \ Pr(Hash$-$2preimg_{M,\boldsymbol{H}}(n) = 1) \leq negl(n) $

## Collision resistance $\implies$ second-preimage resistance $\implies$ preimage resistance

Nella collision resistance, $M$ può trovare coppie $(x, x')$ arbitrarie; nella second-preimage resistance è limitato a trovare un $x'$ che abbia lo stesso hash del messaggio ricevuto $x$; mentre nella preimage resistance deve trovare l'$x'$ che abbia lo stesso hash $y$ che ha ricevuto da $A$.

## Birthday attack: 

In crittografia, gli attacchi a forza brutta sono sempre possibili (tranne che nella perfect secrecy).

Il <b>birthday attack</b> è un attacco alle funzioni hash che ha come obiettivo quello di trovare una collisione a forza brutta:\
Prende in input la funzione $H$ e un numero $q$ che rappresenta i <b>tentativi</b> che l'attaccante è disposto a effettuare per cercare la collisione.

$findCollision(H,q):$\
$\quad for \ each \ i \ in \ 1..q:$\
$\quad \quad x_i \leftarrow \{0,1\}^*$\
$\quad \quad y_i = H(x_i)$\
$\quad if \ y_i = y_j \ for \ some \ i \neq j \ return \ (x_i,x_j)$\
$\quad return \ failure$

### Paradosso del compleanno:

In una classe di 23 studenti, la probabilità di trovare due studenti nati nello stesso giorno è $1/2$.

### Probabilità di successo di un birthday attack:

Per avere una probabilità di successo $ε=1/2 \ $ sono necessari <b>circa</b> $\ q = 1.17 \cdot 2^{l/2}\ $ tentativi (ignoriamo la costante 1.17 e ci concentriamo su $2^{l/2}$).\
Consideriamo sicuri gli $\ l \geq 160$.

## Collisioni significative (controllate):

Nell'esperimento di <b>collision resistance</b>, $M \ $ deve trovare una <b>qualunque coppia</b> $/ (x, x') \ $, nella pratica è più interessante però produrre una <b>collisione significativa</b> ovvero che $x$ e $x'$ abbiano una <b>correlazione</b>.

### Applicazioni delle funzioni hash:

#### Fingerprinting:

L'obiettivo è scoprire se ci sono state manomissioni su $x$ (che può essere un documento, un hard-disk, etc.). In genere, $\ |x| = l'(n) > l(n) \rightarrow H(x) \ message \ digest$\
$M$ vuole modificare $x$ in $x'$ in modo che $x'$ abbia lo stesso hash di $x$: questo è un esempio di <b>second-preimage attack</b>.\
Quindi $H$ deve essere <i>almeno</i> second-preimage resistant.

Non possiamo escludere <i>con certezza assoluta</i> che il messaggio non sia stato alterato anche se l'hash è rimasto lo stesso, perchè magari $M$ ha trovato una collisione, ma sappiamo che questo è (o dovrebbe essere) al limite dell'impossibile.

#### Virus fingerprinting:

Invece di confrontare interamente il contenuto di un file scaricato con il codice sorgente dei virus presenti nel repository dell'antivirus, questo può invece, confrontare l'hash del file con l'hash del sorgente dei virus.

#### Password hashing:

Un database, invece di memorizzare le password in chiaro, può memorizzare l'hash delle password.\
$M$ che vuole fare l'accesso al database, vede un hash e deve trovare un $\ x'$ che abbia lo stesso hash di un $x$ che non conosce: questo è un <b>preimage attack</b>.

Anche se $H$ è collision resistant, non possiamo garantire la sicurezza perchè:
1) La definizione di preimage resistance assumeva che il messaggio $x$ di cui si inviava poi ad $M \ $ l'hash fosse scelto <b>in modo random</b>; le password degli utenti hanno invece delle distribuzioni di probabilità.
2) Conosciamo attacchi (birthday attack) che hanno successo in $\ O(2^{n/2}) \ dove \ n=|password|$, quindi se $\ |password| = 64 \ bit$, un attaccante riuscirebbe a portare avanti un attacco a forza brutta in $O(2^{32})$.
3) Problema delle <b>rainbow tables</b>:\
    Strutture dati efficienti (con compromessi di tempo e spazio: utilizzano catene di hash e funzioni di riduzione per diminuire la memory footprint) costruibili in solo $\ O(n^{2/3})\ $ (efficiente) dove $\ N \ $ è la dimensione del <i>password space</i>.\
   Es: password di 8 caratteri con 62 possibili caratteri alfanumerici: $N = 62^8 = (2^6)^8 = 2^{48} \rightarrow N^{2/3} \approxeq 2^{2(48/3)} \approxeq  2^{32}$

   ##### Soluzione #1: rendere il calcolo delle funzioni hash globalmente più lento

   Non conviene perchè si limiterebbero anche gli utenti normali.

   ##### Soluzione #2: aggiungere del sale random:

   Tecnica effettivamente utilizzata: nel database non si memorizza più l'hash della password, ma l'hash della password concatenata a del sale $s$ random: $s \leftarrow \{0,1\}^n$\
   $H(s \ || \ password)$

   Rende inutile per l'attaccante precalcolare le rainbow tables.