# Hashing

Es la piedra angular de la seguridad criptográfica. Abarca el concepto de **función de una sola via** o **huella digital**

* Producen un valor repetíble y único
* La salida no proporciona pistas sobre la entrada que la produce

Haremos uso del algoritmo MD5 (obsoleto) en esta primera parte. Produce hash cortos y tiene una historia interesante

El uso de funciones hash puede detectar la alteración de una mensaje o archivo garantizando la **integridad**

In [None]:
import hashlib
md5hasher = hashlib.md5()
md5hasher.hexdigest()

'd41d8cd98f00b204e9800998ecf8427e'

MD5 convierte una entrada de cualquier longitud en un número grande con un tamaño fijo de forma que:
* El mismo documento siempre produce el mismo digest
* El digest parece aleatorio

El digest de MD5 crea un número que abarca 16 bits.

In [None]:
md5hasher = hashlib.md5(b'alice')
md5hasher.hexdigest()

'6384e2b2184bcbf58eccf10ca7a6563c'

In [None]:
md5hasher = hashlib.md5(b'bob')
md5hasher.hexdigest()

'9f9d51bc70ef21ca5c14f307980a29d8'

## Ejercicio
Calcule más digests MD5 para:
- b'alice'
- b'bob'
- b'balice'
- b'cob'
- b'a'
- b'aa'
- b'aaaaaaaaaaaaa'

In [None]:
#Haga sus cálculos aqui
md5hasher = hashlib.md5(b'alice')
print(md5hasher.hexdigest())
md5hasher = hashlib.md5(b'alice')
print(md5hasher.hexdigest())
md5hasher = hashlib.md5(b'alize')
print(md5hasher.hexdigest())
md5hasher = hashlib.md5(b'a')
print(md5hasher.hexdigest())
md5hasher = hashlib.md5(b'aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa')
print(md5hasher.hexdigest())
md5hasher = hashlib.md5(b'a'*1000000)
print(md5hasher.hexdigest())

6384e2b2184bcbf58eccf10ca7a6563c
6384e2b2184bcbf58eccf10ca7a6563c
06d89259f8e67b402677a1e494edf5f9
0cc175b9c0f1b6a831c399e269772661
b19a52a9c4c3b67209f5eb2782e552a0
7707d6ae4e027c70eea2a935c2296f21


Las entradas del digest no requieren la entrada entera. Podemos insertarlos un trozo (chunk) a la vez

In [None]:
md5hasher = hashlib.md5()
md5hasher.update(b'a')
md5hasher.update(b'l')
md5hasher.update(b'i')
md5hasher.update(b'c')
md5hasher.update(b'e')

md5hasher.hexdigest()

'6384e2b2184bcbf58eccf10ca7a6563c'

## Ejercicio
Hagamos una búsqueda rápida usando los siguientes hashes (escríbelos literalemnte en Google)

5f4dcc3b5aa765d61d8327deb882cf99

d41d8cd98f00b204e9800998ecf8427e

6384e2b2184bcbf58eccf10ca7a6563c

Escribe tus conclusiones:

Las funciones hash necesitan cumplir 3 requisitos
* Resistencia a preimagen
* Resistencia a segunda preimagen
* Resistencia a colisiones

## Resistencia a preimagen
Una preimagen es el conjunto de entradas de una función hash que producen una salida específica.

La preimagen de

MD5(x) = 6384e2b2184bcbf58eccf10ca7a6563c

contiene el elemento x == b'alice'.

*Una preimagen de una función H y un valor k es el conjunto de valores de x para los cuales H(x)=k*

la **resistencia a preimagen** es que no se puede encontrar un elemento en la preimagen para esto sin hacer una cantidad ridículamente grande de trabajo.



## Resistencia a segunda preimagen 

Si ya se tieene un documento  que produce un digest en particular, aún resulta duro encontrar uno diferente que produzca el mismo digest.

## Resistencia a colisiones

Es duro encontrar dos entradas que produzcan el mismo resultado de salida.

A la propiedad que hace que una pequeña variación en la entrada produzca una salida muy diferente se le conoce como **Avalancha**

In [None]:
import hashlib

hexstring = hashlib.md5(b'bob').hexdigest()
hexstring

'9f9d51bc70ef21ca5c14f307980a29d8'

In [None]:
binstring = bin(int(hexstring, 16))
print("{}\n{}".format(binstring[2:66], binstring[66:]))

1001111110011101010100011011110001110000111011110010000111001010
0101110000010100111100110000011110011000000010100010100111011000


## Ejercicio
Compare los valores de bits de varias entradas y verifique la avalancha