# Tarea Funciones Hash Daniel Santiago Silva Capera

## ¿Cúantos intentos se requieren para encontrar una colisión a MD5 con una probabilidad mayor al 50%?

Para solucionar el problema, primero describimos de manera breve MD5 ("Message-Digest Algorithm 5"), que dado un mensaje, lo asocia a un digest de 32 dígitos hexadecimales. Ahora hacemos el análisis sobre el espacio de la salida. Nos ayudamos usando la paradoja del cumpleaños de esta manera:
1. La salida es de 32 dígitos exadecimales. Así que, hablando en terminos de bits, son 128 bits de salida. Por ende, serán $2^{128}$ posibles valores.
1. Para una cádena cualquiera, el espacio en la tabla, va a ser de $2^{128}$. Es decir, la probabilidad de que encuentre su lugar en la tabla vacío, será de $2^{128}$/$2^{128}$.
1. Para la siguiente cádena, la probabilidad de que encuentre su lugar vacío, será de ($2^{128} - 1$)/$2^{128}$. Y así de manera sucesiva. Hacemos esto un número n de veces. Y por cada ocasión, restamos el complemento probabilistico, hasta que ese resultado sea mayor o igual a 0.5 (50%). Y esos serán los intentos requeridos para encontrar una colisión con una probabilidad mayor al 50%.

In [None]:
print(2**128)

In [6]:
chairs = 2**128
prod = 1
complement = 0
for i in range(chairs,0, -1):
    prod *= (i/chairs)
    complement = 1 - prod
    if complement >= 0.5:
        print((chairs - i) + 1, complement)
        break


KeyboardInterrupt: 

Rewritting the expression:


$1 - \frac{2^{128}!}{2^{128} * (2^{128*n} - n )!} \geq$ 0.5

$\sum_{k=1}^{n}(log_{2^{128}}(2^{128}-k)) - n \leq log_{2^{128}}(0.5) - 1$

In [None]:
import math
x = 2**128
leq = log(x, 0.5) - 1
n = 1
expression = log(x, x - 1) - 1
while expression > leq and n < x:
    expression -= n
    n += 1
    expression += log(x, x - n)
    expression += n
print(n)

Como se observa que computar ese número es demasiado costoso, lo que hacemos es hacer una estimación de la cantidad de intentos requeridos, usando la función $\sqrt{x}$, ya que cortan de manera muy similar. Así que decimos que nuestro x es $2^{128}$.


$\sqrt{2^{128}} = 2^{\frac{128}{2}} = 2^{64}$

## Describa un algoritmo para buscar soluciones

In [6]:
import hashlib

def variable_length_brute_force(alphabet):
    src = alphabet
    n = len(src)
    m = 1
    find_collision = False
    while not find_collision and m <= 1:
        m += 1
        # print(m)
        l = [0]*m
        i = 0
        possible_strings = {}
        while i < m:
            key = [src[x] for x in l]
            key = "".join(key)
            key_ = key[::]
            # print(key)
            str2hash = hashlib.md5(key_.encode()).hexdigest()
            if (str2hash in possible_strings):
                print("FOUND", possible_strings[str2hash], key, str2hash)
                find_collision = True
                break
            else:
                # print(key, str2hash)
                possible_strings[str2hash] = key
            i = 0
            l[i] += 1
            while (i < m) and l[i] >= n:
                l[i] = 0
                i += 1
                if i < m:
                    l[i] += 1
    # return possible_strings

    

In [8]:
alphabet = ''.join(chr(i) for i in range(128))
variable_length_brute_force(alphabet)

## Basado en la paradoja del cumpleaños, ¿Cúantos bits debería tener una función hash para que sea computacionalmente inviable encontrar una colisión en computadores clásicos? Explique por qué llegó a ese valor.