# Recherche de collisions entre MD5 et SHA256

In [1]:
import hashlib
import math
import random
import numpy as np
import time

In [2]:
def trail(fhash,  k , l):
    """
    retourne un triplet (x0, xd, d) 
    fhash: une fonction d'hachage quelconque (md5, sha256)
    k: longueur de la chaine générer en bits
    l: condition d'arret pour le point distingué : les l derniers bits doit etre nuls
    """
    x0 = random.getrandbits(k)
    tmp = x0
    d = 0                            # longueur du trail
    max_it = 20/ (1/(2**l))          # nb maximum d'itération d'apres l'article
    mask_k = 2**k - 1
    mask_l = 2**l - 1
    
    while True:
        if d == max_it:
            # print("Risque de cycle")
            return None
        if tmp & mask_l == 0:        # condition d'arret
            xd = tmp
            break
        d += 1
        x = tmp.to_bytes(16, byteorder='big')  
        y = fhash(x).digest()
        tmp = int.from_bytes(y, byteorder='big') & mask_k
    return (x0, xd, d)

In [3]:
def f_cut_k(fhash, val, k):
    """
    Retourne la valeur retournée par fhash(val) tronquée à k bits
    fhash
    val : int
    k : longueur de la chaine en bits
    """
    x = val.to_bytes(16, byteorder='big')  
    y = fhash(x).digest()
    mask_k = 2**k - 1
    return int.from_bytes(y, byteorder='big') & mask_k

In [4]:
def remonter (fhash ,A , B, k, b):
    """
    returne ( (x,fhash), (y,fhash)) tq x != y et fhash(x) == fhash(y)
    A, B : triplet (x0, xd, d)
    b : 0 ou 1
    0 represente md5
    1 represente sha256    
    """       
    if A[2] >= B[2]: 
        x = A[0]
        for _ in range(A[2]-B[2]):
            x = f_cut_k(fhash(b), x, k)
        y = B[0]
        if x == y : 
            #print('pb : x==y et fhash(x)==fhash(y)')
            return None
        while True:
            if x == y :
                break
            tmp1 = x            
            tmp2 = y             # anciennes valeurs
            x = f_cut_k(fhash(b), tmp1, k)  
            y = f_cut_k(fhash(1-b), tmp2, k)  
        return ( (tmp1, fhash(b).__name__ ) , (tmp2, fhash(1-b).__name__ ))
        
    else:    # A[2] < B[2] mais on fait la meme chose
        y = B[0]
        for _ in range(B[2]-A[2]):
            y = f_cut_k(fhash(1-b), y, k)
        x = A[0]
        if x == y : 
            #print('pb : x==y et fhash(x)==fhash(y)')
            return None
        while True:
            if x == y :
                break
            tmp1 = x            
            tmp2 = y             # anciennes valeurs
            x = f_cut_k(fhash(b), tmp1, k) 
            y = f_cut_k(fhash(1-b), tmp2, k)
        return ( (tmp1, fhash(b).__name__ ) , (tmp2, fhash(1-b).__name__ ))

In [5]:
def F(b):
    """
    Choisir uniformement une fonction de hash
    b : 0 ou 1
    0 represente md5
    1 represente sha256
    """
    if b == 0:
        return hashlib.md5
    if b == 1:
        return hashlib.sha256

In [20]:
def collision_detection(fhash,  k, l):
    """
    Detecter une seule collision
    fhash : prend un int en parametre et returne un pointer de fonction
            de hash
    Retourne le couple de couplet ((a , fhash1),(b , fhash2)) où fhash1(a)=fhash2(b) où chaque valeur
    est tronquée à k bits
    """
    dico = {}
    while True: 
        b = random.randint(0,1) 
        res = trail(fhash(b), k, l)
        if res == None:
            continue
            
        x0, xd, d = res
        
        if (xd,1-b) in dico:  
            #print("Collision found")
            A = (x0,xd,d)                                  # b
            B = (dico[(xd,1-b)][0], xd,dico[(xd,1-b)][1])  # 1-b
            return remonter(fhash, A , B, k, b )
        dico[(xd,b)] = (x0, d)


In [21]:
def collision_detection_multiple(fhash, k, l, nb_col):
    """
    Detecter nb_col collisions
    Retourner la lister de collisions
    """ 
    liste = []
    i = 0
    while i<nb_col :
        tmp = collision_detection(fhash,  k, l)
        if tmp == None:
            continue
        if tmp in liste or (tmp[1],tmp[0]) in liste: # si collision deja trouvé 
            continue 
        liste.append(tmp)
        i += 1
    return liste

# Test

In [24]:
k = 20
l = 5
print(collision_detection(F, k, l))

((533242, 'openssl_md5'), (154498, 'openssl_sha256'))


In [26]:
print(f_cut_k(hashlib.md5, 533242, 20))
print(f_cut_k(hashlib.sha256, 154498, 20))

615040
615040


In [22]:
# collision_detection_multiple(F, 20, 10, (2**10)/2 )