# Sommes de contrôle

---

Les sommes de contrôle sont la signature ou l'empreinte numérique (*hash*) d'un fichier.

Elles sont particulièrement utiles pour vérifier l'intégrité d'un fichier.

![](checksum.png)

En passant un fichier dans un algorithme particulier, on obtient une somme de contrôle, souvent représentée comme une suite de chiffres et de lettres.

# MD5

L'agorithme *Message Digest 5* (MD5) est un des algorithmes les plus utilisés et un des plus anciens. Il date de 1991.

Cet algorithme est (était) utilisé en cryptographie. 

L'empreinte est obtenue est représentée sur 32 caractatères. Par exemple : 
```
0648b3abc5c0e0e7cbf78c466670affa
```

La probabilité que 2 fichiers différents possèdent la même empreinte est de l'ordre de $2^{-128}$.

## Démo

Nettoyage des éventuels fichiers résiduels :

In [None]:
rm -f test1.txt test2.txt test3.txt gyra_coll.jpg souvlaki_coll.jpg

Téléchargement des fichiers nécessaires :

In [None]:
wget https://github.com/pierrepo/unix/raw/master/gyra_coll.jpg
wget https://github.com/pierrepo/unix/raw/master/souvlaki_coll.jpg

Prenons 2 fichiers, `test1.txt` et `test2.txt` qui contiennent chacun une chaîne de caractères très simple :

- « Salut à tous » pour `test1.txt` ;
- « Salut a tous » pour `test2.txt` (le « a » n'a pas d'accent).

In [None]:
echo "Salut à tous" > test1.txt
cat test1.txt

In [None]:
echo "Salut a tous" > test2.txt
cat test2.txt

Calculons maintenant la somme de contrôle pour ces deux fichiers :

In [None]:
md5sum test1.txt

In [None]:
md5sum test2.txt

Bien qu'un seul caractère diffère entre les deux fichiers `test1.txt` et `test2.txt` (« à » et « a »), les empreintes sont totalement différentes. Il n'y a enfin aucune relation entre le contenu d'un fichier et son empreinte.

Par ailleurs, il n'est pas possible de déduire le contenu d'un fichier à partir de sa somme de contrôle.

Copions maintenant le fichier `test1.txt` :

In [None]:
cp test1.txt test3.txt

et calculons son empreinte :

In [None]:
md5sum test3.txt

L'empreinte de `test3.txt` est identique à celle de `test1.txt`. Cela est parfaitement logique car nous avons réalisé une copie des deux fichiers. Leurs contenus sont donc strictement identiques.

<div class="alert alert-block alert-info">
Attention, si vous reproduisez cet exemple, il se peut que vous n'obteniez pas les mêmes sommes de contrôle suivant que vous ayez ajouté un retour en ligne et votre système d'exploitation.
</div>

## D'autres exemples

Voici deux images :

![](gyra_coll.jpg)
![](souvlaki_coll.jpg)

Images tirées du blog de [emaragkos](https://emaragkos.gr/infosec-adventures/create-your-own-md5-collisions/).

Calculons leurs sommes de contrôle.

L'image du chat Gyra :

In [None]:
md5sum gyra_coll.jpg

L'image des souvlakis :

In [None]:
md5sum souvlaki_coll.jpg

Intéressant n'est-ce pas !

L'algorithme MD5 n'est plus considéré comme sécurisé.

D'autres exemples de collisions avec l'algorithme MD5 :

- [Create your own MD5 collisions](https://natmchugh.blogspot.com/2015/02/create-your-own-md5-collisions.html), Nat McHugh.
- [MD5Collisions](http://web.archive.org/web/20071226014140/http://www.cits.rub.de/MD5Collisions/)