# Sommes de contrôle

Les sommes de contrôle sont la signature ou l'empreinte numérique (*hash*) d'un fichier.

Elles sont particulièrement utiles pour vérifier l'intégrité d'un fichier.

![](https://raw.githubusercontent.com/pierrepo/unix/master/checksum.png)

En passant un fichier dans un algorithme particulier, on obtient une somme de contrôle, souvent représentée comme une suite de chiffres et de lettres.

# MD5

L'agorithme *Message Digest 5* (MD5) est un des algorithmes les plus utilisés et un des plus anciens. Il date de 1991.

Cet algorithme est (était) utilisé en cryptographie. 

L'empreinte est obtenue est représentée sur 32 caractatères. Par exemple : 
```
0648b3abc5c0e0e7cbf78c466670affa
```

La probabilité que 2 fichiers différents possèdent la même empreinte est de l'ordre de $2^{-128}$, c'est-à-dire très très très faible.

## Démo

Nettoyage des éventuels fichiers résiduels et téléchargement des fichiers nécessaires :

In [13]:
rm -f test1.txt test2.txt test3.txt gyra_coll.jpg souvlaki_coll.jpg
wget https://raw.githubusercontent.com/pierrepo/unix/master/gyra_coll.jpg
wget https://raw.githubusercontent.com/pierrepo/unix/master/souvlaki_coll.jpg

--2024-09-27 15:48:18--  https://raw.githubusercontent.com/pierrepo/unix/master/gyra_coll.jpg
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.111.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 141440 (138K) [image/jpeg]
Saving to: ‘gyra_coll.jpg’


2024-09-27 15:48:19 (8.05 MB/s) - ‘gyra_coll.jpg’ saved [141440/141440]

--2024-09-27 15:48:19--  https://raw.githubusercontent.com/pierrepo/unix/master/souvlaki_coll.jpg
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.108.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 141440 (138K) [image/jpeg]
Saving to: ‘souvlaki_coll.jpg’


2024-09-27 15:48:19 (7.50 MB/s) - ‘souvlaki_coll.jpg’ saved

Créons avec la ligne de commande 2 fichiers, `test1.txt` et `test2.txt` qui contiennent chacun une chaîne de caractères très simple :

- « Salut à tous » pour `test1.txt` ;
- « Salut a tous » pour `test2.txt` (le « a » n'a pas d'accent).

In [14]:
echo "Salut à tous" > test1.txt
cat test1.txt

Salut à tous


In [15]:
echo "Salut a tous" > test2.txt
cat test2.txt

Salut a tous


Calculons maintenant la somme de contrôle pour ces deux fichiers :

In [16]:
md5sum test1.txt

6af5051ffed583d505561d1e137adb7d  test1.txt


In [17]:
md5sum test2.txt

d1c19d89a16951b56824dc53819ef771  test2.txt


Bien qu'un seul caractère diffère entre les deux fichiers `test1.txt` et `test2.txt` (« à » et « a »), les empreintes sont totalement différentes. Il n'y a **aucune relation** entre le contenu d'un fichier et son empreinte.

Par ailleurs, il n'est pas possible de déduire le contenu d'un fichier à partir de sa somme de contrôle.

Copions maintenant le fichier `test1.txt` :

In [18]:
cp test1.txt test3.txt

et calculons son empreinte :

In [19]:
md5sum test3.txt

6af5051ffed583d505561d1e137adb7d  test3.txt


L'empreinte de `test3.txt` est identique à celle de `test1.txt`. Cela est parfaitement logique car nous avons réalisé une copie des deux fichiers. Leurs contenus sont donc strictement identiques et par conséquence, leurs empreintes également.

<div class="alert alert-block alert-info">
Attention, si vous reproduisez cet exemple, il se peut que vous n'obteniez pas les mêmes sommes de contrôle selon que vous ayez ajouté ou pas un retour en ligne et selon votre système d'exploitation.
</div>

## D'autres exemples

Voici deux images tirées du blog de [emaragkos](https://emaragkos.gr/infosec-adventures/create-your-own-md5-collisions/).

Une image de chat Gyra :

![](https://raw.githubusercontent.com/pierrepo/unix/master/gyra_coll.jpg)

Une image de souvlakis :

![](https://raw.githubusercontent.com/pierrepo/unix/master/souvlaki_coll.jpg)

Calculons leurs sommes de contrôle.

Pour l'image du chat Gyra :

In [20]:
md5sum gyra_coll.jpg

59bbfd270bdf5817c5d77e739839a02a  gyra_coll.jpg


Pour l'image des souvlakis :

In [21]:
md5sum souvlaki_coll.jpg

59bbfd270bdf5817c5d77e739839a02a  souvlaki_coll.jpg


Intéressant n'est-ce pas !

Ces deux images, pourtant visuellement différentes, présentent la même somme de contrôle avec l'algorithme MD5. Ceci est volontaire !

L'algorithme MD5 n'est plus considéré comme sécurisé. Il n'est plus utilisé dans les secteurs sensibles comme la banque ou la sécurité informatique. On peut par contre l'utiliser en bioinformatique pour vérifier l'intégrité d'un fichier.

D'autres exemples de collisions avec l'algorithme MD5 :

- [Create your own MD5 collisions](https://natmchugh.blogspot.com/2015/02/create-your-own-md5-collisions.html), Nat McHugh.
- [MD5Collisions](http://web.archive.org/web/20071226014140/http://www.cits.rub.de/MD5Collisions/)

# Algorithme SHA

Il existe un autre algorithme, plus performant que MD5 : le *Secure Hash Algorithme* (SHA).

On peut utiliser l'algorithme SHA avec différents niveaux de complexité.

Comparez par exemple les sommes de contrôle obtenues avec MD5 et plusieurs versions de SHA :

In [22]:
md5sum test1.txt

6af5051ffed583d505561d1e137adb7d  test1.txt


In [23]:
sha1sum test1.txt

d6d4e1d324da8bc355162c3fccc7546b0d11e002  test1.txt


In [24]:
sha256sum test1.txt

22c84476f158dce04a6c966c8696994cf799b7f2f6381d4149c21cec5788523a  test1.txt


Vous remarquerez que les sommes de contrôle sont de plus en plus longues à mesure qu'on utilise un algorithme plus complexe.

- empreinte MD5 : 32 caractères
- empreinte SHA1 : 40 caractères
- empreinte SHA256 : 64 caractères

Plus l'empreinte est grande, plus l'algorithme est considéré comme robuste.

En février 2017, l'algorithme SHA1 [a été cassé](https://shattered.io/). L'utilisation de l'algorithme SHA256 est désormais recommandée en sécurité informatique.