La cryptographie est un mot que vous connaissez sans doute. Je suis presque certain que vous avez fabriqué, dans votre enfance, quelques petits codes secrets. Des méthodes pour chiffrer des messages, il y en a des paquets, et je pars donc du principe que vous en connaissez (au moins, ayez lu ce tuto, ainsi que la suite). Tout ne sera pas abordé, mais cela vous permettra d’avoir un bon aperçu sur la chose avant de commencer.

La cryptologie est séparée en deux grandes parties : la cryptographie (comment faire des messages chiffrés), et la cryptanalyse (l’art de les casser). Ce tuto a pour but de vous présenter rapidement quelques outils de cryptanalyse sur des méthodes de codage d’antan. Mais il y a de quoi faire, ne vous inquiétez pas. Sans plus de manières, c’est parti, on y va !

## Le décalage et la recherche exhaustive

Commençons par le début du commencement : le chiffre de César, ou chiffrement par décalage. Pour rappel, cette méthode consiste à décaler les lettres d’un certain nombre de places dans l’alphabet.

Comment casser le code de César ? Si on connait le décalage, ça va : on fait le décalage dans l’autre sens. Mais comment faire si on ne l’a pas ?

### Recherche exhaustive

Comme il y a 26 lettres dans l’alphabet, il n’y a que 26 décalages possibles (25 si on exclut le décalage de 0). On va donc faire une recherche exhaustive, c’est-à-dire que l’on teste toutes les possibilités ! Tôt ou tard on finira par tomber sur le bon résultat.

__Exemple__ :
Texte chiffré : at rdst rthpg, r’thi uprxat p rphhtg

On teste alors les 26 décalages (on peut le faire à la main, mais on peut aussi le faire avec un petit programme).

__Résultats__ :

In [None]:
# CODE

Le décalage de 11 à l’air plutôt suspect : le code cesar, c’est facile a casser.

Voilà, on a réussi à casser le code de César sans trop s’embêter ! Cette technique va fonctionner avec n’importe quel message, de n’importe quelle longueur, chiffré par décalage.

### Autre technique : trouver une lettre

Si l’on a pas envie de tester les 25 possibilités, il est également possible de tenter de deviner le décalage. Par exemple, dans at rdst rthpg, r’thi uprxat p rphhtg, on voit que le t revient souvent. On peut donc se dire que le e du message initial a été chiffré en un t : ça semble pertinent. Cela nous donne un décalage de 15. Pour vérifier notre hypothèse, il suffit alors de tester en décalant tout de 15 lettres dans l’autre sens (décaler de -15 revient à faire +11 car −15+26=11) dans le texte chiffré. On retrouve alors bien le message escompté, et sans avoir tout calculé.

On va maintenant passer à des méthodes un peu plus sophistiquées, parce que là, ce n’était pas sorcier

### La substitution et l'analyse de fréquences

Après le chiffre de César, voyons la substitution monoalphabétique. Celle-ci consiste à utiliser une permutation où chaque lettre de l’alphabet sera remplacée par une autre lettre. Par exemple, tous les z du texte deviendront des e, et tous les s des t, etc.

```
Le code de César est donc une substitution particulière.
```

### Les limites de la recherche exhaustive

On pourrait se dire que la recherche exhaustive devrait fonctionner, non ? En théorie, oui, mais en pratique, calculons un peu le nombre de substitutions possibles : le a peut devenir un a, un b, … ou un z. Ça fait 26 possibilités. Le b peut devenir tout sauf la même chose que le a : 25 possibilités et ainsi de suite jusqu’au z. Cela fait en tout 26∗25∗...∗1=26! possibilités (403291461126605635584000000 pour être exact). Je vous laisse faire la recherche exhaustive si vous vous voulez, mais moi j’ai envie de trouver une solution avant la fin de l’univers.

Il faut donc trouver mieux que la recherche exhaustive.

### L’analyse de fréquences

Petite réflexion : tous les e sont codés par la même lettre, disons f, donc s’il y a plein de e dans le texte initial, il doit y avoir plein de f dans le texte chiffré.

Voici exactement le principe de l’analyse de fréquences. Dans une langue, toutes les lettres n’apparaissent pas à la même fréquence. Par exemple, en français, il y a beaucoup de e, a, i, l, mais peu de x, w ou k. Ainsi, il suffit de déterminer la fréquence des lettres dans le texte final, et en comparant avec les fréquences moyennes d’apparition, on devra pouvoir trouver directement la substitution. Seulement, comme on ne pourra pas vraiment déterminer les lettres ayant de faibles probabilités (pas assez d’occurrences pour avoir une moyenne significative), on utilisera ce procédé sur les lettres à fortes probabilités, et on finira à la main.

```
Cela ne fonctionne pas si le texte est trop court, car on a alors pas assez de lettres pour avoir des moyennes significatives. Imaginez une phrase comme celle-ci : Chez le vieux zinzin, vous buvez du whisky, il y a beaucoup trop de lettre rares, et ça pourrit complètement l’analyse de fréquences.
```

Comme les fréquences des lettres changent en fonction de la langue (il y aura par exemple beaucoup plus de w en anglais qu’en français), on admet que l’on chiffre des messages en français.

Voici une table des fréquences en français :

-----------------
Lettre : |	a	|b	|c	|d	|e	|f	|g	|h	|i	|j	|k	|l	|m	|n	|o	|p	|q	|r	|s	|t	|u	|v	|w	|x	|y	|z
Fréquence :	7.9|	0.8|	3.2|	3.2|	18.2|	1.0|	1.0|	0.8|	7.2|	0.3|	0.0|	5.7|	3.0|	7.6|	5.6|	3.1|	1.0|	6.8|	8.5|	7.0|	6.2|	1.2|	0.0|	0.4|	0.3|	0.1|