# Coder et décoder comme les Romains

## Objectif

Comment utiliser
* chaînes de caractères
* boucles
* tests conditionnels

## Le code de César

**Jules César** était un général Romain (il n'a jamais été empereur) qui a vécu au 1er siècle avant Jésus-Christ. Comme chef militaire, il souhaitait pouvoir communiquer avec ses officiers de plus hauts rangs localisés aux quatre coins de son immense empire. Notamment avec Ciceron durant la Guerre des Gaules. 

![alt text](img/jules-cesar.jpg "Jules Cesar")

Pour qu'un éventuel ennemi ne s'empare jamais du message de César, il a décidé d'utiliser une technique de **cryptage** afin de rendre le message illisible si on ne connaît pas la **clef de chiffrement**. C'est l'une des toutes premières applications de la **cryptographie**. 

## Comment fonctionne le code de Cesar ?

Le **texte chiffré (codé)** s'obtient en remplaçant chaque lettre du **texte clair** original par un décalage à distance fixe, toujours du même côté, dans les lettres de l'alphabet. Cette distance est appelée **clef de chiffrement**

![alt text](img/clef.png "Clef de chiffrement du code de Cesar")

Jules Cesar utilisait souvent 3 comme clef de chiffrement.

Par exemple, si la clef de chiffrement vaut **3**, alors on décalera chaque lettre du texte clair de trois sur la droite : 

- le "a" devient "d"
- le "b" devient "e"

et ainsi de suite. On peut ensuite chiffrer et déchiffrer des messages plus longs :

- le texte clair "bonjour", chiffré avec la clef 3 devient le texte chiffré "erqmrxu"

## Programme pour chiffrer (coder) un texte clair

Les étapes à programmer sont les suivantes :

Définissez une clef de chiffrage `clef = ...`

In [1]:
clef = 3

Définissez une liste de caractères `alphabet = ['a','b', etc...]` qui contient toutes les lettres de l'alphabet en minuscule.

copiez-collez la liste des caractères ici : ` ['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']`

In [2]:
alphabet = 'abcdefghijklmnopqrstuvwxyz'

Définissez un message clair à coder (en utilisant les lettres minuscules mais sans accent)

In [3]:
message_clair = 'mon premier message'

Définissez un message codé vide (nous allons ajouter les lettres codées à cette variable à chaque itération de la boucle)

In [4]:
message_code = ''

## Algorithme

Un algorithme est une suite d'opérations ordonnées.

Pour chiffrer un message, on utilise l'algorithme suivant:

    Boucle sur tous les caractères du message_clair
    On utilise une variable i (un incrément) qui permet de stocker l'index du caractère c 
1. Si le caractère c est un espace, alors on l'ajoute tel quel au message codé
1. Sinon, on boucle sur l'ensemble des caractères de l'alphabet
1. Si le caractère c est égal à l (celui en court de l'alphabet), alors 
1.           On calcule le nouvel index (l'index du caractère auquel on ajoute la clef de chiffrement puis on applique l'opération modulo avec la longueur de l'alphabet. Cela permet d'avoir une chaine de caractères circulaire c'est--à-dire que le voisin de droite du dernier caractère (z) est le premier (a)
1.           On recherche le nouveau caractère avec cet index1.           Et on ajoute cette lettre à la chaine de caractères message_code
1.       Sinon alors on incrémente l'index de 1.
    
Dans le programme suivant, chaque ligne commence par un hashtag, cela signifie que toutes les lignes sont commentées. 

Votre travail :

* lisez l'algorithme ligne par ligne
* décommentez uniquement les lignes écrites en Python (qui ne sont donc pas des commentaires en français)

In [5]:
# Boucle sur tous les caractères du message_clair
for c in message_clair:
# On utilise une variable i (un incrément) qui permet de stocker l'index du caractère c 
    i = 0
# Si le caractère c est un espace, alors on l'ajoute tel quel au message codé
    if c == " ":
        message_code = message_code+c
# Sinon, on boucle sur l'ensemble des caractères de l'alphabet
    else:
        for l in alphabet:
# Si le caractère c est égal à l (celui en court de l'alphabet), alors 
            if c == l :
# On calcule le nouvel index (l'index du caractère auquel on ajoute la clef de chiffrement puis on applique
# l'opération modulo avec la longueur de l'alphabet. Cela permet d'avoir une chaine de caractères circulaire
# c'est--à-dire que le voisin de droite du dernier caractère (z) est le premier (a)
                nouvel_index = (i+clef) % len(alphabet)
# On recherche le nouveau caractère avec cet index
                nouvelle_lettre = alphabet[nouvel_index]
# Et on ajoute cette lettre à la chaine de caractères message_code
                message_code = message_code+nouvelle_lettre
# Sinon alors on incrémente l'index de 1.
            i = i + 1

## Trouver la i-ème lettre de l'alphabet

En Python les indices commencent à 0
- a est donc la lettre avec l'indice 0
- c avec l'indice 2


In [11]:
alphabet[0], alphabet[2]

('a', 'c')

## Trouver l'index d'une lettre

Comment trouver la position d'une lettre donné dans l'alphabet?
Par exemple la lettre **k** a l'index 10.

In [13]:
c = 'k'
for i in range(26):
    if c == alphabet[i]: 
        index = i
        
index

10

Il existe une fonction qui donne justement l'index d'une lettre dans une chaîne

In [14]:
alphabet.index('k')

10

## Problème de fin de chaine
Voici le problème quand l'index arrive en fin de l'alphabet.

    IndexError: string index out of range

In [23]:
clef = 15
for i in range(26):
    j = i + clef
    print(i, alphabet[i], alphabet[j], j)

0 a p 15
1 b q 16
2 c r 17
3 d s 18
4 e t 19
5 f u 20
6 g v 21
7 h w 22
8 i x 23
9 j y 24
10 k z 25


IndexError: string index out of range

## Liste circulaire

La solution à ce problème est d'utiliser fonction modulo.

In [24]:
clef = 15
for i in range(26):
    j = (i + clef) % 26
    print(i, alphabet[i], alphabet[j], j)

0 a p 15
1 b q 16
2 c r 17
3 d s 18
4 e t 19
5 f u 20
6 g v 21
7 h w 22
8 i x 23
9 j y 24
10 k z 25
11 l a 0
12 m b 1
13 n c 2
14 o d 3
15 p e 4
16 q f 5
17 r g 6
18 s h 7
19 t i 8
20 u j 9
21 v k 10
22 w l 11
23 x m 12
24 y n 13
25 z o 14


## Encoder le message

In [17]:
message = 'bonjour'
code = ''

for c in message:
    if c == ' ':
        code = code + c
    else:
        i = alphabet.index(c)        
        i = (i + clef) % 26
        code += alphabet[i]
        
code

'erqmrxu'

Affichez la clef, le message clair et le message chiffré (avec la fonction `print()`)

In [None]:
print("Clef de chiffrement : ",clef)
print("Message clair       : ",message_clair)
print("Message code        : ",message_code)

## Programme pour déchiffrer un message codé

Le programme pour décoder est identique à celui pour chiffrer, la seule différence est que l'on trouve la nouvelle lettre en décalant vers la gauche (dans la chaîne de caractères), et donc, il faut appliquer une soustraction correspondant à la clef de chiffrement

Définissez une variable `message_decode` qui contiendra le message déchiffré (clair) vide

In [None]:
message_decode = ""

Appliquez le même algorithme que pour le chiffrement mais avec une soustration de la clef lors du calcul de la nouvelle position.

Votre travail :

* Reprenez le programme pour chiffrer un message
* Appliquez les changements :
    * l'entrée (`message_clair`) devient la sortie (`message_decode`)
    * la sortie (`message_code`) devient l'entrée (`message_code`) sur laquelle on boucle
    * au lieu d'ajouter la clef de déchiffrement, il faut la soustraire (ligne 8)

In [None]:
#for c in message_code:
#    i = 
#    if c == " ":
#        message_decode = 
#    else:
#        for l in 
#            if c == l :
#                nouvel_index = 
#                nouvelle_lettre = alphabet[nouvel_index]
#                message_decode = message_decode+nouvelle_lettre
#            i = 

Affichez la clef, le message codé et le message décodé (avec la fonction `print()`)

In [None]:
print("Clef de chiffrement : ",clef)
print("Message code        : ",message_code)
print("Message decode      : ",message_decode)

## Que se passe-t-il si on ne connaît pas la clef de chiffrement ?

### Attaque en force brute

Dans cette dernière partie, nous allons effectuer une attaque dite **en force brute** où vous allez tester un ensemble de clefs de chiffrement et comparer les différents messages décodé produits et sélectionner le bon

* Reprenez le programme pour décoder un message chiffré.
* Au lieu de fixer la clef de chiffrement, ajoutez une boucle qui va parcourir l'intervalle 0 à 25 à l'aide de la fonction `range(25)`. Cette nouvelle boucle doit être la première à être parcourue. La raison est que la clef est comprise dans cet intervalle (il y a 26 lettres dans l'alphabet)


L'algorithme devient :
    * pour chaque clef entre 0 et 25
        * pour chaque caractère `c` du message codé `message_code` :
            * si ce caractère est un espace (`if c == ' '`, recopier l'espace dans le message décodé
            * sinon pour chaque caractère `l` de la liste de lettres `alphabet`
                * si les caractères `l` et `c` sont égaux (`if l == c`) alors récupérer la position, calculer le nouvelle position avec la clef et le caractère correspondant. Ajouter ce caractère au message
    * Afficher le message décodé avec la clef `clef` courant


Le message à décoder est le suivant : `message_code = "moddo vsqxo ocd mobdksxowoxd vk zvec vscslvo no dyedoc"`

In [None]:
message_code = "moddo vsqxo ocd mobdksxowoxd vk zvec vscslvo no dyedoc"

In [None]:
# Déclarez une boucle for externe sur l'intervalle des clefs entre 0 et 25
#for clef in 
# Déclarez une chaîne de caractères message_code vide (à laquelle on va ajouter les caractères les un après les 
# autres)
#    message_decode = 
# Reprenez le code que vous avez écrit pour décoder un message en utilisant la clef de chiffrement de la première
# boucle for
#    for c in message_code:
# ...
# ...
# ...
# Affichez à chaque pas de la boucle sur le clef, le message_decode actuel
#    print("[",clef," ] : ",message_decode)

Question : Quelle est la valeur de la clef de chiffrement utilisée pour coder le message ?

### Attaque par analyse fréquentielle (exercice difficile)

Le code de Cesar peut être attaqué par la méthode dite de **l'analyse fréquentielle** décrite par le savant arabe Al-Kindi au IX<sup>ème</sup> siècle. Elle consiste à observer la fréquence d'apparition de chaque lettre dans un grand nombre de textes. Il faut connaître la langue dans laquelle a été rédigée le texte considéré. 

Pour le français, la fréquence d'apparition des lettres est la suivante :

| A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z |
|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|:---|
| 9,42 | 1,02 | 2,64 | 3,39 | 15,87 | 0,95 | 1,04 | 0,77 | 8,41 | 0,89 | 0,00 | 5,34 | 3,24 | 7,15 | 5,14 | 2,86 | 1,06 | 6,46 | 7,90 | 7,26 | 6,24 | 2,15 | 0,00 | 0,30 | 0,24 | 0,32 | 

Cela signifie que la lettre qui apparaît le plus souvent est le E. Si on analyse un texte chiffré donné et que 
1. on compte toutes les lettres du texte
2. on sélectionne celle qui apparait le plus souvent (on connait sa position)
3. on calcule le décalage entre cette lettre et le E (index de E = 4)
4. on applique ce décalage comme clef de déchiffrement

#### Deux fonctions utiles : max() et index()

`max()` renvoie la valeur maximum d'une liste
`maliste.index(monelement)` renvoie l'index de `monelement` dans la liste `maliste`

ainsi, si `maliste = [1,5,3,7,2,3]`, alors `max(maliste)` retourne la valeur `7` et `maliste.index(7)` retourne `3` qui est l'index (la position) de l'élément 7.

On peut combiner les deux fonction pour trouver la position de la valeur maximum d'une liste avec `maliste.index(max(maliste))`

In [None]:
frequence = [0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]

alphabet = "abcdefghijklmnopqrstuvwxyz"
message_code = "moddo vsqxo ocd mobdksxowoxd vk zvec vscslvo no dyedoc"

for c in message_code:
    i = 0
    for l in alphabet:
        if c == l :
            frequence[i] = frequence[i] + 1
        i = i + 1

index_max = frequence.index(max(frequence))
index_lettre_e = 4
clef = index_max - index_lettre_e

message_decode = ""
for c in message_code:
    if c == " ":
        message_decode = message_decode+c
    else:
        i = 0
        for l in alphabet:
            if c == l :
                nouvel_index = (i-clef) % len(alphabet)
                nouvelle_lettre = alphabet[nouvel_index]
                message_decode = message_decode+nouvelle_lettre
            i = i + 1
print("Message decode : ",message_decode)