## Introduction
Un texte est une suite de symboles (ou caractères) pris dans un alphabet de taille finie $N$. Chiffrer ce texte consiste à lui appliquer une transformation de façon à produire un autre texte, le texte chiffré. Déchiffrer le texte chiffré signifie appliquer la transformation inverse de façon à retrouver le texte en clair. Le texte qui est produit par l'algorithme de chiffrement dépend d'une donnée supplémentaire que l'on appelle la clé. L'algorithme de déchiffrement utilise également cette clé.
Seuls ceux qui possèdent la clé peuvent a priori retrouver le texte en clair. Si la méthode de chiffrement n'est pas suffisamment robuste, il peut cependant être possible de décrypter le texte chiffré et retrouver ainsi le texte en clair sans connaître la clé par avance.

L'objet du TP est de programmer tout d'abord l'algorithme de chiffrement monoalphabétique. C'est un algorithme qui est très facile à casser en analysant la fréquence des symboles apparaissant dans le texte chiffré.
Dans un deuxième temps vous programmerez l'algorithme de Vigenère qui 
permet a priori de se prémunir de l'attaque précédente. Nous verrons 
toutefois en fin de TP une méthode qui permet de le casser lui aussi.

## Partie A — Chiffrement monoalphabétique

Les algorithmes de chiffrement/déchiffrement ne s'appliquent pas 
directement sur les caractères mais sur des nombres entiers.
La norme *[Unicode][]* a répertorié l'ensemble des caractères utilisés dans les diverses langues écrites actuelles. Chacun de ces symboles est identifié par un entier appelé *point de code **Unicode*** compris entre `0` et `0x110000`.

*Remarque :* Le préfixe `0x` signifie que l'entier est écrit en base `0x10`, autrement dit en base `16`.

[Unicode]:http://unicode-table.com/fr/

In [2]:
0b10

2

Les fonctions python `chr` et `ord` permettent d'obtenir le caractère à partir du point de code et réciproquement :

In [None]:
print(chr(233))
print(ord('é'))

é
233


Nous allons appliqué nos algorithmes sur ces points de code en nous restreignant aux caractères dont le point de code est compris entre `0` et $N-1$ avec $N=$ `0x800`.

In [None]:
N = 0x800
print([chr(code) for code in range(N)])

['\x00', '\x01', '\x02', '\x03', '\x04', '\x05', '\x06', '\x07', '\x08', '\t', '\n', '\x0b', '\x0c', '\r', '\x0e', '\x0f', '\x10', '\x11', '\x12', '\x13', '\x14', '\x15', '\x16', '\x17', '\x18', '\x19', '\x1a', '\x1b', '\x1c', '\x1d', '\x1e', '\x1f', ' ', '!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', '<', '=', '>', '?', '@', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '[', '\\', ']', '^', '_', '`', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '{', '|', '}', '~', '\x7f', '\x80', '\x81', '\x82', '\x83', '\x84', '\x85', '\x86', '\x87', '\x88', '\x89', '\x8a', '\x8b', '\x8c', '\x8d', '\x8e', '\x8f', '\x90', '\x91', '\x92', '\x93', '\x94', '\x95', '\x96', '\x97', '\x98', '\x99', '\x9a', '\x9b', '\x9c', '\x9d', '\x9e', '\x9f', '\xa0', '

*Remarque :* Les polices de ces caractères ne sont pas toutes présentes sur la machine. Dans ce cas, le caractère est représenté par un carré.


Le chiffrement monoalphabétique consiste à choisir une permutation sur l'ensemble des entiers entre 0 et $N-1$ et à appliquer cette permutation à chacun des symboles du texte en clair. La permutation inverse permet de retrouver le message d'origine.

### Question 1
Coder la fonction `monoalphabetic_cipher`.

* *Vous pouvez par exemple implémenter l'algorithme suivant :*

```algorithm
Fonction Monoalphabetic_cipher(Clear_text, Permutation)
    créer une liste vide Ciphered_symbols
    Pour chaque Clear_symbol de Clear_text faire
        Ciphered_symbol ⟵ chiffré de Clear_symbol
        ajouter Ciphered_symbol à la liste Ciphered_symbols
    finPour
    Ciphered_text ⟵ concaténation des symboles
                      de la liste Ciphered_symbols
    Retourner Ciphered_text
```

* *Le second argument de la fonction `monoalphabetic_cipher` est lui-même une fonction qui prend comme argument un entier entre 0 et $N-1$ et qui retourne un entier entre 0 et $N-1$.*

  *Pour la concaténation, servez-vous de la méthode [str.join][join].
  Évaluez l'instruction `''.join(['a', 'b', 'c'])` pour comprendre l'effet de cette méthode.*

[join]: https://docs.python.org/3/library/stdtypes.html#str.join

In [None]:
def monoalphabetic_cipher(clear_text, permutation):
    """ Chiffre le texte `clear_text` en appliquant la fonction
        `permutation` au code de chaque symbole .
    """
    ### À COMPLÉTER

In [None]:
def incr(x):
    return (x + 1) % N

monoalphabetic_cipher("La prépa est un long fleuve tranquille", incr)

'Mb!qsêqb!ftu!vo!mpoh!gmfvwf!usborvjmmf'

En *Python* les fonctions sont des objets comme les autres (entiers, liste, etc.). À ce titre on peut passer une fonction en argument d'une autre fonction comme ci-dessus.

La syntaxe python `lambda` permet de créer un objet de type fonction, sans nécessairement stocker cet objet sous un nom :

In [None]:
lambda x: (x + 1) % N

<function __main__.<lambda>>

In [None]:
(lambda x: (x + 1) % N)(26)

27

In [None]:
monoalphabetic_cipher('Bonjour', lambda x: (x + 1) % N)

'Cpokpvs'

Les deux écritures ci-dessous sont équivalentes :

In [None]:
def incr(x):
    return (x + 1) % N

incr(6)

7

In [None]:
incr = lambda x: (x + 1) % N
incr(6)

7

> 

Le [chiffrement affine][] est une version particulière du chiffrement
monoalphabétique. Il consiste à appliquer la transformation affine
$x\longrightarrow (ax+b) \bmod N$ sur les codes des symboles du texte à chiffrer. Il est nécessaire de choisir $a$ premier avec $N$ pour garantir que la transformation soit bien bijective.
La transformation réciproque est alors elle-même une transformation affine.

[chiffrement affine]: https://fr.wikipedia.org/wiki/Chiffre_affine

### Question 2
Coder la fonction `affine_cipher`.

In [None]:
def affine_cipher(clear_text, a, b):
    """ Chiffre le texte `clear_text` par le chiffrement affine
        x -> ax + b mod N.
    """
    ### À COMPLÉTER

In [None]:
print([ord(symbol) for symbol in "La prépa est un long fleuve tranquille"])

[76, 97, 32, 112, 114, 233, 112, 97, 32, 101, 115, 116, 32, 117, 110, 32, 108, 111, 110, 103, 32, 102, 108, 101, 117, 118, 101, 32, 116, 114, 97, 110, 113, 117, 105, 108, 108, 101]


In [None]:
affine_cipher("La prépa est un long fleuve tranquille", 3, 1)

'åĤaőŗʼőĤaİŚŝaŠŋaŅŎŋĶaĳŅİŠţİaŝŗĤŋŔŠļŅŅİ'

In [None]:
print([ord(symbol) for symbol in "åĤaőŗʼőĤaİŚŝaŠŋaŅŎŋĶaĳŅİŠţİaŝŗĤŋŔŠļŅŅİ"])

[229, 292, 97, 337, 343, 700, 337, 292, 97, 304, 346, 349, 97, 352, 331, 97, 325, 334, 331, 310, 97, 307, 325, 304, 352, 355, 304, 97, 349, 343, 292, 331, 340, 352, 316, 325, 325, 304]


> 

### Question 3
Quelle est la fonction réciproque de $x\longrightarrow (3x+1) \bmod N$ ?

> Un petit peu de math, en s'aidant de Python comme calculatrice programmable.

> 

Il est possible de calculer le modulo inverse de façon plus efficace en utilisant l'[algorithme d'Euclide étendu][euclide]. Cet algorithme permet d'obtenir le *pgcd* de deux entiers $a$ et $b$, ainsi que les coefficients de Bézout $u$ et $v$ tels que 

$$au+bv=\mbox{pgcd}(a, b).$$

[euclide]: http://fr.wikipedia.org/wiki/Algorithme_d%27Euclide_%C3%A9tendu (Algorithme d'Euclide étendu)

In [None]:
def euclide(a, b):
    """ Algorithme d'Euclide étendu
        Retourne le pgcd de `a` et `b`, ainsi que les coefficients de
        Bézout `u` et ` v` tels que au + bv = pgcd(a, b).
    """
    r0, u0, v0, r1, u1, v1 = a, 1, 0, b, 0, 1
    while r1 != 0:
        q = r0 // r1
        r0, u0, v0, r1, u1, v1 = (
        r1, u1, v1, r0 - q * r1, u0 - q * u1, v0 - q * v1)
    return r0, u0, v0

gcd, u, v = euclide(120, 23)
print(gcd, u, v)
120 * u + 23 * v

1 -9 47


1

### Question 4
Coder la fonction `inv_mod(x, n)`.

> *Utilisez pour cela la fonction `euclide` en l'appliquant avec `a=x` et `b=n`.*

In [None]:
def inv_mod(x, n):
    """ Retourne l'inverse de `x` modulo `n`.
    
        Rappel : `x` possède un inverse modulo `n` ssi
        `x` et `n` sont premiers entre eux.
    """
    ### À COMPLÉTER

In [None]:
inv_mod(3, N)

683

> 

### Question 5
Coder la fonction `affine_decipher`.

In [None]:
def affine_decipher(ciphered_text, a, b):
    """ Déchiffre le texte `ciphered_text` chiffré par chiffrement
        affine x -> ax + b mod N.
    """
    ### À COMPLÉTER

In [None]:
affine_decipher("åĤaőŗʼőĤaİŚŝaŠŋaŅŎŋĶaĳŅİŠţİaŝŗĤŋŔŠļŅŅİ", 3, 1)

'La prépa est un long fleuve tranquille'

> 

### Question 6
Le texte du fichier `data/ciphered-1.txt` a été obtenu par
chiffrement affine. La clé est $(a, b) = (11, 8)$.
Déchiffrer ce message et le sauvegarder sous le nom `data/clear-1.txt`.

> *Le fichier `data/ciphered-1.txt` est un fichier de texte : il contient une chaîne de caractères *unicode* encodée en *utf-8*. 
Cependant le caractère *saut de ligne* a été lui-même transformé en un autre caractère par l'algorithme de chiffrement. Cela n'a donc plus guère de sens de lire le fichier `data/ciphered` ligne par ligne. Pour cette raison, vous utiliserez la fonction `fd.read()` pour lire l'ensemble du texte et le stocker dans une unique chaîne de caractères python. Ceci ne pose pas de problème ici car il s'agit d'un petit fichier. Pour un très gros fichier, il faudrait le lire et le traiter par blocs, de 1024 caractères par exemple, en écrivant `fd.read(1024)`.*

## Partie B — Décryptage par analyse fréquentielle

Dans un texte en français les symboles ne sont pas distribués de façon
uniforme. Parmi toutes les lettres le `'e'` est a priori très
majoritaire. Le caractère `ESPACE` est également très fréquent. Ces fréquences se retrouvent dans le message chiffré et ceci peut être utilisé pour décrypter le texte.

> 

### Question 7
Coder la fonction `frequencies`.

> *Créez une liste de taille $N$ initialisée avec des 0, puis mettez à jour cette liste en lisant un à un les symboles du texte. Retournez cette liste.*

In [None]:
def frequencies(text):
    """ Retourne une liste donnant le nombre d'occurrences dans `text`
        de chaque symbole de l'alphabet.
    """
    ### À COMPLÉTER

In [None]:
freq = frequencies("La prépa est un long fleuve tranquille")
freq[ord('e')]

4

Dans la suite du TP nous allons utiliser la biliothèque *matplotlib*.
Pour cela exécuter la commande magique *IPython* suivante :

In [None]:
%pylab inline

Populating the interactive namespace from numpy and matplotlib


Cette commande a exécutée pour nous :
```python
import numpy as np
import matplotlib.pyplot as plt
```
Elle a également configurée *matplotlib* pour que les graphiques s'affichent dans le navigateur.

> 

### Question 8
Représentez les fréquences des symboles du texte `clear-1.txt` sous la forme d'un diagramme en bâtons. Faites de même pour le texte chiffré `ciphered-1.txt`.

> *Utilisez pour cela la fonction [matplotlib.pyplot.bar][].*

> *La fonction [plt.xlim][] permet si nécessaire de définir l'échelle sur l'axe des abscisses.*

[matplotlib.pyplot.bar]: http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.bar

[plt.xlim]:http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.xlim

> 

### Question 9
Le texte du fichier `data/ciphered-2.txt` a été obtenu par chiffrement affine mais vous ne connaissez pas la clé.

Décryptez ce texte.

> *Déchiffrer* un message signifie appliquer l'algorithme de déchiffrement. Cela suppose donc de connaître la clé.

> *Décrypter* un message signifie retrouver le texte en clair sans avoir connaissance de la clé.

Pour cette question la fonction python [sorted][] pourra vous être utile.
Elle permet de trier les éléments d'un itérable selon un certain critère.

[sorted]:https://docs.python.org/3/library/functions.html#sorted

> 

## Partie C — Chiffrement de Vigenère

L'algorithme de Vigenère est un système de chiffrement polyalphabétique. C'est un chiffrement par substitution, mais, suivant sa position dans le texte en clair, un même symbole peut être remplacé par des symboles différents. 
Cette méthode résiste ainsi à l'analyse de fréquences, ce qui est un avantage décisif sur les chiffrements monoalphabétiques.
Cependant le chiffre de Vigenère a été cassé par le major prussien
Friedrich Kasiski qui a publié sa méthode en 1863. 
Depuis cette époque, il n'offre plus aucune sécurité.

### Question 10

Lisez l'article de Wikipedia pour étudier l'algorithme de chiffrement et comprendre pourquoi il résiste à une analyse fréquentielle comme celle que vous avez effectuée précédemment.

> 

### Question 11

Coder la fonction `vigenere_cipher` :

In [None]:
def vigenere_cipher(clear_text, key):
    """ Chiffre le texte `clear_text` par `chiffrement de Vigenère
        avec la clé `key`.
    """
    ### À COMPLÉTER

> 

### Question 12

Coder la fonction `vigenere_decipher` :

In [None]:
def vigenere_decipher(ciphered_text, key):
    """ Chiffre le texte `clear_text` par `chiffrement de Vigenère
        avec la clé `key`.
    """
    ### À COMPLÉTER

> 

### Question 13

Le texte du fichier `data/ciphered-3.txt` a été chiffré par l'algorithme de Vigenère avec la clé : "La prépa est un long fleuve tranquille".

Déchiffrer ce texte.

> 

### Question 14

Vérifier que vous retrouvez bien le texte chiffré de `data/ciphered-3.txt` à l'aide de votre fonction `vigenere_decipher`.

## Partie D - Cryptanalyse d'un texte chiffré par l'algorithme de Vigenère 

L'objectif de cette partie est de décrypter le texte `data/ciphered-4.txt`.

La première étape pour décrypter un texte chiffré par l'algorithme de Vigenère consiste à déterminer la longueur de la clé. On recherche pour cela des répétitions de séquence de symboles dans le texte chiffré. L'explication la plus probable de ces répétitions est qu'elles préexistaient déjà dans le texte en clair et qu'elles ont été chiffrées par la même partie de la clé. Dans cette hypothèse la distance séparant les diverses occurrences de ces séquences identiques est un multiple de la longueur de la clé.

> 

### Question 15

Coder la fonction `positions_occurrences` :

In [None]:
def positions_occurrences(ciphered_text, length):
    """ Retourne un dictionnaire qui donne, pour chaque mot de longueur
        `length` qui apparaît dans le texte `ciphered_text`, la liste des
        positions où ce mot apparaît.
    """
    ### À COMPLÉTER

***Remarque :*** *Par *mot* on entend ici une suite quelconque de caractères. Ceux ne sont donc pas nécessairemement des mots dans le sens courant.*

> 

### Question 16

Conjecturer la longueur de la clé à partir du dictionnaire retourné par `positions_occurrences`.

> 

Pour continuer, nous avons besoin de la notion d'*indice de coïncidence*.
La variation de fréquences entre les divers symboles d'un texte peut être mesurée par un indicateur appelé *Indice de Coïncidence* qui se calcule par la formule suivante :

$$IC = \sum_{q\in\scriptsize\mbox{Texte}}\frac{n_q(n_q - 1)}{n(n - 1)}$$

où $n$ est la longueur du texte et $n_q$ le nombre d'occurrences du
symbole $q$ dans le texte.

Vous pouvez vérifier que l'$IC$ est égal à la probabilité d'obtenir deux
symboles identiques lorsque l'on choisit au hasard deux symboles du texte.
L'$IC$ est minimal lorsque tous les symboles du texte ont le même nombre
d'occurrences.

### Question 17

Coder la fonction `IC` :

In [None]:
def IC(text):
    """ Retourne l'Indice de Coincidence de `text`.
    """
    ### À COMPLÉTER

> 

### Question 18

Vérifier que votre fonction `IC` retourne bien une valeur proche de 1/26 lorque le texte contient 1000 occurrences de chacunes des 26 lettres de l'alphabet.

In [None]:
1/26

0.038461538461538464

> 

Soit $T$ un texte et $s$ un entier tel que $0\leq s\lt N$.
Soit $\mbox{translate}(T, s)$ le texte que l'on obtient si on effectue une translation de $s \bmod N$ sur chacun des codes des symboles de $T$.

Soit $K$ le texte clé et soit $T_i$ ($0\leq i\lt k$) le texte formé des symboles $T[i]$, $T[i+k]$, $T[i+2k]$, $\dots$, où $T$ est le texte à décrypter et $k$ la longueur de la clé. Nous pouvons remarquer que le texte $T_i$ a été entièrement chiffré à partir du symbole $K[i]$.


Posons $s_i=\mbox{ord}(K[i])−\mbox{ord}(K[0])$.
Le nombre $s_i$ est le décalage relatif entre le chiffrement de $T_0$ et celui de $T_i$. Pour trouver la valeur des $s_i$ nous allons utiliser la notion d'*indice de coïncidence* en appliquant l'algorithme ci-dessous :

```
Fonction relative_shift(T, k, i)
    T0 <-- texte formé des symboles T[0], T[k], T[2k], ...
    Ti <-- texte formé des symboles T[i], T[i+k], T[i+2k], ...
    icmax <-- 0
    shift <-- 0
    Pour s variant de 0 à N-1 faire
        concat_text <-- Concaténation de T0 et de translate(Ti, -s)
        ic <-- IC(concat_text)
        Si ic > icmax alors
            icmax <-- ic
            shift <-- s
        Finsi
    FinPour
    Retourner shift
```

L'idée principale pour décrypter le message est contenu dans cet algorithme. **Lorsque les deux textes $T_0$ et $\mbox{translate}(T_i, -s)$ sont décalés de façon identique par rapport au texte original alors l'indice de coïncidence de leur concaténation est maximal.**
    
> *Prenez le temps d'y réfléchir pour vous en convaincre.*

### Question 19

Coder la fonction `relative_shift`.

In [None]:
def relative_shift(text, k, i):
    """ Retourne le décalage relatif entre les codes du premier symbole
        de la clé (indice 0) et le (i+1)-ième (indice i).
    """
    ### À COMPLÉTER

> 

### Question 20

Créer la liste `shifts` contenant les valeurs de $s_i$ pour $0\leq i\lt k$.

> 

### Question 21

Notons `ciphered_text` le texte à déchiffrer, `clear_text` le texte original à retrouver et `translated_text` le texte `translate(clear_text, ord(K[0]))`.

Retrouver le texte `translated_text` à partir de `ciphered_text`, de `k` et de la liste `shifts`.

In [None]:
def get_translated_text(ciphered_text, k, shifts):
    """ Retourne le texte `translated_text` à partir de `ciphered_text`,
        `k` et de `shifts`.
    """
    ### À COMPLÉTER

translated_text = get_translated_text(ciphered_text, k, shifts)

> 

### Question 22

Retrouver le texte `clear_text`.

> 