# Cryptographie

### Principes

Le but de la cryptographie est de cacher un texte donné de tel manière que seul son destinataire légitime puisse le lire.
Les manières de cacher ce textes sont multiples. On s'intéresse ici à une transformation du texte pour le rendre illisible.

En pratique pour nous, le texte à cacher est une chaîne de caractères s. On cherche donc à calculer une chaîne de caractère tirée de s de telle manière que notre destinataire (avec qui on peut éventuellement partager un secret, la <b>clé</b>), et avec un peu de chance seul lui, puisse déchiffre ce texte.

### Cadre

On se limite à des textes contenant uniquement des caractères en minuscule et des espaces, pour simplifier les raisonnements.

### Texte à cacher

On fixe pour tout le cours un texte à crypter : la page wikipedia sur python (transformée pour coller à notre alphabet)

In [1]:
with open('wiki-py.txt') as f:
    texte = f.read()
    texte = texte.replace('\r', '')

In [2]:
LETTRES = 'abcdefghijklmnopqrstuvwxyz \n'

## Chiffrement de César

### Description

Le principe est assez simple :
<ul>
<li>on donne un numéro à chaque lettre de l'alphabet</li>
<li>la clé de chiffrage est un nombre entre 1 et le nombre de lettre - 1</li>
<li>la chaîne cryptée est obtenue en décalant tous les caractères de clé dans l'alphabet, étant entendu que l'on revient au début à la fin de la liste...</li>
</ul>

In [3]:
def indice(lettre):
    """
    Retourne l'indice de la lettre donnée dans la chaîne LETTRES
    """
    if lettre == " ":
        return -2
    if lettre == "\n":
        return -1
    return ord(lettre) - ord("a")

In [4]:
def cesar(chaine, cle):
    s = ''
    n = len(LETTRES)
    for i in range(len(chaine)):
        s = s + LETTRES[(indice(chaine[i]) + cle) % n]
    return s

In [5]:
cesar(texte, 14)[:500]

'bkfva\nmsefmg\nmzo\nuousmrsmbdaudo  ofwa\nmapxsfmm gzfwmbodorwu smsfm gzfwbzofstad semmwzmtohadwesmzombdaudo  ofwa\nmw bsdofwhsmefdgqfgdssmmta\nqfwa\n\nszzsmsfmadws\nfssmapxsfmmwzmsefmrafsmrmg\nmfkbousmrk\no wcgsmtadfmmrmg\nsmusefwa\nmogfa ofwcgsmrsmzom s awdsmbodmdo oeesm wsffsemsfmrmg\nmekefs smrsmusefwa\nmrmsjqsbfwa\nemmmwzmsefmow\newmew wzowdsmombsdzmmdgpkmmeqvs smme ozzfozymsfmfqzmnnzsmzo\nuousmbkfva\nmsefmbzoqsmeagemg\nsmzwqs\nqsmzwpdsmbdaqvsmrsmzomzwqs\nqsmpermmsfmta\nqfwa\n\nsmegdmzombzgbodfmrsembzofsemtad semw\n'

### Retrouver le texte d'origine

Le principe pour notre correspondant est assez simple, il suffit de décaler dans l'autre sens.

In [6]:
cesar(cesar('hello world',14 ), 14)

'hello world'

In [7]:
cesar(cesar('hello world', 4), -4)

'hello world'

### Cryptanalyse

Il est très facile de retrouver la clé secrète du chiffrement de césar si on connait l'alphabet utilisé.
Ainsi un espion, le gouverement, ou tout autre personne satisfaisant votre sens de la théorie du complot, peut retrouver le message en clair.

La méthode est simple : force brute. On essai toutes les clés possible et on regarde à la main les messages obtenues. il y a tellement peu de clés possible que la cryptanalyse est quasiment immédiate.

In [8]:
import random
cle_choisie = random.randint(1, len(LETTRES) - 1)

message = 'ceci est un message un tout petit peu plus long'
crypte = cesar(message, cle_choisie)

for i in range(1, len(LETTRES)):
    print('clé : ', i, ' message décodé : ' + cesar(crypte, -i))

clé :  1  message décodé : tvtzpvhipjcpbvhhrxvpjcpidjipevizipevjpeajhpadcx
clé :  2  message décodé : susyoughoiboauggqwuoibohcihoduhyhoduiod
igo
cbw
clé :  3  message décodé : rtrxntfgnhan
tffpvtnhangbhgnctgxgncthnc hfn bav
clé :  4  message décodé : qsqwmsefmg
m seeousmg
mfagfmbsfwfmbsgmbzgemza
u
clé :  5  message décodé : prpvlrdelf lzrddntrlf le
felarevelarflayfdly
 t
clé :  6  message décodé : oqoukqcdkezkyqccmsqkezkd edk
qdudk
qek
xeckx zs
clé :  7  message décodé : npntjpbcjdyjxpbblrpjdyjczdcj pctcj pdj wdbjwzyr
clé :  8  message décodé : momsioabicxiwoaakqoicxibycbizobsbizocizvcaivyxq
clé :  9  message décodé : lnlrhn
ahbwhvn

jpnhbwhaxbahynarahynbhyub
huxwp
clé :  10  message décodé : kmkqgm 
gavgum  iomgavg
wa
gxm
q
gxmagxta gtwvo
clé :  11  message décodé : jljpflz f
uftlzzhnlf
uf v
 fwl p fwl
fws
zfsvun
clé :  12  message décodé : ikioekyze teskyygmke tezu zevkzozevk evr yerutm
clé :  13  message décodé : hjhndjxydzsdrjxxfljdzsdytzydujynydujzduqzxdqtsl
clé :  14  message dé

Pas trop difficile de deviner ce qu'avait choisi python comme clé...

# Vigénère

### Principe

On pousse le raisonnement précédent plus loin. Au lieu d'utiliser un décalage uniforme sur tout le texte, on choisit un mot clé.
<ul>
<li>transformer le mot clé en liste de chiffres, qui seront nos décalages</li>
<li>la première lettre du texte est décalée grâce au premier chiffre de la clé</li>
<li>on poursuit ainsi, en reprennant la clé depuis le début quand on l'a épuisé</li>
</ul>

In [9]:
def vigenere(texte, mot_cle):
    liste_cle = [indice(c) for c in mot_cle]
    s = ''
    long_cle = len(liste_cle)
    long_alph = len(LETTRES)
    for i in range(len(texte)):
        s = s + LETTRES[(indice(texte[i]) + liste_cle[i % long_cle]) % long_alph]
    return s

In [10]:
vigenere('ceci est un test', 'motcle')

'osvkjicfrwycdsjv'

In [11]:
def dechiffre_vigenere(texte, mot_cle):
    liste_cle = [-indice(c) for c in mot_cle]
    s = ''
    long_cle = len(liste_cle)
    long_alph = len(LETTRES)
    for i in range(len(texte)):
        s = s + LETTRES[(indice(texte[i]) + liste_cle[i % long_cle]) % long_alph]
    return s

In [12]:
dechiffre_vigenere('osvkjicfrwycdsjv', 'motcle')

'ceci est un test'

### Cryptanalyse

Elle est beacoup plus délicate que la précédente. Laissons-la de côté pour l'instant.

## Un mot sur la concaténation

Les chaaînes python ne sont pas modifiables. A chaque concaténation, il faut calculer la longueur de la chaîne obtenue, puis créer une chaîne de la bonne longueur et finalement la remplir. Ceci nécessite de parcourir les deux chaînes 2 fois.

Illustrons : 
M. X s'est trouvé un emploi : peindre la ligne blanche au milieu d'une route.
Le premier jour, il couvre 300m et son patron est très content. Le deuxième jour seulement 150m, ce qui reste honorable. Le troisième jour il ne parvient qu'à avancer de 30m.

Quand son employeur en colère vient lui demander pourquoi, sa réponse est édifiante :
"Je n'y peux rien, chaque jour je vais de plus en plus loin du pot de peinture !".

In [13]:
def str_concat(L):
    s = ""
    for i in range(len(L)):
        s = s + L[i]
    return s

def list_join(L):
    return "".join(L)

L = (texte*5 ).split()

In [14]:
%timeit str_concat(L)

100 loops, best of 3: 3.07 ms per loop


In [15]:
%timeit list_join(L)

1000 loops, best of 3: 323 µs per loop


# Chiffrement par permutation

### Principe

Au lieu de bêtement décaler chaque lettre, on choisit une bijection de l'alphabet dans lui même. Chaque lettre est transformée en une autre.

Pour ce qui est de la clé, sachez que l'on peut donner un numéro entre 1 et (len(alphabet))! à chaque bijection et donc se mettre d'accord facilement.

En pratique une bijection est représentée par une chaîne de caractère ou une liste possédant les même lettres que LETTRES mais dans le désordre

In [16]:
def permute(chaine, bijection):
    s = ''
    n = len(LETTRES)
    for c in chaine:
        s = s + bijection[indice(c)]
    return s

In [17]:
bij = list(LETTRES)
random.shuffle(bij);

In [18]:
permute('hello world', bij)

'imttozpo\ntu'

### Déchiffrement

Comment retrouver le message d'origine connaissant le message chiffré et la permutation ? Facile, il suffit de calculer la réciproque, c'est à dire trouver la position du caractère courant dans bijection.

In [19]:
def decode_permute(chiffre, bijection):
    s = ''
    n = len(LETTRES)
    for c in chiffre:
        s = s + LETTRES[bijection.index(c)]
    return s

In [20]:
decode_permute(permute('hello world', bij), bij)

'hello world'

### Cryptanalyse

Cette fois le nombre de clé est plutôt vaste : environ $3 \times 10^{29}$. Si on pouvait lire 1 000 000 de textes à la seconde (pour vérifier si c'est le bon), il faudrait quand même un million de milliard d'année pour arriver au bout...

Idée : la probabilité d'apparition des lettres dans un texte en français n'est pas du tout uniforme. On doit pouvoir identifier les voyelles et les consones courantes assez rapidement.

In [21]:
def frequence(chaine):
    """
    Calcule le nombre d'occurences de chaque lettre dans la chaine donnée.
    """
    occ = [ 0 for c in LETTRES]
    for c in chaine:
        i = indice(c)
        occ[i] = occ[i] + 1
    total = max(len(chaine), 1)
    for i in range(len(LETTRES)):
        occ[i] = 100 * occ[i] / total
    resultat = [(occ[i], LETTRES[i]) for i in range(len(LETTRES))]
    resultat.sort()
    return resultat

In [34]:
chiffre = permute(texte, bij);
frequence(chiffre)

[(0.018168133094552154, 'g'),
 (0.1064133509823769, 'l'),
 (0.13755872200160918, 'p'),
 (0.3062628150224506, 'k'),
 (0.461989670118612, 'q'),
 (0.4879441459679722, 'a'),
 (0.7682524851410626, ' '),
 (0.9006203119727997, 's'),
 (0.936956578161904, 'i'),
 (0.9447429209167121, 'b'),
 (1.0719198525785771, 'w'),
 (1.0874925380881932, 'h'),
 (1.289937449713203, 'v'),
 (2.291780217498508, 'y'),
 (2.6343792987100625, 'e'),
 (3.127514339847907, 'd'),
 (3.3325546990578525, 'u'),
 (3.9165304056684573, 'n'),
 (4.1579070310675075, 't'),
 (4.905395935529082, '\n'),
 (5.258376807080381, 'o'),
 (5.318072101533909, 'c'),
 (5.473798956630071, 'f'),
 (6.060370110825612, 'r'),
 (6.091515481844844, 'x'),
 (6.475641724415375, 'j'),
 (12.837083755093566, 'm'),
 (19.60082016143684, 'z')]

IL suffit maintenant d'aller sur wikipedia ou tout autre site pour trouver une table référence des fréquence de lettres dans les textes en français. On peut deviner plusieurs choses :
<ul>
<li>l'espace coreespond au 19%</li>
<li>le e doit correspondre à la lettrela plus fréquentez</li>
</ul>
Pour trouver des chiffres plus proches des tables données, il faut considérer des textes dans espaces. Allons-y

In [74]:
chiffre2 = chiffre.replace('z', '')
frequence(chiffre2)

[(0.0, 'z'),
 (0.022597410982341738, 'g'),
 (0.13235626432514447, 'l'),
 (0.171094683152016, 'p'),
 (0.3809277851309036, 'k'),
 (0.5746198792652614, 'q'),
 (0.6069018949543209, 'a'),
 (0.9555476643961649, ' '),
 (1.120185944410369, 's'),
 (1.1653807663750524, 'i'),
 (1.1750653710817704, 'b'),
 (1.3332472479581625, 'w'),
 (1.3526164573715982, 'h'),
 (1.6044161797462633, 'v'),
 (2.850501985343965, 'y'),
 (3.276624592439552, 'e'),
 (3.8899828905316847, 'd'),
 (4.145010814475256, 'u'),
 (4.871356167479098, 'n'),
 (5.171578913387352, 't'),
 (6.101300965232269, '\n'),
 (6.54033637860348, 'o'),
 (6.614585014688317, 'c'),
 (6.808277108822675, 'f'),
 (7.537850663395423, 'r'),
 (7.576589082222294, 'x'),
 (8.054362914420377, 'j'),
 (15.966684959808891, 'm')]

Les chiffres obtenus sont proches de ceux de la table de référence. Essayons de décrypter.

In [75]:
def echange(chaine, c1, c2):
    s = ''
    for c in chaine:
        if c == c1:
            s += c2
        elif c == c2:
            s += c1
        else:
            s += c
    return s

In [76]:
c2 = echange(chiffre, 'z', ' ');
c3 = echange(c2, 'm', 'e')
c3[:250]

'dzjior exj nr tcrbcbe ue d\nob\ncyycjfor owkej  yntjf dc\ncufbye ej yntjfdtcjeho\nyex  ft hcso\nfxe tc d\nob\ncyycjfor fyde\ncjfse xj\nnmjn\nee  hormjforrette ej o\nferjee owkej  ft exj uoje u nr jzdcbe uzrcyfane ho\nj  u nre bexjfor cnjoycjfane ue tc yeyof\ne dc'

In [77]:
frequence(c3.replace(' ',''))

[(0.0, ' '),
 (0.022597410982341738, 'g'),
 (0.13235626432514447, 'l'),
 (0.171094683152016, 'p'),
 (0.3809277851309036, 'k'),
 (0.5746198792652614, 'q'),
 (0.6069018949543209, 'a'),
 (0.9555476643961649, 'z'),
 (1.120185944410369, 's'),
 (1.1653807663750524, 'i'),
 (1.1750653710817704, 'b'),
 (1.3332472479581625, 'w'),
 (1.3526164573715982, 'h'),
 (1.6044161797462633, 'v'),
 (2.850501985343965, 'y'),
 (3.276624592439552, 'm'),
 (3.8899828905316847, 'd'),
 (4.145010814475256, 'u'),
 (4.871356167479098, 'n'),
 (5.171578913387352, 't'),
 (6.101300965232269, '\n'),
 (6.54033637860348, 'o'),
 (6.614585014688317, 'c'),
 (6.808277108822675, 'f'),
 (7.537850663395423, 'r'),
 (7.576589082222294, 'x'),
 (8.054362914420377, 'j'),
 (15.966684959808891, 'e')]

In [78]:
c3[:250]

'dzjior exj nr tcrbcbe ue d\nob\ncyycjfor owkej  yntjf dc\ncufbye ej yntjfdtcjeho\nyex  ft hcso\nfxe tc d\nob\ncyycjfor fyde\ncjfse xj\nnmjn\nee  hormjforrette ej o\nferjee owkej  ft exj uoje u nr jzdcbe uzrcyfane ho\nj  u nre bexjfor cnjoycjfane ue tc yeyof\ne dc'

Le deuxième mot est très certainement "est" qui nous donne deux autres lettres.

In [79]:
c3.count("exj")

102

In [80]:
c4 = echange(echange(c3, 'x', 's'), 'j', 't'); c4[:250]

'dztior est nr jcrbcbe ue d\nob\ncyyctfor owket  ynjtf dc\ncufbye et ynjtfdjcteho\nyes  fj hcxo\nfse jc d\nob\ncyyctfor fyde\nctfxe st\nnmtn\nee  hormtforrejje et o\nfertee owket  fj est uote u nr tzdcbe uzrcyfane ho\nt  u nre bestfor cntoyctfane ue jc yeyof\ne dc'

In [81]:
frequence(c4.replace(' ', ''))

[(0.0, ' '),
 (0.022597410982341738, 'g'),
 (0.13235626432514447, 'l'),
 (0.171094683152016, 'p'),
 (0.3809277851309036, 'k'),
 (0.5746198792652614, 'q'),
 (0.6069018949543209, 'a'),
 (0.9555476643961649, 'z'),
 (1.120185944410369, 'x'),
 (1.1653807663750524, 'i'),
 (1.1750653710817704, 'b'),
 (1.3332472479581625, 'w'),
 (1.3526164573715982, 'h'),
 (1.6044161797462633, 'v'),
 (2.850501985343965, 'y'),
 (3.276624592439552, 'm'),
 (3.8899828905316847, 'd'),
 (4.145010814475256, 'u'),
 (4.871356167479098, 'n'),
 (5.171578913387352, 'j'),
 (6.101300965232269, '\n'),
 (6.54033637860348, 'o'),
 (6.614585014688317, 'c'),
 (6.808277108822675, 'f'),
 (7.537850663395423, 'r'),
 (7.576589082222294, 's'),
 (8.054362914420377, 't'),
 (15.966684959808891, 'e')]

Prochaine étape, utiliser les espaces de manière plus systématiques, pour réutiliser l'idée précédente. Par exemple, trouver les mots de longueur 1 et 2.

In [82]:
mots = c4.split()
long_1 = [m for m in mots if len(m)== 1]
long_2 = [m for m in mots if len(m) == 2]
mots_2 = set() #ensemble : ne peut pas contenir deux fois le même élément
for m in long_2:
    mots_2.add((m, long_2.count(m)))
mots_2, frequence(long_1)

({('an', 13),
  ('at', 2),
  ('bc', 3),
  ('be', 6),
  ('bs', 2),
  ('cd', 4),
  ('cf', 2),
  ('cj', 2),
  ('cn', 23),
  ('cs', 6),
  ('cu', 1),
  ('cv', 2),
  ('cx', 3),
  ('dc', 70),
  ('de', 26),
  ('df', 1),
  ('dn', 1),
  ('do', 5),
  ('ds', 1),
  ('dz', 4),
  ('ed', 10),
  ('ee', 12),
  ('em', 12),
  ('en', 6),
  ('ep', 1),
  ('eq', 2),
  ('er', 80),
  ('es', 64),
  ('et', 138),
  ('ev', 3),
  ('fd', 1),
  ('fe', 6),
  ('fh', 4),
  ('fj', 43),
  ('fo', 2),
  ('fr', 8),
  ('fs', 3),
  ('ft', 2),
  ('fv', 1),
  ('hf', 1),
  ('ho', 30),
  ('ie', 10),
  ('jc', 124),
  ('je', 82),
  ('jf', 1),
  ('jo', 5),
  ('jt', 1),
  ('ju', 2),
  ('lp', 2),
  ('ls', 1),
  ('mc', 19),
  ('md', 1),
  ('me', 16),
  ('mo', 7),
  ('mq', 1),
  ('mr', 7),
  ('ne', 4),
  ('nf', 1),
  ('nr', 88),
  ('ns', 1),
  ('nx', 1),
  ('ny', 3),
  ('ob', 26),
  ('od', 8),
  ('on', 48),
  ('op', 1),
  ('or', 12),
  ('os', 4),
  ('ot', 1),
  ('oy', 3),
  ('pc', 1),
  ('pe', 1),
  ('po', 2),
  ('re', 15),
  ('rf', 2),
 

Le but est de trouver a, l, d qui sont très commun en mots d'une lettre comme en mot de deux ("l'", "d'", "la", "le"...)

Le a pourraît être transformé en c (voir les fréquences). On remarque alors "ja" et "je" comme mots de deux lettres communs. Dans ce cas le j serait en fait l dans le texte original. Le u semble alors être le d (le mot "de" est très fréquent)
    

In [83]:
c5 = echange(echange(c4, 'c', 'a'), 'j', 'l')
c5[:250]

'dztior est nr larbabe ue d\nob\nayyatfor owket  ynltf da\naufbye et ynltfdlateho\nyes  fl haxo\nfse la d\nob\nayyatfor fyde\natfxe st\nnmtn\nee  hormtforrelle et o\nfertee owket  fl est uote u nr tzdabe uzrayfcne ho\nt  u nre bestfor antoyatfcne ue la yeyof\ne da'

In [84]:
c5 = echange(c5, "d", "u")
c5[:250]

'uztior est nr larbabe de u\nob\nayyatfor owket  ynltf ua\nadfbye et ynltfulateho\nyes  fl haxo\nfse la u\nob\nayyatfor fyue\natfxe st\nnmtn\nee  hormtforrelle et o\nfertee owket  fl est dote d nr tzuabe dzrayfcne ho\nt  d nre bestfor antoyatfcne de la yeyof\ne ua'

On voit "d nr" et "d nre" qui ressemblent à "d un" et "d une" (on a déjà retrouvé le "e").

On a ainsi décodé deux autres lettres, le u et le n.

In [85]:
c6 = echange(c5, 'n', 'u')
c6 = echange(c6, "r", "n")
c6[:300]

'rztion est un lanbabe de r\nob\nayyatfon owket  yultf ra\nadfbye et yultfrlateho\nyes  fl haxo\nfse la r\nob\nayyatfon fyre\natfxe st\numtu\nee  honmtfonnelle et o\nfentee owket  fl est dote d un tzrabe dznayfcue ho\nt  d une bestfon autoyatfcue de la yeyof\ne ra\n \nayasse yfettes et d un szsteye de bestfon d eqm'

In [86]:
frequence(c6.replace(' ', ''))

[(0.0, ' '),
 (0.022597410982341738, 'g'),
 (0.13235626432514447, 'j'),
 (0.171094683152016, 'p'),
 (0.3809277851309036, 'k'),
 (0.5746198792652614, 'q'),
 (0.6069018949543209, 'c'),
 (0.9555476643961649, 'z'),
 (1.120185944410369, 'x'),
 (1.1653807663750524, 'i'),
 (1.1750653710817704, 'b'),
 (1.3332472479581625, 'w'),
 (1.3526164573715982, 'h'),
 (1.6044161797462633, 'v'),
 (2.850501985343965, 'y'),
 (3.276624592439552, 'm'),
 (3.8899828905316847, 'r'),
 (4.145010814475256, 'd'),
 (4.871356167479098, 'u'),
 (5.171578913387352, 'l'),
 (6.101300965232269, '\n'),
 (6.54033637860348, 'o'),
 (6.614585014688317, 'a'),
 (6.808277108822675, 'f'),
 (7.537850663395423, 'n'),
 (7.576589082222294, 's'),
 (8.054362914420377, 't'),
 (15.966684959808891, 'e')]

Certain mots sont preques décodés. On trouve ainsi b=g grâce à "lanbabe" et f=i grâce aux fréquences et "fl"

In [87]:
c7 = echange(echange(c6, 'b', 'g'), 'f', 'i')
c7[:500]

'rztfon est un langage de r\nog\nayyation owket  yulti ra\nadigye et yultirlateho\nyes  il haxo\nise la r\nog\nayyation iyre\natixe st\numtu\nee  honmtionnelle et o\nientee owket  il est dote d un tzrage dznayicue ho\nt  d une gestion autoyaticue de la yeyoi\ne ra\n \nayasse yiettes et d un szsteye de gestion d eqmertions   il est ainsi siyilai\ne a re\nl  \nuwz  smfeye  syalltalj et tml vvle langage rztfon est rlame sous une limenme liw\ne r\nomfe de la limenme wsd  et honmtionne su\n la rlura\nt des rlates ho\nyes in'

La décodage allant, on commence à comprendre le sens et pouvoir déchiffrer plus facilement. Par exemple on voit y=m.

Pour faciliter la lecture, il faudrait afficher différemment les lettres déjà trouvées. On y est presque. Le reste en exercice.