# TP 4 - Un peu de cryptanalyse

In [None]:
from OutilsCrypto import *

Nous allons étudier dans ce TP quelques attaques possibles contre les algorithmes symmétriques étudiés lors des TP 2 et 3.

## 1. Attaque par dictionnaire

Une première idée est d'utiliser la force brute pour déchiffrer le massage avec toutes les clés possibles. Si le calcul n'est en général pas si long avec les algorithmes que nous avons étudiés, il reste le problème de détecter le bon message parmi le grand nombre de sorties obtenues.

La solution que nous allons étudier ici est de détecter dans chaque tentative de déchiffrement la probabilité que le message obtenu soit du texte en langue française. Pour celà, nous allons créer un arbre modélisant l'ensemble des mots d'un dictionnaire, puis nous allons calculer <b>l'incidence</b> d'une phrase comme le nombre de mots du dictionnaire qu'elle contient en parcourant cet arbre.

Par exemple, la chaîne de caractère "cetexteestlisible" contient les mots "ce" "texte" "est" "lisible" mais aussi d'autres mots comme "cet" "es" "ete" etc. Une chaîne qui n'aurait aucun sens comme "zklfhibfealoejdf" contiendra a priori moins de mots du dictionnaire. Ce sera particulièrement vrai sur des textes plus longs.

In [None]:
#Création d'un arbre représentant le dictionnaire

def MonDico() :

    Racine=dict()

    def constructBranche(mot):
        Arbre = Racine;
        for c in mot:
            #Si le cara c n'existe pas on le crée (permet en plus de gérer les répétitions éventuelles)
            if not (c in Arbre):
                Arbre[c] = dict()
                Arbre[c]['FINMOT']=False
            #On avance dans l'arbre
            Arbre = Arbre[c]
        #Arrivé à la fin on marque que le mot est fini
        Arbre["FINMOT"] = True

    dico = "Dictionnaires/DictionnaireFR.txt"

    with open(dico, "r", encoding='utf8') as f :
        for ligne in f.readlines() :
            constructBranche(Filtre(ligne.strip()))
    return Racine

#Calcul la pertinence d'une phrase avec l'arbre
def pertinence(phrase, arbre) :
    pert=0
    n=len(phrase)
    for i in range(n) :
        test=True
        positionDico=arbre
        for j in range(i, n) :
            cara=phrase[j]
            try : x=positionDico[cara]
            except : break
            if(x['FINMOT']) :
                pert+=1
            positionDico=x
    return pert

Afin de tester ces algorithmes, commencez par charger le dictionnaire que nous allons utiliser en exéutant le bloc suivant. Si vous ne l'avez pas fait lors du TP4, vous prendrez le soin auparavant de créer sur votre espace personnel sur le serveur Salazar un répertoire nommé <b>Dictionnaires</b> et d'y placer le fichier <b>DictionnaireFR.txt</b> que vous récupérerez sur UMTICE et qui contient 336531 mots de la langue française.

In [None]:
DICO_FR = MonDico()

Nous pouvons désormais calculer la pertinence d'une phrase dans ce dictionnaire comme dans le bloc suivant.

In [None]:
pertinence("jevoussouhaiteunebonneanneetousmesvoeuxdereussite",DICO_FR)

52

<b>Exercice 1.</b> Utiliser cette fonction pour écrire la fonction <code>attaqueCesar(message)</code> qui décrypte <code>message</code> par force brute et retourne le déchiffrement qui a la meilleure <code>pertinence</code>. Vous afficherez le nombre de mots testés ainsi que le temps mis par l'algorithme.

In [None]:
from datetime import datetime

def attaqueCesar(message):
    t0 = datetime.now()	# l'heure à l'instant présent
    n = 0 # pour compter le nombre de clés testées

    # à compléter

    print("{} clé(s) ont étés testées en {} seconde(s),".format(n, (datetime.now()-t0).total_seconds()))


Tester votre algorithme en exécutant le bloc suivant.

In [None]:
print(attaqueCesar("PRFGDHNAQZRZRCNFGREEVOYRYRPUVSSERZRAGQRPRFNE"))

<b>Exercice 2.</b> De la même façon, écrire la fonction <code>attaqueAffine(message)</code> qui décrypte <code>message</code> par force brute et retourne le déchiffrement qui a la meilleure <code>pertinence</code>. Vous afficherez le nombre de mots testés ainsi que le temps mis par l'algorithme.

In [None]:
def attaqueAffine(message):
    t0 = datetime.now()	# l'heure à l'instant présent
    n = 0 # pour compter le nombre de clés testées

    # à compléter

    print("{} clé(s) ont étés testées en {} seconde(s),".format(n, (datetime.now()-t0).total_seconds()))


In [None]:
attaqueAffine("ntjmahjkthpnxparftpyotncfwwgtrtumhwwfut")

## 2. Indice de coincidence

### 2.1 Un problème de taille...

Attaquons nous maintenant au chiffrement de Vigenère. Si la clé est de taille $k$, il y aura $26^k$ clés à tester, et comme on ne connaît pas la taille $k$, il faut tester $26+26^2+26^3+\dots$ clés, ce qui commence à faire beaucoup !

De plus, si la taille de la clé est proche de la taille du message, on se rapproche d'un chiffrement de Vernam pour lequel il y a de nombreux déchiffrements dont la pertinence sera élevée, y compris des mauvais déchiffrements !

<b>Exercice 3.</b> Écrire la fonction <code>attaqueVigenere(message)</code> qui décrypte le texte <code>message</code> par force brute en essayant toutes les clés de taille inférieure ou égale à la taille de <code>message</code>. Vous afficherez le nombre de mots testés ainsi que le temps mis par l'algorithme.

In [None]:
# Aide : le code suivant permet d'afficher tous les mots de longueur k sur l'alphabet a, b, ..., z
import string
import itertools

alphabet = list('abcdefghijklmnopqrstuvwxyz')
k = 2
for word in itertools.product(alphabet, repeat=k):
    word = (''.join(word))
    print(word)


In [None]:
def attaqueVigenere(message):
    t0 = datetime.now()	# l'heure à l'instant présent
    n = 0

    # à compléter

    print("{} mot(s) ont étés testés en {} seconde(s),".format(n, (datetime.now()-t0).total_seconds()))


Tester votre fonction en exécutant le bloc suivant.

In [None]:
texte_chiffre = chiffreVigenere("test","cle")
print("Le chiffrement de Vigenere du message 'test' avec la clé 'cle' est 'vpwv'")
texte_decrypte = attaqueVigenere('vpwv')
print("Le résultat de l'attaque est : ", texte_decrypte)

Que constatez-vous ? Expliquer pourquoi ça ne fonctionne pas.

<div style="background-color:rgba(0, 255, 0, 0.19);padding:3%;">
<b>Réponse : </b>
</div>

Bien entendu, on peut limiter la taille des clés à tester. Écrire la fonction <code>attaqueVigenere(message, maxSize)</code> qui décrypte le texte <code>message</code> par force brute en essayant toutes les clés de taille inférieure ou égale à <code>maxSize</code>.

In [None]:
import string
import itertools

def attaqueVigenere(message,maxSize):
    t0 = datetime.now()	# l'heure à l'instant présent
    n = 0

    # à compléter

    print("{} mot(s) ont étés testés en {} seconde(s),".format(n, (datetime.now()-t0).total_seconds()))


Tester votre fonction en exécutant le bloc suivant.

In [None]:
attaqueVigenere('lzcgfbpzinlxqfwwyidzrppepyigpxwyidzrppwcyxg',3)

### 2.2 Trouver la taille de la clé

L'<b>indice de coïncidence</b> est une technique de cryptanalyse inventée par William F. Friedman en 1920 et améliorée par  Solomon Kullback.

L'indice permet de savoir si un texte a été chiffré avec un chiffrement mono-alphabétique (de type César ou affine) ou un chiffrement poly-alphabétique (comme Vigenère) en étudiant la probabilité de répétition des lettres du message chiffré. Il donne également une indication sur la longueur de la clé probable.

L'indice se calcule avec la formule suivante :
$$
IC = \sum _{{q=A}}^{{q=Z}}{\frac  {n_{{q}}(n_{{q}}-1)}{n(n-1)}}
$$
avec $n$ le nombre de lettres total du message, $n_{A}$ le nombre de $A$, $n_{B}$ le nombre de $B$, etc.

En français, l'indice de coïncidence vaut environ 0,0746. Dans le cas de lettres uniformément distribuées (contenu aléatoire sans biais), l'indice se monte à 0,0385. L'indice ne varie pas si une substitution monoalphabétique des lettres a été opérée au préalable, c’est-à-dire que si l'on remplace par exemple 'a' par 'z' et 'z' par 'a', l'indice ne changera pas.

<b>Exercice 4.</b> Écrire la fonction <code>ic(texte)</code> qui calcule l'indice de coïncidence de <code>texte</code>.

In [None]:
def ic(texte):
    # à compléter

Tester votre fonction en exécutant le bloc suivant.

In [None]:
texte = "Quarante-deux ! cria Loonquawl. Et c est tout ce que t'as à nous montrer au bout de sept millions et demi d'années de boulot ? J'ai vérifié très soigneusement, dit l'ordinateur, et c'est incontestablement la réponse exacte. Je crois que le problème, pour être tout à fait franc avec vous, est que vous n'avez jamais vraiment bien saisi la question."
texte = Filtre(texte)
print(ic(texte))
print(ic(chiffreCesar(texte,3)))
print(ic(chiffreAffine(texte,3,7)))
print(ic(chiffreVigenere(texte,"cle")))

Analysez les résultats obtenus.

<div style="background-color:rgba(0, 255, 0, 0.19);padding:3%;">
<b>Réponse : </b>
</div>

Regardons désormais comment l'indice de coïncidence peut nous donner des indices sur la taille de la clé en cas de chiffrement par la méthode de Vigenère.

In [None]:
texte_chiffre_vigenere = chiffreVigenere(texte,"cle")

print([ic(texte_chiffre_vigenere[i::1]) for i in range(1)])
print([ic(texte_chiffre_vigenere[i::2]) for i in range(2)])
print([ic(texte_chiffre_vigenere[i::3]) for i in range(3)])
print([ic(texte_chiffre_vigenere[i::4]) for i in range(4)])
print([ic(texte_chiffre_vigenere[i::5]) for i in range(5)])

Comment peut-on déduire de ces calculs la taille de la clé ?

<div style="background-color:rgba(0, 255, 0, 0.19);padding:3%;">
<b>Réponse : </b>
</div>

## 3. Attaque fréquentielle

Une fois qu'on connaît la taille de la clé, il pourrait être envisageable de décrypter avec une attaque par force brute, mais il est aussi possible de faire une attaque fréquentielle.

En effet, le calcul de l'indice de coïncidence, proche de $0,075$, nous indique la longueur de la clé, mais aussi que le texte semble bien rédigé en français. Si le texte est assez long et la clé de taille raisonnable, l'idée est de considérer séparément les chaînes de caractères obtenues en prenant les lettres qui ont subi le même décalage, puis de chercher la taille de ce décalage en cherchant la lettre la plus fréquente et en supposant que cette lettre est obtenue en chiffrant la lattre $E$ (la plus fréquente dans la langue française).

<b>Exercice 5.</b> Écrire la fonction <code>freq(txt)</code> qui calcule la fréquence des lettres de l'alphabet a..z dans le texte <code>txt</code>. Elle doit renvoyer un tableau contenant ces fréquences.

In [None]:
def freq(txt):
    # à compléter

Tester votre fonction en exécutant le bloc suivant.

In [None]:
freq("alphabet") # doit renvoyer [2, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0]

Écrire la fonction <code>maxFreq(txt)</code> qui renvoie la position de la lettre la plus fréquente dans le texte <code>txt</code> (0 pour a, 1 pour b, etc.)
S'il y a plusieurs lettres ayant cette fréquence d'apparition, la fonction en renvoie une seule.

In [None]:
def maxFreq(txt):
    # à compléter

Tester votre fonction en exécutant le bloc suivant.

In [None]:
maxFreq("ephemeride") # doit renvoyer 4 car la lettre e est la plus fréquente et elle en position 4 dans l'alphabet

Écrire la fonction <code>attaqueFreqVigenere(txt,lg)</code> qui décrypte le texte <code>txt</code> chiffré par le chiffrement de Vigenère avec une clé de longueur <code>lg</code>.

In [None]:
def attaqueFreqVigenere(txt,lg):
    # à compléter

Tester votre fonction en exécutant le bloc suivant.

In [None]:
texte = "Quarante-deux ! cria Loonquawl. Et c'est tout ce que t'as à nous montrer au bout de sept millions et demi d'années de boulot ? J'ai vérifié très soigneusement, dit l'ordinateur, et c'est incontestablement la réponse exacte. Je crois que le problème, pour être tout à fait franc avec vous, est que vous n'avez jamais vraiment bien saisi la question."
texte = Filtre(texte)
texte_chiffre_vigenere = chiffreVigenere(texte,"bcd")
print(attaqueFreqVigenere(texte_chiffre_vigenere,3))

<b>Exercice 6.</b> Vérifions si vous avez compris ! J'ai chiffré un passage d'un livre à l'aide la méthode de Vigenère, avec une clé de longueur inférieure à 10. Voici ce que j'ai obtenu :
aalwvvarfwbxsjgvhschgaseqjzxgrwgmgzxpcwvqgohdlwjcipycjgrhoywsjzvocyvdcijpcffsjelqzppwvzwuzeusisefrlqgdceocpxftcdysfqsfbuqflifrwttwdvoehvvodswiozewyvhzbtfwghavbkpsdosssioslxosczdslyckfvecfuqvdcgglqqzsezsbxscsjazplzvhaqqzqhzblqsyfcisuqtzxzvfcqdlujzgjmqchrvjfffpwsddcqgzosebvxazlzvdcggqlrvzvpsgrgzbzfwpvwcmrhotwrljrsipgoegdabpvdiwkgbuhbvgrugbxczsgmwdfcdavpswdtlavqallgasjggquoeqyufchzzuzqidhavbkxsdgsxfveeflavbvzhlyckfvmiehzvhmaiddjvnttodvstsmawwhcsgtgfnradscqjpqhtvregposuoduscyclgrhskpwjocmdwdqvieqtcrwusldsifsjgzhsfqsgflpsyfstceecxpsvskgbpocxwhgstpdcotmpwhocozpsohjfhiqzllhwcifwqloehdabtqhvzcuupqqvgvehcddzrvysywrvjvxcassvskmdclgusjbfzscihzabdladseesddidwcusfgstskfsnooihvdoglgjoefsorbkjfggqdwksjbfpvsehrhsnsffrzsowlhvotqiitizjfggllavbkpofqgzbtqfpdafiimftwvdskuefhocuvnfpjsfavffthhiweuhpjfrbuucdhhiwrzuwhzlazzsfaqvzlueflbvjfgglsojqfzbfhgvgkgbtqgvbjqwwpsiwkqfllhcsgdsfysusjbzfvuioepgdxdcwtqgndfzzpmrfpsgfzeoghixzvpoyvgfbzzgzxqzoeostjbffrzhppozgtqzflelwmaidfcebruhpwjfijmdaustwvzsghikdcggclservepthbjrvxoehfisjqqzqhvbkqrpycjxfgwdvoeqvealjwhivesescihveicycjozxsdvcdpiqgyhrvgzdsaoijelqrpvscsmqfoxbmccxsrhfvbtabdwflwjmbexbvvvxwnhojqvzrlqhvjvdgwdjfikqgaksiwhgsohgtwvglwdhvfiqbpoizafzhchelsuqgtozlgzabdhhusjroywojarscclsjafdowhgdozejzxgfarfvppokwhgsdfceqzesdsoizvzqsdwesdqbeuwxcldsfarvjfedcrdfgzfwzqgksemqpvskzrocyvhrbtqrpycjzfugohtvfmaidiozhvezflfvoljmpxlvpcaitviefvrzpwdlwjeoywrvqvfhpysiwkqgfsfvavpcywcefvyoctivzvydchwehvpoyvzffudsohzlbzhscvavftudzxfcsjescywtsjubyrasfrnzpvelsmaidpomsqdsygijavdqtsclfcqgbxocwkqgpwfrbxqfpvrfbkhcfvomsqqbclqywdabtqhvzcuupqqvgrzggrijrrzgxdzlhkqqzqhisctcxpsaoldotvdvikqhchsksmmwyfijoeejzxgzzdmicdwktruhcricsipoyvzvgrnzphhvasdodvsizrbcfvgzsiqrpvsjdzqrdvoegmaiddjvqlzsruwwtvbsciwuszxofuozhcmpzxfvarovllfvhdqgzvarwjvsxhglwjfsyxglfdqgrdfusjocxpslbrfvwhhvsobsclavbkqjzxgdsuabydhvgcmtcrwusldeflglfxuhohjfgtabnhdkwfzgdxpcwdqgpasddkqgohdrgjucymsdseescywjdfgfchxvhvdoghqusumwyosjxfgwdvoeqvesaksdsiqgohafbtaicwjfmrsspwdfiidsyycpsipsxddffkqzpvcwtiqgdbagoktwbxsjarugeucddvggpvrvavegpppcosxsdyclgdqrzqbrhvezlsflrvzqprdzbzmhchelcepsnkwwtiqonkohivbodgoegmagxhhycuqglgazfrnzpvrvzrzowbgvrvxodbbkvvespwzrrvpinwwfbaqapqgvfmugariirvdcfwsizveffvsjdvdbtfwvijqgohafbvzbppwdcifswsclfcmhedelsimazqhfiimjpfoufvegphhgzfzupurrbjxsdywjqvdsdgscvfyapxbgczsblurrwxgeflfvgkqfldxrarugpqtfbtqrlqgjceoccsgtoiosdwiessxsdviisuabelzesjqfposmsimdlvjfijysorbeokqgwdzfuzciptizsjfqzpavzryspozvavysohjfgvzgpluesdqbevdcszzgohgruvegpdjvqjqgdbzccxugxhgucefzpoosmiubekstcdbzttivbvzsdwelsgxidfcddiqvpqgzpcqazqwehvxztjseqvesywwkgroqcrwkfvpioriszvesdiciqveofgotwvggpvocozpsohqvhrgltowrwiqhpufzpcqxpgstclhftvrrbjxvfpoewkqsyqoxsrzhghfjzveplvtfbuesyiotsuqzpfivwcpswdvrweqzlpstvrzqpwseczdspwvzrvggptizqiaialgjozfofpwcwvgrpvazojysdgscskqfpvsegrpatuoehcqbzppiwcxsausdwvdxpgstclhftvrrbjxsdwsessdsdgsjsjqbeuozzcqgnhjzqvzsqdgkscqalogldvdwpxfvbcgwlxpzsemjpfqvhkqocpsvagawdrbesvcipyclgdqdchhrhvexpiwjrveqpqrisuqgzqdzsuqgedztceehcxwkdrdzlootvvfsohzycdyswhqisrfsfuzlwdqaplzxfzzqlgsjrvzhdhhjisuhnhhkszzxfuszueaatqwvijqqluwcommwesclfrpjpugrwiqefhzhilzrpszlgwafetivzluallgascqzllgjsimwohqfhvocxpslbgmefhhuswuqpozvgrrwygosozegpuafbmazwhdvbjqicgsjqrdhpvtrwjmwexbvtfugnhhksiqtwhlzcecipuwvbuqgzowusemjllhvhvnoelglfmaidfskozfiyharbzqfplbxseusfvsuswmwchqfagdsygfvelqzpsfvazqfghblbvbcfyozhjgfwhqfigpsnrimfzdjzwfvjrxsfuwesjfwxdpcsvzsqiskelawohdcijecwlrvelqzpvhiczeefdzzhvedclbtwgmzpvrvxrzcxpsvghgwdhzvjvzhpqhiscmqphgtcdysfqstcldcyqslbzcipviizvycxhbkolsidwsusmahchoiqyuhpfhlfvocwrgjocqazqidsefefluioepwevoegtqgdhrvrvocfysihvcizwwuwvzbpvrrbjhcdpwesjpsolodoefsegsodcaflwwfbjeqthbkwwuefhguoeejzvgldvdppvrfarubpvcdoktsxdhzelqgddwehvedflgjwvljzxggoihceustcdyscfsgsibsexscqfzgzosizvdsdwsusdqguriiguqzlpstvrzqpwsusctcxpsvhuqztqxlgkuqpgixfrzrerik

Trouver la longueur de la clé que j'ai utilisée puis décrypter le passage à l'aide d'une attaque fréquentielle.
Inscrivez ensuite dans le bloc ci-dessous le nom de l'auteur et le titre du livre dont le passage est tiré.

In [None]:
# à compléter : recherche de la taille de la clé

In [None]:
# à compléter : attaque fréquentielle

<div style="background-color:rgba(0, 255, 0, 0.19);padding:3%;">
<b>Réponse : </b>
</div>