Chiffrement de Vigenère
=======================


Réouvrir la page principale
---------------------------

[Cliquer ici](../main.ipynb)


À vous de jouer : coder et décoder quand on connaît la clé
----------------------------------------------------------

### Contraintes à suivre

Redonnons les contraintes qui étaient imposées par l'énoncé.

1. Il faut construire le tableau de Vigenère sous forme d'un dictionnaire `TABLE_VIGENERE` dont les clés sont les lettres nommant les lignes, et les valeurs des dictionnaires similaires à ceux utilisés pour le chiffrement de César. L'idée est de pouvoir utiliser `TABLE_VIGENERE["l"]["c"]` pour obtenir la valeur `"n"` qui traduit le fait que la ligne nommée **"l"** code le **"c"** en **"n"**. 

1. Il faut utiliser ensuite le dictionnaire à deux niveaux `TABLE_VIGENERE` pour coder le texte contenu dans la variable `texte` en utilisant la clé donné par la variable `cle`.

1. Pour finir, on doit décoder le texte codé afin de vérifier que le programme ne fait pas n'importe quoi.


**Remarque :** l'utilisation d'une table comme ici peut être intéressante pour éviter de répéter de faire plusieurs fois les mêmes calculs. On occupe plus de mémoire mais on économise du temps de calcul.


### Version 1 : sans accent

Dans le code suivant notez l'utilisation de la méthode `find` des variables de type `str` qui permet ici de récupérer la position d'une lettre dans l'alphabet.

In [None]:
# ----------------------- #
# -- TABLE DE VIGENÈRE -- #
# ----------------------- #

ALPHABET        = "abcdefghijklmnopqrstuvwxyz"
TAILLE_ALPHABET = len(ALPHABET)

TABLE_VIGENERE = {}

for decalage in range(TAILLE_ALPHABET):
    lettre_codante   = ALPHABET[decalage]
    alphabet_associe = ALPHABET[decalage:] + ALPHABET[:decalage]
    codage_associe   = {}

    for i in range(TAILLE_ALPHABET):
        lettre_claire = ALPHABET[i]
        lettre_codee  = alphabet_associe[i]

        codage_associe[lettre_claire] = lettre_codee

    TABLE_VIGENERE[lettre_codante] = codage_associe


# ------------ #
# -- CODAGE -- #
# ------------ #

def code(texte, cle):
    """
Cette fonction code un texte en utilisant le chiffrement de Vigenère
avec la clé donnée.
    """
    global TABLE_VIGENERE
    
    texte      = texte.lower()
    texte_code = ""

    for position, cara in enumerate(texte):
        position_cle   = position % len(cle)
        lettre_codante = cle[position_cle]
        texte_code    += TABLE_VIGENERE[lettre_codante][cara]

    return texte_code


# -------------- #
# -- DÉCODAGE -- #
# -------------- #

def decode(texte, cle):
    """
Cette fonction décode un texte codé via le chiffrement de Vigenère
avec la clé donnée.
    """    
    # L'idée est simple : on appelle code avec la clé "inverse".
    # Par exemple, la clé inverse de "abcde" est "azyxw".

    global ALPHABET, TAILLE_ALPHABET

    cle_inverse = ""

    for cara in cle:
        position         = ALPHABET.find(cara)
        position_inverse = (TAILLE_ALPHABET - position) % TAILLE_ALPHABET
        
        cle_inverse += ALPHABET[position_inverse]
    
    return code(texte, cle_inverse)        


# ----------------- #
# -- APPLICATION -- #
# ----------------- #

texte = "cestlemomentdetester"
cle   = "lebeautemps"

texte_code   = code(texte, cle)
texte_decode = decode(texte_code, cle)

print("Clé           :", cle)
print("Texte initial :", texte)
print("Texte codé    :", texte_code)
print("Texte décodé  :", texte_decode)

### Version 2 : gestion des accents et de certains caractères spéciaux

Rien de neuf ici au regard des corrections des exercices précédents.

In [None]:
# --------------- #
# -- NETTOYAGE -- #
# --------------- #

ASCII_VERS_SPECIAL = {
# \n désigne un retour à la ligne.
# \" permet d'indiquer le caractère " à l'intérieur de 
# deux guillemets "...".
    '' : "-,.’'\" \n",
    'a':"àâä",
    'c': "ç",
    'e': "èéêë",
    'i': "îï",
    'o': "ôö",
    'u': "ùûü"
}

SPECIAL_VERS_ASCII = {}

# Parcours des clés et et de leur valeur de ASCII_VERS_SPECIAL.
for cara_ascii, cara_speciaux in ASCII_VERS_SPECIAL.items():
    # Parcours supplémentaire des caractères de lettres_speciales. 
    for un_cara_special in cara_speciaux:
        SPECIAL_VERS_ASCII[un_cara_special] = cara_ascii


def nettoie_texte(texte):
    """
Cette fonction "nettoie" un texte pour en obtenir une version
ASCII sans espace, ni retour à la ligne.
    """
    global SPECIAL_VERS_ASCII
    
    texte = texte.strip()
    texte = texte.lower()

    texte_propre = ""
    
    for cara in texte:
        if cara in SPECIAL_VERS_ASCII:
            texte_propre += SPECIAL_VERS_ASCII[cara]
        else:
            texte_propre += cara
        
    return texte_propre


# ----------------------- #
# -- TABLE DE VIGENÈRE -- #
# ----------------------- #

ALPHABET        = "abcdefghijklmnopqrstuvwxyz"
TAILLE_ALPHABET = len(ALPHABET)

TABLE_VIGENERE = {}

for decalage in range(TAILLE_ALPHABET):
    lettre_codante   = ALPHABET[decalage]
    alphabet_associe = ALPHABET[decalage:] + ALPHABET[:decalage]
    codage_associe   = {}

    for i in range(TAILLE_ALPHABET):
        lettre_claire = ALPHABET[i]
        lettre_codee  = alphabet_associe[i]

        codage_associe[lettre_claire] = lettre_codee

    TABLE_VIGENERE[lettre_codante] = codage_associe


# ------------ #
# -- CODAGE -- #
# ------------ #

def code(texte, cle):
    """
Cette fonction code un texte en utilisant le chiffrement de Vigenère
avec la clé donnée.
    """
    global TABLE_VIGENERE
    
    texte      = nettoie_texte(texte)
    texte_code = ""

    for position, cara in enumerate(texte):
        position_cle   = position % len(cle)
        lettre_codante = cle[position_cle]
        texte_code    += TABLE_VIGENERE[lettre_codante][cara]

    return texte_code


# -------------- #
# -- DÉCODAGE -- #
# -------------- #

def decode(texte, cle):
    """
Cette fonction décode un texte codé via le chiffrement de Vigenère
avec la clé donnée.
    """    
    # L'idée est simple : on appelle code avec la clé "inverse".
    # Par exemple, la clé inverse de "abcde" est "azyxw".

    global ALPHABET, TAILLE_ALPHABET

    cle_inverse = ""

    for cara in cle:
        position         = ALPHABET.find(cara)
        position_inverse = (TAILLE_ALPHABET - position) % TAILLE_ALPHABET
        
        cle_inverse += ALPHABET[position_inverse]
    
    return code(texte, cle_inverse)


# ----------------- #
# -- APPLICATION -- #
# ----------------- #

cle = "biographie"

# Le texte suivant a été copié-collé sur Wikipédia en septembre 2015. 
texte = """
Blaise de Vigenère était un diplomate, cryptographe, traducteur, alchimiste et
astrologue français.
Il était de famille noble et connue. Son père, Jean, contrôleur ordinaire des guerres,
lui fit donner une éducation classique très poussée, l’envoyant pour cela à Paris.
L’adolescent en profita avec zèle. Avide de connaissances, il étudiait encore à l'âge mûr,
et eut comme maîtres, pour le grec et l’hébreu, Turnèbe et Dorat.
Il connut une existence très mouvementée. Encore tout jeune, il accompagna l’envoyé de
France, Louis Adhémar de Grignan, à la diète de Worms. Puis, pendant plusieurs années,
il voyagea pour son compte, parcourant en particulier l’Allemagne et la Hollande.
Il devint ensuite, à vingt-quatre ans, secrétaire du duc de Nevers, charge qu’il conserva
jusqu’à la mort de ce seigneur et de son fils.
Il visita Rome au cours d’une mission diplomatique de deux ans et il y retourna lorsqu’il
y fut nommé secrétaire d’ambassade, y restant trois ans.
Pendant ces deux séjours, il lut des livres traitant de cryptographie et entra en contact
avec des cryptologues.
Enfin, Henri III, qui avait beaucoup d’estime pour lui, le fit secrétaire de sa chambre.
Il fut, entre-temps, quelque peu soldat, et mena une vie très peu exemplaire.
Il mourut d'un cancer de la gorge. Sa tombe est à l'église Saint-Etienne-du-Mont.
"""

texte_code = code(texte, cle)

print(texte_code)

Indiquons au passage que le texte codé est en fait celui qui était proposé dans le tout dernier exercice qui va être corrigé ci-dessous *(nous savons donc que `biographie` la clé utilisée est de taille $10$)*.


Pour les plus rapides : une première étape pour casser un code de Vigenère 
--------------------------------------------------------------------------

Dans cette dernière section, nous allons utiliser la possibilité de faire appel à des cellules exécutées précédemment par IPython afin de détailler pas à pas ce que nous allons faire. Commençons par redonner le texte crypté dont on veut deviner la taille de la clé. 

In [3]:
texte_code = """
ctoojesldmhmbkietaimucbjzpavueumqxppivovbxvkkrpkcgumixrlroqqjahkvtpz
bvptcmleuyirdiwyzltaimulslrmxstiowprveijwrocsyfnelzikmottocazsmmixfr
spvejzsjvsvbmvsmgrliupbhpvbkiuclmhvkozzocjtetawwleiymwqwiyjetsmrwwmg
etevcvdmzgrppyqwmirucehjmrumbvioupbebdsiqealizjlsjvcduvejaggectzqpfb
ijzaxamrdwfkrlpnmqvzszvuijwqnmagztglatpcfrvgglkiutvksrtbbysvshveikwv
bbwrtocucxvvskoihamrdmhxvsbvczfustketlvgpzszfuiqmyomwrrcrvutbobgcecc
wcflsliacjmppcwyrdwlueslsmiivuirbtojzeillixwfsjpjpatfvrgetescwjmixja
cumitqzbfypnmeqwixjocjwqqbsvrrrvcvbvhkeppybmdczovrahtpfuomeetateiwzr
rnslqpemjoettuayjbsgmicnbuvihxvaczaidzszrigllyecqjvntcmvtkvgigtxcmmk
ctjegcinvaearlptwvulsivstporfcfkkdtzwrgqzyzlkpamuifudepbksvzgjlnttqw
tqctuieswqbbwwlesllivfotjeiptcsmhulrchtssaeazlnmcxowasvstjziuiwxvdpt
jetaojvyglaxbvhzioxzirtxstuacakitlsaostqwysawrcuikmwmqjxvsiyimuibzue
rygtuwuxrpwpmiumbziatuksoboikaklkhfaqxppivtshcsyvnupvlfvfozixxcmbdoo
kbthcgpcdjvsipuiqwixcuxsmjjbgktrtaimsmrkjaroiqczsocfjamruzszvmezyyft
eavptbasmlozvtblvevvsbzeiymwqmikoebwtejzsocmdbzyulittacjmvemzgxognmw
bbcssetzbemmurzstzimobszzecumhvuctk
"""

texte_code = texte_code.strip()
texte_code = texte_code.replace("\n", "")

L'idée proposée consiste à repérer les groupes de lettres qui se répètenet dans le texte codé. La fonction suivante va nous donner la liste des groupes de longueur `taille` qui se répètentent dans un texte. Cette fonction prend en compte les groupes qui se superposent. Par exemple dans `"aab------aa---ab"`, les groupes `"aa"` et `"ab"` seront renvoyés.

In [4]:
def trouve_grpes_repetes(texte, taille):
    """
Cette fonction renvoie une liste de chaînes de caractères de la taille
demandée qui sont présents au moins deux fois dans le texte.
    """
    grpes_repetes = []
    
    for i in range(0, len(texte) - taille):
        un_grpe = texte_code[i:i + taille]
        
        # L'utilisation de texte_code[i:i + taille] ne garantit pas
        # que l'on aura une chaîne de longueur taille.
        if len(un_grpe) == taille and un_grpe not in grpes_repetes:
            occurence = texte.count(un_grpe)

            if occurence > 1:
                grpes_repetes.append(un_grpe)

    return grpes_repetes

Nous devons ensuite connaître toutes les distances qui séparent deux groupes consécutifs identiques. Construisons une fonction pour obtenir ces informations.

In [7]:
def trouve_distances(texte, grpes_repetes):
    """
Étant donné une liste de chaînes de caractères qui se répètent dans le
texte donné, cette fonction renvoie toutes les distances qui séparent
tous les couples de groupes consécutifs identiques.
    """
    distances = []
    
    for un_grpe in grpes_repetes:
        i = 0
        positions = []
        taille_grpe = len(un_grpe)
        
        while True:
            i = texte.find(un_grpe, i)
            
            # Le groupe n'est plus présent à partir de la position i.
            if i == -1:
                break
            
            positions.append(i)
            
            # On passe au groupe suivant éventuel.
            i += 1

        for i, pos in enumerate(positions[:-1]):
            une_distance = positions[i + 1] - pos
                
            if une_distance not in distances:
                distances.append(une_distance)

    return distances

Testons nos deux fonctions.

In [6]:
for taille in range(2, 6):
    grpes_repetes = trouve_grpes_repetes(texte, taille)
    distances     = trouve_distances(texte, grpes_repetes)

    print("taille =", taille)
    print("----------")
    print("grpes_repetes =", grpes_repetes)
    print("")
    print("distances =", distances)
    
    if taille !=5:
        print("")
        print("")

taille = 2
----------
grpes_repetes = ['ct', 'to', 'es', 'mb', 'ie', 'et', 'ta', 'ai', 'im', 'uc', 'pa', 'av', 'ue', 'eu', 'vo', 'gu', 'mi', 'ro', 'pt', 'le', 'ir', 'di', 'st', 'ti', 'io', 've', 'ne', 'el', 'mo', 'ca', 'mm', 'rs', 'gr', 'li', 'te', 'ge', 'ev', 'ce', 'vi', 'ou', 'be', 'si', 'iq', 'ea', 'du', 'ag', 'ec', 'am', 'ui', 'ma', 'la', 'at', 'ut', 'rt', 'ha', 'fu', 'us', 'om', 'cr', 'ac', 'mp', 'lu', 'il', 'll', 'rg', 'it', 'yp', 'me', 'ra', 'rn', 'ns', 'pe', 'em', 'va', 'ri', 'ig', 'nt', 'in', 'nv', 'ar', 'po', 'or', 'de', 'ip', 'ch', 'ss', 'sa', 'as', 'er', 'ry', 'ux', 'so', 'nu', 'do', 'tr', 'lo', 'og', 'gn', 'se', 'ur']

distances = [996, 433, 417, 134, 43, 215, 8, 93, 49, 54, 218, 352, 27, 25, 7, 55, 13, 172, 227, 124, 64, 383, 189, 91, 50, 235, 35, 21, 250, 137, 79, 9, 145, 173, 84, 187, 436, 100, 24, 37, 96, 19, 74, 10, 149, 391, 200, 85, 45, 92, 66, 1053, 151, 529, 374, 133, 14, 763, 46, 44, 645, 207, 116, 4, 204, 41, 77, 106, 212, 75, 105, 219, 33, 262, 98, 896, 736, 20

On note qu'ici seules les tailles $2$ et $3$ semblent pertinentes. Nous ferons le pari que ce comportement est général mais attention aux conclusions trop hâtives *(l'idéal serait de tester cette conjecture sur un grand nombre de textes français avec différents clés créées aléatoirement formées de mots existants ou non)*.

À partir de la liste des distances entre tous les couples de groupes consécutifs identiques, nous allons déterminer une liste de diviseurs de ces distances. Nous allons aussi compter le nombre d'occurence de ces diviseurs. Nous utilisons ici le fait que si les répétitions sont dues au codage avec la même partie de la clé de deux mêmes groupes de lettres dans le texte clair, alors la distance entre ces groupes sera un multiple de la taille de la clé.

In [8]:
def diviseurs(naturel):
    """
Cette fonction renvoie la liste de tous les diviseurs, autre que 1,
d'un naturel.

Note : la méthode employée est peu efficace mais elle reste utilisable
dans le cadre où nous allons l'employer.
    """
    if naturel == 1:
        return []
    
    les_diviseurs = []
    
    for i in range(2, naturel + 1):
        if naturel % i == 0:
            les_diviseurs.append(i)
    
    return les_diviseurs
    

def cherche_multiples_taille(distances):
    """
À partir de la liste des distances entre tous les couples de groupes
consécutifs identiques, cette fonction renvoie un dictionnaire dont
les clés sont les diviseurs des distances, et les valeurs le nombre
de fois où un diviseur a été trouvé. Nous ne gardons pas les diviseurs
qui n'apparaissent qu'une seule fois.
    """
    tous_les_multiples = {}
    
    for une_distance in distances:
        for un_diviseur in diviseurs(une_distance):
            if un_diviseur not in tous_les_multiples:
                tous_les_multiples[un_diviseur] = 1
            else:
                tous_les_multiples[un_diviseur] += 1

    # On ne garde que les diviseurs apparaissant au moins deux fois.
    multiples = {}
    
    for diviseur, occurence in tous_les_multiples.items():
        if occurence != 1:
            multiples[diviseur] = occurence
    
    return multiples

Testons cette nouvelle fonction.

In [9]:
for taille in range(2, 4):
    grpes_repetes    = trouve_grpes_repetes(texte, taille)
    distances        = trouve_distances(texte, grpes_repetes)
    multiples_taille = cherche_multiples_taille(distances)

    print("taille          =", taille)
    print("multiple_taille =", multiples_taille)

    if taille !=5:
        print("")

taille          = 2
multiple_taille = {2: 121, 3: 86, 4: 57, 5: 50, 6: 40, 7: 32, 8: 26, 9: 29, 10: 23, 11: 24, 12: 17, 13: 16, 14: 14, 15: 15, 16: 15, 17: 17, 18: 12, 19: 10, 20: 10, 21: 11, 22: 13, 23: 12, 24: 9, 25: 12, 26: 5, 27: 11, 28: 8, 29: 8, 30: 5, 31: 7, 32: 10, 33: 6, 34: 6, 35: 4, 36: 5, 37: 6, 38: 5, 39: 4, 40: 4, 41: 7, 42: 5, 43: 8, 44: 4, 45: 6, 46: 5, 47: 5, 48: 5, 49: 4, 50: 6, 51: 5, 52: 2, 53: 7, 54: 3, 55: 6, 56: 3, 57: 5, 58: 4, 60: 3, 61: 4, 62: 2, 63: 3, 64: 5, 65: 2, 66: 3, 67: 3, 68: 3, 69: 3, 70: 2, 71: 2, 72: 2, 73: 4, 74: 2, 75: 3, 76: 3, 79: 2, 80: 2, 81: 3, 82: 3, 83: 4, 84: 2, 85: 4, 86: 2, 87: 3, 88: 2, 90: 3, 91: 2, 92: 2, 93: 2, 94: 2, 96: 2, 97: 4, 98: 2, 99: 2, 100: 3, 102: 2, 103: 2, 106: 3, 107: 2, 109: 4, 110: 3, 111: 4, 112: 2, 359: 2, 114: 3, 275: 2, 117: 2, 120: 2, 123: 2, 124: 2, 125: 4, 126: 2, 128: 3, 129: 2, 131: 3, 133: 3, 134: 3, 137: 5, 342: 2, 139: 2, 145: 3, 146: 2, 151: 2, 159: 2, 164: 3, 166: 3, 171: 2, 173: 2, 176: 2, 328: 2, 180:

Pour finir, nous faisons le choix très pifométrique de ne garder qu'au maximum les $15$ diviseurs apparaissant le plus souvent *(nous allons reparler de ceci un peu plus bas)*.

In [10]:
def propose_meilleurs_multiples(multiples):
    """
Cette fonction renvoie une liste ordonnée obtenue en ne gardant que
les multiples probables les plus fréquents de la taille de la clé
utilisée pour crypter un texte avec le code de Vigenère.
    """
    meilleures_occurences = []

    for un_multiple, occurence in multiples.items():
        meilleures_occurences.append(occurence)
    
    meilleures_occurences = sorted(meilleures_occurences)
    meilleures_occurences = meilleures_occurences[-15:]
    
    meilleurs_multiples = []
    
    for un_multiple, occurence in multiples.items():
        if occurence in meilleures_occurences:
            meilleurs_multiples.append(un_multiple)
    
    meilleurs_multiples = sorted(meilleurs_multiples)

    return meilleurs_multiples

Complétons le test fait précédemment pour qu'il utilise notre dernière fonction.

In [11]:
for taille in range(2, 4):
    grpes_repetes       = trouve_grpes_repetes(texte, taille)
    distances           = trouve_distances(texte, grpes_repetes)
    multiples_taille    = cherche_multiples_taille(distances)
    meilleurs_multiples = propose_meilleurs_multiples(multiples_taille)


    print("taille          =", taille)
    print("meilleurs_multiples =", meilleurs_multiples)

    if taille != 5:
        print("")

taille          = 2
meilleurs_multiples = [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 15, 16, 17]

taille          = 3
meilleurs_multiples = [2, 4, 7]



Nous voyons apparaître le $10$ attendu dans les propositions faites. Tout ce qui précède nous amène à la fonction suivante.

In [12]:
def tailles_possibles_cle(texte):
    """
Cette fonction propose une liste des multiples les plus probables
de la taille de la clé utilisée pour crypter un texte avec le code
de Vigenère.
    """
    meilleurs_multiples = []
    
    for taille in range(2, 4):
        grpes_repetes        = trouve_grpes_repetes(texte, taille)
        distances            = trouve_distances(texte, grpes_repetes)
        multiples_taille     = cherche_multiples_taille(distances)
        meilleurs_multiples += propose_meilleurs_multiples(multiples_taille)

    
    meilleurs_multiples = list(set(meilleurs_multiples))
    meilleurs_multiples = sorted(meilleurs_multiples)

    return meilleurs_multiples

Testons ce que nous renvoie notre fonction. 

In [13]:
tailles_possibles = tailles_possibles_cle(texte)

print("tailles_possibles =", tailles_possibles)

tailles_possibles = [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 15, 16, 17]


On voit bien apparaître notre $10$. Est-ce un coup de chance ? Pour valider un peu notre programme, testons un texte clair crypté avec des clés fabriquées aléatoirement. C'est assez simple à faire.

In [14]:
# ------------- #
# -- TESTONS -- #
# ------------- #

from random import randint

# Le texte suivant a été copié-collé sur Wikipédia en septembre 2015. 
TEXTE = """
Blaise de Vigenère était un diplomate, cryptographe, traducteur, alchimiste et
astrologue français.
Il était de famille noble et connue. Son père, Jean, contrôleur ordinaire des guerres,
lui fit donner une éducation classique très poussée, l’envoyant pour cela à Paris.
L’adolescent en profita avec zèle. Avide de connaissances, il étudiait encore à l'âge mûr,
et eut comme maîtres, pour le grec et l’hébreu, Turnèbe et Dorat.
Il connut une existence très mouvementée. Encore tout jeune, il accompagna l’envoyé de
France, Louis Adhémar de Grignan, à la diète de Worms. Puis, pendant plusieurs années,
il voyagea pour son compte, parcourant en particulier l’Allemagne et la Hollande.
Il devint ensuite, à vingt-quatre ans, secrétaire du duc de Nevers, charge qu’il conserva
jusqu’à la mort de ce seigneur et de son fils.
Il visita Rome au cours d’une mission diplomatique de deux ans et il y retourna lorsqu’il
y fut nommé secrétaire d’ambassade, y restant trois ans.
Pendant ces deux séjours, il lut des livres traitant de cryptographie et entra en contact
avec des cryptologues.
Enfin, Henri III, qui avait beaucoup d’estime pour lui, le fit secrétaire de sa chambre.
Il fut, entre-temps, quelque peu soldat, et mena une vie très peu exemplaire.
Il mourut d'un cancer de la gorge. Sa tombe est à l'église Saint-Etienne-du-Mont.
"""


def test(nbre_tests, taille_mini_cle, taille_maxi_cle):
    global TEXTE
    
    nbre_erreurs = 0

    for i in range(nbre_tests):
        taille_cle = randint(taille_mini_cle, taille_maxi_cle)
    
        cle = ""
    
        for j in range(taille_cle):
            random_ord = randint(97, 122)
            cle += chr(random_ord)

        texte_code        = code(texte, cle)
        tailles_possibles = tailles_possibles_cle(texte_code)
    
        if taille_cle not in tailles_possibles:
            nbre_erreurs += 1
    
    if nbre_erreurs == 0:
        messsage_erreur = "Aucune erreur"
    elif nbre_erreurs == 1:
        messsage_erreur = "Une seule erreur"
    else:
        messsage_erreur = "{0} erreurs".format(nbre_erreurs)
        
    messsage_erreur += " sur "

    if nbre_tests == 1:
        messsage_erreur += "un seul test aléatoire effectué."
    else:
        messsage_erreur += "{0} tests aléatoires effectués.".format(nbre_tests)

    print(messsage_erreur)

    
# ----------------- #
# -- APPLICATION -- #
# ----------------- #

test(
    nbre_tests      = 10**3,
    taille_mini_cle = 3,
    taille_maxi_cle = 20
)

Aucune erreur sur 1000 tests aléatoires effectués.


Ceci est assez rassurant mais il faudrait faire des tests plus poussés via de vrais textes ayant une signification, et des clés fabriquées aléatoirement utilisant ou non des mots connus.
Si l'on reprend le test précédent avec des clés de taille maximale $100$, on obtient un nombre d'erreurs de l'ordre de $50$ pour cent, ce qui est trop *(voir ci-après)*.

In [15]:
test(
    nbre_tests      = 10**3,
    taille_mini_cle = 3,
    taille_maxi_cle = 100
)

573 erreurs sur 1000 tests aléatoires effectués.


Le programme proposé dans cette section pourrait être amélioré comme suit.

1. On pourrait donner le choix à l'utilisateur de la valeur du nombre de multiples gardés par la fonction `propose_meilleurs_multiples`. Par contre, plus on garde de multiples, plus longue vont être les méthodes présentées dans la section suivante, mais ceci peut être un choix assumé par l'utilisateur.

1. Peut-être une meilleure tactique... On tente un décryptage avec les dix meilleurs multiples, puis si l'on échoue, on esssaye alors avec les dix meilleurs suivants... etc. Ceci a l'avantage de tenter le maximum sans demander de paramétrages côté utilisateur.

1. Si notre méthode de recherche d'une clé de taille connue n'est pas trop chronophage pour une taille donnée, on peut alors retirer de la liste des tailles possibles celles qui en divisent d'autres. Par exemple, au lieu de prendre la liste précédente `[2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 15, 16, 17]`, on travaillerait avec `[7, 9, 10, 11, 12, 13, 15, 16, 17]`. On obtiendrait alors éventuellement comme clé de cryptage la clé initiale éventuellement répétée plusieurs fois.

1. Une autre chose que l'on peut tenter, c'est de faire des choix au hasard dans notre liste de tailles possibles.


**Remarque :** pour la petite histoire, une première tentative de l'auteur consitait à ne garder que le PGCD des différentes distances qui était le plus fréquent. Ceci avait produit un programme fonctionnant sur notre tout premier exemple mais le test aléatoire ci-dessus a tout de suite mis en défaut ce programme. Belle et étrange coïncidence montrant qu'il faut toujours bien tester ce que l'on fait. 

Aller plus loin : tenter de casser un code de Vigenère
------------------------------------------------------

> Nous ne proposons ici que des pistes théoriques pour tenter de casser un code de Vigenère.
> Nous ne faisons aucune implémentation par manque de place dans la marge.


### Grandeur et démesure

Examinons pourquoi casser brutalement un code de Vigenère n'est pas envisageable. Imaginons par exemple que nous sachions que la taille de la clé soit exactement égale à $20$ *(cette hypothèse n'est pas exagérée car par exemple la phrase "jesuisuncodesecret", très facile à retenir, fait $18$ caractères de long)*. Nous avons alors $26^{20} \approx 1,\!99 \times 10^{28}$ clés possibles d'après le calcul ci-dessous.

In [16]:
print(float(26**20))

1.992814889520941e+28


Or l'ordinateur de l'auteur au moment où il rédige ce document possède un processeur de $2,\!5$ GHz. Ceci signifie qu'il peut effectuer $2,\!5 \times 10^{9}$ opérations arithmétiques élémentaires par seconde.
Faisons l'hypothèse excessive que le test d'une seule clé ne nous demande qu'une seule opération arithmétique élémentaire, et de plus que tout notre processeur soit utilisé uniquement par notre programme de décryptage *(nous faisons ici des hypothèses irréalistes mais nous allons comprendre bientôt pourquoi)*.
Il faudrait alors pas moins d'environ $7,\!9 \times 10^{18}$ secondes pour tout tester d'après le premier calcul ci-dessous. Ceci donne le vertige quand on voit que cela correspond à environ $2,5 \times 10^{11}$ années alors que l'âge de la Terre est de l'ordre $4,5 \times 10^9$ ans !

In [17]:
duree_en_secondes = 26**20 / (2.5*10**9)

un_jour         = 60*60*24
une_annee       = 365.25*un_jour
duree_en_annees = duree_en_secondes // une_annee

print("Durée en secondes :", float(duree_en_secondes))
print("Durée en années   :", duree_en_annees)
print("")
print("Nombre de chiffre de la durée en années :", len(str(int(duree_en_annees))))

Durée en secondes : 7.971259558083764e+18
Durée en années   : 252593972864.0

Nombre de chiffre de la durée en années : 12


On voit donc que même en faisant des hypothèses exagérées en notre faveur, nous arrivons à une situation impossible à réaliser concrètement. Ceci montre qu'une fois connue la taille de la clé, il faudra être malin pour casser un code de Vigenère.

### Un premier pari : la clé "signifie" quelque chose

On peut supposer que la clé utilise des mots connus. Il faut alors arriver à produire toutes les clés possibles de taille connue qui sont construites à partir d'une liste de mots connus. 
Parmi toutes ces clés, on gardera alors celle produisant un texte avec le plus de mots connus *(voir ce qui a été fait avec le chiffrement de César pour un texte sans espace)*.

### Pari perdu, faisons une étude statistique

Que faire si la clé a été produite aléatoirement ? Imaginons que la clé soit de longueur $20$. Ceci signifie alors que les lettres du texte codé qui sont aux positions $1$, $21$, $41$, ... etc sont codés via le même chiffrement de César. Ceci est aussi vrai pour les lettres aux positions $2$, $22$, $42$, ... etc, et ainsi de suite.
Ceci nous permet alors de construire des sous-textes $ss\_txt_1$, $ss\_txt_2$, ... etc qui sont chacun codés suivant différents codes de César.
Il nous faut alors casser ces différents chiffrements de César mais nous nous heurtons à un nouveau problème : tous ces sous-textes codent des bouts du texte initial, ces morceaux n'ayant aucune signification.
Ceci nous empêche de compter le nombre de mots connus pour décoder $ss\_txt_1$, puis $ss\_txt_2$, ... etc. Ceci aurait demandé $26 + 26 + \cdots = 20 \times 26 = 520$ tests brutaux, ce qui aurait été parfaitement faisable en un temps raisonnable.


Une technique souvent présentée consiste à parier que la répartition des lettres d'un sous-texte avant cryptage est proche de celle d'un texte ayant une signification *(de nouveau, cette conjecture demanderait à être testée sérieusement)*, puis à étudier les fréquences d'apparition des lettres codées pour les comparer avec celles de lettres dans un corpus de textes français.
Le caractère de codage sera alors celui donnant des fréquences ressemblant le plus à celles du français. Ceci n'est pas simple à implémenter. En effet, comment programme-t-on le *"ressemblant le plus à"* ?


Dans le chapitre 4 du livre *"An introduction to mathematical cryptography"*,  les auteurs J. Hoffstein, J. Pipher et J. H. Silverman présentent un quantificateur $IndCo(\text{une_chaine})$ appelé indice de coïncidence d'une chaîne de caractères qui vérifie les deux propriétés suivantes.  

1. $IndCo(\text{une_chaine})$ est par définition la probalilité que deux caractères choisis au hasard dans $\text{une_chaine}$ soient identiques.

1. Si $C_{lettre}$ désigne le nombre d'apparition d'une lettre dans $\text{une_chaine}$, alors nous avons la formule $\displaystyle IndCo(\text{une_chaine}) = \frac{1}{n(n - 1)} \sum_{lettre} C_{lettre} (C_{lettre} - 1)$ où $n$ est la taille de $\text{une_chaine}$, la somme se faisant sur toutes les lettres apparaissant dans $\text{une_chaine}$.

On peut avec cet indicateur améliorer la première technique proposée ci-dessus pour décrypter un sous-texte. Il suffit d'appliquer la méthodologie suivante qui est facile à implémenter.

1. On calcule $IndCo$ pour un corpus de textes français. On obtient un nombre que nous appellerons $I_{français}$.

1. Pour chaque lettre codante possible $\text{c}$, on calcule l'indice de coïncidence $I_\text{c}$ pour le texte obtenu en décodant notre sous-texte avec la clé $\text{c}$. On obtient ainsi $26$ indices. On garde alors uniquement les lettres $\text{c}$ telles que $I_\text{c}$ soit assez proches de $I_{français}$ *(il suffit de choisir une marge d'erreur autorisée, ou bien de ne garder par exemple que les trois indices les plus proches)*. De nouveau, nous parions sur le fait que la répartition des lettres d'un sous-texte avant cryptage est proche de celle d'un texte ayant une signification.

Ceci permet de réduire le nombre de lettres possibles. Il reste alors à créer toutes les clés possibles pour ne garder que celle qui fournira le plus de mots connus dans le texte décrypté. Si l'on garde à chaque fois les trois lettres les plus probables pour une clé de longueur $20$, on réduit fabuleusement le temps de calcul à moins de deux secondes, toujours avec nos hypothèses excessives *(voir ci-après)*. On peut donc espérer que cette méthode soit réellement utilisable. 

In [18]:
duree_en_secondes = 3**20 / (2.5*10**9)

print("Durée en secondes :", float(duree_en_secondes))

Durée en secondes : 1.3947137604


**Note : ** vous trouverez dans le livre *"An introduction to mathematical cryptography"* une autre méthode simple à implémenter qui tire partie du lien entre les différents sous-textes $ss\_txt_1$, $ss\_txt_2$, ... etc. Cette technique utilise un autre indicateur permettant de réduire drastiquement le nombre de tests brutaux à environ $26$ fois le nombre de couples $(ss\_txt_i \, , ss\_txt_j)$ avec $i < j$. Ceci représente un gain énorme de temps même face à la deuxième  technique présentée juste avant.