Chiffrement de César
====================

Réouvrir la page principale
---------------------------

[Cliquer ici](../main.ipynb)


À vous de jouer : coder et décoder quand on connaît le décalage
---------------------------------------------------------------

### Version 1 : sans utiliser aucune notion mathématique

Le code suivant utilise `ALPHABET[i:]` qui permet d'obtenir le texte formé des caractères situés de la position `i` aux suivantes dans `ALPHABET`.
De même, `ALPHABET[:i]` permet de ne garder que les caractères jusqu'à la position `(i - 1)`, et non  jusqu'à la position `i`.

In [14]:
# ---------------- #
# -- (DÉ)CODAGE -- #
# ---------------- #

ALPHABET = "abcdefghijklmnopqrstuvwxyz"

# Nous fabriquons un dictionnaire dont les clés sont les lettres
# minuscules de l'alphabet, et les valeurs leur position dans le
# texte ALPHABET (l'utilisation de la méthode find des variables
# de type str permettrait de se passer de NO_LETTRE, à vous de
# voir comment).
NO_LETTRE = {}

for position, lettre in enumerate(ALPHABET):
    NO_LETTRE[lettre] = position


def code(texte, decalage):
    """
Cette fonction code un texte en utilisant le chiffrement de César
avec le décalage donné.
    """
    global ALPHABET
    
    ALPHABET_CODE = ALPHABET[decalage:] + ALPHABET[:decalage]

    texte      = texte.lower()
    texte_code = ""

    for cara in texte:
        if cara == " ":
            texte_code += cara
        else:
            position = NO_LETTRE[cara]
            
            texte_code += ALPHABET_CODE[position]
            
    return texte_code


# ----------------- #
# -- APPLICATION -- #
# ----------------- #

texte        = "python est aussi un monthy"
decalage     = 3
texte_code   = code(texte, decalage)
texte_decode = code(texte_code, -decalage)

print("Texte initial     :", texte)
print("Décalage choisi   :", decalage)
print("Texte codé        :", texte_code)
print("Texte codé-décodé :", texte_decode)

Texte initial     : python est aussi un monthy
Décalage choisi   : 3
Texte codé        : sbwkrq hvw dxvvl xq prqwkb
Texte codé-décodé : python est aussi un monthy


### Version 2 : avec un tout petit peu de maths

Dans le code suivant on utilise l'opérateur modulo `%` qui donne le reste d'une division euclidienne. Par exemple, `25 % 7 = 4` car $25 = 3 \times 7 + 4$.

In [15]:
# ---------------- #
# -- (DÉ)CODAGE -- #
# ---------------- #

ALPHABET        = "abcdefghijklmnopqrstuvwxyz"
TAILLE_ALPHABET = len(ALPHABET)

NO_LETTRE = {}

for position, lettre in enumerate(ALPHABET):
    NO_LETTRE[lettre] = position

    
def code(texte, decalage):
    """
Cette fonction code un texte en utilisant le chiffrement de César
avec le décalage donné.
    """
    global ALPHABET
    
    texte      = texte.lower()
    texte_code = ""

    for cara in texte:
        if cara == " ":
            texte_code += cara
        else:
            position = (NO_LETTRE[cara] + decalage) % TAILLE_ALPHABET
            
            texte_code += ALPHABET[position]
            
    return texte_code


# ----------------- #
# -- APPLICATION -- #
# ----------------- #

texte        = "python est aussi un monthy"
decalage     = 3
texte_code   = code(texte, decalage)
texte_decode = code(texte_code, -decalage)

print("Texte initial     :", texte)
print("Décalage choisi   :", decalage)
print("Texte codé        :", texte_code)
print("Texte codé-décodé :", texte_decode)

Texte initial     : python est aussi un monthy
Décalage choisi   : 3
Texte codé        : sbwkrq hvw dxvvl xq prqwkb
Texte codé-décodé : python est aussi un monthy


### Version 3 : utilisation des fonctions `ord` et `chr`

La fonction `ord` renvoie si possible le code ASCII d'un caractère, et réciproquement la fonction `chr` renvoie un caractère de code ASCII connu. Voici des exemples.  

In [16]:
for cara in "azAZ +":
    ascii = ord(cara)

    print('ord("{0}") = {1}'.format(cara, ascii), end = " et ")
    print('chr({0}) = "{1}"'.format(ascii, chr(ascii)))

ord("a") = 97 et chr(97) = "a"
ord("z") = 122 et chr(122) = "z"
ord("A") = 65 et chr(65) = "A"
ord("Z") = 90 et chr(90) = "Z"
ord(" ") = 32 et chr(32) = " "
ord("+") = 43 et chr(43) = "+"


Le code suivant s'inspire de la version 2 qui se basait sur l'opérateur modulo `%`.

In [17]:
# ---------------- #
# -- (DÉ)CODAGE -- #
# ---------------- #

def code(texte, decalage):
    """
Cette fonction code un texte en utilisant le chiffrement de César
avec le décalage donné.
    """
    texte      = texte.lower()
    texte_code = ""

    for cara in texte:
        if cara == " ":
            texte_code += cara
        else:
            # On utilise : ord("a") = 97.
            position = (ord(cara) - 97 + decalage) % 26
            
            texte_code += chr(97 + position)
            
    return texte_code


# ----------------- #
# -- APPLICATION -- #
# ----------------- #

texte        = "python est aussi un monthy"
decalage     = 3
texte_code   = code(texte, decalage)
texte_decode = code(texte_code, -decalage)

print("Texte initial     :", texte)
print("Décalage choisi   :", decalage)
print("Texte codé        :", texte_code)
print("Texte codé-décodé :", texte_decode)

Texte initial     : python est aussi un monthy
Décalage choisi   : 3
Texte codé        : sbwkrq hvw dxvvl xq prqwkb
Texte codé-décodé : python est aussi un monthy


**Remarque :** contrairement aux deux premières versions, la version 3 ci-dessus est beaucoup moins flexible car elle ne permet pas d'ajouter facilement de nouveaux caractères codables.


Pour les plus rapides : casser brutalement un code de César 
-----------------------------------------------------------

Comme IPython garde en mémoire les actions effectuées au-dessus d'une cellule, pour simplifier la compréhension de ce qui suit, nous définissons à part la variable `texte_crypte` à décoder.

In [18]:
texte_crypte = """
ap hpapst rthpg thi jct hpapst htgkxt egxcrxepatbtci spch ath gthipjgpcih pbtgxrpxch
rgttt p ixyjpcp pj btmxfjt
ap hpapst edgit at cdb st rpthpg rpgsxcx jc gthipjgpitjg xipaxtc dgxvxcpxgt st ap gtvxdc
sj apr bpytjg pkpci s tipqaxg sth gthipjgpcih p ixyjpcp ti p tchtcpsp puxc st qtctuxrxtg
s jct raxtcitat hdjwpxipci rdcidjgctg ap egdwxqxixdc
xa tmxhit eajhxtjgh wxhidxgth pj hjyti st ap rgtpixdc st rtiit hpapst bpxh pjrjct s taath
ct etji tigt rdcuxgbtt
ap eajh rdbbjct gprdcitt epg gdhp rpgsxcx sxi fjt ap rgtpixdc uji at gthjaipi s jc
tejxhtbtci sth peegdkxhxdcctbtcih st ap rjxhxct hdc etgt rdbedhp pktr ath bdntch sj qdgs
ti egthht epg at itbeh sji egtepgtg ath hpapsth hjg at rdit sth ipqath
jct pjigt wxhidxgt sxi fj taat uji rgttt epg jc vgdjet st hipgh s wdaanldds pegth jc adcv
lttztcs uthixu
htadc s pjigth taat htgpxi a xcktcixdc st axkd hpcixcx fjx ajx sdccp ap qpeixhp sj egtcdb
sj egdegxtipxgt sj gthipjgpci dj xa igpkpxaapxi r thipsxgt rtajx st rthpg
jct pjigt dgxvxct thi hxvcpatt epg sth rwtgrwtjgh  taat htgpxi a pspeipixdc s jct gtrtiit
xipaxtcct fjt ap btgt st rthpg rpgsxcx jixaxhpxi
"""

Nous proposons de procéder comme suit.

* On teste brutalement tous les décalages possibles en décryptant à chaque fois le texte crypté.

* Pour chaque décalage testé, on compte le nombre de mots du décryptage associé qui sont aussi des mots connus *(voir la liste de mots proposée dans la section "Palindromes")*.

* Le décalage retenu sera celui qui aura fourni le plus grand nombre de mots connus.


Pour arriver facilement à nos fins, nous utilisons le type `set` de Python qui correspond à la notion d'ensemble fini en mathématiques, ou dit autrement qui permet d'avoir des listes d'objets non ordonnés et sans répétition.


**Note :** le décalage à trouver était $15$ et le texte crypté est tiré d'un copier-coller fait en août 2015 dans [cette page Wikipédia](https://fr.wikipedia.org/wiki/Salade_César#Histoire).

In [19]:
# ---------------- #
# -- (DÉ)CODAGE -- #
# ---------------- #

ALPHABET = "abcdefghijklmnopqrstuvwxyz"

NO_LETTRE = {}

for position, lettre in enumerate(ALPHABET):
    NO_LETTRE[lettre] = position


def code(texte, decalage):
    """
Cette fonction code un texte en utilisant le chiffrement de César
avec le décalage donné.
    """
    global ALPHABET
    
    ALPHABET_CODE = ALPHABET[decalage:] + ALPHABET[:decalage]

    texte      = texte.lower()
    texte_code = ""

    for cara in texte:
        if cara == " ":
            texte_code += cara
        else:
            position = NO_LETTRE[cara]
            
            texte_code += ALPHABET_CODE[position]
            
    return texte_code


# ----------------------------- #
# -- POUR CASSER LE CRYPTAGE -- #
# ----------------------------- #

MOTS_CONNUS = set()

with open("motsfrancais_frgut.txt", encoding="iso-8859-1") as fichier:
    for ligne in fichier:
        mot = ligne.strip()
        mot = mot.lower()
        
        MOTS_CONNUS.add(mot)


# --------------------- #
# -- CASSAGE DU CODE -- #
# --------------------- #

texte_crypte = texte_crypte.strip()
texte_crypte = texte_crypte.replace("\n", " ")

max_nbre_mots_communs = -1

for decalage in range(26):
    texte_decrypte = code(texte_crypte, -decalage)
    mots_decryptes = set(texte_decrypte.split(" "))
    
    nbre_mots_communs = len(MOTS_CONNUS & mots_decryptes)
    
    if nbre_mots_communs > max_nbre_mots_communs:
        decalage_trouve       = decalage
        max_nbre_mots_communs = nbre_mots_communs

print("Décalage trouvé : {0}".format(decalage_trouve))
print("")
print("Texte initial")
print("-------------")
print(code(texte_crypte, -decalage_trouve))

Décalage trouvé : 15

Texte initial
-------------
la salade cesar est une salade servie principalement dans les restaurants americains creee a tijuana au mexique la salade porte le nom de caesar cardini un restaurateur italien originaire de la region du lac majeur avant d etablir des restaurants a tijuana et a ensenada afin de beneficier d une clientele souhaitant contourner la prohibition il existe plusieurs histoires au sujet de la creation de cette salade mais aucune d elles ne peut etre confirmee la plus commune racontee par rosa cardini dit que la creation fut le resultat d un epuisement des approvisionnements de la cuisine son pere composa avec les moyens du bord et presse par le temps dut preparer les salades sur le cote des tables une autre histoire dit qu elle fut creee par un groupe de stars d hollywood apres un long weekend festif selon d autres elle serait l invention de livo santini qui lui donna la baptisa du prenom du proprietaire du restaurant ou il travaillait c estadi

**Important !** Ce qui a rendu les choses très simples ici c'est la conservation des espaces dans le texte crypté. Si les espaces sont supprimés du code crypté, il faut changer de tactique. Classiquement, on propose une étude statistique des fréquences d'apparition des lettres isolées, voire même des digrammes ou groupes de deux lettres. Automatiser ceci dépasse le cadre de ce document *(voir le dernier paragraphe de cette section)*. À la place, nous proposons l'adaptation suivante de la tactique précédente.

* On teste brutalement tous les décalages possibles en décryptant à chaque fois le texte crypté.

* Pour chaque décalage testé, on construit **tous** les mots de $n$ lettres pour $n \in [3 ; 10 ]$ *(le choix de cet intervalle est purement "pifométrique")*. Par exemple pour $n = 3$, les mots seront `texte_crypte[0:3]`, `texte_crypte[1:4]`, `texte_crypte[2:5]`,... etc. À chaque fois, on compte le nombre de mots de $n$ lettres qui sont des mots connus.

* Le décalage retenu sera celui qui aura fourni le plus grand nombre de mots connus.

In [20]:
# ------------------------------------------------------ #
# -- UN TEXTE CRYPTÉ SANS ESPACE NI RETOUR À LA LIGNE -- #
# ------------------------------------------------------ #

texte_crypte = texte_crypte.replace(" ", "")
texte_crypte = texte_crypte.replace("\n", "")


# ---------------- #
# -- (DÉ)CODAGE -- #
# ---------------- #

ALPHABET = "abcdefghijklmnopqrstuvwxyz"

NO_LETTRE = {}

for position, lettre in enumerate(ALPHABET):
    NO_LETTRE[lettre] = position


def code(texte, decalage):
    """
Cette fonction code un texte en utilisant le chiffrement de César
avec le décalage donné.
    """
    global ALPHABET
    
    ALPHABET_CODE = ALPHABET[decalage:] + ALPHABET[:decalage]

    texte      = texte.lower()
    texte_code = ""

    for cara in texte:
        if cara == " ":
            texte_code += cara
        else:
            position = NO_LETTRE[cara]
            
            texte_code += ALPHABET_CODE[position]
            
    return texte_code


# ----------------------------- #
# -- POUR CASSER LE CRYPTAGE -- #
# ----------------------------- #

MOTS_CONNUS = set()

with open("motsfrancais_frgut.txt", encoding="iso-8859-1") as fichier:
    for ligne in fichier:
        mot = ligne.strip()
        mot = mot.lower()
        
        MOTS_CONNUS.add(mot)


# --------------------- #
# -- CASSAGE DU CODE -- #
# --------------------- #

texte_crypte        = texte_crypte.strip()
taille_texte_crypte = len(texte_crypte)


max_nbre_mots_communs = -1

for decalage in range(26):
    texte_decrypte = code(texte_crypte, -decalage)
    
    mots_decryptes = set()
    
    for i in range(3, 11):
        for pos in range(taille_texte_crypte - i):
            mots_decryptes.add(texte_decrypte[pos: pos+i])
    
    nbre_mots_communs = len(MOTS_CONNUS & mots_decryptes)
    
    if nbre_mots_communs > max_nbre_mots_communs:
        decalage_trouve       = decalage
        max_nbre_mots_communs = nbre_mots_communs

print("Décalage trouvé : {0}".format(decalage_trouve))

Décalage trouvé : 15


On obtient de nouveau $15$ mais il resterait à vérifier plus sérieusement ce code en fabriquant un grand nombre de textes cryptés de façon aléatoire, puis en testant que le bon décalage a été découvert. Le plus dur dans ces tests serait de trouver des textes français. On peut indiquer par exemple [cette page](https://www.reseau-canope.fr/savoirscdi/la-liste-cdidoc-fr/des-propositions-bibliographiques-de-la-liste-cdidoc-fr/litterature-texte-integral-en-telechargement-sur-internet.html) qui fournit différents liens pour récupérer des textes classiques passées dans le domaine public *(attention à l'encodage des pages qui n'est pas toujours de l'UTF-8)*.
Il resterait ensuite à s'appuyer sur des bibliothèques Python spécialisées pour extraire facilement des informations dans ces pages HTML. [Beautiful Soup 4](http://www.crummy.com/software/BeautifulSoup/) est une telle bibliothèque. 

Nous pouvons par contre au moins vérifier que nous n'avons pas eu de la chance en testant tous les décalages appliqué à un seul texte *(l'auteur se permet cette remarque car en voulant trouver des informations sur la taille de la clé utilisée dans un chiffrement de Vigenère, il avait conçu un programme qui avait eu le bon ou mauvais goût de ne fonctionner que dans le cas de son premier test, une coïncidence étonnante)*. Ce qui suit est un peu rassurant.

In [21]:
texte = """
la salade cesar est une salade servie principalement dans les restaurants
americains creee a tijuana au mexique la salade porte le nom de caesar 
cardini un restaurateur italien originaire de la region du lac majeur avant
d etablir des restaurants a tijuana et a ensenada afin de beneficier d une
clientele souhaitant contourner la prohibition il existe plusieurs histoires
au sujet de la creation de cette salade mais aucune d elles ne peut etre
confirmee la plus commune racontee par rosa cardini dit que la creation fut
le resultat d un epuisement des approvisionnements de la cuisine son pere
composa avec les moyens du bord et presse par le temps dut preparer les
salades sur le cote des tables une autre histoire dit qu elle fut creee par
un groupe de stars d hollywood apres un long weekend festif selon d autres
elle serait l invention de livo santini qui lui donna la baptisa du prenom
du proprietaire du restaurant ou il travaillait c estadire celui de cesar
une autre origine est signalee par des chercheurs  elle serait l adaptation
d une recette italienne que la mere de cesar cardini utilisait
"""

texte = texte.replace(" ", "")
texte = texte.replace("\n", "")

nb_erreurs = 0

for decalage_test in range(26):
    texte_crypte = code(texte, decalage_test)

    max_nbre_mots_communs = -1

    for decalage in range(26):
        texte_decrypte = code(texte_crypte, -decalage)

        mots_decryptes = set()

        for i in range(3, 11):
            for pos in range(taille_texte_crypte - i):
                mots_decryptes.add(texte_decrypte[pos: pos+i])

        nbre_mots_communs = len(MOTS_CONNUS & mots_decryptes)

        if nbre_mots_communs > max_nbre_mots_communs:
            decalage_trouve       = decalage
            max_nbre_mots_communs = nbre_mots_communs

    if decalage_test != decalage_trouve:
        nb_erreurs += 1


if nb_erreurs == 0:
    print("Aucune erreur commise.")
elif nb_erreurs == 1:
    print("Une seule erreur commise.")
else:
    print(nb_erreurs, "erreurs commises.")

Aucune erreur commise.
