# ACT3 Chiffrer pour sécuriser les échanges


## La sécurité : un jeu de Cache-Cache

![](https://upload.wikimedia.org/wikipedia/commons/thumb/4/4d/Lorenz-SZ42-2.jpg/220px-Lorenz-SZ42-2.jpg)

La "**cryptographie**" est l'art de transmettre des messages chiffrés. Depuis des temps forts lointains, ils sont au rang de l'arsenal militaire, le vainqueur étant très souvent celui dont les services de chiffrement ou les crytanalystes prennent le pas sur l'adversaire.

Aujourd'hui, le chiffrement est indispensable pour la sécurité des réseaux informatiques, des données de santé, des opérations bancaires, de la blockchain, etc.
Les systèmes actuels n'ont pas encore été craqués, mais l'arrivée des ordinateurs quantiques va peut-être changer la donne.





***Petit point de vocabulaire*** :

* **Code** : un protocole utilisé pour communiquer des informations. Par exemple, la traduction d'un mot en suites de 0 et de 1 pour qu'il soit traitable par un ordinateur est un code. Le morse est un autre code inventé au XIX<sup>ème</sup> siècle pour envoyer des messages par télégraphie. **Coder**, c'est transformer l'information selon ce protocole.

*Exemple : le code Morse*
<table>
    <tr>
        <td><img src="https://www.sciencesetavenir.fr/assets/img/2019/09/25/cover-r4x3w1000-5d8b628591b45-walrus-908609-1920.jpg" width="200" height="160" /> </td>
        <td><i>... ou plutôt...</i></td>
        <td><img src="https://2rdrtx4bt29lo91s31mjhkji-wpengine.netdna-ssl.com/wp-content/uploads/2019/03/Morse-code-chart-dit-dah-dot-dash-communication-shtf-survival-prepping-2.jpg" width="200" height="100" /></td>
    </tr>
</table>

* **Chiffrer** consiste à appliquer un algorithme, en utilisant une **clé de chiffrement** pour transformer un **message en clair** en un message illisible de qui ne connaît pas l'algorithme ni la clé. **Déchiffrer**, c'est revenir, connaissant l'algorithme et la **clé de déchiffrement** (qui n'est pas forcément la même que la clé de chiffrement), au message en clair.

* **Crypter** recouvre les deux : coder et chiffrer, ainsi que les techniques de **stéganographie** qui consistent à cacher l'information en la gardant pourtant visible aux yeux de tous. 



La stéganographie numérique permet aussi aujourd'hui, de cacher un message, voir un document, à l'intérieur d'une image, ou une image à l'intérieur d'un fichier son... en fait, tout dans n'importe quoi.

Pour de plus amples informations, on lira avec profit la page suivante, issue de l'excellent site *S'Cape* :
https://scape.enepe.fr/steganographie.html

## Le Chiffre de César


<img src="https://i.pinimg.com/originals/94/5c/4a/945c4ac61c635982192440c590446aa9.jpg" width="200" height="200" />

### 1. Le principe : décalage alphabétique 

Le "Chiffre de César" est un système utilisé par l'Empereur Romain. 

Il s'agit d'un simple décalage de l'alphabet : toutes les lettres sont décalées du même nombre de caractères, la "**clé**".

In [None]:
def cesar(sens, cle, message):
    codec = 0
    if sens == 'C' :
        # permet de traiter a l'identique chiffrement et déchiffrement
        # on effectue simplement le decalage dans un sens ou dans l'autre
        codec = codec + 1
    else :
        codec = codec -1

    resultat =''

    for k in range(len(message)) :
        if message[k] == ' ' : # le caractere est une espace
            resultat = resultat + ' '
        else :
            code_lettre = ord(message[k]) + codec*cle # ord renvoie le code ASCII du caractère
            if code_lettre > 90 : # on a depasse vers la droite le code du Z
                code_lettre = code_lettre - 26 # on repart du A vers la droite

            if code_lettre < 65 : # on a dépasse vers la gauche le code du A
                code_lettre = code_lettre + 26 # on repart du Z vers la gauche

            resultat = resultat + chr(code_lettre) # on concatene la lettre obtenue
            
    return resultat

Avec un extrait de la "Guerre des Gaules"...

In [None]:
sens = 'D'
message = "RWBCADRC MN LNB NENWNVNWCB NC ANMXDCJWC UJ OJRKUNBBN MNB PJDUXRB ZD RU LXWWJRBBJRC BR VXKRUNB MJWB UNDAB ANBXUDCRXWB NC JERMNB MN WXDENJDCNB LNBJA WN LADC YJB MNEXRA BN ORNA J NDG"
cle = 9
cesar(sens, cle, message)

### 2. Fréquence d'apparition des lettres dans un texte

Mais comment procéder quand on ne connaît pas la clé de chiffrement ?

On doit alors **décrypter** le message.

Une idée simple pour découvrir la clé est de chercher dans le message chiffré la lettre la plus fréquente, il y a alors de bonnes chances qu'elle corresponde au "E" dans le texte en clair, lettre la plus fréquente dans la langue française.

**A FAIRE :**
1. Coder les deux fonctions ci-dessous permettant de trouver le clé et de décrypter un message codé par le "code de César".
2. Le tester sur d'autres messages codés.
3. Conclure sur la fiabilité du code de César.


In [None]:
import matplotlib.pyplot as plt

alphabet = ["A","B","C","D","E","F","G","H","I","J","K","L","M","N","O","P","Q","R","S","T","U","V","W","X","Y","Z"]
frequences_theoriques = [0.084, 0.0106, 0.0303, 0.0418, 0.1726, 0.0112, 0.0127, 0.0092, 0.0734, 0.0031, 0.0005, 0.0601, 0.0296, 0.0713, 0.0526, 0.0301, 0.0099, 0.0655, 0.0808, 0.0707, 0.0574, 0.0132, 0.0004, 0.0045, 0.003, 0.0012]

def diagramme_barres(frequences_observees):
    """ Affiche frequences_observees et frequences_theoriques sur le même graphique """
    
    plt.bar(alphabet, frequences_observees, color = 'red', width = 0.2, alpha = 0.6, label = 'frequences observees')
    plt.bar(alphabet, frequences_theoriques,color = 'blue', width = 0.5, alpha = 0.1, label = 'frequences francais')
    plt.title("Fréquence d'apparition de chaque lettre dans le texte")
    plt.legend()
    plt.show()
    

def calcule_frequences(texte) : 
    """ Renvoie frequences_observees qui sont les fréquences d'apparition de chaque lettres du texte
        frequences_observees -> liste de longueur 26 """


    return frequences_observees

    
def analyse_frequences(texte):
    """ Renvoie la clé probable """
   
    
    
    return 


In [None]:
message = "RWBCADRC MN LNB NENWNVNWCB NC ANMXDCJWC UJ OJRKUNBBN MNB PJDUXRB ZD RU LXWWJRBBJRC BR VXKRUNB MJWB UNDAB ANBXUDCRXWB NC JERMNB MN WXDENJDCNB LNBJA WN LADC YJB MNEXRA BN ORNA J NDG"


In [None]:
# on vérifie avec la clé trouvée :
sens = 'D'
cesar(sens, cle, message)

## Le chiffrement XOR


On peut être un peu plus efficace que le "code de César" en utilisant une autre ***fonction de chiffrement***. En effet, pour le "code de César" la fonction de chiffrement est une fonction ***décalage***.

Maintenant, nous allons tester une fonction ***XOR***, ou *ou exclusif*.

- Message :  "CHUCK NORRIS A DEJA COMPTE JUSQU'A L'INFINI, DEUX FOIS."
- Clé : "NSI"

### Méthode de chiffrement :

1. On recopie plusieurs fois la clé pour obtenir une chaîne de la même longueur que le message
2. Chaque caractère de la chaîne et du message est transformé en nombre (valeur binaire)
3. On effectue l'opération XOR entre chaque nombre de la chaîne et du message correspondants.

**A FAIRE :**
1. Tester cette méthode de chiffrement avec le message et la clé proposée
2. Conclure sur la facilité de décryptage et sur l'utilisation pour sécuriser les données échangées ?


*__aide :__*


*Créer d'abord une fonction de conversion en liste de valeurs hexadécimales des caractères ASCII avec ```ord()```, puis en une liste de valeurs binaires avec ```bin()```.*

*Créer une fonction pour créer la chaîne de clés ainsi que sa conversion en valeurs binaires.*

*Créer ensuite une fonction ```chiffreXOR(message, cle)``` pour obtenir le message chiffré.*

*Table de vérité du XOR :*

In [None]:
message = "CHUCK NORRIS A DEJA COMPTE JUSQU'A L'INFINI, DEUX FOIS."
chaine = "NSINSINSINSINSINSINSINSINSINSINSINSINSINSINSINSINSINSIN"

In [None]:
def conversion(texte):
    """ Renvoie la liste des lettres du texte en valeur binaire (8bits)  """
    
    

In [None]:
def chaine_cle(key, texte):
   



In [None]:
def chiffreXOR(msg, cle):
    """ Renvoie la liste des valeurs binaires (8bits) chiffrées en XOR
    msg -> chaine message
    cle -> chaine cle"""
    
   



## Application : le Hash pour les mots de passe

Vos mots de passe pour vous connecter à votre compte Insta, ou tout autre service necessitant une authentification ne sont normalement pas stockés directement dans un fichier. Le risque de fuite serait trop important.

Normalement, seul un hash de votre mot de passe est enregistré sur un ordinateur : un hash est une suite de caractères de taille fixe associée à une chaîne quelconque. Par exemple, le hash (pour l'algorithme SHA1) de la chaîne :

       "J'aime les pizzas."
est

       "ac4f7e9c94319a21136f8e5f9189bdaf7899c25e"

Sans majuscule, 

       "j'aime les pizzas."
le hash devient 

       "2edba57751b915a8dd8d562e1179265f5d16088c"
       
Autrement, même pour un changement minime de la chaîne de départ, le message chiffré n'a plus rien à voir !
La force des algorithmes de hashage est que **le risque de cryptanalyse devient donc très faible**.

 Les fonctions de hash utilisées en cryptographie sont toujours faciles (rapide) à calculer, mais elles doivent vérifient )les propriétés suivantes :

    - il est très difficile de trouver une chaîne ayant un hash donné,
    - il est très difficile de modifier une chaîne sans modifier son hash,
    - il est très difficile de trouver deux chaînes avec le même hash.

Les algorithmes de hashage les plus connus sont :

    MD (mais cet algorithme n'est plus sûr)
    SHA1
    SHA256 (utilisé pour les blockchain des Bitcoin)
    SHA512


**Craquer le mot de passe** 

Si on possède le hash d'un mot de passe, on peut essayer de retrouver le mot de passe en essayant toutes les possibilités.

En général, il est intéressant de commencer par les mots du dictionnaire. Le fichier ```dico.txt``` contient les mots du dictionnaire "le Littré" qui ne contiennent pas d'accent. Il contient 47666 mots...

**A FAIRE :**
Le code Python suivant permet de tester tous les mots de ce fichier et de comparer leur hash avec un hash passé en argument : 

1.  A l'aide de cette fonction, retrouver le mot correspondant au hash

   ``` "11f48731001d3a8e81b2305036b5cb2a19309d7fe86983e05fe16a2cb900e522"```
    
2. Maintenant, on a modifié le hasch avec une majuscule à la dernière lettre et le "l" du mot est remplacé par  "1". Le hash obtenu est :
    
    ```"2a2ec0d82a404e4bb0988ea6998f4ad5d0e8e87df2cb6a288e6191a75f658406"```
    
    Retrouver le mot de passe, et comparer le temps de calcul.

In [1]:
import hashlib

def attaque_dico_hash(hash, dic):
    dico = open(dic, mode="r")
    n = 0   # pour compter le nombre de mots

    for mot in dico:
        mot = mot.strip()
        n = n + 1
 
        if hashlib.sha256(mot.encode()).hexdigest() == hash:
            print("TROUVÉ ! Le mot ", mot)
            dico.close()
            return
        
        if n % 1000 == 0:
            print(n, " ", end="")
   
    print(n, " mots ont été testés, mais le hash ne correspond pas.")

## Le chiffrement asymétrique


### 1. le principe

Dans les méthodes de chiffrement symétrique, la clé est la faille :

- Tout d'abord, c'est la même pour le chiffrement et pour le déchiffrement - On parle de "**clé symétrique**" - 

- ensuite, il faut bien qu'à un moment ou à un autre les deux protagonistes se l'échangent. Comme il faut la changer relativement souvent, cela oblige soit que les deux personnes se rencontrent, soit... qu'elles s'envoient la nouvelle clé...

Pour éviter les transferts de clé on peut imaginer autre chose :

Imaginons qu'Alice souhaite envoyer un message à Bob 
<table><tr>

<td><img src="https://cloudfront-us-east-1.images.arcpublishing.com/advancelocal/Q4SWW7E3VFAFDGDGKJ72GG5RHM.png" width="200" height="120" /></td>
    <td> </td>
<td><img src="https://www.jouetopia.fr/wp-content/uploads/bob-eponge-400x277.jpg" width="130" height="120" /></td>
    </tr></table>

...en faisant en sorte que chacun ait sa propre clé et la conserve secrète.

1. Comment pourraient-ils s'y prendre ?
2. Quelles serait la "faille"... ?

### 2. HTTPS et chiffrement RSA


Avant de parler du protocole HTTPS, petit retour sur le protocole HTTP : un client effectue une requête HTTP vers un serveur, le serveur va alors répondre à cette requête (par exemple en envoyant une page HTML au client). Si nécessaire n'hésitez pas à consulter ce qui a été fait en première pour plus de détails.

<img src="nsi_term_secu_5.png">

Le protocole HTTP pose 2 problèmes en termes de sécurité informatique :

1. Un individu qui intercepterait les données transitant entre le client et le serveur pourrait les lire sans aucun problème (ce qui serait problématique notamment avec un site de e-commerce au moment où le client envoie des données bancaires)
2. Grâce à une technique qui ne sera pas détaillée ici (le DNS spoofing), un serveur "pirate" peut se faire passer pour un site sur lequel vous avez l'habitude de vous rendre en toute confiance...

<img src="nsi_term_secu_6.png">


**La solution**

Les communications vont être chiffrées grâce à une clé symétrique. Problème : comment échanger cette clé entre le client et le serveur ? Simplement en utilisant une paire clé publique / clé privée !


Il faut attendre 1977 pour que trois potes, Ronald **R**IVEST, Adi **S**HAMIR et Leonard **A**DLEMAN mettent la dernière touche à un système qui va révolutionner le monde de la crytographie : enfin un **système asymétrique**... nécessitant toutefois quelques compétences en arithmétique...

Le principe utilise les nombres premiers, les très grands nombres premiers. Multiplier deux d'entre eux prend seulement quelques dixièmes de seconde aux processeurs d'aujourd'hui, mais faire le chemin inverse est extrêmement difficile.

Par exemple, sauriez-vous trouver la "**factorisation**" de ce nombre : 

175 828 273 ?

(une petite fonction Python et le tour est joué...)

**réponse** :

C'est seulement 10 247 x 17 159, deux "tout petits" nombres premiers... 

Si l'on avait pris des nombres premiers de l'ordre de $10^{65}$, il faudrait à peu près 50 ans pour factoriser leur produit, de l'ordre de $10^{130}$. Avec un produit de l'ordre de $10^{300}$, il faudrait plus de 1000 ans à 100 millions d'ordinateurs pour le casser (c'est à peu près le niveau de sécurité des systèmes bancaires actuels.)

Imaginons qu'Alice ait choisi les deux nombres premiers précédents, appelons-les p et q et
appelons N leur produit, il (*rappelons qu'on parle d'Alice Cooper...*) dispose alors de sa "**clé publique**" qu'il peut divulguer à la planète entière.

Ce grand nombre est passé dans une fonction arithmétique de laquelle il est impossible de revenir en arrière.

Pour chiffrer un message pour Alice, Bob va récupérer la clé publique d'Alice et l'insérer dans la fonction à sens unique, elle aussi connue de tous, il obtient une fonction "spéciale Alice". Il y insère son message, en note le résultat et l'envoie à Alice.





En fait, seul (*ce masculin vous gêne ?*) Alice possède le moyen d'inverser sa "fonction spéciale", grâce à ses deux grands entiers premiers p et q, connus de lui seul.



---




**Un exemple simplifié**

1. Alice choisit secrètement deux nombres premiers p et q. Ces nombres devraient être géants, mais pour la simplicité de l'exercice, nous prendrons **p = 17** et **q = 11**.

2. Il calcule leur produit **N** = 17x11 **= 187**. Il choisit un autre nombre, e, pour que le nombre e + (p-1)x(q-1) soit un nombre premier relatif (c'est technique, mais pas si compliqué...). Ici, prenons **e = 7** ( on a bien 7 + (17-1)x(11-1) = 167, premier)

3. Alice peut maintenant divulguer e et N : étant nécessaire pour le chiffrement, il doivent être disponibles à tous. Il forment la **clé publique** d'Alice.

4. Pour crypter son message, Bob doit d'abord le traduire en bits, selon le code ASCII, bits qui consituent l'écriture décimale d'un nombre M. 
Par exemple, si Bob veut envoyer à Alice le message **"X"** , en ASCII, cette lettre a pour code 10110000, qui en décimal, vaut 88. Donc **M = 88**.

5. Bob passe alors ce nombre dans la "fonction spéciale" d'Alice, après avoir récupéré sa clé publique (N et e) : ("mod" désigne la fonction "modulo", reste dans la division euclidienne, % en Python...)

$C = M ^e (mod N)$ soit $C = 88^7 (mod 187)$

6. Quelques propriétés arithmétiques permettent d'améliorer cette opération, qui serait sans cela fort compliquée : puisque 7 = 4+2+1, on a :

$88^7 (mod 187) = [88^4 (mod 187) . 88^2 (mod 187) . 88^1 (mod 187) ] (mod 187) $

avec :

$88^1 = 88 = 88 (mod 187)$

$88^2 = 7744 = 77 (mod 187)$

$88^4 = 59969536 = 132 (mod 187)$

et donc, $88^7 (mod 187) = 88 . 77 . 132 (mod 187) = 894432 (mod 187) = 11$

Bob renvoie donc à Alice le message chiffré **C = 11**...



7. Comme l'exponentielle-modulo est impossible à inverser si on ne dispose pas des informations nécessaires, même si Ève intercepte le message "11", elle ne saura rien en faire...

8. Alice, par contre,  peut inverser cette fonction : il calcule un nombre "d", selon la formule suivante :

$e . d = 1 (mod (p-1).(q-1))$

Soit ici : $7d = 1 mod(16.10) = 1 (mod 160)$

d'où $d = 23$ ( que l'on trouve assez simplement avec l'algorithme d'Euclide étendu)

9. Pour déchiffrer le message de Bob, Alice applique les formules suivantes : 

$M = C^d (mod N)$

$M = 11^{23} (mod 187) = [11^1 (mod 187) . 11^2 (mod 187) .11^4 (mod 187) . 11^{16} (mod 187)] (mod 187)$

$M = 11 . 121 . 55 . 154 (mod 187) = 88$

en binaire, 88 s'écrit 1011000, qui correspond à la lettre "X" !!!



**A FAIRE :**

Effectuer l'ensemble de ces opérations en suivant le chiffrement RSA pour envoyer cette fois la lettre **"B"**.

