# ACT3 Le chiffrement RSA

|Comp.| Description :|
|-|-|
|ANA|Décrire et spécifier les caractéristiques d’un processus, les données d’un problème, ou celles manipulées par un algorithme ou une fonction|
|REA|Concevoir, décrire une structure de données permettant de résoudre le problème|
|VAL|Justifier et critiquer une solution par évaluation, contrôle, et validation du code|





## 1. Un chiffrement très utilisé
Dans les années 1960, l’informatique se développe et ouvre de nouvelles possibilités. La cryptographie, jusque-là réservée aux seules agences gouvernementales, devient accessible aux entreprises, voire aux particuliers. Mais, si deux personnes souhaitent communiquer secrètement, elles doivent se mettre d’accord sur une clé servant au chiffrement et au déchiffrement. L’échange des clés, qui a toujours été un casse-tête dans l’histoire de la cryptographie, devient un problème insurmontable à mesure que la cryptographie se démocratise.

### un peu d'histoire
Whitfield Diffie et Martin Hellman vont résoudre ce problème en 1976, dans un article intitulé New directions in cryptography resté fameux. Ces deux mathématiciens montrent qu’il est possible de communiquer secrètement en utilisant un chiffrement asymétrique.
Le chiffrement asymétrique utilise 2 clés, l’une publique, l’autre privée. La clé publique permet de chiffrer le message, mais seule la clé privée permet de le déchiffrer. Deux ans plus tard, Ron **R**ivest, Adi **S**hamir et Leonard **A**dleman améliorent cette idée pour créer l’algorithme **RSA** (nommé d’après leurs initiales). 

### Principe 
L’algorithme RSA utilise, pour simplifier, un très grand nombre, N, que l’on peut décomposer comme le produit de 2 nombres premiers p et q. 	**N = p x q**

La *clé publique* est un couple **(e, N)**, avec N le grand nombre en question et e un nombre généré à partir de p et q. La *clé privée* est connue de l'émetteur du message seulement est un couple **(d, N)** avec N le grand nombre en question et d un nombre généré à partir de p, q et d. (Voir ACT2 pour les clés publiques/privées).
Le chiffrement s'effectue à l'aide de la *clé publique* (e, N) et le déchiffrement à l'aide de la *clé privée* (d, N).


Pour aller un peu plus en détail : <a href="https://www.sebsauvage.net/comprendre/encryptage/crypto_rsa.html"> Cryptographie : l'algorithme RSA </a>

Pour aller (vraimment) plus loin, pour la preuve mathématique : <a href="https://cm2.ens.fr/maths/pdf/nombres/RSA.pdf"> Culture Math, sur l'algorithme RSA</a>

### Robustesse
Si on ne connaît pas le couple (d, N), l’opération de déchiffrement devient extrêmement longue ! ... La sécurité de RSA repose sur le fait qu’il est très difficile de calculer les diviseurs d’un très grand nombre (on dit aussi « factoriser » un nombre). Même avec les meilleurs calculateurs, la factorisation peut prendre des années si le nombre est suffisamment grand. Pour cette raison, RSA est l’algorithme de chiffrement le plus utilisé dans le monde.

RSA est très sûr mais nécessite donc des moyens de calcul importants. Paul Zimmermann a résolu ce problème en 1991 en inventant un logiciel appelé PGP (pretty good privacy) qui est un compromis entre un chiffrement « classique » à clé privée et un chiffrement RSA. PGP a permis de démocratiser la cryptographie en la rendant accessible aux ordinateurs grand public. Cela lui a valu des poursuites judiciaires de la part du gouvernement américain. Certains gouvernements tentent en effet de limiter cela, ils exigent en général :

- Soit de limiter la taille des clés utilisées : une clé de taille « moyenne » est trop difficile à casser pour un ordinateur classique, mais pas pour un supercalculateur. Ainsi, la confidentialité est assurée vis-à- is des particuliers, mais pas des agences gouvernementales ni des très grandes entreprises qui possèdent des supercalculateurs.
- Soit de déposer ses clés privées dans un « coffre » géré par un organisme « de confiance » (une agence gouvernementale par exemple). Ainsi, les communications sont secrètes pour tout le monde sauf pour ceux qui ont accès au coffre.

Longtemps réservée aux armées et aux diplomates, la cryptographie est aujourd’hui utilisée par de nombreux services : les banques (cartes bancaires, transactions sécurisées sur Internet), le commerce électronique, les messageries électroniques (carte SIM, e-mail...), les services médicaux (carte Vitale...), le vote électronique, etc.

<a href="https://www.youtube.com/embed/Y2bsLRdVBP8"> Vidéo explicative de l'algo RSA (5min)</a> 




## 2. Mettre en place un chiffrement RSA simplifié

(d'après <a href="https://macs4200.org/chapters/11/1/kidrsa.html">*KidRSA*</a>)


Dans cette partie, nous allons mettre en place un ensemble de fonctions permettant de chiffrer et déchiffrer un message utilisant une version simplifiée de l'algorithme RSA. 


<table><tr><td>

### Principe utilisé

1. Choisir 4 nombres entiers naturels :

            a1, b1, a2, b2

2. Effectuer les calculs suivants :

            M = a1 x b1 - 1

            e = a2 x M + a1

            d = b2 x M + b1

            N = (e x d - 1) / M

3. Chiffrer un message **m** pour obtenir **c**, si m < N :

            c = (e x m) mod N

4. Déchiffrer un message **c** pour retrouver **m**, si c < N :

            m = (d x c) mod N
</td></tr></table>


In [None]:
def cesar(message, cle, sens):
    """ Chiffre ou déchiffre un message en fonction la clé. 
        Entrées : 
            message (str) --> message clair ou chiffré
            cle (int) --> nombre de décalage de lettre
            sens (int signé) -->  +1 pour chiffrement, -1 pour déchiffrement
        Sortie :
            resultat (str) --> message chiffré ou déchiffré selon le cas
    """

    resultat = ""

    for caractere in message :
        if caractere == " ":
            resultat = resultat + " "
        
        else :
            code_lettre = ord(caractere) + sens*cle     # Décalage du nombre de lettre correspondant à la clé
                                                        # (ord renvoie le code ASCII du caractère)
            if code_lettre > 90 : # on a depasse vers la droite le code du Z
                code_lettre = code_lettre - 26 # donc on repart du A vers la droite (boucle)

            if code_lettre < 65 : # on a dépasse vers la gauche le code du A
                code_lettre = code_lettre + 26 # on repart du Z vers la gauche

            resultat = resultat + chr(code_lettre) # on concatene la lettre obtenue
            
    return resultat

Avec un extrait de la "Guerre des Gaules"...

In [1]:
message = "RWBCADRC MN LNB NENWNVNWCB NC ANMXDCJWC UJ OJRKUNBBN MNB PJDUXRB ZD RU LXWWJRBBJRC BR VXKRUNB MJWB UNDAB ANBXUDCRXWB NC JERMNB MN WXDENJDCNB LNBJA WN LADC YJB MNEXRA BN ORNA J NDG"

# A déchiffrer ... !   ;-)#


### 2. Fréquence d'apparition des lettres dans un texte

Mais comment procéder quand on ne connaît pas la clé de chiffrement ?

On doit alors **décrypter** le message.

Une idée simple pour découvrir la clé est de chercher dans le message chiffré la lettre la plus fréquente, il y a alors de bonnes chances qu'elle corresponde au "E" dans le texte en clair, lettre la plus fréquente dans la langue française.

**A FAIRE :**
1. Coder les deux fonctions ci-dessous ```calcul_frequences()``` et ```analyse_frequences()``` permettant de trouver le clé et de décrypter un message codé par le "code de César".
2. Le tester sur d'autres messages codés.
3. Conclure sur la fiabilité du code de César.


In [None]:
import matplotlib.pyplot as plt


def diagramme_barres(frequences_observees):
    """ Affiche frequences_observees et frequences_theoriques sur le même graphique 
        Entrée :
            frequences_observees (list): liste des fréquences observées (float) pour chaque lettres ordre alpha
        Sortie : 
            Graphique matplotlib Fréquences en fct d'alphabet 
    """
    alphabet = [lettre for lettre in "ABCDEFGHIJKLMNOPQRSTUVWXYZ"]
    frequences_theoriques = [0.084, 0.0106, 0.0303, 0.0418, 0.1726, 0.0112, 0.0127, 0.0092, 0.0734, 0.0031, 0.0005,\
                             0.0601, 0.0296, 0.0713, 0.0526, 0.0301, 0.0099, 0.0655, 0.0808, 0.0707, 0.0574, 0.0132,\
                             0.0004, 0.0045, 0.003, 0.0012]

    plt.bar(alphabet, frequences_observees, color = 'red', width = 0.2, alpha = 0.6, label = 'frequences observees')
    plt.bar(alphabet, frequences_theoriques,color = 'blue', width = 0.5, alpha = 0.1, label = 'frequences francais')
    plt.title("Fréquence d'apparition de chaque lettre dans le texte")
    plt.legend()
    plt.show()
    

def calcul_frequences(texte) : 
    """ Renvoie frequences_texte qui sont les fréquences d'apparition de chaque lettres du texte
        Entrée :
            texte (str) --> texte chiffré
        Sortie:
            frequences_texte (list) --> liste des fréquences de chacun des caractères du texte chiffré
    """

# Afficher le graphique des fréquences observées du texte pour tester...
    
def analyse_frequences(texte):
    """ Renvoie la clé probable 
        Entrée :
            texte (str) --> texte chiffré
        Sortie :
            cle (int) --> clé probable à partir des fréquences
    """
   

    
    pass


In [None]:
message = "RWBCADRC MN LNB NENWNVNWCB NC ANMXDCJWC UJ OJRKUNBBN MNB PJDUXRB ZD RU LXWWJRBBJRC BR VXKRUNB MJWB UNDAB ANBXUDCRXWB NC JERMNB MN WXDENJDCNB LNBJA WN LADC YJB MNEXRA BN ORNA J NDG"


In [None]:
# on vérifie avec la clé trouvée :
#...

## Le chiffrement XOR


On peut être un peu plus efficace que le "code de César" en utilisant une autre ***fonction de chiffrement***. En effet, pour le "code de César" la fonction de chiffrement est une fonction ***décalage***.

Maintenant, nous allons tester une fonction ***XOR***, ou *ou exclusif*.

- Message :  "CHUCK NORRIS A DEJA COMPTE JUSQU'A L'INFINI, DEUX FOIS."
- Clé : "NSI"

### Méthode de chiffrement :

 - On recopie plusieurs fois la clé pour obtenir une chaîne de la même longueur que le message
 - Chaque caractère de la chaîne et du message est transformé en nombre (valeur binaire)
 - On effectue l'opération XOR entre chaque nombre de la chaîne et du message correspondants.

**A FAIRE :**

1. Rappeler la table de vérité du **XOR**
2. Compléter la chaîne
3. Tester cette méthode de chiffrement avec le message et la clé proposée
4. Conclure sur la facilité de décryptage et sur l'utilisation pour sécuriser les données échangées ?


*__Aide :__*


*Créer d'abord une fonction ```conversion()``` pour convertir en liste de valeurs hexadécimales des caractères ASCII avec ```ord()```, puis en une liste de valeurs binaires avec ```bin()```.*

*Créer une fonction pour créer la chaîne de clés ainsi que sa conversion en valeurs binaires.*

*Créer ensuite une fonction ```chiffreXOR(message, cle)``` pour obtenir le message chiffré.*

In [None]:
 # Table de vérité du XOR :





In [None]:
message = "CHUCK NORRIS A DEJA COMPTE JUSQU'A L'INFINI, DEUX FOIS."

# chaine =  ...        # A compléter  

In [None]:
def conversion(texte):
    """ Renvoie la liste des lettres du texte en valeur binaire (8bits)  
        Entrée : 
            texte (str) --> texte à chiffrer
        Sortie :
            liste_lettres (list) --> liste des valeurs binaires (8bits) des lettres du texte
    """
    
    pass
    

In [None]:
def chaine_cle(cle, texte):
    """ Crée la chaîne de clé de même longueur que le texte à chiffrer 
        Entrée : 
            cle (str) --> chaîne de caractère formant la clé
            texte (str) --> texte à chiffrer
        Sortie :
            chaine (str) --> chaîne de caractère répétant la clé de même longueur
                            que le texte à chiffrer
    """

    pass



In [None]:
def chiffreXOR(message, cle):
    """ Renvoie la liste des valeurs binaires chiffrées en XOR
        Entrée :
            message (str) --> message à chiffrer
            cle (str) --> chaîne de caractères servant de clé de chiffrement
        Sortie :
            message_chiffre (list) --> liste des valeurs binaires (8bits) du message chiffré
    """
    


    pass



## Application : le Hash pour les mots de passe

Vos mots de passe pour vous connecter à votre compte Insta, ou tout autre service necessitant une authentification ne sont normalement pas stockés directement dans un fichier. Le risque de fuite serait trop important.

Normalement, seul un hash de votre mot de passe est enregistré sur un ordinateur : un hash est une suite de caractères de taille fixe associée à une chaîne quelconque. Par exemple, le hash (pour l'algorithme SHA1) de la chaîne :

       "J'aime les pizzas."
est

       "ac4f7e9c94319a21136f8e5f9189bdaf7899c25e"

Sans majuscule, 

       "j'aime les pizzas."
le hash devient 

       "2edba57751b915a8dd8d562e1179265f5d16088c"
       
Autrement, même pour un changement minime de la chaîne de départ, le message chiffré n'a plus rien à voir !
La force des algorithmes de hashage est que **le risque de cryptanalyse devient donc très faible**.

 Les fonctions de hash utilisées en cryptographie sont toujours faciles (rapide) à calculer, mais elles doivent vérifient )les propriétés suivantes :

    - il est très difficile de trouver une chaîne ayant un hash donné,
    - il est très difficile de modifier une chaîne sans modifier son hash,
    - il est très difficile de trouver deux chaînes avec le même hash.

Les algorithmes de hashage les plus connus sont :

    MD (mais cet algorithme n'est plus sûr)
    SHA1
    SHA256 (utilisé pour les blockchain des Bitcoin)
    SHA512


**Craquer le mot de passe** 

Si on possède le hash d'un mot de passe, on peut essayer de retrouver le mot de passe en essayant toutes les possibilités.

En général, il est intéressant de commencer par les mots du dictionnaire. Le fichier ```dico.txt``` contient les mots du dictionnaire "le Littré" qui ne contiennent pas d'accent. Il contient 47666 mots...

**A FAIRE :**
Le code Python suivant permet de tester tous les mots de ce fichier et de comparer leur hash avec un hash passé en argument : 

1.  A l'aide de cette fonction, retrouver le mot correspondant au hash ``` "11f48731001d3a8e81b2305036b5cb2a19309d7fe86983e05fe16a2cb900e522"```
    
2. Maintenant, on a modifié le hasch avec une majuscule à la dernière lettre et le "l" du mot est remplacé par  "1". Le hash obtenu est :
    
    ```"2a2ec0d82a404e4bb0988ea6998f4ad5d0e8e87df2cb6a288e6191a75f658406"```
    
    Retrouver le mot de passe, et comparer le temps de calcul.

In [None]:
import hashlib

def attaque_dico_hash(hash, dic):
    """ Attaque force brute pour trouver le mot correspondant au message chiffré (hash)
        Entree :
            hash (str) --> message chiffré par "hashage"
            dic (fichier .txt) --> fichier .TXT comprenant un mot par ligne
        Sortie : 
            simple message pour dire si le mot est trouvé ou pas
    """
    
    dico = open(dic, mode="r")
    n = 0   # compter le nombre de mots

    for mot in dico:
        mot = mot.strip()
        n = n + 1
        mot_hash = hashlib.sha256(mot.encode()).hexdigest()  # hash du mot du dico

        if mot_hash == hash:    # comparaison avec le hash d'entrée
            dico.close()
            return "TROUVÉ ! Le mot " + mot 

        if n % 1000 == 0:           # compteur de 1000 en 1000 pour voir où en en est
            print(n, " ", end="")
   
    return str(n) + " mots ont été testés, mais le hash ne correspond pas  :-( "
