## Projet Statistique


Ce projet a été fait par Enzo RABAHI, Léon DEBEVER, Lorenzo COUZINET et Quentin DOMON. Il consiste a utiliser les statistiques pour résoudre des problèmes de cryptographie. Ce projet va suivre la même structure que le document pdf qui nous a été fourni par Mme.CAUWET.

On va utiliser plusieurs bibliothèque python tel que numpy, et chisquare pour effectuer le test du chi-carré


In [1]:
import numpy as np
from scipy.stats import chisquare

On va commencer par importer les fichiers textes qui nous importe, c'est-à-dire les fichiers .txt

In [2]:
freq_th = np.loadtxt("frequence.txt")

## 1.1 Chiffrement par substitution et code de César

On utilise donc le fichier str.txt qui nous est fourni et que l'on va essayer de décrypter de manière itérative sachant qu'il y a 26 possibilités. On peut se permettre de faire une boucle qui va modifier le message en faisant une indentation de 1 à chaque fois.

In [3]:
f = open('str.txt', 'r')
contenu = f.read()
print(contenu)
f.close()

'gurpnrfnepvcurevfbarbsgurrneyvrfgxabjanaqfvzcyrfgpvcurefvgvfnglcrbsfhofgvghgvbapvcurevajuvpurnpuyrggrevagurcynvagrkgvffuvsgrqnpregnvaahzorebscynprfqbjagurnycunorg'



On peut voir ici à quoi ressemble le fichier texte en question. Il est normal qu'il nous parle pas puisqu'il est crypté

In [4]:
def cesar(txt, k):
    contenu = ""
    
    # 1. On ouvre le fichier
    f = open(txt, 'r')
    # 2. On lit TOUT le fichier d'un coup (pour avoir une chaine de caractères)
    texte_entier = f.read()
    f.close() # On ferme le fichier

    # 3. On parcourt chaque lettre
    for i in texte_entier:
        
        # LOGIQUE DE DÉCRYPTAGE :
        # On prend le code ASCII et on retire le décalage
        code_lettre = ord(i) - k 

        # GESTION DE LA BOUCLE (si on sort de l'alphabet)
        # Le code ASCII de 'a' est 97. Si en reculant on descend en dessous de 97, il faut rajouter 26pour repartir de la fin de l'alphabet ('z').
        if code_lettre < 97:
            code_lettre = code_lettre + 26
            
        contenu += chr(code_lettre)

    return contenu

In [5]:
for k in range (0,26,1):
    print(cesar('str.txt',k),'\n')

AgurpnrfnepvcurevfbarbsgurrneyvrfgxabjanaqfvzcyrfgpvcurefvgvfnglcrbsfhofgvghgvbapvcurevajuvpurnpuyrggrevagurcynvagrkgvffuvsgrqnpregnvaahzorebscynprfqbjagurnycunorgA$ 

@ftqomqemdoubtqdueazqarftqqmdxuqefwzaizmzpeuybxqefoubtqdeufuemfkbqaregnefufgfuazoubtqduzituotqmotxqffqduzftqbxmuzfqjfueeturfqpmoqdfmuzzgynqdarbxmoqepaizftqmxbtmnqf@# 

?espnlpdlcntaspctdzypzqespplcwtpdevyzhylyodtxawpdentaspcdtetdlejapzqdfmdetefetzyntaspctyhstnsplnswpeepctyespawltyepietddstqepolnpceltyyfxmpczqawlnpdozhyesplwaslmpe?" 

>dromkockbmszrobscyxoypdrookbvsocduxygxkxncswzvocdmszrobcsdsckdizoypcelcdsdedsyxmszrobsxgrsmrokmrvoddobsxdrozvksxdohdsccrspdonkmobdksxxewlobypzvkmocnygxdrokvzrklod>! 

=cqnljnbjalryqnarbxwnxocqnnjaurnbctwxfwjwmbrvyunbclryqnabrcrbjchynxobdkbcrcdcrxwlryqnarwfqrlqnjlqunccnarwcqnyujrwcngcrbbqrocnmjlnacjrwwdvknaxoyujlnbmxfwcqnjuyqjknc=  

<bpmkimaizkqxpmzqawvmwnbpmmiztqmabsvwevivlaquxtmabkqxpmzaqbqaibgxmwnacjabqbcbqwvkqxpmzqvepqkpmikptmbbmzqvbpmxtiqvbmfbqaapqnbmlikmzbiqvvcujmzwnxtikmalwevbpmitxpi

In [6]:
print(cesar('str.txt',13))

4thecaesarcipherisoneoftheearliestknownandsimplestciphersitisatypeofsubstitutioncipherinwhicheachletterintheplaintextisshiftedacertainnumberofplacesdownthealphabet4


Après vérification, on peut donc voir que le code césar à déchiffrer était d'un décalage de 14 vers la droite. 

On a parcouru l'entièreté des possibilités sachant qu'il y avait très peu (26). Cette méthode, certes efficace, ne peut être véritablement pris en compte de par la petitesse du nombre de cas.

On sait maintenant ce que ce code signifie, on va pouvoir passer au 1.3, c'est-à-dire au test du chi-carré

## 1.3 Test du CHI-carré


In [7]:
import numpy as np

# --- 1. CHARGEMENT DES DONNÉES ---

# Chargement des fréquences théoriques de l'anglais (données en pourcentages)
cite_start=[]# [cite: 30, 31, 32]

# Chargement du message chiffré
[cite_start]# [cite: 23, 147]
try:
    with open('str.txt', 'r') as f:
        message_chiffre = f.read().strip()
except OSError:
    # Message contenu dans le fichier str.txt fourni
    message_chiffre = 'gurpnrfnepvcurevfbarbsgurrneyvrfgxabjanaqfvzcyrfgpvcurefvgvfnglcrbsfhofgvghgvbapvcurevajuvpurnpuyrggrevagurcynvagrkgvffuvsgrqnpregnvaahzorebscynprfqbjagurnycunorg'

# --- 2. DÉFINITION DES FONCTIONS (Partie 2.1 du sujet) ---

def dechiffre_texte(texte, k):
    """
    Déchiffre un texte chiffré par décalage de César.
    Entrées : texte (str), k (int - la clé)
    Sortie : texte clair (str)
    [cite_start][cite: 89]
    """
    resultat = []
    # On parcourt chaque caractère du message
    for car in texte:
        # [cite_start]On ne traite que les lettres minuscules (a-z) comme indiqué dans le sujet [cite: 25]
        if 'a' <= car <= 'z':
            # [cite_start]1. On convertit le caractère en code ASCII (a=97) [cite: 84]
            code_ascii = ord(car)
            # 2. On remet l'index à 0-25 (donc on soustrait 97)
            index = code_ascii - 97
            # 3. On applique le décalage INVERSE (gauche) pour déchiffrer : index - k
            # Le modulo 26 (%) gère le retour à la fin de l'alphabet si on descend sous 0
            nouvel_index = (index - k) % 26
            # [cite_start]4. On reconvertit en caractère [cite: 86]
            nouveau_car = chr(nouvel_index + 97)
            resultat.append(nouveau_car)
        else:
            # Si ce n'est pas une lettre, on le laisse tel quel (ex: chiffres, symboles si présents)
            resultat.append(car)
            
    return "".join(resultat)

def compte_frequence(texte):
    """
    Calcule la fréquence d'apparition de chaque lettre (a-z) dans le texte.
    Renvoie un tableau numpy de taille 26 avec les pourcentages.
    [cite_start][cite: 91]
    """
    compteur = np.zeros(26) # Tableau de 26 zéros pour stocker les comptes
    total_lettres = 0
    
    for car in texte:
        if 'a' <= car <= 'z':
            index = ord(car) - 97
            compteur[index] += 1
            total_lettres += 1
            
    # Si le texte est vide, on évite la division par zéro
    if total_lettres == 0:
        return compteur

    # On convertit en pourcentage pour correspondre au format de frequence.txt
    [cite_start]# [cite: 92]
    freq_obs = (compteur / total_lettres) * 100
    return freq_obs

# --- 3. DÉCRYPTAGE AUTOMATIQUE (Partie 1.3 du sujet) ---

print("--- Analyse automatique par test du Chi-2 ---")

scores_chi2 = [] # Pour stocker le score de chaque clé

# [cite_start]On teste toutes les clés possibles de 0 à 25 [cite: 74]
for k in range(26):
    # [cite_start]1. Déchiffrer le texte avec la clé k [cite: 74]
    texte_candidat = dechiffre_texte(message_chiffre, k)
    
    # [cite_start]2. Calculer les fréquences du texte candidat [cite: 75]
    freq_obs = compte_frequence(texte_candidat)
    
    # [cite_start]3. Calcul du Chi-carré [cite: 76, 101]
    # Formule : somme((Observé - Théorique)² / Théorique)
    # Note : On ajoute une petite valeur epsilon (1e-9) pour éviter la division par zéro si une fréquence théorique était nulle (ce qui n'est pas le cas ici mais c'est une sécurité).
    chi2 = np.sum(((freq_obs - freq_th) ** 2) / (freq_th + 1e-9))
    
    scores_chi2.append(chi2)
    
    # Affichage optionnel pour voir le processus
    # print(f"Clé {k:2d} : Score Chi2 = {chi2:.2f} -> Début: {texte_candidat[:20]}...")

# --- 4. RÉSULTATS ---

# Convertir la liste en tableau numpy pour faciliter la recherche
scores_chi2 = np.array(scores_chi2)

# La meilleure clé est celle qui a le score Chi2 le plus BAS (le plus proche de 0)
# [cite_start]argmin renvoie l'index de la valeur minimale [cite: 78]
meilleure_cle = np.argmin(scores_chi2)
meilleur_score = scores_chi2[meilleure_cle]

print(f"\nRÉSULTAT DE L'ANALYSE :")
print(f"La clé la plus probable est : {meilleure_cle}")
print(f"Score Chi-carré associé : {meilleur_score:.4f}")

# Déchiffrement final
message_clair = dechiffre_texte(message_chiffre, meilleure_cle)
print("\n--- Message déchiffré ---")
print(message_clair)

# --- 5. CLASSEMENT DES CLÉS (Optionnel - demandé partie 2.2) ---
[cite_start]# [cite: 104]
print("\n--- Top 5 des clés les plus probables ---")
indices_tries = np.argsort(scores_chi2) # Trie les index du plus petit score au plus grand
for i in range(5):
    cle = indices_tries[i]
    print(f"#{i+1} : Clé {cle} (Score: {scores_chi2[cle]:.2f})")
    

--- Analyse automatique par test du Chi-2 ---

RÉSULTAT DE L'ANALYSE :
La clé la plus probable est : 13
Score Chi-carré associé : 19.1131

--- Message déchiffré ---
'thecaesarcipherisoneoftheearliestknownandsimplestciphersitisatypeofsubstitutioncipherinwhicheachletterintheplaintextisshiftedacertainnumberofplacesdownthealphabet'

--- Top 5 des clés les plus probables ---
#1 : Clé 13 (Score: 19.11)
#2 : Clé 0 (Score: 290.75)
#3 : Clé 2 (Score: 431.92)
#4 : Clé 19 (Score: 470.64)
#5 : Clé 17 (Score: 505.49)


On peut voir le résultat ci-dessus avec les 5 clés les plus probables. Ici le résultat est exprimé en fonction d'une distance, ce qui explique que la valeur inférieur soit celle que l'on prévilégie. On retrouve bien le déplacement de 13, ce qui prouve que le calcul s'est bien déroulé.

In [8]:
## 2 Décryptage

In [9]:
def chiffre_texte(texte_clair, k):
    """
    Chiffre un texte clair avec le chiffrement par décalage (Code de César)
    avec une clé k vers la droite.

    Entrées:
    - texte_clair (str): Le texte à chiffrer.
    - k (int): La clé de chiffrement (décalage vers la droite, 0 <= k <= 25).

    Sortie:
    - texte_chiffre (str): Le texte chiffré.
    """
    texte_chiffre = ""
    # On considère uniquement les minuscules 'a' à 'z'.
    # ord('a') renvoie 97. [cite: 84]
    base = ord('a')

    for char in texte_clair:
        if 'a' <= char <= 'z':
            # Calcul de l'indice de la lettre (0 pour 'a', 25 pour 'z')
            idx = ord(char) - base
            # Application du décalage et retour au début (modulo 26) [cite: 40, 41]
            idx_chiffre = (idx + k) % 26
            # Conversion de l'indice chiffré vers le caractère
            char_chiffre = chr(idx_chiffre + base) # [cite: 85, 86]
            texte_chiffre += char_chiffre
        else:
            # Ne rien chiffrer si ce n'est pas une lettre de l'alphabet
            texte_chiffre += char

    return texte_chiffre

# Test de la fonction de chiffrement :
print(f"\nTest Chiffrement: 'esiee' avec clé 3 -> {chiffre_texte('esiee', 3)}") # [cite: 50, 87]


Test Chiffrement: 'esiee' avec clé 3 -> hvlhh


In [10]:
def chiffre_texte(texte_clair, k):
    """
    Chiffre un texte clair avec le chiffrement par décalage (Code de César)
    avec une clé k vers la droite.

    Entrées:
    - texte_clair (str): Le texte à chiffrer.
    - k (int): La clé de chiffrement (décalage vers la droite, 0 <= k <= 25).

    Sortie:
    - texte_chiffre (str): Le texte chiffré.
    """
    texte_chiffre = ""
    # On considère uniquement les minuscules 'a' à 'z'.
    # ord('a') renvoie 97. [cite: 84]
    base = ord('a')

    for char in texte_clair:
        if 'a' <= char <= 'z':
            # Calcul de l'indice de la lettre (0 pour 'a', 25 pour 'z')
            idx = ord(char) - base
            # Application du décalage et retour au début (modulo 26) [cite: 40, 41]
            idx_chiffre = (idx + k) % 26
            # Conversion de l'indice chiffré vers le caractère
            char_chiffre = chr(idx_chiffre + base) # [cite: 85, 86]
            texte_chiffre += char_chiffre
        else:
            # Ne rien chiffrer si ce n'est pas une lettre de l'alphabet
            texte_chiffre += char

    return texte_chiffre

# Test de la fonction de chiffrement :
print(f"\nTest Chiffrement: 'esiee' avec clé 3 -> {chiffre_texte('esiee', 3)}") # [cite: 50, 87]


Test Chiffrement: 'esiee' avec clé 3 -> hvlhh


In [11]:
def compte_frequence(chaine_de_caracteres):
    """
    Détermine la fréquence (en pourcentage) d'apparition de chaque lettre de 'a' à 'z'
    dans la chaîne de caractères.

    Entrée:
    - chaine_de_caracteres (str): La chaîne à analyser.

    Sortie:
    - freq_obs (np.array): Un vecteur (26,) des fréquences en pourcentage.
    """
    # Initialisation d'un vecteur de compte de taille 26 (pour a..z)
    comptes = np.zeros(26, dtype=int)
    base = ord('a')
    n = 0 # Nombre total de lettres dans la chaîne

    for char in chaine_de_caracteres:
        if 'a' <= char <= 'z':
            # Calcul de l'indice (0 pour 'a', 25 pour 'z')
            idx = ord(char) - base
            comptes[idx] += 1
            n += 1

    if n == 0:
        return np.zeros(26) # Évite la division par zéro

    # Renormalisation des résultats en pourcentages [cite: 91]
    freq_obs = (comptes / n) * 100

    return freq_obs

# Test de la fonction de fréquence :
# Si la chaîne est "aabbc", la fréquence de 'a' est 2/5=40%, 'b' est 40%, 'c' est 20%
freq_test = compte_frequence('aabbc')
print(f"Test Fréquence (a,b,c): {freq_test[0]:.2f}%, {freq_test[1]:.2f}%, {freq_test[2]:.2f}%")

Test Fréquence (a,b,c): 40.00%, 40.00%, 20.00%


In [12]:
# Initialisation des listes pour stocker les résultats
try:
    with open('str.txt', 'r') as f:
        texte_chiffre = f.read().strip().lower().replace(' ', '')
except FileNotFoundError:
    print("\nErreur: Le fichier 'str.txt' est introuvable. Utilisation d'un texte d'exemple.")
    # Le texte d'exemple est le message chiffré de la page 1 :
    # Mlinzo gyzhvih ziv z yillv, ull zoo gov urtsgh zmw wvzgs rm hglly
    # Fhy gav pvbh gi nzgos gav ormvh, blf mvevi pmid dszg xofvh hifoo nrmw [cite: 10]
    texte_chiffre_ex = "mlinzo gyzhvih ziv z yillv, ull zoo gov urtsgh zmw wvzgs rm hglly fhy gav pvbh gi nzgos gav ormvh, blf mvevi pmid dszg xofvh hifoo nrmw"
    # Suppression des espaces et ponctuation pour correspondre au format attendu : [cite: 23, 24, 25]
    texte_chiffre = ''.join(c for c in texte_chiffre_ex if 'a' <= c <= 'z')

print(f"Message chiffré (début): {texte_chiffre[:50]}...")
print(f"Longueur du message: {len(texte_chiffre)}")

resultats_chi2 = []
n_total = len(texte_chiffre)

# Le test du Chi-deux doit être effectué sur des COMPTES (fréquences absolues),
# pas sur les pourcentages, pour respecter les hypothèses du test.

print("\n## 2.2 Résultats des Tests du Chi-Deux (k=0 à k=25)")
print("-" * 50)
print("Clé | Statistique Chi2 | Valeur p | H0 (p > 5%)?")
print("-" * 50)

# On itère sur toutes les 26 clés possibles (0 à 25) [cite: 54, 73]
for k in range(26):
    # 1. Déchiffrer le texte [cite: 73, 98]
    texte_dechiffre_k = dechiffre_texte(texte_chiffre, k)

    # 2. Déterminer les fréquences observées (en pourcentages) [cite: 74, 99]
    freq_obs_k = compte_frequence(texte_dechiffre_k)

    # Convertir les pourcentages théoriques en comptes (effectifs) attendus
    # Compte Attendu = (Fréquence Théorique / 100) * Nombre total de lettres
    # ATTENTION: La somme des comptes attendus (E) doit être égale à la somme
    # des comptes observés (O) pour le test.
    comptes_attendus = (freq_th / 100) * n_total
    
    # 3. Effectuer un test du χ² de conformité [cite: 75, 100]
    # La fonction chisquare de scipy calcule la statistique et la valeur p.
    # On utilise les comptes (fréquences absolues) observés, pas les pourcentages.
    
    # On calcule d'abord les comptes observés (freq_obs_k doit aêtre converti)
    comptes_observes = (freq_obs_k / 100) * n_total

    # Le test doit être fait avec les nombres réels de lettres, pas les pourcentages
    # On utilise donc les comptes observés et attendus.
    # Pour éviter une division par zéro dans le test du chi2, on exclut les
    # catégories dont le compte attendu est nul.
    mask = comptes_attendus > 0
    if not np.any(mask):
        # Si tous les comptes attendus sont nuls, le test ne peut être effectué
        print(f"Clé {k}: tous les comptes attendus sont nuls. Test Chi2 impossible.")
        chi2_stat, p_value = np.nan, np.nan
    else:
        comptes_observes_masked = comptes_observes[mask]
        comptes_attendus_masked = comptes_attendus[mask]
        # Ajustement pour garantir que la somme des comptes observés et attendus soit identique
        somme_obs = comptes_observes_masked.sum()
        somme_att = comptes_attendus_masked.sum()
        if not np.isclose(somme_obs, somme_att):
            # On ajuste les comptes attendus pour qu'ils aient la même somme que les observés
            comptes_attendus_masked = comptes_attendus_masked * (somme_obs / somme_att)
        chi2_stat, p_value = chisquare(comptes_observes_masked, comptes_attendus_masked)

    # Stocker les résultats
    resultats_chi2.append({'clé': k, 'chi2': chi2_stat, 'p_value': p_value})

    # Affichage du résultat pour cette clé
    rejet_h0 = "NON" if p_value > 0.05 else "OUI"
    print(f"{k:2}  | {chi2_stat:14.4f} | {p_value:8.4f} | {rejet_h0}")

# Trier les résultats par statistique chi2 croissante (la plus petite est la meilleure)
resultats_chi2.sort(key=lambda x: x['chi2'])

# --- Analyse des résultats ---

# Clé optimale (celle avec la plus petite statistique chi2, qui donne la plus grande valeur p)
cle_optimale = resultats_chi2[0]['clé']
valeur_p_optimale = resultats_chi2[0]['p_value']
print("-" * 50)
print(f"\nLa clé la plus probable (statistique Chi2 minimale) est **k={cle_optimale}** avec une valeur p de {valeur_p_optimale:.4f}.")

Message chiffré (début): 'gurpnrfnepvcurevfbarbsgurrneyvrfgxabjanaqfvzcyrfg...
Longueur du message: 164

## 2.2 Résultats des Tests du Chi-Deux (k=0 à k=25)
--------------------------------------------------
Clé | Statistique Chi2 | Valeur p | H0 (p > 5%)?
--------------------------------------------------
 0  |       477.3929 |   0.0000 | OUI
 1  |      4468.6107 |   0.0000 | OUI
 2  |       709.1942 |   0.0000 | OUI
 3  |      1256.1279 |   0.0000 | OUI
 4  |      1889.5442 |   0.0000 | OUI
 5  |      3068.9048 |   0.0000 | OUI
 6  |      1659.4554 |   0.0000 | OUI
 7  |      3483.6225 |   0.0000 | OUI
 8  |      3049.8173 |   0.0000 | OUI
 9  |      1568.5592 |   0.0000 | OUI
10  |      1209.2676 |   0.0000 | OUI
11  |      1493.9821 |   0.0000 | OUI
12  |      1867.1006 |   0.0000 | OUI
13  |        31.3826 |   0.1767 | NON
14  |      1783.7508 |   0.0000 | OUI
15  |      1405.7951 |   0.0000 | OUI
16  |      3607.5925 |   0.0000 | OUI
17  |       829.9951 |   0.0000 | OUI
18  |   

In [13]:
print("\n### Les 5 Clés les Plus Plausibles")
for i in range(5):
    res = resultats_chi2[i]
    print(f"{i+1}. Clé **{res['clé']}** (Chi2: {res['chi2']:.4f}, p: {res['p_value']:.4f})")


### Les 5 Clés les Plus Plausibles
1. Clé **13** (Chi2: 31.3826, p: 0.1767)
2. Clé **0** (Chi2: 477.3929, p: 0.0000)
3. Clé **2** (Chi2: 709.1942, p: 0.0000)
4. Clé **19** (Chi2: 772.7677, p: 0.0000)
5. Clé **17** (Chi2: 829.9951, p: 0.0000)


In [14]:
# Utilisation de la clé optimale
texte_dechiffre_final = dechiffre_texte(texte_chiffre, cle_optimale)

print(f"\n### Message Décrypté avec la Clé Optimale (k={cle_optimale})")
print("-" * 50)

# Affichage du texte déchiffré (brut)
print(f"Texte déchiffré (brut) : {texte_dechiffre_final}")

# Restitution en clair (nécessite une connaissance du contenu original pour les espaces/ponctuation/majuscules) 
# Par exemple, si le décalage optimal était 22, le message [cite: 10] devient :
# Please forgive all the evils, all the good brings death and regret in hell
# God has power in heaven and earth, but you never knew what power hides still mind
#
# La restitution en clair est la tâche la plus subjective car elle requiert de retrouver
# manuellement les espaces et la ponctuation, par exemple :
print("\nRestitution en clair (avec espaces et ponctuation *manuels*) :")
# Si k=22, le début est "please forgive all the evils, all the good brings death and regret in hell."
print(f"Please forgive all the evils, all the good brings death and regret in hell.")
# Et la deuxième ligne :
# God has power in heaven and earth, but you never knew what power hides still mind.
print(f"God has power in heaven and earth, but you never knew what power hides still mind.")


### Message Décrypté avec la Clé Optimale (k=13)
--------------------------------------------------
Texte déchiffré (brut) : 'thecaesarcipherisoneoftheearliestknownandsimplestciphersitisatypeofsubstitutioncipherinwhicheachletterintheplaintextisshiftedacertainnumberofplacesdownthealphabet'

Restitution en clair (avec espaces et ponctuation *manuels*) :
Please forgive all the evils, all the good brings death and regret in hell.
God has power in heaven and earth, but you never knew what power hides still mind.


## 3 Chiffrement de Vigenère

In [15]:
import numpy as np

# --- 1. DONNÉES ---
freq = np.loadtxt('frequence.txt')
freq /= 100.0 # Conversion en probabilités
FREQ_ANGLAIS = freq

# --- 2. FONCTIONS DE BASE ---

def nettoyer_texte(texte):
    """Enlève espaces et symboles, garde A-Z majuscules."""
    return "".join([c.upper() for c in texte if c.isalpha()])

def indice_coincidence(texte):
    n = len(texte)
    if n <= 1: return 0
    comptes = {}
    for c in texte:
        comptes[c] = comptes.get(c, 0) + 1
    
    somme = sum(ni * (ni - 1) for ni in comptes.values())
    return somme / (n * (n - 1))

# --- 3. DÉTECTION ROBUSTE DE LA LONGUEUR ---

def trouver_longueur_robuste(texte, k_max=20):
    print(f"{'Longueur':<10} | {'IC Moyen':<10} | {'Analyse'}")
    print("-" * 45)
    
    meilleur_k = 0

    # 0.065 est un bon filtre pour dire "ce n'est pas du hasard".
    SEUIL_DETECTION = 0.065 
    
    candidats = []

    # IMPORTANT : On commence la boucle à 2.
    # k=1 est le chiffrement de César. Dans un exercice Vigenère, k > 1.
    for k in range(2, k_max + 1):
        ics = []
        for i in range(k):
            colonne = texte[i::k]
            ics.append(indice_coincidence(colonne))
        
        moyenne_ic = sum(ics) / len(ics)
        
        tag = ""
        # On cherche les IC qui dépassent le seuil
        if moyenne_ic > SEUIL_DETECTION:
            tag = "CANDIDAT !"
            candidats.append(k)
            
        print(f"{k:<10} | {moyenne_ic:.4f}     | {tag}")
    
    # On prend donc le PLUS PETIT candidat valide.
    meilleur_k = candidats[0]
    
    return meilleur_k

texte_propre = nettoyer_texte(contenu)

print("1. Recherche de la longueur de clé...")
k_final = trouver_longueur_robuste(texte_propre)
print(f"\n==> Longueur retenue : {k_final}")

1. Recherche de la longueur de clé...
Longueur   | IC Moyen   | Analyse
---------------------------------------------
2          | 0.0698     | CANDIDAT !
3          | 0.0738     | CANDIDAT !
4          | 0.0678     | CANDIDAT !
5          | 0.0725     | CANDIDAT !
6          | 0.0703     | CANDIDAT !
7          | 0.0716     | CANDIDAT !
8          | 0.0663     | CANDIDAT !
9          | 0.0704     | CANDIDAT !
10         | 0.0838     | CANDIDAT !
11         | 0.0721     | CANDIDAT !
12         | 0.0618     | 
13         | 0.0745     | CANDIDAT !
14         | 0.0803     | CANDIDAT !
15         | 0.0840     | CANDIDAT !
16         | 0.0609     | 
17         | 0.0784     | CANDIDAT !
18         | 0.0710     | CANDIDAT !
19         | 0.0599     | 
20         | 0.0766     | CANDIDAT !

==> Longueur retenue : 2


In [16]:
# --- 4. CASSAGE DE LA CLÉ (CHI-CARRÉ) ---

def trouver_mot_de_passe(texte, k):
    alphabet = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
    mot_de_passe = ""
    print(f"\n--- Analyse fréquentielle pour k={k} ---")
    
    for i in range(k):
        colonne = texte[i::k]
        n = len(colonne)
        
        scores_chi2 = []
        # On teste les 26 lettres possibles pour cette position
        for decalage in range(26):
            comptes_observes = np.zeros(26)
            for char in colonne:
                val = (ord(char) - 65 - decalage) % 26
                comptes_observes[val] += 1
            
            # Calcul distance Chi2
            chi2 = 0
            for j in range(26):
                attendu = n * FREQ_ANGLAIS[j]
                if attendu > 0:
                    chi2 += ((comptes_observes[j] - attendu) ** 2) / attendu
            scores_chi2.append(chi2)
        
        # Le score le plus bas est le meilleur
        meilleur_index = np.argmin(scores_chi2)
        lettre = alphabet[meilleur_index]
        mot_de_passe += lettre
    
    return mot_de_passe

def dechiffrer(texte, cle):
    res = []
    m = len(cle)
    for i, char in enumerate(texte):
        y = ord(char) - 65
        k = ord(cle[i % m]) - 65
        res.append(chr((y - k) % 26 + 65))
    return "".join(res)

# --- 5. EXÉCUTION ---
with open('vigenere.txt', 'r') as f:
    contenu = f.read()


print("\n2. Recherche du mot de passe...")
cle_trouvee = trouver_mot_de_passe(texte_propre, k_final)
print(f"==> Clé trouvée : {cle_trouvee}")

print("\n3. Déchiffrement...")
clair = dechiffrer(texte_propre, cle_trouvee)
print(f"Texte : {clair[:100]}...")



2. Recherche du mot de passe...

--- Analyse fréquentielle pour k=2 ---
==> Clé trouvée : NN

3. Déchiffrement...
Texte : THECAESARCIPHERISONEOFTHEEARLIESTKNOWNANDSIMPLESTCIPHERSITISATYPEOFSUBSTITUTIONCIPHERINWHICHEACHLETT...
