# Analyse qualitative / exploratoire des motifs

## 1. Chargement du dataset
- Import du fichier `passwords_processed.csv`
- Aperçu initial (head)


- Fréquences de caractères et de classes de caractères
- Substrings / patterns récurrents
- Séquences de chiffres, dates ou motifs particuliers
- Analyse de répétitions ou de similarités

Analyse qualitative / exploratoire des mots de passe
1. Objectif

L’objectif est d’explorer le contenu textuel des mots de passe pour détecter des motifs, des tendances ou des régularités que les statistiques numériques seules ne révèlent pas.

On s’intéresse notamment à :

La composition des caractères

Les patterns récurrents (substrings fréquentes, séquences)

Les séquences numériques ou dates

Les répétitions et similarités entre mots de passe

2. Fréquences de caractères et de classes de caractères

But : comprendre quels caractères sont utilisés et dans quelle proportion.

On peut compter chaque caractère dans l’ensemble des mots de passe.

On peut aussi regrouper par classes : lettres minuscules, lettres majuscules, chiffres, caractères spéciaux.

Exemple d’indicateurs :

Pourcentage de mots de passe contenant au moins un chiffre, une majuscule, un caractère spécial

Fréquence moyenne d’apparition d’une lettre ou d’un chiffre

Histogrammes ou barplots par classe de caractères

Intérêt : cela révèle des habitudes humaines ou des contraintes implicites dans les mots de passe faibles vs forts.

3. Substrings / patterns récurrents

But : identifier des motifs qui reviennent souvent dans les mots de passe.

Exemples de substrings fréquentes : "123", "abc", "password", "!" répétitifs.

Méthodes possibles :

Découper chaque mot de passe en n-grams (séquences de n caractères) et compter les occurrences

Rechercher des substrings fréquentes sur tous les mots de passe

Intérêt : ces motifs peuvent servir pour améliorer les règles de sécurité ou entraîner des modèles de génération/évaluation de mots de passe.

4. Séquences numériques, dates ou motifs particuliers

But : repérer les séquences faciles à deviner.

Séquences numériques simples : "12345", "2023"

Dates : "01011990", "31-12-99"

Répétitions : "aaaa", "1111"

Méthodes :

Utiliser des regex pour détecter des séquences consécutives de chiffres

Détecter des motifs de type date (\d{4}, \d{2}-\d{2}-\d{4})

Compter les répétitions ou caractères identiques consécutifs

Intérêt : ces mots de passe sont considérés faibles même si leur longueur ou diversité semble correcte.

5. Analyse de répétitions et similarités

But : mesurer la ressemblance entre mots de passe.

Détecter les mots de passe identiques ou très similaires (passw0rd vs password)

Méthodes : distance de Levenshtein, clustering par similarité, hash + comptage

Intérêt : cela permet de détecter des patterns humains et d’estimer la robustesse relative des mots de passe.

6. Visualisations et outils

Pour chaque type d’analyse :

Barplots / histogrammes pour les fréquences

Wordclouds pour les substrings fréquentes

Heatmaps ou scatterplots pour les séquences ou similarités

Tableaux pour les motifs ou n-grams les plus fréquents

Si tu veux, je peux te faire directement le squelette complet du notebook en Markdown + cellules Python, prêt à être rempli avec ton dataset, pour que tu puisses le lancer et visualiser tout ça.

Le modèle doit apprendre que :

Pomme1!
Équinoxe2024!
Password123!
Qwerty2022?


ne sont pas des mots de passe forts
même s’ils ont :

une longueur excellente

une diversité bonne

une entropie quasi parfaite

Ton modèle doit être capable de pénaliser :

les dates

les mots du dictionnaire

les patterns humains

les séquences

les prénoms, noms propres

les motifs clavier

In [1]:
import pandas as pd

df = pd.read_csv("../processed/passwords_processed.csv")
df.head()

Unnamed: 0,password,label,length_norm,diversity,entropy
0,GkADaiojURMQzIBQ,1,0.8,0.5,0.91207
1,b03p17,0,0.3,0.5,0.310196
2,witwicky,0,0.4,0.25,0.376035
3,914537650,0,0.45,0.25,0.298974
4,m`1^+ax-r72vp1M,1,0.75,1.0,0.983188


In [2]:
import pandas as pd

df = pd.read_csv("../Dictionnaries/processed/linguistic_dictionary.csv")
df.head()

Unnamed: 0,token,category
0,crooned,word
1,attendance's,word
2,lava's,word
3,inaugurations,word
4,hatchet,word
