# Introduction

Ce projet a pour objectif d‚Äôexplorer et d‚Äôanalyser un jeu de donn√©es d‚Äôe-mails r√©els contenant √† la fois des messages l√©gitimes (Safe) et des messages frauduleux (Phishing).
Plut√¥t que de faire une classification supervis√©e, nous appliquons ici des m√©thodes non supervis√©es ‚Äî notamment le clustering ‚Äî pour tenter d‚Äôidentifier automatiquement des regroupements naturels d‚Äôe-mails similaires.
Nous testerons plusieurs approches :
Vectorisation TF-IDF et par embeddings s√©mantiques
R√©duction de dimension (PCA, UMAP)
Clustering (KMeans, DBSCAN, HDBSCAN)

In [None]:
from IPython.display import display

import sys, os
sys.path.append(os.path.abspath('utils'))
from utils import *

import logging
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
warnings.filterwarnings('ignore')
warnings.filterwarnings("ignore", category=UserWarning)
warnings.filterwarnings("ignore", category=FutureWarning)
os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
logging.getLogger("numba").setLevel(logging.ERROR)
logging.getLogger("hdbscan").setLevel(logging.ERROR)
os.environ["OMP_NUM_THREADS"] = "1"
os.environ["OMP_DISPLAY_ENV"] = "FALSE"
os.environ["OMP_WAIT_POLICY"] = "PASSIVE"
sys.stdout.flush()

# üéÄ √âtape 1 ‚Äî Compr√©hension et nettoyage
On commence par lire le fichier CSV contenant les e-mails et leur type (Safe ou Phishing).
Nous affichons la taille et un aper√ßu des premi√®res lignes pour comprendre la structure.

In [None]:
df = pd.read_csv('data/Phishing_Email.csv')

print(f"Nombre total de lignes : {df.shape[0]}")
df.head()

Nous identifions les colonnes inutiles (ex. Unnamed: 0) et les valeurs manquantes √©ventuelles.


In [None]:
df = df.drop(columns=['Unnamed: 0'], errors='ignore')
print('Valeurs manquantes :')
print(df.isna().sum())

On calcule la longueur de chaque e-mail pour comprendre la distribution g√©n√©rale.
Cette √©tape aide √† rep√©rer les e-mails vides ou anormalement longs.

In [None]:
df['Email Text'] = df['Email Text'].astype(str)
df['text_length'] = df['Email Text'].apply(len)

print(df['Email Type'].value_counts())
df['text_length'].describe()

Visualisons la distribution des longueurs d‚Äôe-mails selon leur type.
Cela permet de d√©tecter la pr√©sence d‚Äôoutliers visibles.

In [None]:
plot_text_length_distribution(df, text_col="text_length", label_col="Email Type", bins=60)

Nous analysons les e-mails tr√®s courts (< 30 caract√®res) et tr√®s longs (> 10 000)
pour v√©rifier leur contenu avant toute suppression.

In [None]:
print('--- Exemples d‚Äôe-mails tr√®s courts (<30 caract√®res) ---')
display(df[df['text_length'] < 30][['Email Text','Email Type']].sample(10))

print('\n--- Exemples d‚Äôe-mails tr√®s longs (>10 000 caract√®res) ---')
display(df[df['text_length'] > 10000][['Email Text','Email Type']].sample(30))

In [None]:
df["text_length"].quantile([0.95, 0.98, 0.99, 0.995])

2% des emails seulement sont > 10 000 caract√®res

Nous d√©cidons de :
- Supprimer les lignes vides ou marqu√©es ‚Äúempty‚Äù ou "nan"
- Conserver les e-mails courts pertinents
- Supprimer uniquement ceux > 10 000 (trop longs ou HTML massifs)

Ainsi, on garde un maximum de signal sans bruit inutile.

In [None]:
df = df[df['Email Text'].notna()]
df = df[~df['Email Text'].str.lower().str.strip().isin(['', 'empty', 'nan'])]
df = df[df['text_length'] <= 10000]
print(f"Nouvelle taille du dataset : {df.shape[0]}")

On rev√©rifie la distribution apr√®s nettoyage pour s'assurer
que la forme g√©n√©rale reste r√©aliste et qu'on n'a pas perdu d'information utile.

In [None]:
plot_text_length_distribution(df, text_col="text_length", label_col="Email Type", bins=50, cleaned=True)

- Aucune valeur manquante restante 
- √âquilibre des classes conserv√© 
- Suppression uniquement du bruit (HTML, empty, artefacts) 

Le dataset est maintenant propre et pr√™t pour l'analyse s√©mantique et le Machine Learning.

In [None]:
print(df['Email Type'].value_counts(normalize=True)*100)
print('\nAper√ßu final :')
df.head()

In [None]:
df = df.drop(columns=['text_length'], errors='ignore')

# üéÄ √âtape 2 ‚Äî Pr√©traitement NLP

Apr√®s avoir conserv√© le texte brut des e-mails sans nettoyage excessif, l‚Äôobjectif de cette √©tape est d‚Äôextraire des **indicateurs mesurables** capables de traduire les irr√©gularit√©s linguistiques typiques des e-mails de phishing.  

Ces indicateurs ‚Äî appel√©s *features NLP* ‚Äî transforment les anomalies structurelles et stylistiques en valeurs num√©riques :  
- longueur du texte,  
- ponctuation excessive,  
- majuscules,  
- symboles financiers,  
- pr√©sence de balises ou caract√®res HTML, etc.  

L‚Äôid√©e est de permettre au mod√®le d‚Äôapprentissage de **d√©tecter automatiquement les sch√©mas suspects** dans la mani√®re dont un texte est r√©dig√©, sans d√©pendre du vocabulaire lui-m√™me.  

In [None]:
# Application de la fonction √† tout le dataset
tqdm.pandas(desc="Extraction des features NLP avanc√©es")
nlp_features_df = df["Email Text"].progress_apply(extract_nlp_features).apply(pd.Series)

# Fusion
df_nlp = pd.concat([df, nlp_features_df], axis=1)
df_nlp.head()

In [None]:
results = analyze_nlp_features(df_nlp, label_col="Email Type", diff_threshold=0.5, corr_threshold=0.8)

# means = results["means"]
# corr = results["corr_matrix"]
# final_features = results["final_features"]

Une premi√®re analyse exploratoire montre que les e-mails de phishing se distinguent l√©g√®rement par leur longueur et leur nombre de mots, mais les autres indicateurs lexicaux simples (ponctuation, majuscules, symboles) ne pr√©sentent pas de diff√©rences significatives.
Cela sugg√®re que les caract√©ristiques de surface ne suffisent pas √† discriminer efficacement les e-mails frauduleux, d‚Äôo√π l‚Äôint√©r√™t d‚Äôutiliser des repr√©sentations s√©mantiques (embeddings) pour capturer le contenu r√©el des messages.

# üéÄ √âtape 3 - Vectorisation du texte avec des embeddings
Les repr√©sentations bas√©es sur les mots (*bag-of-words*, *TF-IDF*) traitent le texte comme une simple liste de termes.  
Elles ne tiennent pas compte du **sens**, du **ton**, ni du **contexte**, √©l√©ments pourtant essentiels dans la d√©tection de phishing.

Pour aller plus loin, nous utilisons des **embeddings s√©mantiques**, c‚Äôest-√†-dire des vecteurs num√©riques qui capturent la signification globale d‚Äôun message.  
Chaque e-mail est ainsi projet√© dans un **espace vectoriel continu**, o√π :
- deux e-mails similaires dans le sens ou le ton seront proches,  
- et deux e-mails tr√®s diff√©rents (ex : ‚Äúfacture‚Äù vs ‚Äúv√©rifiez votre compte‚Äù) seront √©loign√©s.

Nous utilisons ici le mod√®le **`all-MiniLM-L6-v2`** de la biblioth√®que `sentence-transformers`, qui offre un excellent compromis entre **vitesse** et **pr√©cision**.

In [None]:
final_df = get_or_build_embeddings(df, text_col="Email Text", save_path="data/final_embeddings.parquet")
final_df.head()

# üéÄ √âtape 4 ‚Äî R√©duction de dimension (UMAP, PCA, t-Sne)
L‚Äôobjectif de cette √©tape est de visualiser la structure des donn√©es d‚Äôe-mails et de v√©rifier s‚Äôil existe des regroupements naturels entre les e-mails de type **Phishing** et **Safe**.  
Pour cela, deux techniques de r√©duction de dimension ont √©t√© utilis√©es : t-Sne & UMAP

In [None]:
X = final_df.drop(columns=["Email Text", "Email Type"]).values
y = final_df["Email Type"].values

palette = get_palette()

In [None]:
X_umap = run_umap_final(
    X=X,             
    y=y,      
    n_neighbors=30,           
    min_dist=0.1,
    metric="cosine",
    n_epochs=600,
    densmap=True,            
    cache_path="data/umap_final.npy",
    palette=palette
)

In [None]:
X_tsne = run_tsne_final(
    X=X,
    y=y,
    perplexity=30,
    learning_rate=200,
    max_iter=1000,
    metric="cosine",
    cache_path="data/tsne_final.npy",
    palette=palette
)

### Analyse et interpr√©tation des r√©sultats ‚Äî R√©duction de dimension (UMAP + t-SNE)

#### R√©sultats UMAP  
L‚Äôalgorithme **UMAP** (*Uniform Manifold Approximation and Projection*) a √©t√© appliqu√© directement sur les embeddings textuels (384 dimensions, mod√®le `all-MiniLM-L6-v2`) sans normalisation ni PCA pr√©alable.  
Les param√®tres retenus sont :  
- **n_neighbors = 30**  
- **min_dist = 0.1**  
- **metric = cosine**

Le score de **trustworthiness obtenu est de 0.884**, indiquant une bonne pr√©servation des relations locales, avec une l√©g√®re distorsion sur les voisinages les plus fins.  

Sur le graphique, on observe :
- Une **structure globale coh√©rente** o√π les e-mails s√ªrs (en bleu) se regroupent dans plusieurs zones distinctes,  
- Tandis que les e-mails de phishing (en rose) forment des **amas plus denses**, traduisant un vocabulaire plus r√©p√©titif et des th√©matiques restreintes (banque, livraison, promotions, etc.).  

UMAP offre ainsi une **vue d‚Äôensemble stable** et lisible de la distribution s√©mantique du corpus, bien adapt√©e √† l‚Äôanalyse de la **densit√© et de la continuit√© entre sous-groupes**.

---

#### R√©sultats t-SNE  
L‚Äôalgorithme **t-SNE** (*t-Distributed Stochastic Neighbor Embedding*) a √©galement √©t√© appliqu√© directement sur les embeddings.  
Les param√®tres optimaux sont :  
- **perplexity = 30**  
- **learning_rate = 200**  
- **metric = cosine**

Le score de **trustworthiness atteint 0.955**, ce qui est excellent : la projection 2D pr√©serve plus de **95 % des relations de voisinage r√©elles** dans l‚Äôespace original.  

Visuellement :
- Les **deux classes** (phishing vs safe) sont **nettement mieux s√©par√©es** qu‚Äôavec UMAP,  
- Les **groupes internes** au sein des e-mails de phishing apparaissent plus clairement (ex. : ‚Äúbanques‚Äù, ‚Äúlivraisons frauduleuses‚Äù, ‚Äúsupport technique‚Äù).  

t-SNE met donc en √©vidence une **structure locale fine et fiable**, au prix d‚Äôune vision globale un peu moins continue que celle d‚ÄôUMAP.

---

#### Interpr√©tation comparative  

| M√©thode | Fid√©lit√© locale (*Trustworthiness*) | Structure globale | Interpr√©tation principale |
|----------|------------------------------------|------------------|----------------------------|
| **UMAP** | 0.884 | Bonne continuit√© globale, clusters denses | Vision d‚Äôensemble fluide, structure th√©matique identifiable |
| **t-SNE** | 0.955 | Moins globale mais tr√®s pr√©cise localement | Excellente s√©paration et d√©couverte de sous-groupes |

Ces r√©sultats montrent que :
- **t-SNE** est plus adapt√© √† la **visualisation pr√©cise** des familles de phishing,  
- tandis qu‚Äô**UMAP** conserve mieux la **structure globale** du corpus et les **liens entre th√©matiques voisines**.

---

#### Conclusion  
Les deux projections confirment une **s√©paration s√©mantique claire** entre les e-mails s√ªrs et les e-mails de phishing.  
- **UMAP** offre une repr√©sentation fluide et connect√©e, id√©ale pour l‚Äôexploration.  
- **t-SNE** fournit une vue d√©taill√©e et tr√®s fid√®le, avec une **trustworthiness exceptionnelle (0.955)**.  

Ces repr√©sentations serviront de **base pour l‚Äô√©tape de clustering non supervis√©** (HDBSCAN, KMeans) afin d‚Äôidentifier automatiquement les **types de phishing** pr√©sents dans le corpus.

# üéÄ √âtape 5 ‚Äî Clustering non supervis√© (DBSCAN, HDBSCAN, KMEANS)

## Sur t-Sne

In [None]:
results_hdb, best_hdb, labels_hdb = explore_hdbscan(X_tsne)
summary_hdb = summarize_clusters(final_df, labels_hdb)
display_top_words(df_clusters=summary_hdb["df_clusters"], summary=summary_hdb["summary"])

In [None]:
metrics = evaluate_clustering(summary_hdb["summary"], summary_hdb["df_clusters"])

In [None]:
k_final = 45
print(f"Utilisation de k={k_final}")

kmeans_final = KMeans(n_clusters=k_final, random_state=42, n_init=20)
labels_km = kmeans_final.fit_predict(X_tsne)

plt.figure(figsize=(7, 6))
sns.scatterplot(
        x=X_tsne[:, 0],
        y=X_tsne[:, 1],
        hue=labels_km,
        palette="Spectral",
        s=20,
        alpha=0.85,
        legend=False
)
plt.title(
        f"KMeans ‚Äî 45 clusters \n",
        color="#e75480"
)

plt.tight_layout()
plt.show()

summary_km = summarize_clusters(final_df, labels_km)

display_top_words(summary_km["df_clusters"], summary_km["summary"])


In [None]:
preview_cluster_emails(summary_km["df_clusters"], cluster_id=11, n=20)

In [None]:
df_dbscan, best_dbscan, labels_best = explore_dbscan(X_tsne)
summary_db = summarize_clusters(final_df, labels_best)
display_top_words(df_clusters=summary_db["df_clusters"], summary=summary_db["summary"])

faire analyse cluster pour dbscan et kmeans ??

# üéÄ √âtape 6 : Analyse s√©mantique des types de clusters (avec LLM)

In [None]:
analyze_phishing_clusters_individual(
    summary_hdb["df_clusters"],
    summary_hdb["summary"],
    algorithm_name="hdbscan",   
    n_per_cluster=40,           
    model="mistral:7b-instruct",
    max_retries=3,              
    cooldown=4                 
)

In [None]:
preview_cluster_emails(summary_hdb["df_clusters"], cluster_id=14, n=40, max_chars=200)

In [None]:
df_llm_hdb = load_llm_results("data/phishing_categories/hdbscan")
print(f"{len(df_llm_hdb)} fichiers de clusters charg√©s.")
print(df_llm_hdb)

In [None]:
print("X_emb:", X_tsne.shape)
print("df_clusters:", summary_hdb["df_clusters"].shape)
print("df_llm:", df_llm_hdb.shape)

In [None]:
df_enriched_hdb = summary_hdb["df_clusters"].merge(
    df_llm_hdb,
    on="cluster",
    how="left"
)

In [None]:
summary_hdb["df_clusters"].shape

In [None]:
df_enriched_hdb.shape

In [None]:
plot_categories_llm(
    X_emb=X_tsne,     
    df_enriched=df_enriched_hdb,
    name="HDBSCAN"
)

In [None]:
df_enriched_hdb["category"].value_counts(normalize=True).round(2)

In [None]:
df_enriched_hdb.groupby("category")["confidence"].mean().sort_values()

In [None]:
analyze_phishing_clusters_individual(
    summary_km["df_clusters"],
    summary_km["summary"],
    algorithm_name="kmeans",   
    n_per_cluster=40,           
    model="mistral:7b-instruct",
    max_retries=0,              
    cooldown=4                  
)

In [None]:
analyze_phishing_clusters_individual(
    summary_db["df_clusters"],
    summary_db["summary"],
    algorithm_name="dbscan",   
    n_per_cluster=40,           
    model="mistral:7b-instruct",
    max_retries=3,              
    cooldown=4                  
)

In [None]:
df_llm_db = load_llm_results("data/phishing_categories/dbscan")
df_enriched_db = summary_db["df_clusters"].merge(
    df_llm_db,
    on="cluster",
    how="left"
)

In [None]:
df_llm_db.head()

In [None]:
plot_categories_llm(
    X_emb=X_tsne,     
    df_enriched=df_enriched_db,
    name="DBSCAN"
)

In [None]:
df_llm_km = load_llm_results("data/phishing_categories/kmeans")
print(df_llm_km)

# üéÄ √âtape 7 : Classification supervis√©e

In [None]:
results_df, best_model = run_supervised_classification(X, y)