In [2]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import hdbscan
import json
from tqdm import tqdm

# Première piste (-pas retenue-)

In [3]:
'''import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import hdbscan
from tqdm import tqdm
import json

def load_full_dataset(file_path, use_columns=None, sample_frac=None):
    try:
        print("Chargement des données...")
        df = pd.read_csv(file_path, usecols=use_columns)

        # Échantillonnage aléatoire + reset de l'index
        if sample_frac is not None and 0 < sample_frac < 1:
            df = df.sample(frac=sample_frac).reset_index(drop=True)

        # Convertir la colonne 'embedding' (string JSON) en array numpy
        df['embedding'] = df['embedding'].apply(lambda x: np.array(json.loads(x)))

        print(f"Chargement terminé. Nombre de lignes: {len(df)}")
        return df
    except Exception as e:
        print(f"Erreur lors du chargement du dataset : {e}")
        return pd.DataFrame()


def apply_kmeans(embeddings, n_clusters=150):
    """
    Applique KMeans et renvoie (labels, modèle_kmeans).
    """
    print("Application de KMeans...")
    print(f"Nombre de points: {len(embeddings)}")

    # kmeans : n_init='auto' dans les versions récentes de sklearn
    kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init='auto')
    labels = kmeans.fit_predict(embeddings)

    print("KMeans terminé. Distribution des clusters :")
    unique, counts = np.unique(labels, return_counts=True)
    for u, c in zip(unique, counts):
        print(f" - Cluster KMeans {u}: {c} points")

    return labels, kmeans

def refine_with_hdbscan_per_kmeans_cluster(df, min_cluster_size=5, min_samples=3):
    """
    Pour chaque cluster KMeans, applique HDBSCAN afin de détecter
    des sous-clusters plus fins. Les labels finaux sont stockés
    dans la colonne hdbscan_cluster.
    """
    print("\nDébut du raffinement avec HDBSCAN pour chaque cluster KMeans...")

    # Tableau de labels HDBSCAN initialisé à -1 (bruit)
    hdbscan_labels = np.full(len(df), -1, dtype=int)
    
    # Ce décalage permet de numéroter de manière unique tous les sous-clusters,
    # même s'ils proviennent de différents clusters KMeans.
    global_offset = 0

    total_clusters_found = 0
    total_points_clustered = 0

    for cluster_id in tqdm(df['kmeans_cluster'].unique(), desc="Clusters KMeans"):
        # Extraire les données appartenant au cluster KMeans courant
        cluster_data = df[df['kmeans_cluster'] == cluster_id].copy()
        n_points = len(cluster_data)

        print(f"\nTraitement du cluster KMeans {cluster_id} contenant {n_points} points.")

        # Skip si trop peu de points
        if n_points < 3:
            print(f"  -> Cluster {cluster_id} ignoré: trop peu de points ({n_points} < 3).")
            continue

        # Ajuster dynamiquement les paramètres en fonction de la taille du cluster
        dynamic_min_cluster_size = min(min_cluster_size, max(3, n_points // 10))
        dynamic_min_samples      = min(min_samples,      max(2, n_points // 20))

        if n_points < dynamic_min_cluster_size:
            print(f"  -> Cluster {cluster_id} ignoré: {n_points} < min_cluster_size ({dynamic_min_cluster_size}).")
            continue

        print(f"  -> Paramètres HDBSCAN: min_cluster_size={dynamic_min_cluster_size}, min_samples={dynamic_min_samples}")

        # Récupération des embeddings
        cluster_embeddings = np.stack(cluster_data['embedding'])

        try:
            # Supprimez ou ajustez cluster_selection_epsilon si vous avez tout en bruit.
            hdb = hdbscan.HDBSCAN(
                min_cluster_size=dynamic_min_cluster_size,
                min_samples=dynamic_min_samples,
                metric='euclidean',
                cluster_selection_method='eom',
                allow_single_cluster=True
            )
            
            local_hdb_labels = hdb.fit_predict(cluster_embeddings)

            # Statistiques pour ce cluster
            n_clusters_found = len(np.unique(local_hdb_labels[local_hdb_labels != -1]))
            n_points_clustered_local = np.sum(local_hdb_labels != -1)
            print(f"  -> Sous-clusters trouvés par HDBSCAN : {n_clusters_found}")
            print(f"  -> Points classifiés (hors bruit)    : {n_points_clustered_local}")

            # Mettre à jour compteurs globaux
            total_clusters_found     += n_clusters_found
            total_points_clustered   += n_points_clustered_local

            # Décalage des labels locaux (pour éviter collisions entre clusters)
            if n_clusters_found > 0:
                valid_mask = (local_hdb_labels != -1)
                local_hdb_labels[valid_mask] += global_offset
                global_offset = local_hdb_labels.max() + 1

            # Injection des labels HDBSCAN dans hdbscan_labels (index globaux)
            hdbscan_labels[cluster_data.index] = local_hdb_labels

        except Exception as e:
            print(f"Erreur lors du traitement du cluster KMeans {cluster_id}: {e}")
            continue

    print("\n=== Résumé HDBSCAN ===")
    print(f"Total sous-clusters trouvés : {total_clusters_found}")
    print(f"Total points classifiés     : {total_points_clustered}")
    if len(df) > 0:
        pct = (total_points_clustered / len(df)) * 100
        print(f"Pourcentage de points hors bruit: {pct:.2f}%")

    # Assignation finale à la DataFrame
    df['hdbscan_cluster'] = hdbscan_labels
    return df

def add_kmeans_centroids(df, kmeans):
    """
    Ajoute une colonne 'kmeans_centroid' contenant le centroïde KMeans
    de chaque cluster KMeans. Ainsi, on peut calculer la distance d'un
    point à ce centroïde.
    """
    print("\nCalcul du centroïde KMeans pour chaque point...")

    # Récupération de tous les centroïdes KMeans
    centers = kmeans.cluster_centers_

    # On mappe kmeans_cluster -> vecteur centroïde
    df['kmeans_centroid'] = df['kmeans_cluster'].apply(lambda c: centers[c])
    
    print("Centroïdes KMeans ajoutés.")
    return df

def add_ranking(df):
    """
    Calcule la distance de chaque point à son centroïde KMeans,
    puis attribue un rang 'rank' à l'intérieur de chaque sous-cluster HDBSCAN.
    Les points de bruit (hdbscan_cluster = -1) ont distance = inf et rank = NaN.
    """
    print("\nCalcul des distances au centroïde KMeans et ajout du ranking...")

    def distance_to_kmeans_centroid(row):
        if row['hdbscan_cluster'] == -1:
            return float('inf')
        # Distance par rapport au centroïde KMeans (déjà stocké dans 'kmeans_centroid')
        return np.linalg.norm(row['embedding'] - row['kmeans_centroid'])

    # Distance au centroïde KMeans
    df['distance_to_centroid'] = df.apply(distance_to_kmeans_centroid, axis=1)

    # Calcul du rang par (kmeans_cluster, hdbscan_cluster)
    df['rank'] = df[df['hdbscan_cluster'] != -1].groupby(
        ['kmeans_cluster', 'hdbscan_cluster']
    )['distance_to_centroid'].rank(method='first')

    print("Ranking ajouté.")
    return df

def clustering_pipeline_with_hdbscan(df, n_clusters=150, min_cluster_size=5, min_samples=3):
    """
    Pipeline principal:
      1. KMeans
      2. HDBSCAN par cluster KMeans
      3. Ajout centroïdes KMeans
      4. Ranking par distance au centroïde KMeans à l'intérieur des sous-clusters
    """
    print("\n=== Début du pipeline de clustering ===")
    print(f"Dimensions du dataset initial : {df.shape}")

    # On enlève éventuellement les lignes avec embedding manquant
    df = df.dropna(subset=['embedding'])
    if df.empty:
        print("Erreur: Dataset vide après nettoyage.")
        return df, None

    print(f"Dimensions après nettoyage : {df.shape}")

    embeddings = np.stack(df['embedding'].values)

    # S'il y a moins de points que de clusters demandés
    if len(embeddings) < n_clusters:
        n_clusters = max(2, len(embeddings) // 10)
        print(f"Ajustement du nombre de clusters KMeans à : {n_clusters}")

    # 1. KMeans
    kmeans_labels, kmeans_model = apply_kmeans(embeddings, n_clusters=n_clusters)
    df['kmeans_cluster'] = kmeans_labels

    # 2. HDBSCAN dans chaque cluster KMeans
    df = refine_with_hdbscan_per_kmeans_cluster(df, min_cluster_size=min_cluster_size, min_samples=min_samples)

    # [DEBUG] Vérifions les labels tout de suite après la phase HDBSCAN
    print("\n[DEBUG] Distribution hdbscan_cluster (après refine_with_hdbscan_per_kmeans_cluster) :")
    print(df['hdbscan_cluster'].value_counts(dropna=False))

    # 3. Ajouter le centroïde KMeans pour chaque ligne
    df = add_kmeans_centroids(df, kmeans_model)

    # [DEBUG] Vérifions que nous n'avons pas perdu les labels
    print("\n[DEBUG] Distribution hdbscan_cluster (juste après add_kmeans_centroids) :")
    print(df['hdbscan_cluster'].value_counts(dropna=False))

    # 4. Calculer la distance à ce centroïde KMeans et rajouter un rang
    df = add_ranking(df)

    # [DEBUG] Vérifions que nous n'avons pas perdu les labels encore
    print("\n[DEBUG] Distribution hdbscan_cluster (juste après add_ranking) :")
    print(df['hdbscan_cluster'].value_counts(dropna=False))

    print("=== Fin du pipeline de clustering ===\n")
    return df, kmeans_model

def process_full_dataset(file_path, 
                        n_clusters=150, 
                        min_cluster_size=5, 
                        min_samples=3, 
                        sample_frac=None):
    """
    Fonction globale: 
      - charge le dataset 
      - lance le pipeline 
      - sauvegarde le résultat dans un CSV 
      - affiche quelques stats finales
    """
    print("=== Démarrage du traitement global ===")

    # 1. Chargement des données
    df = load_full_dataset(file_path, use_columns=['embedding', 'Message-ID', 'final_body', 'From'], sample_frac=sample_frac)
    if df.empty:
        print("Erreur: dataset vide, arrêt.")
        return

    # 2. Pipeline KMeans + HDBSCAN
    df_with_ranking, kmeans_model = clustering_pipeline_with_hdbscan(
        df,
        n_clusters=n_clusters,
        min_cluster_size=min_cluster_size,
        min_samples=min_samples
    )

    # 3. Sauvegarde du résultat
    if df_with_ranking is not None and not df_with_ranking.empty:
        output_file = "final_dataset_with_hdbscan_ranking_PERMISSIF_1.csv"
        df_with_ranking.to_csv(output_file, index=False)
        print(f"Dataset final sauvegardé dans : {output_file}")

        # 4. Statistiques finales
        unique_clusters = df_with_ranking['hdbscan_cluster'].unique()
        # Nombre de clusters hors bruit
        total_clusters = len(unique_clusters) - (1 if -1 in unique_clusters else 0)
        noise_points   = (df_with_ranking['hdbscan_cluster'] == -1).sum()
        noise_pct      = (noise_points / len(df_with_ranking)) * 100

        print("\n=== Statistiques finales ===")
        print(f"Nombre total de sous-clusters HDBSCAN : {total_clusters}")
        print(f"Points de bruit : {noise_points} ({noise_pct:.2f}%)")
        print(f"Points classifiés : {len(df_with_ranking) - noise_points} ({100 - noise_pct:.2f}%)")
    else:
        print("Aucun résultat à sauvegarder, dataset vide après clustering.")

    print("=== Fin du traitement global ===\n")
'''

In [None]:
'''if __name__ == "__main__":
    # Exemple d'utilisation
    file_path = '/Users/armandbidault/Desktop/ISD/Data_Science/Clustering/Spam/NoSpam_emails.csv'
    process_full_dataset(
        file_path,
        n_clusters=150,          # Nombre de clusters KMeans
        min_cluster_size=30,      # Taille minimum d'un cluster HDBSCAN
        min_samples=2,
                   # Nombre minimum d'échantillons pour HDBSCAN
    
    )'''

=== Démarrage du traitement global ===
Chargement des données...
Chargement terminé. Nombre de lignes: 363684

=== Début du pipeline de clustering ===
Dimensions du dataset initial : (363684, 4)
Dimensions après nettoyage : (363684, 4)
Application de KMeans...
Nombre de points: 363684
KMeans terminé. Distribution des clusters :
 - Cluster KMeans 0: 1522 points
 - Cluster KMeans 1: 2487 points
 - Cluster KMeans 2: 3759 points
 - Cluster KMeans 3: 4104 points
 - Cluster KMeans 4: 2979 points
 - Cluster KMeans 5: 2589 points
 - Cluster KMeans 6: 1317 points
 - Cluster KMeans 7: 2631 points
 - Cluster KMeans 8: 1713 points
 - Cluster KMeans 9: 2879 points
 - Cluster KMeans 10: 2249 points
 - Cluster KMeans 11: 2371 points
 - Cluster KMeans 12: 4581 points
 - Cluster KMeans 13: 2822 points
 - Cluster KMeans 14: 796 points
 - Cluster KMeans 15: 3616 points
 - Cluster KMeans 16: 2872 points
 - Cluster KMeans 17: 2497 points
 - Cluster KMeans 18: 2954 points
 - Cluster KMeans 19: 2333 points
 

Clusters KMeans:   0%|          | 0/150 [00:00<?, ?it/s]


Traitement du cluster KMeans 107 contenant 2818 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   1%|          | 1/150 [00:04<09:58,  4.02s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1981

Traitement du cluster KMeans 67 contenant 4402 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   1%|▏         | 2/150 [00:15<20:02,  8.12s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 30

Traitement du cluster KMeans 145 contenant 2352 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   2%|▏         | 3/150 [00:18<14:35,  5.95s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 203

Traitement du cluster KMeans 61 contenant 1819 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   3%|▎         | 4/150 [00:20<10:41,  4.39s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1190

Traitement du cluster KMeans 141 contenant 2803 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   3%|▎         | 5/150 [00:24<10:14,  4.23s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1348

Traitement du cluster KMeans 137 contenant 2801 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   4%|▍         | 6/150 [00:28<09:46,  4.08s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1855

Traitement du cluster KMeans 73 contenant 2927 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   5%|▍         | 7/150 [00:32<09:41,  4.06s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 2399

Traitement du cluster KMeans 64 contenant 5954 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   5%|▌         | 8/150 [00:50<20:04,  8.49s/it]

  -> Sous-clusters trouvés par HDBSCAN : 23
  -> Points classifiés (hors bruit)    : 1666

Traitement du cluster KMeans 85 contenant 3128 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   6%|▌         | 9/150 [00:54<16:50,  7.16s/it]

  -> Sous-clusters trouvés par HDBSCAN : 9
  -> Points classifiés (hors bruit)    : 482

Traitement du cluster KMeans 9 contenant 2879 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   7%|▋         | 10/150 [00:58<14:22,  6.16s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 106

Traitement du cluster KMeans 103 contenant 4769 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   7%|▋         | 11/150 [01:06<16:01,  6.92s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 3174

Traitement du cluster KMeans 81 contenant 3701 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   8%|▊         | 12/150 [01:13<15:23,  6.69s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1465

Traitement du cluster KMeans 50 contenant 2996 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   9%|▊         | 13/150 [01:17<14:01,  6.14s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 584

Traitement du cluster KMeans 15 contenant 3616 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:   9%|▉         | 14/150 [01:23<13:29,  5.95s/it]

  -> Sous-clusters trouvés par HDBSCAN : 11
  -> Points classifiés (hors bruit)    : 963

Traitement du cluster KMeans 105 contenant 4216 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  10%|█         | 15/150 [01:31<15:00,  6.67s/it]

  -> Sous-clusters trouvés par HDBSCAN : 3
  -> Points classifiés (hors bruit)    : 3025

Traitement du cluster KMeans 146 contenant 3036 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  11%|█         | 16/150 [01:36<13:38,  6.11s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 578

Traitement du cluster KMeans 106 contenant 1119 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  11%|█▏        | 17/150 [01:37<09:53,  4.46s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 571

Traitement du cluster KMeans 82 contenant 2559 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  12%|█▏        | 18/150 [01:40<09:17,  4.23s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 482

Traitement du cluster KMeans 83 contenant 3432 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  13%|█▎        | 19/150 [01:47<10:29,  4.81s/it]

  -> Sous-clusters trouvés par HDBSCAN : 5
  -> Points classifiés (hors bruit)    : 507

Traitement du cluster KMeans 79 contenant 4357 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  13%|█▎        | 20/150 [01:55<13:04,  6.03s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1289

Traitement du cluster KMeans 116 contenant 2508 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  14%|█▍        | 21/150 [01:59<11:22,  5.29s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 550

Traitement du cluster KMeans 10 contenant 2249 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  15%|█▍        | 22/150 [02:02<09:30,  4.46s/it]

  -> Sous-clusters trouvés par HDBSCAN : 11
  -> Points classifiés (hors bruit)    : 693

Traitement du cluster KMeans 4 contenant 2979 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  15%|█▌        | 23/150 [02:06<09:15,  4.38s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 217

Traitement du cluster KMeans 22 contenant 4458 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  16%|█▌        | 24/150 [02:16<12:54,  6.15s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 2053

Traitement du cluster KMeans 89 contenant 2641 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  17%|█▋        | 25/150 [02:20<11:16,  5.42s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 241

Traitement du cluster KMeans 40 contenant 3153 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  17%|█▋        | 26/150 [02:24<10:43,  5.19s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 2288

Traitement du cluster KMeans 16 contenant 2872 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  18%|█▊        | 27/150 [02:29<10:03,  4.91s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 568

Traitement du cluster KMeans 94 contenant 2360 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  19%|█▊        | 28/150 [02:31<08:29,  4.17s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1660

Traitement du cluster KMeans 95 contenant 2540 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  19%|█▉        | 29/150 [02:34<07:29,  3.72s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1673

Traitement du cluster KMeans 2 contenant 3759 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  20%|██        | 30/150 [02:41<09:25,  4.71s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 123

Traitement du cluster KMeans 47 contenant 3271 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  21%|██        | 31/150 [02:45<08:54,  4.49s/it]

  -> Sous-clusters trouvés par HDBSCAN : 13
  -> Points classifiés (hors bruit)    : 755

Traitement du cluster KMeans 28 contenant 3488 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  21%|██▏       | 32/150 [02:51<09:37,  4.90s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 2877

Traitement du cluster KMeans 29 contenant 742 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  22%|██▏       | 33/150 [02:51<06:48,  3.49s/it]

  -> Sous-clusters trouvés par HDBSCAN : 6
  -> Points classifiés (hors bruit)    : 516

Traitement du cluster KMeans 119 contenant 1156 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  23%|██▎       | 34/150 [02:51<05:04,  2.63s/it]

  -> Sous-clusters trouvés par HDBSCAN : 5
  -> Points classifiés (hors bruit)    : 714

Traitement du cluster KMeans 100 contenant 3365 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  23%|██▎       | 35/150 [02:55<05:46,  3.01s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 2227

Traitement du cluster KMeans 91 contenant 1799 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  24%|██▍       | 36/150 [02:57<04:53,  2.58s/it]

  -> Sous-clusters trouvés par HDBSCAN : 12
  -> Points classifiés (hors bruit)    : 550

Traitement du cluster KMeans 3 contenant 4104 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  25%|██▍       | 37/150 [03:03<06:46,  3.59s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1723

Traitement du cluster KMeans 123 contenant 4324 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  25%|██▌       | 38/150 [03:11<09:07,  4.89s/it]

  -> Sous-clusters trouvés par HDBSCAN : 2
  -> Points classifiés (hors bruit)    : 4286

Traitement du cluster KMeans 49 contenant 3983 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  26%|██▌       | 39/150 [03:18<10:20,  5.59s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 778

Traitement du cluster KMeans 87 contenant 2687 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  27%|██▋       | 40/150 [03:22<09:11,  5.01s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 333

Traitement du cluster KMeans 131 contenant 1965 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  27%|██▋       | 41/150 [03:23<07:14,  3.99s/it]

  -> Sous-clusters trouvés par HDBSCAN : 11
  -> Points classifiés (hors bruit)    : 646

Traitement du cluster KMeans 75 contenant 2633 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  28%|██▊       | 42/150 [03:26<06:18,  3.50s/it]

  -> Sous-clusters trouvés par HDBSCAN : 30
  -> Points classifiés (hors bruit)    : 1769

Traitement du cluster KMeans 13 contenant 2822 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  29%|██▊       | 43/150 [03:30<06:39,  3.73s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 424

Traitement du cluster KMeans 34 contenant 2998 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  29%|██▉       | 44/150 [03:35<07:05,  4.01s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 558

Traitement du cluster KMeans 60 contenant 3778 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  30%|███       | 45/150 [03:42<08:33,  4.89s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 2229

Traitement du cluster KMeans 121 contenant 2956 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  31%|███       | 46/150 [03:45<07:36,  4.39s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 498

Traitement du cluster KMeans 14 contenant 796 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  31%|███▏      | 47/150 [03:45<05:28,  3.19s/it]

  -> Sous-clusters trouvés par HDBSCAN : 8
  -> Points classifiés (hors bruit)    : 503

Traitement du cluster KMeans 120 contenant 1160 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  32%|███▏      | 48/150 [03:46<04:06,  2.42s/it]

  -> Sous-clusters trouvés par HDBSCAN : 10
  -> Points classifiés (hors bruit)    : 957

Traitement du cluster KMeans 149 contenant 3311 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  33%|███▎      | 49/150 [03:50<04:49,  2.86s/it]

  -> Sous-clusters trouvés par HDBSCAN : 10
  -> Points classifiés (hors bruit)    : 700

Traitement du cluster KMeans 51 contenant 3021 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  33%|███▎      | 50/150 [03:54<05:32,  3.33s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1869

Traitement du cluster KMeans 18 contenant 2954 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  34%|███▍      | 51/150 [03:59<06:07,  3.71s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 2653

Traitement du cluster KMeans 55 contenant 2448 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  35%|███▍      | 52/150 [04:02<05:58,  3.66s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 583

Traitement du cluster KMeans 109 contenant 3324 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  35%|███▌      | 53/150 [04:08<07:01,  4.34s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 43

Traitement du cluster KMeans 38 contenant 3204 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  36%|███▌      | 54/150 [04:14<07:36,  4.75s/it]

  -> Sous-clusters trouvés par HDBSCAN : 3
  -> Points classifiés (hors bruit)    : 2868

Traitement du cluster KMeans 127 contenant 5468 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  37%|███▋      | 55/150 [04:26<11:01,  6.96s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1903

Traitement du cluster KMeans 8 contenant 1713 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  37%|███▋      | 56/150 [04:27<08:13,  5.25s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 325

Traitement du cluster KMeans 26 contenant 2783 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  38%|███▊      | 57/150 [04:31<07:36,  4.91s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 558

Traitement du cluster KMeans 110 contenant 4033 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  39%|███▊      | 58/150 [04:38<08:23,  5.47s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 2487

Traitement du cluster KMeans 133 contenant 2070 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  39%|███▉      | 59/150 [04:40<06:39,  4.39s/it]

  -> Sous-clusters trouvés par HDBSCAN : 3
  -> Points classifiés (hors bruit)    : 1362

Traitement du cluster KMeans 72 contenant 1895 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  40%|████      | 60/150 [04:42<05:23,  3.60s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 949

Traitement du cluster KMeans 31 contenant 5148 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  41%|████      | 61/150 [04:54<09:18,  6.28s/it]

  -> Sous-clusters trouvés par HDBSCAN : 16
  -> Points classifiés (hors bruit)    : 863

Traitement du cluster KMeans 148 contenant 1748 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  41%|████▏     | 62/150 [04:56<07:12,  4.92s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 386

Traitement du cluster KMeans 69 contenant 3010 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  42%|████▏     | 63/150 [05:00<06:33,  4.52s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 2121

Traitement du cluster KMeans 19 contenant 2333 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  43%|████▎     | 64/150 [05:03<05:57,  4.15s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 473

Traitement du cluster KMeans 124 contenant 2729 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  43%|████▎     | 65/150 [05:07<05:50,  4.13s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 928

Traitement du cluster KMeans 41 contenant 3056 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  44%|████▍     | 66/150 [05:12<06:08,  4.38s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 669

Traitement du cluster KMeans 58 contenant 3456 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  45%|████▍     | 67/150 [05:16<06:02,  4.37s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1336

Traitement du cluster KMeans 12 contenant 4581 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  45%|████▌     | 68/150 [05:25<07:43,  5.65s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 2890

Traitement du cluster KMeans 5 contenant 2589 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  46%|████▌     | 69/150 [05:27<06:22,  4.72s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1723

Traitement du cluster KMeans 11 contenant 2371 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  47%|████▋     | 70/150 [05:30<05:26,  4.08s/it]

  -> Sous-clusters trouvés par HDBSCAN : 17
  -> Points classifiés (hors bruit)    : 1191

Traitement du cluster KMeans 134 contenant 3485 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  47%|████▋     | 71/150 [05:36<06:04,  4.61s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1033

Traitement du cluster KMeans 114 contenant 1802 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  48%|████▊     | 72/150 [05:37<04:48,  3.70s/it]

  -> Sous-clusters trouvés par HDBSCAN : 10
  -> Points classifiés (hors bruit)    : 546

Traitement du cluster KMeans 33 contenant 2910 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  49%|████▊     | 73/150 [05:41<04:41,  3.65s/it]

  -> Sous-clusters trouvés par HDBSCAN : 12
  -> Points classifiés (hors bruit)    : 776

Traitement du cluster KMeans 92 contenant 1300 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  49%|████▉     | 74/150 [05:42<03:29,  2.76s/it]

  -> Sous-clusters trouvés par HDBSCAN : 9
  -> Points classifiés (hors bruit)    : 628

Traitement du cluster KMeans 21 contenant 2455 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  50%|█████     | 75/150 [05:44<03:22,  2.70s/it]

  -> Sous-clusters trouvés par HDBSCAN : 14
  -> Points classifiés (hors bruit)    : 1021

Traitement du cluster KMeans 59 contenant 2793 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  51%|█████     | 76/150 [05:48<03:37,  2.94s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 421

Traitement du cluster KMeans 35 contenant 2470 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  51%|█████▏    | 77/150 [05:50<03:21,  2.75s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 828

Traitement du cluster KMeans 101 contenant 2854 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  52%|█████▏    | 78/150 [05:54<03:47,  3.16s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 783

Traitement du cluster KMeans 143 contenant 3487 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  53%|█████▎    | 79/150 [05:59<04:29,  3.80s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1187

Traitement du cluster KMeans 97 contenant 1326 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  53%|█████▎    | 80/150 [06:00<03:20,  2.87s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1112

Traitement du cluster KMeans 20 contenant 3695 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  54%|█████▍    | 81/150 [06:08<05:02,  4.38s/it]

  -> Sous-clusters trouvés par HDBSCAN : 2
  -> Points classifiés (hors bruit)    : 3620

Traitement du cluster KMeans 36 contenant 2762 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  55%|█████▍    | 82/150 [06:12<04:39,  4.10s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1364

Traitement du cluster KMeans 112 contenant 1277 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  55%|█████▌    | 83/150 [06:12<03:28,  3.11s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 437

Traitement du cluster KMeans 1 contenant 2487 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  56%|█████▌    | 84/150 [06:15<03:16,  2.98s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1288

Traitement du cluster KMeans 128 contenant 3262 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  57%|█████▋    | 85/150 [06:19<03:34,  3.29s/it]

  -> Sous-clusters trouvés par HDBSCAN : 2
  -> Points classifiés (hors bruit)    : 2964

Traitement du cluster KMeans 24 contenant 2123 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  57%|█████▋    | 86/150 [06:21<02:55,  2.74s/it]

  -> Sous-clusters trouvés par HDBSCAN : 21
  -> Points classifiés (hors bruit)    : 1053

Traitement du cluster KMeans 113 contenant 1310 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  59%|█████▊    | 88/150 [06:21<01:34,  1.52s/it]

  -> Sous-clusters trouvés par HDBSCAN : 12
  -> Points classifiés (hors bruit)    : 785

Traitement du cluster KMeans 96 contenant 665 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2
  -> Sous-clusters trouvés par HDBSCAN : 5
  -> Points classifiés (hors bruit)    : 618

Traitement du cluster KMeans 104 contenant 2408 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  59%|█████▉    | 89/150 [06:23<01:41,  1.67s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1350

Traitement du cluster KMeans 84 contenant 2207 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  60%|██████    | 90/150 [06:25<01:43,  1.72s/it]

  -> Sous-clusters trouvés par HDBSCAN : 14
  -> Points classifiés (hors bruit)    : 851

Traitement du cluster KMeans 140 contenant 4454 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  61%|██████    | 91/150 [06:33<03:38,  3.70s/it]

  -> Sous-clusters trouvés par HDBSCAN : 2
  -> Points classifiés (hors bruit)    : 1952

Traitement du cluster KMeans 86 contenant 977 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  62%|██████▏   | 93/150 [06:34<01:50,  1.94s/it]

  -> Sous-clusters trouvés par HDBSCAN : 15
  -> Points classifiés (hors bruit)    : 861

Traitement du cluster KMeans 74 contenant 754 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2
  -> Sous-clusters trouvés par HDBSCAN : 12
  -> Points classifiés (hors bruit)    : 543

Traitement du cluster KMeans 93 contenant 1243 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  63%|██████▎   | 94/150 [06:35<01:26,  1.54s/it]

  -> Sous-clusters trouvés par HDBSCAN : 8
  -> Points classifiés (hors bruit)    : 536

Traitement du cluster KMeans 136 contenant 4120 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  63%|██████▎   | 95/150 [06:41<02:46,  3.03s/it]

  -> Sous-clusters trouvés par HDBSCAN : 2
  -> Points classifiés (hors bruit)    : 3468

Traitement du cluster KMeans 111 contenant 933 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  64%|██████▍   | 96/150 [06:42<02:02,  2.26s/it]

  -> Sous-clusters trouvés par HDBSCAN : 7
  -> Points classifiés (hors bruit)    : 581

Traitement du cluster KMeans 76 contenant 104 points.
  -> Paramètres HDBSCAN: min_cluster_size=10, min_samples=2
  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 100

Traitement du cluster KMeans 98 contenant 2571 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  65%|██████▌   | 98/150 [06:45<01:42,  1.97s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1261

Traitement du cluster KMeans 68 contenant 343 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2
  -> Sous-clusters trouvés par HDBSCAN : 4
  -> Points classifiés (hors bruit)    : 324

Traitement du cluster KMeans 37 contenant 1490 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  67%|██████▋   | 100/150 [06:46<01:07,  1.34s/it]

  -> Sous-clusters trouvés par HDBSCAN : 12
  -> Points classifiés (hors bruit)    : 1421

Traitement du cluster KMeans 117 contenant 998 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  67%|██████▋   | 101/150 [06:46<00:55,  1.13s/it]

  -> Sous-clusters trouvés par HDBSCAN : 4
  -> Points classifiés (hors bruit)    : 680

Traitement du cluster KMeans 147 contenant 1950 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  68%|██████▊   | 102/150 [06:48<01:01,  1.28s/it]

  -> Sous-clusters trouvés par HDBSCAN : 7
  -> Points classifiés (hors bruit)    : 702

Traitement du cluster KMeans 122 contenant 5143 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  69%|██████▊   | 103/150 [06:59<03:04,  3.94s/it]

  -> Sous-clusters trouvés par HDBSCAN : 2
  -> Points classifiés (hors bruit)    : 2849

Traitement du cluster KMeans 108 contenant 2357 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  69%|██████▉   | 104/150 [07:03<02:51,  3.74s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 857

Traitement du cluster KMeans 125 contenant 2179 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  70%|███████   | 105/150 [07:04<02:24,  3.20s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1339

Traitement du cluster KMeans 139 contenant 1388 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  71%|███████   | 106/150 [07:05<01:50,  2.52s/it]

  -> Sous-clusters trouvés par HDBSCAN : 9
  -> Points classifiés (hors bruit)    : 426

Traitement du cluster KMeans 46 contenant 3094 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  71%|███████▏  | 107/150 [07:09<02:06,  2.95s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 359

Traitement du cluster KMeans 42 contenant 2929 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  72%|███████▏  | 108/150 [07:14<02:26,  3.50s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 30

Traitement du cluster KMeans 48 contenant 967 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  73%|███████▎  | 109/150 [07:14<01:46,  2.60s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 452

Traitement du cluster KMeans 44 contenant 1877 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  73%|███████▎  | 110/150 [07:16<01:29,  2.23s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 994

Traitement du cluster KMeans 6 contenant 1317 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  74%|███████▍  | 111/150 [07:17<01:09,  1.79s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 688

Traitement du cluster KMeans 52 contenant 3657 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  75%|███████▍  | 112/150 [07:24<02:11,  3.46s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1301

Traitement du cluster KMeans 70 contenant 2868 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  75%|███████▌  | 113/150 [07:27<02:02,  3.31s/it]

  -> Sous-clusters trouvés par HDBSCAN : 10
  -> Points classifiés (hors bruit)    : 604

Traitement du cluster KMeans 118 contenant 1718 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  76%|███████▌  | 114/150 [07:28<01:39,  2.76s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 36

Traitement du cluster KMeans 65 contenant 1945 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  77%|███████▋  | 115/150 [07:30<01:23,  2.38s/it]

  -> Sous-clusters trouvés par HDBSCAN : 7
  -> Points classifiés (hors bruit)    : 528

Traitement du cluster KMeans 39 contenant 2472 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  77%|███████▋  | 116/150 [07:33<01:26,  2.54s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 916

Traitement du cluster KMeans 78 contenant 1208 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  78%|███████▊  | 117/150 [07:33<01:05,  1.99s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 841

Traitement du cluster KMeans 25 contenant 3317 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  79%|███████▊  | 118/150 [07:39<01:41,  3.17s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1133

Traitement du cluster KMeans 17 contenant 2497 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  80%|████████  | 120/150 [07:43<01:12,  2.41s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1031

Traitement du cluster KMeans 53 contenant 559 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2
  -> Sous-clusters trouvés par HDBSCAN : 5
  -> Points classifiés (hors bruit)    : 356

Traitement du cluster KMeans 43 contenant 930 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  81%|████████  | 121/150 [07:44<00:52,  1.80s/it]

  -> Sous-clusters trouvés par HDBSCAN : 8
  -> Points classifiés (hors bruit)    : 510

Traitement du cluster KMeans 54 contenant 1383 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  81%|████████▏ | 122/150 [07:45<00:45,  1.61s/it]

  -> Sous-clusters trouvés par HDBSCAN : 4
  -> Points classifiés (hors bruit)    : 774

Traitement du cluster KMeans 138 contenant 546 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  82%|████████▏ | 123/150 [07:45<00:32,  1.19s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 30

Traitement du cluster KMeans 62 contenant 822 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  83%|████████▎ | 124/150 [07:45<00:24,  1.08it/s]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 219

Traitement du cluster KMeans 66 contenant 1770 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  83%|████████▎ | 125/150 [07:47<00:25,  1.03s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1271

Traitement du cluster KMeans 135 contenant 2004 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  84%|████████▍ | 126/150 [07:49<00:36,  1.54s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1062

Traitement du cluster KMeans 142 contenant 2182 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  85%|████████▍ | 127/150 [07:52<00:44,  1.95s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1300

Traitement du cluster KMeans 129 contenant 1923 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  85%|████████▌ | 128/150 [07:54<00:38,  1.74s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1229

Traitement du cluster KMeans 57 contenant 2198 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  86%|████████▌ | 129/150 [07:56<00:42,  2.03s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1304

Traitement du cluster KMeans 115 contenant 2364 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  87%|████████▋ | 130/150 [08:00<00:49,  2.47s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1683

Traitement du cluster KMeans 130 contenant 1395 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  87%|████████▋ | 131/150 [08:01<00:37,  1.97s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 860

Traitement du cluster KMeans 23 contenant 1478 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  88%|████████▊ | 132/150 [08:01<00:28,  1.60s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 882

Traitement du cluster KMeans 45 contenant 1222 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  89%|████████▊ | 133/150 [08:02<00:22,  1.30s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 846

Traitement du cluster KMeans 0 contenant 1522 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  89%|████████▉ | 134/150 [08:03<00:20,  1.29s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1457

Traitement du cluster KMeans 77 contenant 2525 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  91%|█████████ | 136/150 [08:07<00:18,  1.35s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 563

Traitement du cluster KMeans 144 contenant 574 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2
  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 478

Traitement du cluster KMeans 132 contenant 2129 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  92%|█████████▏| 138/150 [08:08<00:11,  1.01it/s]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1845

Traitement du cluster KMeans 27 contenant 697 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2
  -> Sous-clusters trouvés par HDBSCAN : 6
  -> Points classifiés (hors bruit)    : 630

Traitement du cluster KMeans 88 contenant 304 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2
  -> Sous-clusters trouvés par HDBSCAN : 4
  -> Points classifiés (hors bruit)    : 268

Traitement du cluster KMeans 63 contenant 1307 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  93%|█████████▎| 140/150 [08:09<00:08,  1.19it/s]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 949

Traitement du cluster KMeans 102 contenant 2116 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  94%|█████████▍| 141/150 [08:11<00:08,  1.02it/s]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 1210

Traitement du cluster KMeans 90 contenant 1170 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  95%|█████████▍| 142/150 [08:12<00:07,  1.06it/s]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 41

Traitement du cluster KMeans 7 contenant 2631 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  95%|█████████▌| 143/150 [08:14<00:08,  1.26s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 2604

Traitement du cluster KMeans 126 contenant 2549 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  96%|█████████▌| 144/150 [08:16<00:09,  1.51s/it]

  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 2498

Traitement du cluster KMeans 30 contenant 1389 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  97%|█████████▋| 145/150 [08:17<00:06,  1.29s/it]

  -> Sous-clusters trouvés par HDBSCAN : 8
  -> Points classifiés (hors bruit)    : 1322

Traitement du cluster KMeans 71 contenant 268 points.
  -> Paramètres HDBSCAN: min_cluster_size=26, min_samples=2
  -> Sous-clusters trouvés par HDBSCAN : 1
  -> Points classifiés (hors bruit)    : 224

Traitement du cluster KMeans 56 contenant 1209 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  98%|█████████▊| 147/150 [08:18<00:02,  1.06it/s]

  -> Sous-clusters trouvés par HDBSCAN : 7
  -> Points classifiés (hors bruit)    : 1195

Traitement du cluster KMeans 80 contenant 2638 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans:  99%|█████████▊| 148/150 [08:22<00:03,  1.83s/it]

  -> Sous-clusters trouvés par HDBSCAN : 6
  -> Points classifiés (hors bruit)    : 278

Traitement du cluster KMeans 32 contenant 1175 points.
  -> Paramètres HDBSCAN: min_cluster_size=30, min_samples=2


Clusters KMeans: 100%|██████████| 150/150 [08:23<00:00,  3.36s/it]

  -> Sous-clusters trouvés par HDBSCAN : 4
  -> Points classifiés (hors bruit)    : 1167

Traitement du cluster KMeans 99 contenant 282 points.
  -> Paramètres HDBSCAN: min_cluster_size=28, min_samples=2
  -> Sous-clusters trouvés par HDBSCAN : 4
  -> Points classifiés (hors bruit)    : 268

=== Résumé HDBSCAN ===
Total sous-clusters trouvés : 562
Total points classifiés     : 163988
Pourcentage de points hors bruit: 45.09%

[DEBUG] Distribution hdbscan_cluster (après refine_with_hdbscan_per_kmeans_cluster) :
hdbscan_cluster
-1      199696
 125      4235
 309      3584
 406      3432
 40       3174
         ...  
 93         30
 295        30
 153        30
 458        30
 449        30
Name: count, Length: 563, dtype: int64

Calcul du centroïde KMeans pour chaque point...
Centroïdes KMeans ajoutés.

[DEBUG] Distribution hdbscan_cluster (juste après add_kmeans_centroids) :
hdbscan_cluster
-1      199696
 125      4235
 309      3584
 406      3432
 40       3174
         ...  
 93     




Ranking ajouté.

[DEBUG] Distribution hdbscan_cluster (juste après add_ranking) :
hdbscan_cluster
-1      199696
 125      4235
 309      3584
 406      3432
 40       3174
         ...  
 93         30
 295        30
 153        30
 458        30
 449        30
Name: count, Length: 563, dtype: int64
=== Fin du pipeline de clustering ===

Dataset final sauvegardé dans : final_dataset_with_hdbscan_ranking_PERMISSIF_1.csv

=== Statistiques finales ===
Nombre total de sous-clusters HDBSCAN : 562
Points de bruit : 199696 (54.91%)
Points classifiés : 163988 (45.09%)
=== Fin du traitement global ===



# Clustering

In [3]:
data = pd.read_parquet('NoSpam_emails.parquet')

In [4]:
# Séparer les doublons dans un nouveau DataFrame
data_duplicates = data[data.duplicated(subset=['final_body'], keep='first')]

# Supprimer les doublons dans le DataFrame principal
data.drop_duplicates(subset=['final_body'], keep='first', inplace=True)

# Affichage des résultats
print(data.shape)
print(data_duplicates.shape)

(156997, 10)
(206687, 10)


## Kmean

In [5]:
import ast
# Étape 1 : Convertir la colonne d'embeddings en tableaux numpy
data['embedding'] = data['embedding'].apply(
    lambda x: np.array(ast.literal_eval(x)) if isinstance(x, str) else np.array(x)
)

# Vérifier que toutes les dimensions sont cohérentes
embedding_matrix = np.stack(data['embedding'].values)

# Étape 2 : Appliquer KMeans
n_clusters = 2000  # Par exemple, choisir 2 clusters
kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init='auto')
labels = kmeans.fit_predict(embedding_matrix)

# Étape 3 : Ajouter les labels au DataFrame
data['KMeans_Labels'] = labels

# Afficher le DataFrame mis à jour
data

Unnamed: 0,file,message,parsed_email,Message-ID,X-FileName,Body,final_body,embedding,spam,From,KMeans_Labels
0,allen-p/_sent_mail/1.,Message-ID: <18782981.1075855378110.JavaMail.e...,{'Message-ID': '<18782981.1075855378110.JavaMa...,<18782981.1075855378110.JavaMail.evans@thyme>,pallen (Non-Privileged).pst,\nHere is our forecast\n\n,forecast,"[-0.2228, -0.1683, 0.414, -0.1859, 0.7666, -0....",0,phillip.allen@enron.com,577
1,allen-p/_sent_mail/1000.,Message-ID: <13505866.1075863688222.JavaMail.e...,{'Message-ID': '<13505866.1075863688222.JavaMa...,<13505866.1075863688222.JavaMail.evans@thyme>,pallen.nsf,"\nRandy,\n\n Can you send me a schedule of the...","Randy, send schedule salary level everyone sch...","[0.4868, 0.3755, -0.836, -0.723, 1.365, -0.114...",0,phillip.allen@enron.com,351
2,allen-p/_sent_mail/1001.,Message-ID: <30922949.1075863688243.JavaMail.e...,{'Message-ID': '<30922949.1075863688243.JavaMa...,<30922949.1075863688243.JavaMail.evans@thyme>,pallen.nsf,\nLet's shoot for Tuesday at 11:45.,Let's shoot Tuesday 11:45.,"[-0.03079, 0.02507, -0.4038, -0.3984, 1.139, 0...",0,phillip.allen@enron.com,765
3,allen-p/_sent_mail/1002.,Message-ID: <30965995.1075863688265.JavaMail.e...,{'Message-ID': '<30965995.1075863688265.JavaMa...,<30965995.1075863688265.JavaMail.evans@thyme>,pallen.nsf,"\nGreg,\n\n How about either next Tuesday or T...","Greg, either next Tuesday Thursday? Phillip","[-0.4834, 0.2832, -1.531, -0.6226, 0.0867, 0.4...",0,phillip.allen@enron.com,765
4,allen-p/_sent_mail/1003.,Message-ID: <16254169.1075863688286.JavaMail.e...,{'Message-ID': '<16254169.1075863688286.JavaMa...,<16254169.1075863688286.JavaMail.evans@thyme>,pallen.nsf,\nPlease cc the following distribution list wi...,Please cc following distribution list updates:...,"[0.2007, -0.7554, -0.322, -0.1583, 0.454, -0.4...",0,phillip.allen@enron.com,596
...,...,...,...,...,...,...,...,...,...,...,...
434014,zufferli-j/sent_items/89.,Message-ID: <24358278.1075842029773.JavaMail.e...,{'Message-ID': '<24358278.1075842029773.JavaMa...,<24358278.1075842029773.JavaMail.evans@thyme>,john zufferli 6-26-02.PST,\n\nEnron is willing to perform the operation ...,Enron willing perform operation question (1) (...,"[0.00992, -0.2651, -0.605, 0.1359, 1.509, 0.04...",0,john.zufferli@enron.com,1126
434015,zufferli-j/sent_items/91.,Message-ID: <23829224.1075842029820.JavaMail.e...,{'Message-ID': '<23829224.1075842029820.JavaMa...,<23829224.1075842029820.JavaMail.evans@thyme>,john zufferli 6-26-02.PST,"\nNicole and everyone, I think the directory i...","Nicole everyone, think directory i:\canadian\e...","[1.218, -0.943, 0.1938, 1.032, 0.4238, -0.3433...",0,john.zufferli@enron.com,999
434016,zufferli-j/sent_items/95.,Message-ID: <26807948.1075842029936.JavaMail.e...,{'Message-ID': '<26807948.1075842029936.JavaMa...,<26807948.1075842029936.JavaMail.evans@thyme>,john zufferli 6-26-02.PST,\nThis is a trade with OIL-SPEC-HEDGE-NG (John...,trade OIL-SPEC-HEDGE-NG (John Lavorato's book)...,"[0.2764, -0.03079, -0.6875, 0.05423, -1.289, 0...",0,john.zufferli@enron.com,1332
434017,zufferli-j/sent_items/96.,Message-ID: <25835861.1075842029959.JavaMail.e...,{'Message-ID': '<25835861.1075842029959.JavaMa...,<25835861.1075842029959.JavaMail.evans@thyme>,john zufferli 6-26-02.PST,\nSome of my position is with the Alberta Term...,"position Alberta Term book, send positions dir...","[0.7695, -0.5005, -1.423, -0.1415, -0.4844, 0....",0,john.zufferli@enron.com,569


In [6]:
data['KMeans_Labels'].value_counts()

KMeans_Labels
1386    563
1797    420
1905    352
821     333
622     309
       ... 
1027      5
1337      4
1725      4
1307      3
1871      2
Name: count, Length: 2000, dtype: int64

## HDBSCAN

In [7]:
df = data[['KMeans_Labels', 'embedding']]
# Étape 1 : Calculer les centroïdes des clusters KMeans
def calculate_centroid(embeddings):
    return np.mean(np.vstack(embeddings), axis=0)

# Grouper par `kmeans_cluster` et calculer les centroïdes
centroids_df = (
    df.groupby("KMeans_Labels")["embedding"]
    .apply(calculate_centroid)
    .reset_index()
)

# Renommer la colonne pour plus de clarté
centroids_df.rename(columns={"embedding": "centroid"}, inplace=True)

# Étape 2 : Appliquer HDBSCAN sur les centroïdes
# Convertir les centroïdes en une matrice numpy
centroids_matrix = np.vstack(centroids_df["centroid"])

# Appliquer HDBSCAN
hdbscan_model = hdbscan.HDBSCAN(min_cluster_size=2, min_samples=1)
hdbscan_labels = hdbscan_model.fit_predict(centroids_matrix)

# Ajouter les labels HDBSCAN au DataFrame des centroïdes
centroids_df["hdbscan_cluster"] = hdbscan_labels

centroids_df["hdbscan_cluster"].value_counts()

hdbscan_cluster
-1      1022
 2        17
 157      13
 31       10
 202      10
        ... 
 220       2
 312       2
 251       2
 72        2
 41        2
Name: count, Length: 329, dtype: int64

In [8]:
# Étape 3 : Associer les clusters HDBSCAN aux clusters KMeans initiaux
# Faire une jointure avec le DataFrame original
merged_df = data.merge(centroids_df[['KMeans_Labels','hdbscan_cluster']], on="KMeans_Labels", how='left')

merged_df

Unnamed: 0,file,message,parsed_email,Message-ID,X-FileName,Body,final_body,embedding,spam,From,KMeans_Labels,hdbscan_cluster
0,allen-p/_sent_mail/1.,Message-ID: <18782981.1075855378110.JavaMail.e...,{'Message-ID': '<18782981.1075855378110.JavaMa...,<18782981.1075855378110.JavaMail.evans@thyme>,pallen (Non-Privileged).pst,\nHere is our forecast\n\n,forecast,"[-0.2228, -0.1683, 0.414, -0.1859, 0.7666, -0....",0,phillip.allen@enron.com,577,-1
1,allen-p/_sent_mail/1000.,Message-ID: <13505866.1075863688222.JavaMail.e...,{'Message-ID': '<13505866.1075863688222.JavaMa...,<13505866.1075863688222.JavaMail.evans@thyme>,pallen.nsf,"\nRandy,\n\n Can you send me a schedule of the...","Randy, send schedule salary level everyone sch...","[0.4868, 0.3755, -0.836, -0.723, 1.365, -0.114...",0,phillip.allen@enron.com,351,150
2,allen-p/_sent_mail/1001.,Message-ID: <30922949.1075863688243.JavaMail.e...,{'Message-ID': '<30922949.1075863688243.JavaMa...,<30922949.1075863688243.JavaMail.evans@thyme>,pallen.nsf,\nLet's shoot for Tuesday at 11:45.,Let's shoot Tuesday 11:45.,"[-0.03079, 0.02507, -0.4038, -0.3984, 1.139, 0...",0,phillip.allen@enron.com,765,89
3,allen-p/_sent_mail/1002.,Message-ID: <30965995.1075863688265.JavaMail.e...,{'Message-ID': '<30965995.1075863688265.JavaMa...,<30965995.1075863688265.JavaMail.evans@thyme>,pallen.nsf,"\nGreg,\n\n How about either next Tuesday or T...","Greg, either next Tuesday Thursday? Phillip","[-0.4834, 0.2832, -1.531, -0.6226, 0.0867, 0.4...",0,phillip.allen@enron.com,765,89
4,allen-p/_sent_mail/1003.,Message-ID: <16254169.1075863688286.JavaMail.e...,{'Message-ID': '<16254169.1075863688286.JavaMa...,<16254169.1075863688286.JavaMail.evans@thyme>,pallen.nsf,\nPlease cc the following distribution list wi...,Please cc following distribution list updates:...,"[0.2007, -0.7554, -0.322, -0.1583, 0.454, -0.4...",0,phillip.allen@enron.com,596,-1
...,...,...,...,...,...,...,...,...,...,...,...,...
156992,zufferli-j/sent_items/89.,Message-ID: <24358278.1075842029773.JavaMail.e...,{'Message-ID': '<24358278.1075842029773.JavaMa...,<24358278.1075842029773.JavaMail.evans@thyme>,john zufferli 6-26-02.PST,\n\nEnron is willing to perform the operation ...,Enron willing perform operation question (1) (...,"[0.00992, -0.2651, -0.605, 0.1359, 1.509, 0.04...",0,john.zufferli@enron.com,1126,-1
156993,zufferli-j/sent_items/91.,Message-ID: <23829224.1075842029820.JavaMail.e...,{'Message-ID': '<23829224.1075842029820.JavaMa...,<23829224.1075842029820.JavaMail.evans@thyme>,john zufferli 6-26-02.PST,"\nNicole and everyone, I think the directory i...","Nicole everyone, think directory i:\canadian\e...","[1.218, -0.943, 0.1938, 1.032, 0.4238, -0.3433...",0,john.zufferli@enron.com,999,157
156994,zufferli-j/sent_items/95.,Message-ID: <26807948.1075842029936.JavaMail.e...,{'Message-ID': '<26807948.1075842029936.JavaMa...,<26807948.1075842029936.JavaMail.evans@thyme>,john zufferli 6-26-02.PST,\nThis is a trade with OIL-SPEC-HEDGE-NG (John...,trade OIL-SPEC-HEDGE-NG (John Lavorato's book)...,"[0.2764, -0.03079, -0.6875, 0.05423, -1.289, 0...",0,john.zufferli@enron.com,1332,66
156995,zufferli-j/sent_items/96.,Message-ID: <25835861.1075842029959.JavaMail.e...,{'Message-ID': '<25835861.1075842029959.JavaMa...,<25835861.1075842029959.JavaMail.evans@thyme>,john zufferli 6-26-02.PST,\nSome of my position is with the Alberta Term...,"position Alberta Term book, send positions dir...","[0.7695, -0.5005, -1.423, -0.1415, -0.4844, 0....",0,john.zufferli@enron.com,569,256


In [9]:
merged_df.to_parquet('KMeans_HDBSCAN_Clustering.parquet', index=False)
'''merged_df = pd.read_csv('KMeans_HDBSCAN_Clustering.csv')'''

"merged_df = pd.read_csv('KMeans_HDBSCAN_Clustering.csv')"

In [18]:
data_cluster = merged_df[merged_df['hdbscan_cluster'] != -1]
data_cluster

Unnamed: 0,file,message,parsed_email,Message-ID,X-FileName,Body,final_body,embedding,spam,From,KMeans_Labels,hdbscan_cluster
1,allen-p/_sent_mail/1000.,Message-ID: <13505866.1075863688222.JavaMail.e...,{'Message-ID': '<13505866.1075863688222.JavaMa...,<13505866.1075863688222.JavaMail.evans@thyme>,pallen.nsf,"\nRandy,\n\n Can you send me a schedule of the...","Randy, send schedule salary level everyone sch...","[0.4868, 0.3755, -0.836, -0.723, 1.365, -0.114...",0,phillip.allen@enron.com,351,150
2,allen-p/_sent_mail/1001.,Message-ID: <30922949.1075863688243.JavaMail.e...,{'Message-ID': '<30922949.1075863688243.JavaMa...,<30922949.1075863688243.JavaMail.evans@thyme>,pallen.nsf,\nLet's shoot for Tuesday at 11:45.,Let's shoot Tuesday 11:45.,"[-0.03079, 0.02507, -0.4038, -0.3984, 1.139, 0...",0,phillip.allen@enron.com,765,89
3,allen-p/_sent_mail/1002.,Message-ID: <30965995.1075863688265.JavaMail.e...,{'Message-ID': '<30965995.1075863688265.JavaMa...,<30965995.1075863688265.JavaMail.evans@thyme>,pallen.nsf,"\nGreg,\n\n How about either next Tuesday or T...","Greg, either next Tuesday Thursday? Phillip","[-0.4834, 0.2832, -1.531, -0.6226, 0.0867, 0.4...",0,phillip.allen@enron.com,765,89
6,allen-p/_sent_mail/101.,Message-ID: <20641191.1075855687472.JavaMail.e...,{'Message-ID': '<20641191.1075855687472.JavaMa...,<20641191.1075855687472.JavaMail.evans@thyme>,pallen.nsf,\n1. login: pallen pw: ke9davis\n\n I don't t...,1. login: pallen pw: ke9davis think required I...,"[0.2861, 0.54, -1.153, -0.2043, 0.3127, -0.184...",0,phillip.allen@enron.com,840,139
7,allen-p/_sent_mail/102.,Message-ID: <30795301.1075855687494.JavaMail.e...,{'Message-ID': '<30795301.1075855687494.JavaMa...,<30795301.1075855687494.JavaMail.evans@thyme>,pallen.nsf,\n---------------------- Forwarded by Phillip ...,Subject: FW: fixed forward Collar floor gas pr...,"[0.274, -0.598, -0.03268, 0.6514, -0.4514, -0....",0,phillip.allen@enron.com,1229,221
...,...,...,...,...,...,...,...,...,...,...,...,...
156990,zufferli-j/sent_items/83.,Message-ID: <24246770.1075842029601.JavaMail.e...,{'Message-ID': '<24246770.1075842029601.JavaMa...,<24246770.1075842029601.JavaMail.evans@thyme>,john zufferli 6-26-02.PST,\n\nIn addition to a list of software and syst...,addition list software systems compiled th= e ...,"[0.4297, -1.052, 0.0597, -0.4756, 0.477, 0.512...",0,john.zufferli@enron.com,373,271
156991,zufferli-j/sent_items/84.,Message-ID: <30449512.1075842029649.JavaMail.e...,{'Message-ID': '<30449512.1075842029649.JavaMa...,<30449512.1075842029649.JavaMail.evans@thyme>,john zufferli 6-26-02.PST,\nPlease set up access for the digital certifi...,Please set access digital certificate Enron TA...,"[-0.7466, -0.1177, -0.7124, -0.559, 0.489, -0....",0,john.zufferli@enron.com,1372,314
156993,zufferli-j/sent_items/91.,Message-ID: <23829224.1075842029820.JavaMail.e...,{'Message-ID': '<23829224.1075842029820.JavaMa...,<23829224.1075842029820.JavaMail.evans@thyme>,john zufferli 6-26-02.PST,"\nNicole and everyone, I think the directory i...","Nicole everyone, think directory i:\canadian\e...","[1.218, -0.943, 0.1938, 1.032, 0.4238, -0.3433...",0,john.zufferli@enron.com,999,157
156994,zufferli-j/sent_items/95.,Message-ID: <26807948.1075842029936.JavaMail.e...,{'Message-ID': '<26807948.1075842029936.JavaMa...,<26807948.1075842029936.JavaMail.evans@thyme>,john zufferli 6-26-02.PST,\nThis is a trade with OIL-SPEC-HEDGE-NG (John...,trade OIL-SPEC-HEDGE-NG (John Lavorato's book)...,"[0.2764, -0.03079, -0.6875, 0.05423, -1.289, 0...",0,john.zufferli@enron.com,1332,66


In [None]:
data_cluster[data_cluster['KMeans_Labels']==1]

: 

In [36]:
import pandas as pd
import numpy as np
from tqdm import tqdm

def filter_top_k_elements(data_cluster, k=20):
    """
    Filtre le DataFrame pour ne garder que les `k` éléments les plus proches des centroïdes pour chaque cluster.
    
    Paramètres :
    - data_cluster : DataFrame contenant les colonnes 'Kmeans_Labels' (cluster) et 'Embedding' (vecteurs).
    - k : Nombre d'éléments à sélectionner par cluster (par défaut : 10).
    
    Retour :
    - DataFrame filtré avec les `k` éléments les plus proches des centroïdes pour chaque cluster.
    """
    tqdm.pandas(desc="Calcul des centroïdes")

    # Étape 1 : Calcul des centroïdes pour chaque cluster
    centroids = (
        data_cluster.groupby('hdbscan_cluster')['embedding']
        .progress_apply(lambda x: np.mean(np.stack(x), axis=0))
        .to_dict()
    )
    print(len(data_cluster['hdbscan_cluster'].unique()))
    print(f"Centroïdes calculés pour {len(centroids)} clusters.")
    # Étape 2 : Calcul des distances aux centroïdes
    def calculate_distance(row):
        cluster = row['hdbscan_cluster']
        centroid = centroids[cluster]
        embedding = np.array(row['embedding'])
        return np.linalg.norm(embedding - centroid)

    tqdm.pandas(desc="Calcul des distances aux centroïdes")
    data_cluster['Distance_to_Centroid'] = data_cluster.progress_apply(calculate_distance, axis=1)

    # Étape 3 : Sélection des `k` éléments les plus proches pour chaque cluster
    tqdm.pandas(desc="Sélection des top éléments par cluster")
    top_k_per_cluster = (
        data_cluster.groupby('hdbscan_cluster', group_keys=False)
        .progress_apply(lambda x: x.nsmallest(k, 'Distance_to_Centroid'))
    )

    return top_k_per_cluster


In [37]:
filtered_data_cluster_HDBSCAN = filter_top_k_elements(data_cluster, k=20)
print(filtered_data_cluster_HDBSCAN)


Calcul des centroïdes: 100%|██████████| 328/328 [00:00<00:00, 2013.81it/s]


328
Centroïdes calculés pour 328 clusters.


Calcul des distances aux centroïdes: 100%|██████████| 93106/93106 [00:00<00:00, 188243.57it/s]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_cluster['Distance_to_Centroid'] = data_cluster.progress_apply(calculate_distance, axis=1)
Sélection des top éléments par cluster: 100%|██████████| 328/328 [00:00<00:00, 3030.33it/s]

                                     file  \
98614         meyers-a/deleted_items/351.   
98618         meyers-a/deleted_items/355.   
98617         meyers-a/deleted_items/354.   
98704         meyers-a/deleted_items/436.   
98605         meyers-a/deleted_items/343.   
...                                   ...   
7328           beck-s/all_documents/2511.   
56518          hyvl-d/all_documents/1524.   
92931          mann-k/all_documents/2216.   
121988  shackleton-s/all_documents/10112.   
113526        sager-e/all_documents/1121.   

                                                  message  \
98614   Message-ID: <15489782.1075841297698.JavaMail.e...   
98618   Message-ID: <27677080.1075841297796.JavaMail.e...   
98617   Message-ID: <27053622.1075841297772.JavaMail.e...   
98704   Message-ID: <19044266.1075841299880.JavaMail.e...   
98605   Message-ID: <19500157.1075841297502.JavaMail.e...   
...                                                   ...   
7328    Message-ID: <4617246.107




In [38]:
filtered_data_cluster_HDBSCAN

Unnamed: 0,file,message,parsed_email,Message-ID,X-FileName,Body,final_body,embedding,spam,From,KMeans_Labels,hdbscan_cluster,Distance_to_Centroid
98614,meyers-a/deleted_items/351.,Message-ID: <15489782.1075841297698.JavaMail.e...,{'Message-ID': '<15489782.1075841297698.JavaMa...,<15489782.1075841297698.JavaMail.evans@thyme>,bert meyers 6-25-02.PST,\n\n\nStart Date: 1/24/02; HourAhead hour: 13;...,Start Date: 1/24/02; HourAhead hour: 13; HourA...,"[-0.06107, -0.551, -0.5913, -1.205, 1.005, -0....",0,pete.davis@enron.com,1120,0,4.384933
98618,meyers-a/deleted_items/355.,Message-ID: <27677080.1075841297796.JavaMail.e...,{'Message-ID': '<27677080.1075841297796.JavaMa...,<27677080.1075841297796.JavaMail.evans@thyme>,bert meyers 6-25-02.PST,\n\n\nStart Date: 1/24/02; HourAhead hour: 10;...,Start Date: 1/24/02; HourAhead hour: 10; HourA...,"[-0.0902, -0.4102, -0.4253, -1.234, 0.9966, -0...",0,pete.davis@enron.com,1120,0,4.489759
98617,meyers-a/deleted_items/354.,Message-ID: <27053622.1075841297772.JavaMail.e...,{'Message-ID': '<27053622.1075841297772.JavaMa...,<27053622.1075841297772.JavaMail.evans@thyme>,bert meyers 6-25-02.PST,\n\n\nStart Date: 1/24/02; HourAhead hour: 11;...,Start Date: 1/24/02; HourAhead hour: 11; HourA...,"[-0.09845, -0.5376, -0.4358, -1.298, 1.08, -0....",0,pete.davis@enron.com,1120,0,4.522798
98704,meyers-a/deleted_items/436.,Message-ID: <19044266.1075841299880.JavaMail.e...,{'Message-ID': '<19044266.1075841299880.JavaMa...,<19044266.1075841299880.JavaMail.evans@thyme>,bert meyers 6-25-02.PST,\n\n\nStart Date: 1/21/02; HourAhead hour: 12;...,Start Date: 1/21/02; HourAhead hour: 12; HourA...,"[-0.132, -0.5293, -0.595, -0.97, 0.6724, -0.05...",0,pete.davis@enron.com,1120,0,4.532666
98605,meyers-a/deleted_items/343.,Message-ID: <19500157.1075841297502.JavaMail.e...,{'Message-ID': '<19500157.1075841297502.JavaMa...,<19500157.1075841297502.JavaMail.evans@thyme>,bert meyers 6-25-02.PST,\n\n\nStart Date: 1/24/02; HourAhead hour: 19;...,Start Date: 1/24/02; HourAhead hour: 19; HourA...,"[-0.054, -0.6216, -0.457, -1.314, 0.759, -0.30...",0,pete.davis@enron.com,1120,0,4.589929
...,...,...,...,...,...,...,...,...,...,...,...,...,...
7328,beck-s/all_documents/2511.,Message-ID: <4617246.1075855806069.JavaMail.ev...,{'Message-ID': '<4617246.1075855806069.JavaMai...,<4617246.1075855806069.JavaMail.evans@thyme>,sbeck.nsf,\nI agree with the section written for settlem...,"Subject: Interim Operational, Accounting Tax S...","[-0.892, -0.864, 0.2305, -1.005, 0.2346, -0.03...",0,bob.klein@enron.com,1082,327,11.432283
56518,hyvl-d/all_documents/1524.,Message-ID: <16818862.1075842248023.JavaMail.e...,{'Message-ID': '<16818862.1075842248023.JavaMa...,<16818862.1075842248023.JavaMail.evans@thyme>,dhyvl.nsf,\nHere is a draft that does not address the En...,draft address Enron Services deal operating ag...,"[-0.836, -0.496, -0.1189, -0.53, 1.049, -0.076...",0,chris.foster@enron.com,1082,327,11.449037
92931,mann-k/all_documents/2216.,Message-ID: <20798891.1075845629294.JavaMail.e...,{'Message-ID': '<20798891.1075845629294.JavaMa...,<20798891.1075845629294.JavaMail.evans@thyme>,kmann.nsf,\nBen Jacoby has asked that I forward the atta...,Ben Jacoby asked forward attached drafts lette...,"[-0.7876, -0.6455, -0.2404, 0.2974, 1.566, 0.0...",0,kay.mann@enron.com,1082,327,11.478019
121988,shackleton-s/all_documents/10112.,Message-ID: <22610625.1075844720790.JavaMail.e...,{'Message-ID': '<22610625.1075844720790.JavaMa...,<22610625.1075844720790.JavaMail.evans@thyme>,sshackle.nsf,"\nCheryl,\n\nPlease add the RBC Dominion Secur...","Subject: Update List Cheryl, Please add RBC Do...","[-0.278, -1.009, 0.1251, -0.946, 0.3445, 0.225...",0,aneela.charania@enron.com,1082,327,11.494771


In [39]:
filtered_data_cluster_HDBSCAN.to_parquet('Top20_Centroide_HDBSCAN.parquet', index=False)

In [5]:
data_cluster_bruit = merged_df[merged_df['hdbscan_cluster'] == -1]
data_cluster_bruit.to_csv('Cluster_KMeans_HDBSCAN_noiseTRUE.csv', index=False)

In [6]:
def display_random_final_body(dataframe, n=10, seed=None):
    """
    Affiche de manière aléatoire des textes de la colonne 'final_body'.

    Params:
        dataframe (pd.DataFrame): Le DataFrame contenant la colonne 'final_body'.
        n (int): Nombre de textes à afficher. Par défaut : 10.
        seed (int): Graine pour la reproductibilité du tirage aléatoire. Par défaut : None.
    """
    # Ajuster les paramètres pour afficher tout le texte
    pd.set_option('display.max_colwidth', None)

    # Tirer un échantillon aléatoire de la colonne 'final_body'
    sample_texts = dataframe['final_body'].sample(n=n, random_state=seed)

    # Afficher les textes
    for i, text in enumerate(sample_texts, start=1):
        print(f"--- Texte {i} (Index: {sample_texts.index[i-1]}) ---")
        print(text)
        print("\n" + "=" * 50 + "\n")

    # Réinitialiser les options de pandas
    pd.reset_option('display.max_colwidth')

In [7]:
display_random_final_body(data_cluster_bruit)

--- Texte 1 (Index: 35712) ---
Subject: Chevron - Winter monthly nom 413447 right - swing deal 413462 needs extended match term 413447, buyback 413472 Daren J Farmer 10/18/2000 03:48 PM Lee, deal 413447 (Chevron @ Olefins), flex nom 6,000 12,000/day. monthly nom daily nom? swing deal winter? current swing deal Oct only. Oct, pulled average 16,000/day.


--- Texte 2 (Index: 100256) ---
Subject: Keyspan true-up Janet, Colleen Sullivan replaced Kate Fraser team finalize negotiations folks Keyspan. intention finish calculations Colleen requested next days get feel offsets occur proxy pricing given certain decisions. able finish Keyspan. Hopefully, Ed Anderson Melissa Reges taking vacations while. Colleen talked Scott internally releasing East Origination Group's cut accrual profits Year 2 asset management deal. problem end quarter. Sorry delay, Ruth Janet R Dietrich 09/08/2000 12:43 PM Ruth, gotten everything finalized Keyspan re: one-year deal? so, let's finalize internal dollar true-ups 

In [17]:
from sklearn.cluster import AgglomerativeClustering

def perform_ahc_on_text_embeddings(df, embedding_col, n_clusters=5, metric='euclidean', linkage_method='ward'):
    """
    Applique Agglomerative Hierarchical Clustering (AHC) sur des embeddings textuels.

    :param df: pandas.DataFrame contenant une colonne d'embeddings
    :param embedding_col: Nom de la colonne contenant les embeddings
    :param n_clusters: Nombre de clusters à générer
    :param metric: Métrique de distance ('euclidean', 'cosine', etc.)
    :param linkage_method: Méthode de linkage ('ward', 'complete', 'average', 'single')
    :return: DataFrame avec une colonne supplémentaire 'cluster_label'
    """
    # Vérification si la colonne des embeddings existe
    if embedding_col not in df.columns:
        raise ValueError(f"La colonne '{embedding_col}' n'existe pas dans le DataFrame.")

    # Conversion des embeddings en tableau numpy
    embeddings = np.array(df[embedding_col].tolist())

    # Étape 1 : Application d'Agglomerative Clustering
    clustering = AgglomerativeClustering(
        n_clusters=n_clusters,
        metric=metric,
        linkage=linkage_method
    )
    cluster_labels = clustering.fit_predict(embeddings)

    # Ajouter les labels des clusters au DataFrame
    df['cluster_label'] = cluster_labels

    return df


: 

In [None]:
data_with_clusters = perform_ahc_on_text_embeddings(
    data_cluster_bruit,
    embedding_col='embedding',
    n_clusters=5,         # Par exemple
    metric='euclidean',   # Distance métrique pour les embeddings
    linkage_method='ward' # Méthode de linkage (Ward pour variance minimale)
)

print(data_cluster_bruit.head())
