# üì¢üì¢üì¢ Projet NLP : La parole aux citoyens (Make.org - Le tourisme vert en Ille-et-Vilaine)üì¢üì¢üì¢
# Clustering avanc√© et choix final
## Biblioth√®ques n√©cessaires

In [None]:
import pandas as pd
from sklearn.cluster import KMeans, HDBSCAN
from sklearn.metrics import silhouette_score
import plotly.express as px
import plotly.offline as pyo
import numpy as np
from collections import Counter

## Lecture des donn√©es

In [2]:
# Chargement des jeux de donn√©es
df = pd.read_parquet(
    "../data/processed/req_tourisme_responsable_final.parquet",
    engine='pyarrow'
)

df.head(3)

Unnamed: 0,content,agree_count,disagree_count,neutral_count,agree_score,disagree_score,neutral_score,doNotCare,doNotUnderstand,doable,...,stop_words,tokens_final,tokens_lemmatized,embedding_prop,embedding_prop_x,embedding_prop_y,cluster_label,top_15_words,cluster_label_cah,top_15_words_cah
0,Il faut une surveillance des lieux touristique...,27,7,7,0.65,0.18,0.17,1,0,8,...,"['il', 'une', 'des', 'avec', 'la', 'pour', 'ou']","[surveillance, lieux, amende, clef, degradatio...","['surveillance', 'lieux', 'touristique', 'amen...","[0.026475444436073303, 0.013547265902161598, 0...",60.746189,15.809195,9,"[dechet, lieux, tri, eau, poubelle, mettre, se...",4,"[camping, dechet, eau, lieux, car, poubelle, t..."
1,Il faut donner des sacs poubelles et des cendr...,56,18,15,0.62,0.19,0.19,0,0,21,...,"['il', 'des', 'et', 'des', 'de', 'aux', 'des',...","[donner, sac, poubelle, cendrier, poch, vacanc...","['donner', 'sac', 'poubelle', 'cendrier', 'poc...","[0.034178830683231354, 0.05750420689582825, 0....",54.815662,12.159612,7,"[camping, car, parking, lieux, aire, developpe...",4,"[camping, dechet, eau, lieux, car, poubelle, t..."
2,Il faut r√©compenser et mettre en avant les act...,35,7,14,0.62,0.13,0.25,0,5,12,...,"['il', 'et', 'en', 'les', 'des', 'du', 'et', '...","[recompenser, mettre, avant, acte, projet, eco...","['recompenser', 'mettre', 'avant', 'acte', 'pr...","[-0.011080465279519558, 0.053166456520557404, ...",-22.4918,47.501347,4,"[responsable, developper, rendre, lieux, acteu...",1,"[mettre, responsable, pouvoir, etre, creer, gr..."


## Methode specifique : Grid Search qui optimise la metrique silhouette avec la technique HDBSCAN
## R√©sum√© de la m√©thode HDBSCAN
HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) est une m√©thode de clustering non supervis√©e bas√©e sur la densit√©, qui peut identifier des clusters de densit√© variable et marquer les points qui ne font pas partie de clusters comme du bruit (outliers). HDBSCAN est une extension de DBSCAN, et contrairement √† DBSCAN, il ne n√©cessite pas de sp√©cifier un seul param√®tre de densit√© (epsilon) et est capable de g√©rer des clusters de diff√©rentes densit√©s de mani√®re plus robuste.

### Fonctionnement global de HDBSCAN
Construction de l'arbre de MST (Minimum Spanning Tree) :
HDBSCAN commence par construire un arbre couvrant minimal pond√©r√© √† partir des donn√©es en utilisant une distance de type k-distance. Cet arbre capture les relations de proximit√© entre les points.

### Condensation de l'arbre :
HDBSCAN condense cet arbre en supprimant progressivement les bords les moins denses (ceux qui relient les points les plus √©loign√©s), ce qui permet de d√©tecter des clusters naturels dans les donn√©es.

### Extraction des clusters :
Les clusters sont extraits de cet arbre condens√© en cherchant les regroupements de points ayant une densit√© suffisante.

### Attribution de labels et d√©tection des outliers :
Les points qui ne sont pas assez proches de leurs voisins pour appartenir √† un cluster sont marqu√©s comme outliers.

### Param√®tres de HDBSCAN
Voici les principaux param√®tres de HDBSCAN que vous pouvez optimiser avec une recherche par grille :
- min_cluster_size :  
    C'est la taille minimale d'un cluster. Cela d√©termine le nombre minimum de points n√©cessaires pour former un cluster dense.  
    Un plus grand min_cluster_size peut rendre l'algorithme moins sensible aux petits clusters et r√©duire le bruit, tandis qu'un plus petit min_cluster_size peut d√©tecter plus de petits clusters.

- min_samples :
    C'est le nombre minimum de points dans le voisinage d'un point pour qu'il soit consid√©r√© comme un noyau de cluster. Par d√©faut, min_samples est √©gal √† min_cluster_size, mais il peut √™tre ajust√© ind√©pendamment.  
    Un plus grand min_samples augmente la robustesse contre le bruit mais peut n√©cessiter des clusters plus denses pour √™tre d√©tect√©s.

- metric :
    La m√©trique de distance utilis√©e pour calculer les distances entre les points (par exemple, 'euclidean', 'manhattan', etc.).  
    La m√©trique de distance choisie peut influencer la forme et la taille des clusters d√©tect√©s. Le choix de la m√©trique d√©pend de la nature des donn√©es et des relations que vous souhaitez capturer.

## Qu'est-ce que le Silhouette Score ?
Le Silhouette Score est une m√©trique utilis√©e pour √©valuer la qualit√© des clusters dans un ensemble de donn√©es. Il mesure √† quel point un point de donn√©es est bien associ√© √† son propre cluster par rapport aux autres clusters. La silhouette d'un point de donn√©es est une combinaison de deux scores :

Coh√©sion (a) : La distance moyenne entre un point et tous les autres points du m√™me cluster.
S√©paration (b) : La distance moyenne entre un point et tous les points du cluster le plus proche auquel il n'appartient pas.
La silhouette pour un point de donn√©es est d√©finie comme suit :

$$\ s = \frac{b - a}{\max(a, b)} \$$

o√π :

- \( a \) est la distance moyenne entre le point et les autres points du m√™me cluster (Coh√©sion).
- \( b \) est la distance moyenne entre le point et les points du cluster le plus proche qui n'est pas son propre cluster (S√©paration).

Le Silhouette Score global pour un ensemble de donn√©es est la moyenne des silhouettes de tous les points de donn√©es.

### Interpr√©tation du Silhouette Score
1 : Le point est bien attribu√© √† son propre cluster et est loin des autres clusters.  
0 : Le point se trouve √† la fronti√®re entre deux clusters.  
-1 : Le point est mal attribu√© √† un cluster et devrait plut√¥t appartenir √† un autre cluster.


### Utilisation pratique du Silhouette Score
Le Silhouette Score est particuli√®rement utile pour :
- √âvaluer le nombre de clusters :
    * Comparer les Silhouette Scores pour diff√©rents nombres de clusters peut aider √† d√©terminer le nombre optimal de clusters.
    
    * Comparer des algorithmes de clustering : Permet de comparer la qualit√© des clusters form√©s par diff√©rents algorithmes de clustering.

### Ex√©cution de la Grid Search pour optimiser la silhouette
L'objectif de la recherche par grille (Grid Search) est de trouver la meilleure combinaison de ces param√®tres en maximisant une m√©trique de performance, telle que le score de silhouette. Voici un exemple de code pour effectuer cette optimisation :

### D√©finition des plages de param√®tres et initialisation

In [3]:
# Suppose que vectors est votre ensemble de vecteurs
# Param√®tres √† tester

min_samples_values = 6

min_cluster_size_values = range(3,10,1)
max_cluster_size_values = range(200,500,5)
metric_values = ['euclidean', 'manhattan']

# Variables pour stocker les meilleurs param√®tres et le score correspondant
best_score = -1
best_params = {}

# encadrement du nombre de cluster
min_clusters_required = 5
max_clusters_required = 20

# Facteur de pond√©ration pour la p√©nalisation des points de bruit
alpha = 2

### Cr√©ation d'une matrice d'embeddings

In [4]:
# Convertir la colonne 'embedding_prop' en une seule matrice
embedding_matrix = np.stack(df['embedding_prop'].values)
embedding_matrix.shape

(1493, 20)

### Grid Search pour HDBSCAN

In [5]:
for min_cluster_size in min_cluster_size_values:
    for max_cluster_size in max_cluster_size_values:
        for metric in metric_values:
            # Initialiser HDBSCAN avec les param√®tres actuels
            clusterer = HDBSCAN(min_cluster_size=min_cluster_size,
                            max_cluster_size=max_cluster_size,
                            min_samples = min_samples_values,
                            metric=metric)
            # Ajuster le mod√®le
            cluster_labels = clusterer.fit_predict(embedding_matrix)

            # Compter le nombre de points de bruit (-1)
            num_noise_points = np.sum(cluster_labels == -1)
            
            # Nombre total de point
            total_points = len(cluster_labels)

            # Compter le nombre de clusters form√©s (ignorer les points de bruit avec le label -1)
            unique_labels = set(cluster_labels)
            if -1 in unique_labels:
                unique_labels.remove(-1)
            num_clusters = len(unique_labels)
            
            # V√©rifier si le nombre de clusters est dans les bornes sp√©cifi√©es
            if min_clusters_required <= num_clusters <= max_clusters_required:
                valid_labels = cluster_labels[cluster_labels >= 0]
                valid_vectors = embedding_matrix[cluster_labels >= 0]

                # Score silhouette moyen
                silhouette_avg = silhouette_score(valid_vectors, valid_labels)
                # Penalit√© du au nombre de points isol√©s
                noise_penalty = alpha * (num_noise_points / total_points)
                # metric √†f" optimiser
                composite_score = silhouette_avg - noise_penalty

                print(f"Params: min_cluster_size={min_cluster_size}, metric={metric},"
                    f"Composite Score={composite_score}, Silhouette Score={silhouette_avg},"
                    f"Number of Clusters={num_clusters}, Number of Noise Points={num_noise_points}")
                # V√©rifier si c'est le meilleur score
                if composite_score > best_score:
                    best_score = composite_score
                    best_params = {
                        'min_cluster_size': min_cluster_size,
                        'max_cluster_size': max_cluster_size,
                        'metric': metric
                    }

print("Meilleurs param√®tres : ", best_params)
print("Meilleur score de silhouette : ", best_score)

Params: min_cluster_size=3, metric=euclidean,Composite Score=-1.612945187439066, Silhouette Score=0.12985454464398835,Number of Clusters=5, Number of Noise Points=1301
Params: min_cluster_size=3, metric=manhattan,Composite Score=-1.507918461492, Silhouette Score=0.21076874547384047,Number of Clusters=5, Number of Noise Points=1283
Params: min_cluster_size=3, metric=euclidean,Composite Score=-1.612945187439066, Silhouette Score=0.12985454464398835,Number of Clusters=5, Number of Noise Points=1301
Params: min_cluster_size=3, metric=manhattan,Composite Score=-1.507918461492, Silhouette Score=0.21076874547384047,Number of Clusters=5, Number of Noise Points=1283
Params: min_cluster_size=3, metric=euclidean,Composite Score=-1.612945187439066, Silhouette Score=0.12985454464398835,Number of Clusters=5, Number of Noise Points=1301
Params: min_cluster_size=3, metric=manhattan,Composite Score=-1.507918461492, Silhouette Score=0.21076874547384047,Number of Clusters=5, Number of Noise Points=1283
P

## Test et affichage de cette technique de clustering

In [6]:
# Initialiser HDBSCAN avec les param√®tres actuels
best_hdbscan = HDBSCAN( min_cluster_size=3,
                        max_cluster_size = 200,
                        min_samples=6)
# Ajuster le mod√®le
cluster_labels = best_hdbscan.fit_predict(embedding_matrix)

# Ajouter les √©tiquettes des clusters √† votre dataframe
df['cluster_label_hdbscan'] = cluster_labels

In [7]:
df['cluster_label_hdbscan'].value_counts()

cluster_label_hdbscan
-1    1301
 3     175
 0       6
 2       5
 4       3
 1       3
Name: count, dtype: int64

In [8]:
# Cr√©er un graphique dynamique avec Plotly
fig = px.scatter(
    df[['content', 'embedding_prop_x', 'embedding_prop_y', 'cluster_label_hdbscan']], 
    x='embedding_prop_x', 
    y='embedding_prop_y', 
    hover_name='content',
    color='cluster_label_hdbscan', 
    color_continuous_scale='Viridis',  # Choisir une palette de couleurs
    range_color=[0, df['cluster_label_hdbscan'].max()],  # D√©finir la plage de couleurs en fonction des √©tiquettes de cluster
    labels={'cluster_label_hdbscan': 'Cluster Label'},  # Renommer l'√©tiquette de la l√©gende
    color_continuous_midpoint=int(df['cluster_label_hdbscan'].max() / 2),  # Point m√©dian de la palette de couleurs
    opacity=0.7
)
fig.update_traces(textposition='top center', showlegend=False)
fig.update_xaxes(visible=False)
fig.update_yaxes(visible=False)
fig.update_layout(
    title=dict(
        text='2D Sentence Embeddings and Clusters (HDBSCAN)',
        font=dict(
            size=25,
            color="black",
            family="Arial"
        ),
        xanchor="center",
        yanchor="top",
        x=0.5,
        y=0.95
    ),
    template='simple_white',
    hoverlabel_font_size=16,
    coloraxis_showscale=False,
)

fig.show()


Cette technique n'est pas int√©ressante ici.  
Avec HDBSCAN, pour des vecteurs de mots, je pense que c'est tr√®s compliqu√© √† mettre en ≈ìuvre et √ßa n'a pas grand int√©r√™t.

### Grid search de K-Means

In [9]:
# Param√®tres √† tester dans la recherche par grille
n_clusters_values = range(3,20,1)  # Nombre de clusters √† tester
random_state = 42  # Seed al√©atoire pour l'initialisation

# Variables pour stocker les meilleurs param√®tres et le score correspondant
best_score = -1
best_params = {}

In [10]:
for n_clusters in n_clusters_values:
    # Initialiser KMeans avec les param√®tres actuels
    kmeans = KMeans(n_clusters=n_clusters, random_state=random_state)
    # Ajuster le mod√®le
    cluster_labels = kmeans.fit_predict(embedding_matrix)

    # Calculer le score de silhouette
    silhouette_avg = silhouette_score(embedding_matrix, cluster_labels)

    # Afficher les r√©sultats
    print(f"Params: n_clusters={n_clusters}, random_state={random_state}, Silhouette Score={silhouette_avg}")

    # V√©rifier si c'est le meilleur score
    if silhouette_avg > best_score:
        best_score = silhouette_avg
        best_params = {
            'n_clusters': n_clusters,
            'random_state': random_state
        }

print("Meilleurs param√®tres : ", best_params)
print("Meilleur score de silhouette : ", best_score)


Exception in thread Thread-5 (_readerthread):
Traceback (most recent call last):
  File "c:\Dev\envs\tourisme-vert-env\Lib\threading.py", line 1045, in _bootstrap_inner
    self.run()
  File "c:\Dev\envs\tourisme-vert-env\Lib\site-packages\ipykernel\ipkernel.py", line 766, in run_closure
    _threading_Thread_run(self)
  File "c:\Dev\envs\tourisme-vert-env\Lib\threading.py", line 982, in run
    self._target(*self._args, **self._kwargs)
  File "c:\Dev\envs\tourisme-vert-env\Lib\subprocess.py", line 1599, in _readerthread
    buffer.append(fh.read())
                  ^^^^^^^^^
  File "<frozen codecs>", line 322, in decode
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x82 in position 101: invalid start byte


Params: n_clusters=3, random_state=42, Silhouette Score=0.1291002563860088
Params: n_clusters=4, random_state=42, Silhouette Score=0.11530831968338952
Params: n_clusters=5, random_state=42, Silhouette Score=0.12390127123446669
Params: n_clusters=6, random_state=42, Silhouette Score=0.11190509935198287
Params: n_clusters=7, random_state=42, Silhouette Score=0.11098489410424565
Params: n_clusters=8, random_state=42, Silhouette Score=0.10853688237294665
Params: n_clusters=9, random_state=42, Silhouette Score=0.10857389541620528
Params: n_clusters=10, random_state=42, Silhouette Score=0.09877496608915598
Params: n_clusters=11, random_state=42, Silhouette Score=0.09705782432740194
Params: n_clusters=12, random_state=42, Silhouette Score=0.0873283743012999
Params: n_clusters=13, random_state=42, Silhouette Score=0.09249348224499455
Params: n_clusters=14, random_state=42, Silhouette Score=0.08388493262468476
Params: n_clusters=15, random_state=42, Silhouette Score=0.08442760153751365
Params: 

Top 5 des meilleurs silhouette :
3 clusters
5 clusters
4 clusters
6 clusters

Prendre 5 clusters serait finalement une bonne id√©e s'il l'on se base sur le crit√®re du coude.

In [11]:
kmeans = KMeans(n_clusters=5, random_state=42)

kmeans.fit(embedding_matrix)

# Obtenir les labels de cluster pour chaque phrase
labels = kmeans.labels_

# √âvaluer la qualit√© des clusters avec la m√©trique silhouette
silhouette_avg = silhouette_score(embedding_matrix, labels)
print("Silhouette Score:", silhouette_avg)

# Assigner les labels de cluster √† chaque ligne de votre dataframe
df['cluster_label_best'] = labels

Silhouette Score: 0.12390127123446669


In [12]:
df['cluster_label_best'].value_counts()

cluster_label_best
4    568
3    303
1    299
0    243
2     80
Name: count, dtype: int64

In [13]:
def get_top_words_by_cluster(df:pd.DataFrame, cluster_col:str, tokens_col:str, n:int = 15) -> dict:
    # Dictionnaire pour stocker les mots les plus fr√©quents par cluster
    top_words_by_cluster = {}

    # Grouper les donn√©es par cluster
    grouped = df.groupby(cluster_col)

    for cluster_label, group in grouped:
        # Combiner tous les tokens du cluster
        all_tokens = [token for sublist in group[tokens_col] for token in sublist]

        # Compter les occurrences de chaque token
        token_counts = Counter(all_tokens)

        # Obtenir les n mots les plus fr√©quents
        top_words = token_counts.most_common(n)

        # Stocker les r√©sultats
        top_words_by_cluster[cluster_label] = [word for word, _ in top_words]

    return top_words_by_cluster

In [14]:
# Obtenir les 15 mots les plus fr√©quents par cluster
top_words_by_cluster = get_top_words_by_cluster(df,"cluster_label_best", "tokens_final", n=15)

In [15]:
# Ajouter une nouvelle colonne au DataFrame d'origine
df['best_top_15_words'] = df['cluster_label_best'].map(top_words_by_cluster)

In [16]:
# Cr√©er un graphique dynamique avec Plotly
fig = px.scatter(
    df[['content', 'embedding_prop_x', 'embedding_prop_y', 'cluster_label_best', 'best_top_15_words']], 
    x='embedding_prop_x', 
    y='embedding_prop_y', 
    hover_name='content',
    hover_data={'best_top_15_words': True},
    color='cluster_label_best', 
    color_continuous_scale='Viridis',  # Choisir une palette de couleurs
    range_color=[0, df['cluster_label_best'].max()],  # D√©finir la plage de couleurs en fonction des √©tiquettes de cluster
    labels={'cluster_label_best': 'Cluster Label'},  # Renommer l'√©tiquette de la l√©gende
    color_continuous_midpoint=int(df['cluster_label_best'].max() / 2),  # Point m√©dian de la palette de couleurs
    opacity=0.7
)
fig.update_traces(textposition='top center', showlegend=False)
fig.update_xaxes(visible=False)
fig.update_yaxes(visible=False)
fig.update_layout(
    title=dict(
        text='2D Sentence Embeddings and Clusters (K-Means optimal)',
        font=dict(
            size=25,
            color="black",
            family="Arial"
        ),
        xanchor="center",
        yanchor="top",
        x=0.5,
        y=0.95
    ),
    template='simple_white',
    hoverlabel_font_size=16,
    coloraxis_showscale=False,
)

fig.show()


In [17]:
# Sauvegarder le graphique en tant que fichier HTML
pyo.plot(fig, filename='../outputs/2D Sentence Embeddings and Clusters (K-Means optimal).html', auto_open=False)

'../outputs/2D Sentence Embeddings and Clusters (K-Means optimal).html'

## Sauvegarde du dataframe avec les clusters

In [18]:
# Convertir tous les vecteurs de la colonne 'embedding_prop' en float64
df['embedding_prop'] = df['embedding_prop'].apply(
    lambda x: np.array(x, dtype=np.float64)
)

In [19]:
# Sauvegarde des jeux de donn√©es
df.to_parquet(
    "../data/processed/req_tourisme_responsable_final.parquet",
    engine='pyarrow',
    index=False
)