Notebook 1.2 Clustering

Objectif:

    - Sélectionner le nombre optimal de clusters (k)
    - Faire le clustering

Entrée:

    - data_filtered

Sortie:

    - Graph 1 méthode elbow (coude)



    - Graph 2 méthode silhouette 

Cet indice mesure la qualité de la séparation des clusters. Il varie de -1 à 1, où une valeur proche de 1 indique que les points sont bien regroupés au sein de leur cluster et bien séparés des autres clusters.
Interprétation : En observant ce graphique, vous recherchez le nombre de clusters K qui maximise la largeur moyenne de la silhouette. Cela suggère une bonne séparation et une bonne cohésion des clusters.

    - Graph 3 combinaison de WSS et de l'Indice de Silhouette
Ce graphique indique la qualité du clustering en combinant le WSS (Within-Cluster Sum of Squares), qui mesure la compacité des clusters, et l’indice de silhouette, qui évalue leur séparation. Les valeurs de WSS et de l’indice de silhouette sont d’abord normalisées entre 0 et 1. Le WSS normalisé est ensuite inversé pour que des clusters plus compacts obtiennent une valeur élevée. En additionnant ces deux indices, nous obtenons un indicateur combiné permettant de trouver un équilibre optimal entre compacité et séparation des clusters. Le pic de ce graphique indique le nombre de clusters K offrant le meilleur compromis entre ces deux critères.

In [None]:
## Normalisation des données 
data_scaled <- scale(data_filtered)

In [None]:

# Méthode du coude pour trouver nb de k optimal 

wss <- sapply(2:40, function(k){
  kmeans(data_scaled, centers = k, nstart = 25)$tot.withinss
})

# Graph 1: Tracer la courbe du coude
plot(2:40, wss, type = "b", pch = 19, frame = FALSE, 
     xlab = "Nombre de clusters K",
     ylab = "Somme des carrés intra-cluster (withinss)",
     main = "Méthode du coude pour déterminer K")


In [None]:
# Indice de silhouette pour différents k
sil_width <- sapply(2:40, function(k){
  km.res <- kmeans(data_scaled, centers = k, nstart = 25)
  ss <- cluster::silhouette(km.res$cluster, dist(data_scaled))
  mean(ss[, 3])
})

# Graph 2: Tracer la courbe de l'indice de silhouette
plot(2:40, sil_width, type = "b", pch = 19, frame = FALSE,
     xlab = "Nombre de clusters K",
     ylab = "Largeur moyenne de la silhouette",
     main = "Indice de silhouette pour déterminer K")

In [None]:
# WSS + Indice de Silhouette
wss_scaled <- (wss - min(wss)) / (max(wss) - min(wss))
sil_width_scaled <- (sil_width - min(sil_width)) / (max(sil_width) - min(sil_width))

wss_scaled_rev <- rev(wss_scaled)
sil_sum <- wss_scaled_rev + sil_width_scaled

# Graph 3: Combinaison de WSS et de l'Indice de Silhouette
plot(2:40, sil_sum, type = "b")