# Wczytanie danych

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
sns.set_theme(style="whitegrid")
sns.set_palette('Accent_r')

from matplotlib import pyplot as plt

In [None]:
data = pd.read_csv("../../clustering.csv", header=None, names = ['X', 'Y'])
print(len(data))
data.head()

In [None]:
sns.scatterplot(data=data, x='X', y='Y')

# Klastrowanie metodą k-means oceniane współczynnikiem Silhouette

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

In [None]:
n_clusters = [i for i in range(2,20)]
silhouette_scores = []
labels_list = []
for n in n_clusters:
    kmeans = KMeans(n_clusters=n, random_state=123).fit(data)
    labels = kmeans.labels_
    score = silhouette_score(data, labels)
    labels_list.append(labels)
    silhouette_scores.append(score)

In [None]:
ax = sns.lineplot(x=n_clusters, y=silhouette_scores, marker='o', dashes=False)
ax.set(xlabel='n clusters', 
       ylabel='Silhouette score', 
       title='K Means clustering evaluation', 
       xticks=n_clusters)
plt.show()

Na powyższym wykresie widzimy, że wybrana metryka przyjmuje najwiekszą wartość, gdy liczba klastrów jest równa 8. To oznacza, że wtedy klastry są najlepiej zdefiniowane. 

In [None]:
sns.scatterplot(data=data, x='X', y='Y', hue=labels_list[6], palette='Accent')

# Klastrowanie metodą aglomeracyjną z użyciem metryki Calinski-Harabasz Index

In [None]:
from sklearn.cluster import AgglomerativeClustering
from sklearn.metrics import calinski_harabasz_score

In [None]:
n_clusters = [i for i in range(2,20)]
c_h_scores = []
labels_list = []
for n in n_clusters:
    agglomerative_clusters = AgglomerativeClustering(n_clusters=n).fit(data)
    labels = agglomerative_clusters.labels_
    score = calinski_harabasz_score(data, labels)
    labels_list.append(labels)
    c_h_scores.append(score)

In [None]:
ax = sns.lineplot(x=n_clusters, y=c_h_scores, marker='o', dashes=False)
ax.set(xlabel='n clusters', 
       ylabel='Calinski-Harabasz score', 
       title='Agglomerative clustering evaluation', 
       xticks=n_clusters)
plt.show()

Największy wynik indeksu Calinski-Harabasz jest osiągany dla 11 klastrów. To najlepszy podział według tej metryki.

In [None]:
sns.scatterplot(data=data, x='X', y='Y', hue=labels_list[9], palette='Paired')