### Silhouette

#### Wygenerowanie danych

In [None]:
import pandas as pd
from sklearn.datasets import make_blobs

data = make_blobs(n_samples=1000, centers=3, cluster_std=1.0, center_box=(-4.0, 4.0), random_state=42)[0]
df = pd.DataFrame(data, columns=['x1', 'x2'])
df.head()

In [None]:
import plotly.express as px

px.scatter(df, 'x1', 'x2', width=950, height=500, title='Algorytm K-średnich', template='plotly_dark')  # zróbmy na czarnym tle

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

silhouette = []
for nr in range(2, 10):
    kmeans = KMeans(n_clusters=nr, n_init=10)
    kmeans.fit(data)
    y_kmeans = kmeans.predict(data)
    s = silhouette_score(data, y_kmeans)
    silhouette.append(s)

In [None]:
# Stwórzmy df na podstawie wyliczonych wartości

silhouette_df = pd.DataFrame(silhouette, columns=['silhouette'])
silhouette_df = silhouette_df.reset_index()  # resetuje index, tworzy nową kolumnę z indeksem do której możemy się odwoływać przez 'index'
silhouette_df = silhouette_df.rename(columns={'index': 'clusters'})
silhouette_df['clusters'] += 2
silhouette_df

In [None]:
px.line(
    silhouette_df, 
    x='clusters', 
    y='silhouette', 
    width=950, 
    height=500, 
    title='silhouette',
    template='plotly_dark'
)

Zgodnie z przewidywaniami, metryka silhouette wskazuje, że optymalną liczbą klastrów dla naszego zagadnienia będzie liczba 3, ponieważ silhouette przyjmuje największą wartość (ale mniejszą od 1) dla 3 klastrów.

### Davies-Bouldin Index

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import davies_bouldin_score

dbi = []
for nr in range(2, 10):
    kmeans = KMeans(n_clusters=nr, n_init=10)
    kmeans.fit(data)
    y_kmeans = kmeans.predict(data)
    s = davies_bouldin_score(data, y_kmeans)
    dbi.append(s)

In [None]:
# Stwórzmy df na podstawie wyliczonych wartości

dbi_df = pd.DataFrame(dbi, columns=['dbi'])
dbi_df = dbi_df.reset_index()  # resetuje index, tworzy nową kolumnę z indeksem do której możemy się odwoływać przez 'index'
dbi_df = dbi_df.rename(columns={'index': 'clusters'})
dbi_df['clusters'] += 2
dbi_df

In [None]:
px.line(
    dbi_df, 
    x='clusters', 
    y='dbi', 
    width=950, 
    height=500, 
    title='dbi',
    template='plotly_dark'
)

Identyczny wynik co dla metryki silhouette otrzymujemy dla Davies-Bouldin Index. DBI ma najmniejszą wartość dla liczby klastrów 3, dlatego na podsatwie indeksu Davies-Bouldin optymalną liczbą klastrów dla naszego zagadnienia jest 3.