## Indeks silhouette

jest indeksem obliczanym dla każdego obiektu, wyrażającym na ile blisko temu obiektowi do wszystkich pozostałych z jego grupy w stosunku do wszystkich pozostałych z innej (najbliższej grupy).


$$s(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))}$$
​

gdzie:

- $a(i)$ to średnia odległość obserwacji $x_i$ od pozostałych z jej grupy (*cohesion* - spójność),
- $b(i)$ to najmniejsza ze średnich odległości do pozostałych grup (*separation* - rozdzelenie).

In [14]:
import pandas as pd
import numpy as np
# from plotnine import *

ModuleNotFoundError: No module named 'plotnine'

In [3]:
df = pd.DataFrame({"ai": np.arange(0.1, 5, 0.2), "bi": np.arange(4.9, 0, -0.2)})

In [4]:
df

Unnamed: 0,ai,bi
0,0.1,4.9
1,0.3,4.7
2,0.5,4.5
3,0.7,4.3
4,0.9,4.1
5,1.1,3.9
6,1.3,3.7
7,1.5,3.5
8,1.7,3.3
9,1.9,3.1


In [5]:
df['roznica'] = df.bi - df.ai
df['maks'] = df.max(axis=1)
df['silh'] = df.roznica / df.maks

In [8]:
df['silh_abs'] = df.silh.abs()

In [9]:
df

Unnamed: 0,ai,bi,roznica,maks,silh,silh_abs
0,0.1,4.9,4.8,4.9,0.9795918,0.9795918
1,0.3,4.7,4.4,4.7,0.9361702,0.9361702
2,0.5,4.5,4.0,4.5,0.8888889,0.8888889
3,0.7,4.3,3.6,4.3,0.8372093,0.8372093
4,0.9,4.1,3.2,4.1,0.7804878,0.7804878
5,1.1,3.9,2.8,3.9,0.7179487,0.7179487
6,1.3,3.7,2.4,3.7,0.6486486,0.6486486
7,1.5,3.5,2.0,3.5,0.5714286,0.5714286
8,1.7,3.3,1.6,3.3,0.4848485,0.4848485
9,1.9,3.1,1.2,3.1,0.3870968,0.3870968


## Interpretacja

Im bliższa $s(i)$  wartości 1, tym bardziej dany obiekt pasuje do swojej grupy, im bliższa wartości -1, tym bliżej temu obiektowi do grupy sąsiedniej. $s(i)$ bliskie 0 oznacza, że punkt znajduje się pomiędzy dwoma skupieniami.

In [10]:
(ggplot(df, aes(x ='ai', y = 'bi', color = 'silh', size = 'silh_abs')) +
 geom_point() +
 scale_color_gradient(low='red', high = 'green')
 theme_minimal())

NameError: name 'ggplot' is not defined

## Przykład

In [1]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

from sklearn.datasets import make_blobs

In [4]:
import pandas as pd

In [2]:
n = 100

centra = [(-6,-6), (0,0), (6,6), (9,9)]

X, y = make_blobs(n_samples=n, n_features=2, centers=centra, cluster_std=1, random_state=0)

In [5]:
df = pd.DataFrame(X, columns = ['x1', 'x2'])
df['Grupy'] = y

In [6]:
ks = range(2, 20)
sylwetki = []

for k in ks:
    km = KMeans(n_clusters = k).fit(df[['x1', 'x2']])
    sylwetki.append(km.silhouette_score(), km.predict(df[['x1', 'x2']])) # km.labels_

AttributeError: 'KMeans' object has no attribute 'silhouette_score'

In [23]:
sylwetki_df = pd.DataFrame({'K': ks,
                            'Sylwetka': sylwetki})

[]

In [None]:
(ggplot(sylwetki_df, aes(x = 'K', y='Inercja'))+
 geom_point() +
 scale_x_continous(breaks = ks)
 geom_line() +
 theme_minimal() +
 labs(title= 'Inercja dla kolejnych K'))