## Оценка качества кластеризации: внутренние меры

Внутренние меры - это способ оценки качества кластеризации, без правильных ответов, ориентируясь только на данные, которые мы кластеризировали

В библиотеке sklearn реализованы три наиболее популярные метрики:

* коэффициент силуэта (Silhouette Coefficient);
* индекс Калински — Харабаса (Calinski-Harabasz Index);
* индекс Дэвиса — Болдина (Davies-Bouldin Index).

##### КОЭФФИЦИЕНТ СИЛУЭТА

Это тот же самый коэфицент, который использовался для определения оптимального числа кластеров алгоритмах, где коэфицент надо было задавать.

Коэфицент силуэта = $\overline{s} = \frac{1}{N} \sum_{i=1}^N \frac{b_i-a_i}{max(a_i,b_i)}$, где $a_i$ - это среднее расстояние от $x_i$ до объектов своего кластера, а $b_i$ - это среднее расстояние от $x_i$ до объектов ближайшего другого кластера

Значение коэффициента силуэта всегда находится в диапазоне [−1,1].

* Значение близко к −1: объекты в кластерах разрознены, и в целом кластерную структуру не удалось выделить.
* Значение близко к 0: кластеры пересекаются друг с другом.
* Значение близко к 1: чёткая кластерная структура с «плотными», отделёнными друг от друга кластерами.

#### ИНДЕКС КАЛИНСКИ — ХАРАБАСА

Показывает отношение между разбросом значений между кластерами и разбросом значений внутри кластеров и вычисляется по следующей формуле:

$\frac{SS_B}{SS_W}\times\frac{N-K}{K-1}$

В данной формуле:

* N — общее количество объектов;
* K — количество кластеров;
* $SS_B$ — взвешенная межкластерная сумма квадратов расстояний;
* $SS_W$ — внутрикластерная сумма квадратов расстояний.

$SS_B=\sum_{k=1}^{K} n_{k} \times\left\|C_{k}-C\right\|^{2}$

В данной формуле:

* $n_k$ — количество наблюдений в кластере k;
* $C_k$ — центроид кластера k;
* $C$ — центроид всего набора данных;
* $K$— количество кластеров.

Внутрикластерная сумма для кластера $k$ равна $SS_B^k = \sum_{i=1}^{n_k}  \times\left\|X_{ik}-C_k\right\|^{2}$

В данной формуле:

* $n_k$ — количество наблюдений в кластере k;
* $C_k$ — центроид кластера k;
* $X_{ik}$— i-ое наблюдение в кластере k

$SS_B = \sum_{k=1}^K SS_B^k$

Важно отметить, что нет никакого «приемлемого» порогового значения индекса — скорее, его можно использовать для того, чтобы сравнивать разные разбиения на кластеры между собой: более высокое значение индекса будет означать, что кластеры плотные (т. е. объекты внутри них находятся близко друг к другу) и хорошо разделены.

In [1]:
#В библиотеке sklearn данный алгоритм реализуется с помощью метода calinski_harabasz_score():

#определяем алгоритм кластеризации
#km = KMeans(n_clusters=3, random_state=42)
#обучаем его на наших данных
#km.fit_predict(X)
#вычисляем значение коэффициента Калински — Харабаса
#score = calinski_harabasz_score(X, km.labels_)

#### ИНДЕКС ДЭВИСА — БОЛДИНА (DBI)

Шаги вычисления:

1. Bычисляем для каждого кластера следующую меру разброса значений внутри него: $S_{k}=(\frac{1}{n_{k}} \sum_{i=1}^{n_{k}}\left|X_{i k}-C_{k}\right|^{q})^{\frac{1}{q}}$
    * $n_k$ - мощность кластера $k$
    * $q$ - обячно = 2, и тогда расстояние Евклидово
    * Остальное все как в предыдущем индексе
2. Далее находим расстояния между центроидами кластеров: $M_{i, j}=\left\|C_{i}-C_{j}\right\|_{q}$
3. Теперь для каждой пары кластеров вычисляем следующее отношение: $R_{i j}=\frac{S_{i}+S_{j}}{M_{i j}}$. Также для каждого кластера находим максимум из полученных значений: $R_i\equiv maximum (R_{ij})$
4. $DBI=\frac{1}{N}\sum^{N}_{i=1}R_i$

Индекс показывает среднюю «схожесть» между кластерами, и 0 — это минимально возможное значение. Разумеется, так как мы хотим, чтобы кластеры были максимально различными (т. е. имели низкую схожесть), мы должны пытаться достичь как можно более маленького значения.

In [2]:
#В библиотеке sklearn индекс Дэвиса — Болдина реализуется с помощью метода davies_bouldin_score():

#определяем алгоритм кластеризации
#km = KMeans(n_clusters=3, random_state=42)
#обучаем его на наших данных
#km.fit_predict(X)
#вычисляем значение коэффициента Дэвиса — Болдина
#score = davies_bouldin_score(X, km.labels_)

#### ВНУТРИКЛАСТЕРНОЕ РАССТОЯНИЕ

Для того чтобы оценить качество кластеризации, можно вычислить суммарное внутрикластерное расстояние:

$F_0 = \sum_{k=1}^{K} \sum_{i=1}^{N}\left[a\left(x_{i}\right)=k\right] \rho\left(x_{i}, c_{k}\right)$

Разумеется, сумма этих расстояний должна быть минимальной — это тот случай, когда все элементы кластера совпадают с центроидом.

#### МЕЖКЛАСТЕРНОЕ РАССТОЯНИЕ

Аналогично суммарному внутрикластерному расстоянию, вводится межкластерное расстояние:

$F_0 = \sum_{i, j=1}^{N}\left[a\left(x_{i}\right) \neq a\left(x_{j}\right)\right] \rho\left(x_{i}, x_{j}\right)$

Мы проверяем, что предсказания о принадлежности к кластеру не равны (т. е. объекты относятся к разным кластерам), и считаем расстояние между этими объектами (можем использовать различные функции расстояний). Здесь мы, разумеется, будем максимизировать результат, так как нам важно, чтобы элементы из разных кластеров были как можно меньше похожи друг на друга, а значит, чтобы расстояние между ними было как можно больше.

#### ОТНОШЕНИЕ РАССТОЯНИЙ

Логичным образом из предыдущих двух метрик (внутрикластерного и межкластерного расстояний) мы получаем отношение расстояний:

$\frac{F_0}{F_1}\rightarrow \min$

Таким образом мы можем учитывать оба функционала, рассмотренные ранее (расстояние внутри кластера и между кластерами), и оптимизировать отношение расстояний. Естественно, нам нужно, чтобы оно было минимальным — это будет достигаться, если расстояние между кластерами максимально, а внутри кластера — минимально.

## Оценка качества кластеризации: внешние меры