# Метрики качества кластеризации

Оценка качества алгоритма кластеризации не такая тривиальная задача, как подсчёт ошибок, вычисление точности или полноты в задачах обучения с учителем. В частности, метрика оценки не должна брать во внимание абсолютные значения номеров кластеров, к которым принадлежат объекты. С другой стороны, наоборот, такая метрика должна принимать во внимание предположение о том, что похожие объекты находятся в одном кластеры, при этом непохожие объекты находятся в разных кластерах. Саму похожесть можно мерить различными мерами близостями, например, косинусной мерой близости.

Метрики качества кластеризации можно разделить на две группы, в зависимости от того имеется ли настоящая разметка данных (ground truth) или нет. Их ещё называют внешние и внутренние метрики соответственно.

Если ground truth известен, то можно использовать следующие метрики:
- Rand index [ref](https://link.springer.com/article/10.1007%2FBF01908075)
- Mutual Information based scores [ref](http://strehl.com/download/strehl-jmlr02.pdf)
- Homogeneity, completeness and V-measure [ref](https://aclweb.org/anthology/D/D07/D07-1043.pdf)
- Fowlkes-Mallows scores [ref](https://en.wikipedia.org/wiki/Fowlkes-Mallows_index)
- Contingency Matrix [ref](https://en.wikipedia.org/wiki/Contingency_table)

К метрикам, которые не используют знания о ground truth можно отнести:
- Silhouette Coefficient [ref](https://doi.org/10.1016/0377-0427(87)90125-7)
- Calinski-Harabasz Index [ref](https://www.researchgate.net/publication/233096619_A_Dendrite_Method_for_Cluster_Analysis)
- Davies-Bouldin Index [ref](https://doi.org/10.1109/TPAMI.1979.4766909)

Нас интересуют последние. Поговорим о них подробнее.

## Silhouette Coefficient 

Силуэтный коэффициент очень популярная мера качества кластеризации, когда неизвестна истинная разметка. Большие значения данного показателя означают, что модель лучше отделила кластеры. При подсчете коэффициента используется два следующих значения:
- **a**: Среднее расстояние между точкой и всеми точками в том же классе.
- **b**: Среднее расстояние между точкой и всеми точками в ближайшем следующем кластере.

Для одной точки силуэтный коэффициент рассчитывается как:
$$
s = \frac{b - a}{\mathrm{max}(a, b)}
$$

Для набора точек вычисляется среднее коэффициентов каждой точки.

**Преимущества**: 
- Коэффициент принимает значения от -1 (некорректная кластеризация) до +1 (качественная, плотная кластеризация). Значения около нуля означают пересекающиеся кластеры.
- Значение выше, когда кластеры плотные и хорошо разделены, что и требуется в предположении о качественной кластеризации.

**Недостатки**:
- Обычно значение выше для выпуклых кластеров, чем для кластеров основанных на плотности объектов (получаемые, например, DBSCAN'ом)

## Calinski-Harabasz Index

Также известный как Variance Ratio Criterion, может быть использован для измерения качества модели кластеризации. Более высокое значение метрики соответствует лучшему разделению. Считается, как отношение межкластерной дисперсии, к внутрекластерной (дисперсия определяется как сумма квадратов расстояний.

Пусть дано множество объектов $D$ мощностью $n_D = |D|$, которое было разделено на $k$ кластеров. Тогда Calinski-Harabasz score $s$ определяется как:
$$
s = \frac{tr\left(B_k\right)}{tr\left(W_k\right)} \times \frac{n_D - k}{k - 1}
$$

Где $tr\left(B_k\right)$ -  след матрицы межкластерной дисперсии и $tr\left(W_k\right)$ -  след матрицы внутрекластерной дисперсии:
$$
W_k = \sum_{q=1}^k \sum_{x \in C_q} (x-c_q)(x-c_q)^T \\
B_k = \sum_{q=1}^k n_q (c_q - c_D)(c_q - c_D)^T
$$

Где $C_q$ - множество точек кластера $q$ с центров в точке $c_q$, $c_D$ - центр множества всех точек и $n_q$ - количество точек в кластере $q$.

**Преимущества**: 
- Значение выше, когда кластеры плотные и хорошо разделены, что и требуется в предположении о качественной кластеризации.
- Быстро считается

**Недостатки**:
- Обычно значение выше для выпуклых кластеров, чем для кластеров основанных на плотности объектов (получаемые, например, DBSCAN'ом)

## Davies-Bouldin Index

Это, возможно, одна из самых используемых мер оценки качества кластеризации. Меньшие значения индекса соответствуют лучшей кластеризации. Индекс показывает среднюю "схожесть" между кластерами. Схожесть определяется как величина, измеряющая расстояние между кластерами с их размерами. 0 - минимально возможное значение.

Индекс определяется как средняя схожесть между каждым кластером $C_i$ и самым похожим на него кластером $C_j$. Cхожесть обозначается $R_{ij}$, и состоит из двух компонент:
- $s_i$ - среднее расстояние между центром кластера и каждой его точкой (диаметр кластера)
- $d_{ij}$ - расстояние между центроидами кластеров $i$ и $j$

Простой способ задать $R_{ij}$ как неотрицательную симметричную величину:
$$
R_{ij} = \frac{s_i + s_j}{d_{ij}}
$$
Индекс Дэвиcа-Болдуина рассчитывается как:
$$
DB = \frac{1}{k}\sum_{i=1}^k \mathrm{\max_{i \neq j}}R_{ij}
$$