# <center>Иерархическая кластеризация</center>

>Принцип иерархической кластеризации основан на построении дерева (иерархии) вложенных кластеров.

При иерархической кластеризации строится **дендрограмма**.

>**Дендрограмма**  — это древовидная диаграмма, которая содержит $n$ уровней. Каждый уровень — это шаг укрупнения кластеров.

![image.png](attachment:image.png)

Чем больше схожесть между двумя объектами на дендрограмме, тем ниже высота внутренней ветки, которая идёт из объекта или кластера.

Например, дендрограмма для кластеризации трёх видов ирисов будет выглядеть следующим образом:

![image.png](attachment:image-2.png)

При иерархической кластеризации выделяют два подхода: **агломеративный** и **дивизионный**. В первом случае кластеры образуются снизу вверх, т. е. при объединении кластеров, а во втором — сверху вниз, в ходе деления крупных кластеров:

![image.png](attachment:image-3.png)

* **Агломеративный метод (agglomerative)**:

Новые кластеры создаются в ходе объединения более мелких кластеров:

![image.png](attachment:image-4.png)
* **Дивизионный (дивизивный) метод (divisive)**:

Кластеры создаются при делении крупных кластеров:

![image.png](attachment:image-5.png)

Для того чтобы построить дендрограмму, нужна **матрица сходства**, построенная на основе расстояний между кластерами.

В общем виде матрица сходства выглядит следующим образом:

![image.png](attachment:image-6.png)

$K$ — это мера сходства между двумя кластерами. По диагонали в матрице записаны единицы, так как объекты максимально похожи на самих себя.

Чтобы рассчитать данную матрицу, нужно знать расстояния между двумя кластерами. Существуют разные подходы его вычисления, и выбранный подход влияет на результат кластеризации.

## Методы определения расстояния между кластерами:

|Метод|Идея|Формула|Визуализация|
| --- | -- | ----- | ---------- |
| **Метод одиночной связи (single linkage)** | Поиск минимального расстояния между объектами из разных кластеров. | Расстояние между двумя кластерами ($A$ и $B$) рассчитывается по формуле: $\min \{d(a,b): a \in A, b \in B\}$|![image.png](attachment:image-7.png)|
| **Метод полной связи (complete (maximum) linkage)** | Поиск максимального расстояния между объектами из разных кластеров. | Расстояние между двумя кластерами ($A$ и $B$): $\max \{d(a,b):a \in A, b \in B\}$|![image.png](attachment:image-8.png)|
| **Метод средней связи (pair group method using arithmetic mean)** | Расстояние между двумя кластерами считается как среднее от расстояния между двумя элементами этих кластеров. | Расстояние между двумя кластерами ($A$ и $B$): $\frac{1}{\|A\|*\|B\|} \sum_{a \in A} \sum_{b \in B} d(a,b)$ | ![image.png](attachment:image-9.png)|
| **Центроидный метод (centroid)** | Расстояния между кластерами рассчитываются как расстояния между центроидами этих кластеров. | Расстояние между двумя кластерами ($A$ и $B$): $d = \sqrt{(p_1 - q_1)^2 + (p_2 - q_2)^2}$. Координаты центроида кластера $A:p=(p_1, p_2)$. Координаты центроида $B:q=(q_1, q_2)$. |![image.png](attachment:image-10.png)|

В зависимости от того, каким способом рассчитывается расстояние, можно получить разные результаты кластеризации.

![image.png](attachment:image-11.png)

* **Преимущества иерархической кластеризации:**
    * Можно построить дендрограмму и понять, как устроены данные.
    * Работает на небольшом датасете.
* **Недостатки иерархической кластеризации:**
    * Необходимость выбора оптимального количества кластеров.
    * Если данных много, дендрограмма становится большой и сложной для понимания.
    * Может неравномерно разделять данные на кластеры.