✍ Алгоритмов кластеризации настолько много, что по ним можно сделать отдельный курс. И, как вы можете догадаться, не существует такого метода кластеризации, который всегда будет выдавать хорошие результаты — всё зависит от того, с какими данными вы работаете.

На сегодняшний день существует более 40 видов кластеризации, но общепринятой системы классификации алгоритмов кластеризации не существует.

В этом и последующих юнитах мы познакомимся с некоторыми популярными алгоритмами кластеризации:

иерархической кластеризацией,
EM-алгоритмами кластеризации,
спектральной кластеризацией,
кластеризацией на основе плотности.
Мы рассмотрим различные подходы, их плюсы и минусы, а также применение.

Иерархическая кластеризация

Принцип иерархической кластеризации основан на построении дерева (иерархии) вложенных кластеров.

При иерархической кластеризации строится дендрограмма. Её можно сравнить с древом языков мира, на котором языки объединяются в различные семьи, укрупняясь и образуя всё более обширные языковые ветви:

img
Источник изображения
Дендрограмма  — это древовидная диаграмма, которая содержит  уровней. Каждый уровень — это шаг укрупнения кластеров.

img
Структура дендрограммы
Чем больше схожесть между двумя объектами на дендрограмме, тем ниже высота внутренней ветки, которая идёт из объекта или кластера:

img
На дендрограмме выше Сельма и Пэтти Бувье, сёстры Мардж Симпсон, похожи друг на друга, поэтому высота соединяющей их внутренней ветки маленькая, а сама Мардж не похожа на своих сестёр, поэтому высота внутренней ветки гораздо больше.

Перейдём к более реальным примерам.

Например, дендрограмма для кластеризации трёх видов ирисов будет выглядеть следующим образом:

img
Источник изображения
Справа расположены листья дендрограммы. Внизу дендрограммы отложена схожесть объектов. Количество уровней дендрограммы соответствует числу шагов слияния или разделения кластеров. На листьях находятся исходные объекты. Далее мы объединяем эти объекты в маленькие группы — это первый шаг кластеризации. После этого с каждым шагом объекты образуют всё большие и большие кластеры, пока на последнем шаге не образуется один большой кластер (корень дендрограммы), содержащий все три вида ирисов. Для определения количества кластеров на каждом шаге мы можем мысленно проводить вертикальную линию и смотреть, сколько внутренних веток пересекла эта линия. 

Наши линии на картинке пересекают две и четыре линии. Это означает, что на этих шагах данные делятся на два или четыре кластера.

Если ещё раз посмотреть на график с дендрограммой ирисов, можно сказать, что при кластеризации мы можем пойти снизу вверх (от листьев к корню) или сверху вниз (от корня к листьям). И действительно — при иерархической кластеризации выделяют два подхода: агломеративный и дивизионный. В первом случае кластеры образуются снизу вверх, т. е. при объединении кластеров, а во втором — сверху вниз, в ходе деления крупных кластеров:

img
Источник изображения
Дивизионный (дивизивный) метод (divisive)

Кластеры создаются при делении крупных кластеров:

img
Источник изображения
Агломеративный метод (agglomerative)

Новые кластеры создаются в ходе объединения более мелких кластеров:

img
Источник изображения
Для того чтобы построить дендрограмму, нужна матрица сходства, построенная на основе расстояний между кластерами.

В общем виде матрица сходства выглядит следующим образом:

img
 — это мера сходства между двумя кластерами. По диагонали в матрице записаны единицы, так как объекты максимально похожи на самих себя.

Чтобы рассчитать данную матрицу, нужно знать расстояния между двумя кластерами. Существуют разные подходы его вычисления, и выбранный подход влияет на результат кластеризации.

 Методы определения расстояния между кластерами:

Метод	Идея	Формула	Визуализация подхода
Метод одиночной связи (single linkage)	Поиск минимального расстояния между объектами из разных кластеров.	Расстояние между двумя кластерами ( и ) рассчитывается по формуле:
img

Метод полной связи (complete (maximum) linkage)	Поиск максимального расстояния между объектами из разных кластеров.	Расстояние между двумя кластерами ( и ):
img

Метод средней связи (pair group method using arithmetic mean)	Расстояние между двумя кластерами считается как среднее от расстояния между двумя элементами этих кластеров.	Расстояние между двумя кластерами ( и ):
img

Центроидный метод (centroid)	Расстояния между кластерами рассчитываются как расстояния между центроидами этих кластеров.	Расстояние между двумя кластерами ( и ):
Координаты центроида кластера : . Координаты центроида  : .

img

Метод Уорда (Ward's linkage, Minimal Increase of Sum-of-Squares (MISSQ))	Расстояние рассчитывается как сумма квадратов разностей между точками кластеров. По сути, это подход, в котором мы минимизируем дисперсию в кластере, и в этом смысле он аналогичен методу k-средних, но реализуется с помощью иерархического подхода. Используется в sklearn по умолчанию.	Расстояние между двумя кластерами ( и ):
img

В зависимости от того, каким способом рассчитывается расстояние, можно получить разные результаты кластеризации.

На картинке ниже рассматривается иерархическая кластеризация при использовании разных подходов для подсчёта расстояния ↓

img
Источник изображения
В первом столбце представлено использование метода одиночной связи, во втором — метода средней связи, в третьем — метода полной связи.

Различные кластеры обозначены разными цветами: оранжевым, зелёным и синим. 

Как видим, иерархическая кластеризация с использованием метода одиночной связи хорошо отрабатывает на первых двух распределениях датасетов, но очень плохо справляется с вытянутыми и перекрывающимися данными. Алгоритм иерархической кластеризации работает по принципу «богатый становится богаче». Это может приводить к неравномерному распределению кластеров. Данный способ больше других страдает от неравномерного распределения кластеров: это можно наблюдать в третьей, четвёртой и шестой строках части Single Linkage на картинке — мы видим очень редкие вкрапления зелёного кластера, а всё остальное пространство принадлежит синему кластеру.

Использование методов средней связи и полной связи приносит хорошие результаты только при условии, что данные имеют высокую плотность и не пересекаются, или же для однородно распределённых данных. В остальных случаях они отрабатывают плохо.

Для каких задач используется иерархическая кластеризация?

Для построения филогенетического дерева.

Например, если известна ДНК-последовательность, можно построить филогенетическое дерево.

На рисунке ниже иерархическая кластеризация была проведена на основе ДНК животных:

img
Источник изображения
Для анализа текстов.

Например, с помощью кластеризации Брауна (частный случай иерархической кластеризации) можно сгруппировать слова и найти синонимы. Слова, которые были встроены в похожие контексты и считаются семантически связанными, оказываются в одном кластере:

img
Источник изображения
Как запустить иерархическую кластеризацию?

Давайте попробуем кластеризовать датасет с покемонами с помощью иерархической кластеризации.

Запустим алгоритм (такой же, как k-means). Из библиотеки sklearn импортируем алгомеративную кластеризацию, далее запустим метод fit(), передав вектор X из признаков объектов, и обучим модель кластеризации.

Задание 4.1
1 из 1 балла (оценивается)
 Помощь по управлению с клавиатуры
Так как вы уже знакомы с k-means, попробуйте самостоятельно расставить в правильном порядке код для проведения иерархической кластеризации. Затем запустите этот код у себя.

Закрыть
Верно!

4 зоны1, зона для перетаскивания1
from sklearn.cluster import AgglomerativeClustering, перетаскиваемыйВерно расположен в зоне: 1
Элементы, расположенные здесь: from sklearn.cluster import AgglomerativeClustering2, зона для перетаскивания2
agglomerative_clustering = AgglomerativeClustering(n_clusters=2), перетаскиваемыйВерно расположен в зоне: 2
Элементы, расположенные здесь: agglomerative_clustering = AgglomerativeClustering(n_clusters=2)3, зона для перетаскивания3
agglomerative_clustering.fit(X), перетаскиваемыйВерно расположен в зоне: 3
Элементы, расположенные здесь: agglomerative_clustering.fit(X)4, зона для перетаскивания4
agglomerative_clustering.labels_, перетаскиваемыйВерно расположен в зоне: 4
Элементы, расположенные здесь: agglomerative_clustering.labels_

Вернуться к началу
Сбросить
Обратная связь
Хорошо! Вы справились с этим заданием.

Базовые параметры, которые необходимо передать в AgglomerativeClustering:

n_clusters — количество кластеров; по умолчанию — 2.
linkage — метод определения расстояния между кластерами, которое мы рассматривали выше. Можно выбрать single, ward, average, complete; по умолчанию используется ward.
Какое количество кластеров задать в начале?

Иногда при постановке задачи может быть чётко указано, что необходимо разделить данные на N кластеров. В таком случае проблем не возникнет.
Если кластеризацию требуется провести по двум-трём признакам, можно визуализировать данные и прикинуть, на сколько кластеров их можно разделить.
Выбрать какое-нибудь количество кластеров, например три-четыре, провести кластеризацию и визуализировать дендрограмму. Далее, основываясь на дендрограмме, можно примерно определить оптимальное количество кластеров.
Чуть позже мы научимся визуализировать дендрограмму, а сейчас давайте посмотрим на дендрограмму проведённой кластеризации. Попытаемся понять, какое оптимальное количество кластеров для кластеризации нужно выбрать. Дендрограмма получилась большой и сложной для восприятия и понимания. Можно увидеть, что, если мы проведём горизонтальную линию на расстоянии между кластерами, равном 6, данные отлично разделятся на три кластера:

img
Преимущества и недостатки иерархической кластеризации

Img

Можно построить дендрограмму и понять, как устроены данные.
Работает на небольшом датасете.
Img

Необходимость выбора оптимального количества кластеров.
Если данных много, дендрограмма становится большой и сложной для понимания.
Может неравномерно разделять данные на кластеры.
Задание 4.2
1/1 point (graded)
Как работает агломеративный способ иерархической кластеризации?
Сверху вниз
Снизу вверх
верно
Show answer
Отправить
Some problems have options such as save, reset, hints, or show answer. These options follow the Submit button.Верно (1/1 балл)Review
Задание 4.3
1/1 point (graded)
Для дендрограммы, представленной ниже, найдите количество кластеров, расстояние между которыми равно 0.5.

img

5
  верно 
 
Ответ
Верно:
Проводим горизонтальную линию на отметке 0.5: линия пересекает пять веток. Это значит, что при таком расстоянии образуется 5 кластеров.

img

Show answer
Отправить
Some problems have options such as save, reset, hints, or show answer. These options follow the Submit button.Верно (1/1 балл)Review
Задание 4.4
1 из 1 балла (оценивается)
 Помощь по управлению с клавиатуры
Соотнесите методы определения расстояния между кластерами с подходами их расчёта:

Закрыть
Верно!

4 зоныМетод одиночной связи, зона для перетаскиванияМетод одиночной связи
Поиск минимального расстояния между объектами из разных кластеров., перетаскиваемыйВерно расположен в зоне: Метод одиночной связи
Элементы, расположенные здесь: Поиск минимального расстояния между объектами из разных кластеров.Метод полной связи, зона для перетаскиванияМетод полной связи
Поиск максимального расстояния между объектами из разных кластеров., перетаскиваемыйВерно расположен в зоне: Метод полной связи
Элементы, расположенные здесь: Поиск максимального расстояния между объектами из разных кластеров.Метод средней связи, зона для перетаскиванияМетод средней связи
Расстояние между двумя кластерами считается как среднее расстояние между двумя элементами этих кластеров., перетаскиваемыйВерно расположен в зоне: Метод средней связи
Элементы, расположенные здесь: Расстояние между двумя кластерами считается как среднее расстояние между двумя элементами этих кластеров.Центроидный метод, зона для перетаскиванияЦентроидный метод
Расстояния между кластерами рассчитываются как расстояния между центроидами этих кластеров., перетаскиваемыйВерно расположен в зоне: Центроидный метод
Элементы, расположенные здесь: Расстояния между кластерами рассчитываются как расстояния между центроидами этих кластеров.