Цель занятия — изучить алгоритм агломеративной кластеризации для решения задач кластеризации на подготовленных и неподготовленных данных.

## Визуальная демонстрация алгоритма

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>Агломеративная кластеризация</b> — это один из методов кластерного анализа, который используют для группировки объектов в иерархическую структуру. Изначально каждый объект представляется отдельным кластером, а затем наиболее похожие кластеры последовательно объединяются до тех пор, пока не будет получен единственный кластер, содержащий все объекты.</b>

Пошаговый процесс построения дендрограммы и единственного кластера для агломеративной кластеризации можно представить так:

<img src='../static/img/module_7_17.png'>

На каждом шаге мы сливаем два наиболее близких кластера, а также добавляем новый уровень в дендрограмму.

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>Дендрограмма</b> — это графическое представление результатов иерархической кластеризации. Это структура-дерево, где каждый узел представляет кластер или группу объектов, а ветви указывают на близость или расстояние между кластерами.</div>

На дендрограмме ось Y представляет меру расстояния или сходства между кластерами. Чем выше на оси Y находится точка слияния кластеров, тем дальше они друг от друга или менее похожи. Чтобы определить, какие кластеры объединяются на каждом уровне, через дендрограмму можно провести горизонтальную линию.

Ось X дендрограммы представляет собой список объектов или кластеров. Каждая точка на оси X соответствует отдельному объекту или кластеру. Анализируя дендрограмму, можно определить, какие объекты или кластеры объединяются на каждом уровне иерархии.

Дендрограммы широко используют в кластерном анализе для визуализации и интерпретации результатов. Они помогают исследователям определить оптимальное количество кластеров или иерархическую структуру данных. Также дендрограммы могут быть полезны при принятии решений о разделении кластеров на разных уровнях детализации, а также для анализа подобия или сходства между кластерами.

После того как построены единственный кластер и дендрограмма, по дендрограмме можно выбрать количество кластеров, выбрав соответствующий уровень дендрограммы для разбиения на кластеры.

На рисунке ниже один из вариантов разбиения выделен красным пунктиром:

<img src='../static/img/module_7_18.png'>

## Подготовка данных для алгоритма



Общий процесс подготовки данных для использования с алгоритмом агломеративной кластеризации:

1.    Масштабирование данных. Перед применением агломеративной кластеризации рекомендуется масштабировать признаки входных данных, особенно если признаки имеют различные шкалы или единицы измерения. Для приведения к общей шкале обычно используют стандартизацию или нормализацию данных.
2.    Обработка категориальных переменных. Если в данных есть категориальные переменные, требуется преобразовать их в числовой формат. Для этого можно использовать One-Hot Encoding или Label Encoding.
3.    Обработка пропущенных значений. Если в данных есть пропущенные значения, в зависимости от контекста данных нужно либо удалить строки или столбцы с пропущенными значениями, либо заполнить их средними или медианными значениями.
4.    Отбор признаков. Если признаков много, важно выбрать из них наиболее релевантные и информативные. Для этого можно использовать методы отбора признаков или снижения размерности данных, такие как анализ главных компонент (PCA), или методы выбора признаков на основе значимости.
5.    Обработка корреляций. Если между признаками есть сильные корреляции, это может повлиять на работу агломеративной кластеризации. Рекомендуется проанализировать корреляции и решить, какие признаки оставить, исключить или объединить в один признак.
6.    Учёт особенностей данных. Если в данных есть особенности, такие как выборки с несбалансированным размером кластеров или шум, следует учесть эти особенности при выборе параметров агломеративной кластеризации и интерпретации результатов.


## Процесс обучения

Основные шаги агломеративной кластеризации:

1.    Инициализация. Каждый объект представляется в отдельном кластере.
2.    Вычисление матрицы расстояний. Вычисляется матрица расстояний между всеми парами кластеров. Расстояние можно определить различными способами, например с помощью евклидова расстояния или корреляции.
3.    Объединение кластеров. Наиболее похожие кластеры объединяются в один кластер на основе определённого критерия объединения. Распространённые критерии: минимальное расстояние (single linkage), максимальное расстояние (complete linkage) или среднее расстояние (average linkage) между кластерами.
4.    Обновление матрицы расстояний. Матрица расстояний обновляется, чтобы отразить новые расстояния между объединёнными кластерами.
5.    Повторение шагов 3 и 4. Шаги объединения кластеров и обновления матрицы расстояний повторяются до тех пор, пока все объекты не объединятся в один кластер.
6.    Формирование дендрограммы. В результате агломеративной кластеризации можно получить дендрограмму, которая представляет собой дерево объединений кластеров. По оси X дендрограммы отображаются объекты или кластеры, по оси Y — мера расстояния или сходства.

Агломеративная кластеризация не требует заранее заданного числа кластеров и позволяет исследовать структуру данных на разных уровнях детализации. Этот метод широко используется в различных областях, включая анализ данных, биоинформатику и т. д.

## Оценка качества алгоритма

Оценить качество алгоритма агломеративной кластеризации можно с помощью различных метрик и методов. Перечислим некоторые распространённые метрики.

Внутрикластерное расстояние измеряет среднее расстояние между объектами внутри каждого кластера. Чем меньше значение внутрикластерного расстояния, тем лучше.

Межкластерное расстояние измеряет расстояние между центроидами или центрами масс различных кластеров. Чем больше значение межкластерного расстояния, тем лучше.

Коэффициент силуэта оценивает качество кластеризации, учитывая как близость объектов внутри своего кластера, так и удалённость от соседних кластеров. Значение коэффициента силуэта находится в диапазоне от -1 до 1, где значения ближе к 1 указывают на хорошую кластеризацию.

В зависимости от контекста, по которому оценивается качество алгоритма агломеративной кластеризации, могут применяться и другие метрики.

## Применение алгоритма



Алгоритм агломеративной кластеризации широко применяется в различных областях анализа данных и машинного обучения. Вот некоторые сферы, где алгоритм агломеративной кластеризации может быть полезным:

-    Маркетинг и сегментация потребителей. Агломеративную кластеризацию можно использовать для идентификации групп потребителей с похожими предпочтениями, поведением или демографическими характеристиками. Это позволяет компаниям создавать целевые маркетинговые стратегии и персонализированные предложения.
-   Биология и генетика. Агломеративную кластеризацию можно применять для анализа генетических данных и выявления генетических паттернов или групп, связанных с определёнными заболеваниями или фенотипами. Это помогает в понимании генетической структуры и классификации образцов.
-    Обработка естественного языка. При анализе текстовых данных агломеративную кластеризацию можно использовать для группировки документов или текстовых фрагментов по сходству содержания. Например, это может быть полезно для создания тематических кластеров или выявления паттернов в текстовых данных.
-    Обработка изображений и компьютерное зрение. Агломеративную кластеризацию можно применять для сегментации изображений по сходству пикселей или объектов на изображении. Это используется для распознавания образов или выделения регионов на изображении.
-    Социальные сети и анализ социальных данных. Агломеративная кластеризация может помочь в анализе социальных сетей и идентификации групп пользователей с похожими интересами, связями или поведением. Это полезно для рекомендательных систем, персонализации контента и анализа влияния в социальных сетях.


Мы перечислили лишь несколько областей применения агломеративной кластеризации. Однако этот алгоритм можно использовать и во многих других сферах, где требуется группировка и классификация данных на основе их сходства.

## Плюсы и минусы алгоритма

Плюсы:

-    Простота реализации. Агломеративная кластеризация — относительно простой алгоритм, который легко реализовать и понять. Он основывается на простых принципах объединения ближайших точек или кластеров на каждом шаге.
-    Гибкость и масштабируемость. Алгоритм агломеративной кластеризации можно применять к различным типам данных. Он может обрабатывать большие объёмы данных и работает с различными мерами расстояния и сходства, что позволяет адаптировать его к разным задачам.
-    Иерархическая структура. Агломеративная кластеризация создаёт иерархическую структуру кластеров, что даёт возможность анализировать данные на разных уровнях детализации. Это позволяет получить информацию о более общих группах и более специфичных подгруппах данных.
-    Способность обнаруживать кластеры различных форм и размеров. Алгоритм агломеративной кластеризации способен обнаруживать кластеры различных форм, размеров и плотности. Он может обрабатывать кластеры произвольной формы и даже неоднородной плотности.
-    Возможность визуализации. Иерархическую структуру, создаваемую алгоритмом агломеративной кластеризации, можно визуализировать в виде дендрограммы. Дендрограмма представляет собой графическое представление иерархии кластеров, что упрощает интерпретацию результатов.


Минусы:

-    Высокая вычислительная сложность. Агломеративная кластеризация имеет квадратичную сложность по времени, что делает её менее эффективной для больших наборов данных. Вычисление расстояний между всеми парами точек может быть ресурсоёмкой операцией.
-    Чувствительность к выбору меры расстояния. Выбор подходящей меры расстояния является критическим для успешной работы агломеративной кластеризации. Разные меры могут давать различные результаты, и некорректный выбор меры может привести к искажению кластерной структуры.
-    Отсутствие контроля над размером кластеров. Алгоритм агломеративной кластеризации не предоставляет явного способа контролировать размер получаемых кластеров. Размеры кластеров могут существенно отличаться, и в некоторых случаях это может быть проблемой.


Агломеративная кластеризация реализована в библиотеке scikit-learn и доступна через класс <A href="https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html">AgglomerativeClustering</a> из модуля sklearn.cluster.

Основные параметры AgglomerativeClustering:

-    n_clusters — количество кластеров, которые требуется сформировать. Это обязательный параметр.
-    affinity — метрика, используемая для вычисления расстояния между точками. Может принимать значения euclidean (евклидово расстояние), manhattan (манхэттенское расстояние), cosine (косинусное расстояние) и др.
-    linkage — метод объединения кластеров. Может принимать значения ward, complete, average и single.
-   distance_threshold — пороговое расстояние, при котором прекращается объединение кластеров. Если не указано, то все кластеры будут объединены.

Класс AgglomerativeClustering также имеет методы fit(X) — для обучения модели на данных X, fit_predict(X) — для кластеризации данных и присвоения меток кластеров.



Давайте резюмируем.

Агломеративная кластеризация — это метод машинного обучения, который используется для группировки объектов на основе сходства между ними. Алгоритм изначально рассматривает каждый объект как отдельный кластер, а затем объединяет кластеры по мере того, как они становятся более похожими друг на друга. Для этого используются различные меры сходства, например, евклидово расстояние или корреляция.

Результат агломеративной кластеризации — дерево, называемое дендрограммой. Оно показывает, как объекты были объединены в кластеры.
