**Кластеризация** — это задача разбиения некого количества объектов на группы (кластеры), при этом объекты в группах должны иметь что-то общее и сильно отличаться от объектов в других кластерах. Перечень групп определяется в процессе работы алгоритма, а не заранее. **Задача кластеризации является задачей обучения без учителя.**

По сути, кластеризация очень похожа на задачу классификации, но без известных заранее классов. Алгоритм самостоятельно находит близкие по каким-то признакам точки и объединяет их в кластеры. Подобную операцию вы можете наблюдать, если будете искать какие-то часто встречающиеся объекты на карте.

Предположим, вы хотите арендовать квартиру и ищете подходящие варианты по заданным вами параметрам.

Если вы будете рассматривать карту вблизи, то точки-квартиры будут стоять на домах по отдельности.

Если же вы отдалите карту, то квартиры соединятся в кластеры по географической близости.

C помощью кластеризации можно решать следующие задачи:

сегментация рынка;<br />
объединение близких точек на карте;<br />
сжатие изображений;<br />
детекторы аномального поведения;<br />
выделение схожих групп респондентов на основании соцопросов;<br />
формирование поведенческих паттернов людей;<br />
выделение схожих по экономическим показателям регионов;<br />
сегментация изображений для выделения объектов.

![ml-4-1-1.png](attachment:ml-4-1-1.png)

![ml-4-1-2.png](attachment:ml-4-1-2.png)

### Задачи и подходы кластеризации

Задача кластеризации: найти отображение множества входных объектов X, которое разделило бы множество X на подгруппы. Кластеризация — это обучение без учителя.

Формальная запись задачи кластеризации выглядит следующим образом:

Пусть X — множество объектов, Y  — множество метод кластеров (идентификаторов их принадлежности). На множестве  задана функция, которая вычисляет расстояние между объектами:

![Screenshot_248.png](attachment:Screenshot_248.png)

Также дана конечная обучающая выборка объектов:

![Screenshot_249.png](attachment:Screenshot_249.png)

Нам надо разбить выборку на кластеры, то есть поставить каждому объекту  в соответствие метку  так, чтобы внутри каждого кластера объекты были как можно более близки (то есть расстояние должно быть минимальным), а объекты из разных кластеров значительно различались.

В задаче кластеризации входные данные задаются двумя способами:

Признаковое описание объектов: все объекты описываются некоторыми характеристиками (значениями признаков)
Матрица расстояний между объектами: для каждого объекта представлены расстояния от него до всех остальных объектов выборки
Некорректность задачи кластеризации — решение задачи кластеризации принципиально неоднозначно:

Нет точной постановки задачи кластеризации.<br />
Существует множество критериев качества кластеризации.<br />
Существует множество методов кластеризации.<br />
Часто заранее неизвестно число кластеров.<br />
Результат кластеризации зависит от метрики, которая задаётся субъективно.<br />

Для чего нужны разные подходы кластеризации?

Разные цели кластеризации:

Упростить дальнейшую обработку данных: разбить множество объектов на несколько групп (кластеров), чтобы в дальнейшем работать с каждым кластером в отдельности<br />
Сократить объём хранимых данных: выделить кластеры и оставить по одному объекту от каждого кластера и таким образом сжать данные<br />
Выделить нетипичные объекты: выделить объекты, которые нельзя отнести ни к одному из кластеров<br />
Построить иерархию множества объектов: задача таксономии.<br />

Разнообразие условий задач кластеризации.

Подробнее про условия задач мы поговорим в следующем уроке.

### Условия задач кластеризации

Форма кластеров: внутрикластерные расстояния меньше межкластерных, ленточная структура, кластеры с центром, кластеры соединены перемычками, разреженный фон, пересекающиеся кластеры, кластеры отсутствуют, кластеры образуются не по близости расстояний.

![Screenshot_250.png](attachment:Screenshot_250.png)

Вложенность кластеров друг в друга.

Размер кластеров: один кластер — одна тема, один кластер — одно большое событие, один кластер — одна новость.
Кластеризация как основная или вспомогательная задача.

Жёсткая (определяем конкретный кластер для объекта) или мягкая (определяем вероятность принадлежности объекта к кластеру) кластеризация.

### Алгоритмы кластеризации

Рассмотрим четыре основных алгоритма кластеризации:

k-means;<br />
EM-алгоритм;<br />
DBSCAN;<br />
агломеративная кластеризация.<br />

#### K-MEANS

k-means является одним из самых популярных и простых алгоритмов кластеризации. В ходе этого алгоритма все элементы пространства разбиваются на заранее известное (заданное) количество кластеров. Суть алгоритма состоит в том, что он пытается оптимизировать расстояние всех точек кластера от центра этого кластера. То есть он формирует кластеры так, чтобы внутри каждого сумма квадратов расстояний от точек до центра кластера была как можно меньше.

Схема действия алгоритма k-means

Выбрать количество кластеров, которое нам кажется оптимальным для наших данных.<br />
Выбрать случайным образом в пространство наших данных центроиды.<br />
Для каждой точки набора данных посчитать, к какому центроиду она ближе.<br />
Переместить каждый центроид в центр выборки, которую мы отнесли к этому центроиду. Каждый центроид на каждой итерации — вектор, элементы которого представляют собой средние значения признаков, вычисленные по всем записям кластера.<br />
Повторять шаги 3-4 фиксированное число раз или до тех пор, пока центроиды не сойдутся.

У этого алгоритма есть ряд недостатков:

число кластеров надо знать заранее;<br />
алгоритм очень чувствителен к первичному выбору центроидов;<br />
не гарантирует достижение глобального минимума суммы квадратов расстояний, часто «застревает» в локальном минимуме.<br />

У данного алгоритма есть также вариации, которые применяются в некоторых специфических случаях. Рассмотрим их ниже.

#### Mini-Batch K-means

Данная вариация k-means используется в случае, если данных очень много. Из-за объема данных вычисление центров по всей выборке происходит долго. Решение проблемы: на каждом шаге k-means работать с небольшой подвыборкой данных. В общем случае упрощённый алгоритм должен сходиться к тому же результату, что и на полной выборке. Однако исследования показывают, что качество кластеров может ухудшаться по сравнению с классическим k-means.

#### K-means++

Ещё одну вариацию алгоритма k-means мы используем в том случае, если у нас очень много признаков. Как известно, результат и время работы k-means зависит от изначального выбора центров. Чтобы минимизировать затраты, мы будем действовать следующим образом:

Первый центр выбираем случайно из равномерного распределения на выборке.
Каждый следующий центр выбираем случайно из оставшихся точек так, чтобы вероятность выбрать каждую точку была пропорциональна квадрату расстояния от неё до ближайшего центра.

#### EM-АЛГОРИТМ

Следующий алгоритм кластеризации — EM-алгоритм. Последовательность действий в нём выглядит следующим образом:

Схема действий EM-алгоритма

Выбрать количество кластеров, которое нам кажется оптимальным для наших данных.<br />
Выбрать случайным образом в пространство наших данных параметры распределений.<br />
Для каждой точки нашего набора данных посчитать вероятность принадлежности к каждому кластеру.<br />
Обновить параметры распределений таким образом, чтобы максимизировать вероятность принадлежности точек, отнесённых к кластеру.<br />
Повторять шаги 3-4 фиксированное число раз, либо до тех пор пока центроиды не сойдутся.

Можно выделить следующие преимущества алгоритма:

Эффективная обработка больших объемов данных (Big Data).<br />
Мощная статистическая основа.<br />
Устойчивость к шумам и пропускам в данных.<br />
Возможность построения желаемого числа кластеров.<br />
Быстрая сходимость при удачной инициализации.<br />

Недостатки алгоритма следующие:

При неудачной инициализации сходимость алгоритма может оказаться медленной.<br />
Предположение о нормальности всех измерений данных не всегда выполняется.<br />
Алгоритм иногда останавливается в локальном минимуме и не достигает глобального.

### АГЛОМЕРАТИВНАЯ КЛАСТЕРИЗАЦИЯ

Иерархическая кластеризация делится на две стратегии: агломеративная — снизу-вверх, объединяем точки в кластеры и дивизионная — сверху-вниз, разделяем один большой кластер на малые.

Назначаем каждой точке свой кластер.<br />
Сортируем попарные расстояния между центрами кластеров по возрастанию.<br />
Берём пару ближайших кластеров, склеиваем их в один и пересчитываем центр кластера.<br />
Повторяем шаги 2-3 до тех пор, пока все данные не склеятся в один кластер.

Визуально это выглядит следующим образом:

![ml-4-4-1.png](attachment:ml-4-4-1.png)

#### Расстояние между кластерами:

Поиск ближайших кластеров можно осуществлять с помощью разных методов объединения точек:

![Screenshot_251.png](attachment:Screenshot_251.png)

![Screenshot_252.png](attachment:Screenshot_252.png)

![Screenshot_253.png](attachment:Screenshot_253.png)

### DBSCAN

Расшифровывается как Dense-based spatial clustering of applications with noise. Это основанная на плотности пространственная кластеризация для приложений с шумами.

Схема действия DBSCAN

Случайно выбираем точку, которую не посещали. Окрестность точки извлекается с использованием расстояния .<br />
Если в этой окрестности точек ≥ minPoints, тогда точка становится первой точкой в новом кластере. Иначе — помечаем точку как шум, она становится посещённой.<br />
Точки из окрестности становятся частью кластера. Для каждой из них изучаем окрестность: если точек в окрестности < minPoints, то помечаем точку как граничную.<br />
Повторяем пункты 2 и 3, пока не определим все точки в кластере.<br />
Повторяем пункты 1–4, пока все точки не станут просмотренными.

Главная идея:

Основные точки.<br />
Граничные точки.<br />
Шумовые точки.<br />

Достоинства алгоритма:

не требуется число кластеров;<br />
определяем кластеры произвольной формы;<br />
определяет шум, устойчив к выбросам.<br />

Недостатки алгоритма:

не может выделять кластеры, имеющие разную плотность;<br />
результат зависит от используемой функции расстояния.