## Юнит 7. Основные алгоритмы машинного обучения. Часть II 
### Skillfactory: DSPR-19
### ML-7. Кластеризация

**Кластеризация** — это задача разбиения некого количества объектов на группы (кластеры), при этом объекты в группах должны иметь что-то общее и сильно отличаться от объектов в других кластерах. Перечень групп определяется в процессе работы алгоритма, а не заранее. Задача кластеризации является задачей обучения без учителя.

По сути, кластеризация очень похожа на задачу классификации, но без известных заранее классов. Алгоритм самостоятельно находит близкие по каким-то признакам точки и объединяет их в кластеры. Подобную операцию вы можете наблюдать, если будете искать какие-то часто встречающиеся объекты на карте.

### 7.2. Задачи и подходы кластеризации



Задача кластеризации: найти отображение множества входных объектов $X$, которое разделило бы множество $X$ на подгруппы. Кластеризация — это обучение без учителя.

Формальная запись задачи кластеризации выглядит следующим образом:

Пусть $X$ — множество объектов,  $Y$ — множество метод кластеров (идентификаторов их принадлежности). На множестве $X$ задана функция, которая вычисляет расстояние между объектами:

$\rho\left(x, x^{\prime}\right)$. 

Также дана конечная обучающая выборка объектов: $X^{m}=\left\{x_{1}, \ldots, x_{m}\right\} \subset X$ 

Нам надо разбить выборку на кластеры, то есть поставить каждому объекту $X$ в соответствие метку $y_{i} \in Y$ так, чтобы внутри каждого кластера объекты были как можно более близки (то есть расстояние должно быть минимальным), а объекты из разных кластеров значительно различались.

В задаче кластеризации входные данные задаются двумя способами:

- Признаковое описание объектов: все объекты описываются некоторыми характеристиками (значениями признаков)
- Матрица расстояний между объектами: для каждого объекта представлены расстояния от него до всех остальных
объектов выборки

**Некорректность задачи кластеризации** — решение задачи кластеризации принципиально неоднозначно:

- Нет **точной постановки** задачи кластеризации.
- Существует **множество критериев** качества кластеризации.
- Существует **множество методов** кластеризации.
- Часто заранее **неизвестно число кластеров**.
- Результат кластеризации зависит от **метрики**, которая **задаётся субъективно**.

**Разные цели кластеризации:**
- Упростить дальнейшую обработку данных: разбить множество объектов на несколько групп (кластеров), чтобы в дальнейшем работать с каждым кластером в отдельности
- Сократить объём хранимых данных: выделить кластеры и оставить по одному объекту от каждого кластера и таким образом сжать данные
- Выделить нетипичные объекты: выделить объекты, которые нельзя отнести ни к одному из кластеров
- Построить иерархию множества объектов: задача таксономии.  

**Разнообразие условий задач кластеризации.**


### Задание 7.2.1
Чем отличается кластеризация от классификации?  

Ответ:  
- ластеризация работает с неразмеченными данными, классификация — с размеченными верно

### Задание 7.2.2
Выберите, что из приведённого является целями кластеризации  

Ответ:  
- Выделить нетипичные объекты
- Сократить объём хранимых данных
- Построить иерархию множества объектов

Какие из перечисленных задач можно решить с помощью кластеризации?

Ответ:  
- сегментация покупаталей
- поиск схожих по характеристикам компаний

### 7.3. Условия задач кластеризации

**Форма кластеров**: внутрикластерные расстояния меньше межкластерных, ленточная структура, кластеры с центром, кластеры соединены перемычками, разреженный фон, пересекающиеся кластеры, кластеры отсутствуют, кластеры образуются не по близости расстояний.

**Вложенность кластеров** друг в друга.  
**Размер кластеров:** один кластер — одна тема, один кластер — одно большое событие, один кластер — одна новость.  
**Кластеризация как основная или вспомогательная задача.**  
**Жёсткая** _(определяем конкретный кластер для объекта)_ или **мягкая** _(определяем вероятность принадлежности объекта к кластеру)_ кластеризация.

### Задание 7.3.1
Выберите задачи, для которых кластеризация является основой:

Ответ:  
- Сегментация покупателей
- Кластеризация новостных текстов
- Кластеризация изображений

### Задание 7.3.2
С помощью какого типа кластеризации можно получить результат, что статья "Contour-Aware Multi-Label X-ray Organ Segmentation" относится к теме Deep Learning с вероятностью 0.7, к теме Medicine с вероятностью 0.3?

Ответ:  
- Мягкая

### 7.4. Алгоритмы кластеризации



Рассмотрим четыре основных алгоритма кластеризации:

_k-means_  
_EM-алгоритм_  
_DBSCAN_  
_агломеративная кластеризация_


### K-MEANS
**k-means** является одним из самых популярных и простых алгоритмов кластеризации. В ходе этого алгоритма все элементы пространства разбиваются на заранее известное (заданное) количество кластеров. Суть алгоритма состоит в том, что он пытается оптимизировать расстояние всех точек кластера от центра этого кластера. То есть он формирует кластеры так, чтобы внутри каждого сумма квадратов расстояний от точек до центра кластера была как можно меньше.

**Схема действия алгоритма k-means**

- Выбрать количество кластеров, которое нам кажется оптимальным для наших данных.
- Выбрать случайным образом в пространство наших данных центроиды.
- Для каждой точки набора данных посчитать, к какому центроиду она ближе.
- Переместить каждый центроид в центр выборки, которую мы отнесли к этому центроиду. Каждый центроид на каждой итерации — вектор, элементы которого представляют собой средние значения признаков, вычисленные по всем записям кластера.
- Повторять шаги 3-4 фиксированное число раз или до тех пор, пока центроиды не сойдутся.

**У этого алгоритма есть ряд недостатков:**

- число кластеров надо знать заранее;
- алгоритм очень чувствителен к первичному выбору центроидов;
- не гарантирует достижение глобального минимума суммы квадратов расстояний, часто «застревает» в локальном минимуме.

**Mini-Batch K-means**  
Данная вариация _k-means_ используется в случае, если данных очень много. Из-за объема данных вычисление центров по всей выборке происходит долго. Решение проблемы: на каждом шаге k-means работать с небольшой подвыборкой данных. В общем случае упрощённый алгоритм должен сходиться к тому же результату, что и на полной выборке. Однако исследования показывают, что качество кластеров может ухудшаться по сравнению с классическим k-means.

**K-means++**  
Ещё одну вариацию алгоритма k-means мы используем в том случае, если у нас очень много признаков. Как известно, результат и время работы k-means зависит от изначального выбора центров. Чтобы минимизировать затраты, мы будем действовать следующим образом:

- Первый центр выбираем случайно из равномерного распределения на выборке.
- Каждый следующий центр выбираем случайно из оставшихся точек так, чтобы вероятность выбрать каждую точку была пропорциональна квадрату расстояния от неё до ближайшего центра.


### EM-АЛГОРИТМ

Следующий алгоритм кластеризации — **EM-алгоритм**. Последовательность действий в нём выглядит следующим образом:

**Схема действий EM-алгоритма**

- Выбрать количество кластеров, которое нам кажется оптимальным для наших данных.
- Выбрать случайным образом в пространство наших данных параметры распределений.
- Для каждой точки нашего набора данных посчитать вероятность принадлежности к каждому кластеру.
- Обновить параметры распределений таким образом, чтобы максимизировать вероятность принадлежности точек, отнесённых к кластеру.
- Повторять шаги 3-4 фиксированное число раз, либо до тех пор пока центроиды не сойдутся.

**Можно выделить следующие преимущества алгоритма:**

- Эффективная обработка больших объемов данных (Big Data).
- Мощная статистическая основа.
- Устойчивость к шумам и пропускам в данных.
- Возможность построения желаемого числа кластеров.
- Быстрая сходимость при удачной инициализации.

**Недостатки алгоритма следующие:**

- При неудачной инициализации сходимость алгоритма может оказаться медленной.
- Предположение о нормальности всех измерений данных не всегда выполняется.
- Алгоритм иногда останавливается в локальном минимуме и не достигает глобального.

### АГЛОМЕРАТИВНАЯ КЛАСТЕРИЗАЦИЯ
Иерархическая кластеризация делится на две стратегии: **агломеративная** — снизу-вверх, объединяем точки в кластеры и **дивизионная** — сверху-вниз, разделяем один большой кластер на малые.

- Назначаем каждой точке свой кластер.
- Сортируем попарные расстояния между центрами кластеров по возрастанию.
- Берём пару ближайших кластеров, склеиваем их в один и пересчитываем центр кластера.
- Повторяем шаги 2-3 до тех пор, пока все данные не склеятся в один кластер.

### DBSCAN
Расшифровывается как **Dense-based spatial clustering of applications with noise**. Это основанная на плотности пространственная кластеризация для приложений с шумами.

**Схема действия DBSCAN**

- Случайно выбираем точку, которую не посещали. Окрестность точки извлекается с использованием расстояния .
- Если в этой окрестности точек ≥ minPoints, тогда точка становится первой точкой в новом кластере. Иначе — помечаем точку как шум, она становится посещённой.
- Точки из окрестности становятся частью кластера. Для каждой из них изучаем окрестность: если точек в окрестности < minPoints, то помечаем точку как граничную.
- Повторяем пункты 2 и 3, пока не определим все точки в кластере.
- Повторяем пункты 1–4, пока все точки не станут просмотренными.

**Главная идея:**  

- Основные точки.
- Граничные точки.
- Шумовые точки.


**Достоинства алгоритма:**

- не требуется число кластеров;
- определяем кластеры произвольной формы;
- определяет шум, устойчив к выбросам.


**Недостатки алгоритма:**

- не может выделять кластеры, имеющие разную плотность;
- результат зависит от используемой функции расстояния.