# КЛАСТЕРИЗАЦИЯ

**Кластеризация** позволяет разбить объекты на группы, которые называются **кластерами**. Похожие объекты оказываются внутри одного кластера. Если же объекты разные, то они должны оказаться в разных кластерах.

Также у каждого кластера есть центроид.

**Центроид** — это центр масс кластера, или среднее значение координат объектов кластера.

Как найти этот центроид?

Допустим, у нас есть маленький кластер, состоящий из четырёх точек. Каждая точка описывается только одним свойством — $X$, рост человека: 
 
* Человек № 1, рост - 180
* Человек № 2, рост - 170
* Человек № 3, рост - 181
* Человек № 4, рост - 160

Тогда для нахождения центроида мы берём все значения по оси x и считаем среднее:

$X_1 (центроид \  кластера) = (180 + 170 + 181 + 160)/4 = 172$

Что делать, если данные описываются двумя свойствами, например, рост ($x_1$) и вес ($x_2$)?

Тогда у этих точек есть $x_1$- и $x_2$-координаты:

 
* Человек № 1, рост - 180, вес 70
* Человек № 2, рост - 170, вес 60
* Человек № 3, рост - 181, вес 65
* Человек № 4, рост - 160, вес 45

Для нахождения координат центроида мы последовательно находим:

* Координату $x_1$:
   * $x_1 (центроид \  кластера) = (180 + 170 + 181 + 160)/4 = 172$
* Координату $x_2$:
   * $x_2 (центроид \  кластера) = (70 + 60 + 65 + 45)/4 = 60$

Таким образом, координаты центроида — (172, 60). сли объект описывается бόльшим количеством признаков (например, рост ($x_1$), вес ($x_2$), объём талии ($x_3$) и т.д.), то для нахождения координат центроида мы последовательно, по каждому признаку (координате), ищем среднее значение.

## АЛГОРИТМ K-MEANS

Рассмотрим один из наиболее популярных методов кластеризации — **k-means**.

Данный алгоритм был разработан ещё в 1950-х, но благодаря скорости своей работы он до сих пор остаётся востребованным.

**Идея алгоритма** состоит в том, что он разбивает множество элементов векторного пространства на заранее заданное пользователем число кластеров, а далее стремится минимизировать суммарное квадратичное отклонение объектов внутри кластера до центроида кластера.

На самом деле центры кластера можно определять разными способами. В зависимости от этого выделяется **несколько вариаций алгоритма k-means**:

* **K-MEANS**	
Находит центроиды кластера как среднее значение координат. [Документация](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html)
(init='random')

* **K-MEANS++**	
В классическом алгоритме k-means центроиды выбираются случайно, но это может приводить к тому, что два объекта, которые находятся близко друг к другу, будут центроидами двух разных кластеров — это будет приводить к долгой работе алгоритма.
Алгоритм k-means++ чуть «хитрее» и выбирает центроиды кластеров не совсем случайно. [Документация](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html)
(init='k-means++'; по умолчанию в sklearn при запуске k-means используется алгоритм k-means++)

* **K-MEDIANS**	
На этапе поиска центроидов кластера находит не среднее значение координат, а медиану. [Документация](https://github.com/UBC-MDS/KMediansPy)

* **K-MEDOIDS**	
Работает так же, как k-medians, но медианой кластера будет не какая-то точка в кластере, а объект, который находится ближе всего к этим координатам медианы кластера. [Документация](https://scikit-learn-extra.readthedocs.io/en/stable/generated/sklearn_extra.cluster.KMedoids.html)
* **FUZZY C-MEANS**	
Данный алгоритм разрешает нечётко присваивать кластеры. Каждый объект может принадлежать к разным кластерам с разной вероятностью. [Документация](https://github.com/omadson/fuzzy-c-means)

**Что необходимо для запуска**?

* Обязательно задать количество кластеров, на которые необходимо разделить данные.
* Данные, т. е. параметры объектов ($x_i$), которые мы будем передавать в виде матрицы наблюдений X.

После этого можно запустить алгоритм и для каждого объекта в данных получить метку, к какому кластеру этот объект относится:

In [None]:
# импортируем нужный модуль k-means-кластеризации
from sklearn.cluster import KMeans

# инициализируем алгоритм, при желании задаём разные параметры для алгоритма
k_means = KMeans(n_clusters=2, init='k-means++', n_init=10, random_state=42)
X = df[['x1', 'x2', 'x3']]
# обучаем модель на данных, передав матрицу наблюдений X
k_means.fit(X)
# получаем результаты кластеризации (список меток, к какому кластеру относится каждый объект из X)
lebels = k_means.labels_

Таким образом, мы обучили модель кластеризации. Если нужно определить, к какому из существующих кластеров будут отнесены новые данные из df2, то мы просто воспользуемся методом predict:

In [None]:
X_new = df2[['x1', 'x2', 'x3']]
k_means.predict(X_new)

Чтобы запустить алгоритм, необходимо задать **параметры кластеризации**:

* **n_clusters** — количество кластеров. По умолчанию — 8.
* **init** — способ инициализации центроидов. Есть две опции: random (выбирает центроиды случайным образом) и k-means++ (более «хитрый» алгоритм, который позволяет модели быстрее сходиться). По умолчанию используется k-means++.
* **n_init** — количество случайных инициализаций алгоритма k-means. В конце будут выбраны те результаты, которые имеют наилучшие значения критерия k-means. По умолчанию n_init = 10.
* **max_iter** — максимальное количество итераций алгоритма k-means при одном запуске. По умолчанию — 300.
* **random_state** — параметр, который определяет генерацию случайных чисел для инициализации центроида. Чтобы детерминировать случайность, нужно задать какое-нибудь число.

Теперь попробуем применить полученные знания на практике.