## Введение в обучение без учителя. Базовая кластеризация ## 

Представьте, что вы работаете дата-сайентистом и получаете задачу по маркетинговому исследованию клиентов. Вам необходимо выделить группы покупателей по степени интереса к продукту и по сумме, которую они тратят.

Как решить данную задачу?

Обучение с учителем здесь не подходит, так как у нас нет правильных ответов о степени заинтересованности покупателей в продукте.

Однако не спешите расстраиваться — на помощь придёт обучение без учителя, а именно кластеризация.

Мы уже рассматривали суть кластеризации в модуле ML-1.

![Скриншот](./img//Screenshot_1.png)


Например, на картинке ниже изображены разные кластеры еды и напитков:

`

![Скриншот](./img//Screenshot_2.png)


Центроид — это центр масс кластера, или среднее значение координат объектов кластера.



На рисунке ниже изображено три кластера, крестик в каждом из них — это центроид:



![Скриншот](./img//Screenshot_3.png)


Как найти этот центроид?

Допустим, у нас есть маленький кластер, состоящий из четырёх точек. Каждая точка описывается только одним свойством — , рост человека:

![Скриншот](./img//Screenshot_4.png)


![Скриншот](./img//Screenshot_5.png)


![Скриншот](./img//Screenshot_6.png)


![Скриншот](./img//Screenshot_7.png)


## Алгоритм k-means ##

Рассмотрим один из наиболее популярных методов кластеризации — k-means.

Данный алгоритм был разработан ещё в 1950-х, но благодаря скорости своей работы он до сих пор остаётся востребованным.

Идея алгоритма состоит в том, что он разбивает множество элементов векторного пространства на заранее заданное пользователем число кластеров, а далее стремится минимизировать суммарное квадратичное отклонение объектов внутри кластера до центроида кластера.

Математически это выглядит следующим образом: 

![Скриншот](./img//Screenshot_8.png)


![Скриншот](./img//Screenshot_9.png)


![Скриншот](./img//Screenshot_10.png)


![Скриншот](./img//Screenshot_11.png)


![Скриншот](./img//Screenshot_12.png)


Очевидно, что если все объекты будут в одном кластере, это будет худший сценарий с максимальным среднеквадратичным отклонением:



![Скриншот](./img//Screenshot_13.png)


Если каждый объект будет принадлежать собственному кластеру, отклонение будет нулевым, так как один объект будет являться и объектом кластера, и его центром масс, а значит расстояние между объектом кластера и центроидом кластера равно нулю. Такое разбиение будет считаться переобучением, так как мы слишком подстраиваемся под данные:

![Скриншот](./img//Screenshot_14.png)


Рассмотренный нами алгоритм был основан на центроидах: мы находили центры кластеров и присваивали объекты к ближайшему центроиду кластера.

На самом деле центры кластера инициализируют разными способами. В зависимости от этого выделяется несколько вариаций алгоритма k-means:

![Скриншот](./img//Screenshot_15.png)


![Скриншот](./img//Screenshot_16.png)


In [None]:
# импортируем нужный модуль k-means-кластеризации
from sklearn.cluster import KMeans

# инициализируем алгоритм, при желании задаём разные параметры для алгоритма
k_means = KMeans(n_clusters=2, init='k-means++', n_init=10, random_state=42)
X = df[["x1", "x2", "x3"]]
# обучаем модель на данных, передав матрицу наблюдений X
k_means.fit(X)
# получаем результаты кластеризации (список меток, к какому кластеру относится каждый объект из X)
labels = k_means.labels_

Таким образом, мы обучили модель кластеризации. Если нужно определить, к какому из существующих кластеров будут отнесены новые данные из df2, то мы просто воспользуемся методом predict:

In [None]:
X_new = df2[["x1", "x2", "x3"]]
k_means.predict(X_new)

![Скриншот](./img//Screenshot_17.png)


ПРОДОЛЖЕНИЕ В КЛАСНОЙ РАБОТЕ