# Кластеризация 

Кластеризация - это метод машинного обучения, который включает группировку данных в пространстве признаков. Теоретически, точки, находящиеся в одной группе, должны иметь схожие свойства, в то время как точки в разных группах должны иметь сильно отличающиеся свойства. 

Кластеризация является методом **обучения без учителя** и распространенным методом статистического анализа данных, используемым во многих областях. В частности используется при составлении портретов пользователей, поиска аномалий.

В анализе данных часто прибегают к кластеризации, чтобы получить ценную информацию из наших данных, наблюдая, в какие группы попадают точки при применении алгоритма кластеризации.


## K-средних (k-Means)

Напомним что сам алгоритм можно схематически представить в виде следующих шагов:

1. Инициализируем центры кластеров случайно (должно быть задано количество кластеров).
2. Относим точки к соответствующим кластерам (с минимальным расстоянием до их центра).
3. Производится пересчет центров кластеров по формуле центра масс всех точек принадлежащих кластеру.
4. Пункты 2-3 повторяются до тех пор пока центры кластеров перестанут меняться (сильно).

In [0]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

Посмотрим на то как он работает

In [0]:
np.random.seed(123)
X1 = np.random.randn(100,2)
X2 = np.random.randn(100,2) - np.array([10,1])
X3 = np.random.randn(100,2) - np.array([1,10])
X = np.vstack((X1,X2,X3))
y = np.array([1]*100 + [2]*100 + [3]*100)

**Задание**

Все координаты хранятся теперь матрице `X` с двумя столбцами (`x` и `y` координаты).

Нарисуйте эту выборку на плоскости

In [0]:
# YOUR CODE HERE

**Задание**

Сделайте кластеризацию данных на 3 кластера с помощью kMeans

In [0]:
from sklearn.cluster import KMeans

# YOUR CODE HERE

**Задание**

Посмотрите, что будет происходить, если мы не угадали с числом кластеров.

Для этого cделайте кластеризацию данных на N кластеров с помощью kMeans, где N варьируется от 2 до 8. Постройте получившиеся результаты кластеризации

In [0]:
# YOUR CODE HERE

Как мы видим k-means обязательно пытается отдать каждому кластеру какие-то объекты и, как большинство алгоритмов кластеризации зависит от заданного числа кластеров. Есть огромное количество вариаций как выбирать количество кластеров автоматически, например ввести вероятностный подход к выбору числа кластеров (очень похоже на EM-алгоритм с автоматическим выбором количества компонент), но данные методы мы не будем рассматривать в этом курсе. 

Один из главных недостатков k-means является случайная инициализация центров кластеров, что может привести к различным результатам кластеризации.

Главным же достоинством является скорость алгоритма. На каждой итерации требуется пересчет только расстояний до центров кластеров.

## Вопрос

Как выбирать число кластеров в kMeans?

## Ответ

Если можем визуализировать выборку и определить число кластеров визуально, то так и поступаем. 

Визуализировать выборку можем с помощью методов понижения размерности (каких, например?)

Но если по какой-то причине понижение размерности не дало результатов, то нужно вычислять значения инерции для всех значений числа кластеров после завершения кластеризаций

![alt text](https://i.ibb.co/0hmHdgR/Screen-Shot-2020-03-06-at-12-51-46-AM.png)

![alt text](https://rnowling.github.io/images/bps-multinomial-segmentation/pmf_kmeans_inertia.png)


![alt text](https://sandipanweb.files.wordpress.com/2016/08/k3.gif?w=676)


Также есть вариация k-medians, которая вместо центров кластеров вычисляет "центроиды", то есть при вычислении центров кластеров использует медиану вместо среднего. Что позволяет алгоритму стать более устойчивым к выбросам.

![alt text](https://sandipanweb.files.wordpress.com/2016/08/kb.gif?w=676)

![alt text](https://sandipanweb.files.wordpress.com/2016/08/kmeansb.gif?w=676)

![alt text](https://sandipanweb.files.wordpress.com/2016/08/kmeans1.gif?w=676)

![alt text](https://sandipanweb.files.wordpress.com/2016/08/kmeans11.gif?w=676)

# EM-алгоритм (expactation-maximization algorithm)

Что происходит по математике: EM-алгоритм максимизирует правдоподобие выборки, описывая каждый кластер гауссовым (нормальным) распределением

Описание работы EM-алгоритма:
https://www2.cs.duke.edu/courses/fall07/cps271/EM.pdf

Примеры работы EM-алгоритма

![alt text](https://upload.wikimedia.org/wikipedia/commons/6/69/EM_Clustering_of_Old_Faithful_data.gif)

![alt text](https://upload.wikimedia.org/wikipedia/commons/thumb/0/09/ClusterAnalysis_Mouse.svg/2880px-ClusterAnalysis_Mouse.svg.png)

 ## EM-алгоритм работает хорошо, но долго. На практике часто применяют именно его, когда хотят добиться хорошего качества кластеризации

# Сравнение работы разных алгоритмов кластерихации

![alt text](https://scikit-learn.org/stable/_images/sphx_glr_plot_cluster_comparison_0011.png)

## Подробное сравнение работы и описание разных алгоритмов кластеризации можно найти на официальной [странице с документацией SKlearn](https://scikit-learn.org/stable/modules/clustering.html)

**BONUS**

TSNE visualization

https://github.com/KellerJordan/tSNE-Animation