# Курс Data Science
## 15.1. Постановка ML задачи кластеризации

Кластерный анализ (Data clustering) — задача разбиения заданной выборки объектов на непересекающиеся подмножества - такие множества называются кластерами. Каждый кластер должен состоять из схожих объектов, а объекты разных кластеров должны существенно отличаться. Это задача обучения без учителя - истинных меток классов алгоритм не требует.

Вот, например, на картинке есть выборка, где у каждого объекта две фичи - $x_1$ и $x_2$. Визуально заметно, что объекты разделяются на три отдельные группы - внутри группы объекты очень похожи, а вот между группами есть отличия. Синим крестиком я отметил центр кластера и добавил отрезки, соединяющие центры кластеров (для наглядности)


![clustering_example](https://248006.selcdn.ru/public/DS.%20Block%202.%20M7/clustering_example.png)

Интуитивная постановка задачи кластеризации: у нас есть координаты точек, все точки объединяются в два (или большее количество) кластеров, каждый кластер получает свой номер от $0$ до $N$. Мы хотим построить алгоритм, который
* обработает весь доступный массив точек
* выяснит автоматически количество кластеров
* для каждой новой точки наша модель будет выдавать номер кластера, к которому эта точка относится

Выпишем координаты центра для трёх кластеров с картинки:

* "красный" кластер $c_1 = [1.0, 1.5]$
* "оранжевый" кластер $c_2 = [-1.0, -0.5]$
* "зеленый" кластер $c_3 = [1.0, -0.5]$

Для того, чтобы начать разбираться с кластеризацией, нужно освежить в памяти понятие *"расстояние"* (иногда называют *метрикой близости*), с которым вы встречались в Уроке 1 "Метод K-Nearest Neighbors (K ближайших соседей)" Модуля 5 про классификацию. Все алгоритмы кластеризации основаны на вычислении расстояния между точками в датасете для обучения. Для этого в библиотеке `scipy` в модуле `spatial.distance` уже реализовано множество функций для вычисления расстояний - мы воспользуемся функцией [вычисления евклидового расстояния](https://ru.wikipedia.org/wiki/Евклидова_метрика) (кстати, эту метрику нужно будет реализовать в домашнем задании к Уроку №3):

In [1]:
from scipy.spatial.distance import euclidean

c1 = [1.0, 1.5]
c2 = [-1.0, -0.5]

dist = euclidean(c1, c2)
print("Расстояние между кластерами c1 и c2: %.4f" % dist)

Расстояние между кластерами c1 и c2: 2.8284
