# Какие проблемы можно решать с помощью методов обучения без учителя?
* Используя подходы, которые мы изучим в данном модуле, мы сможем лучше понимать данные, с которыми предстоит работать, например разделять данные на группы, которые схожи по каким-то признакам.
* Если данных, с которыми вы работаете, много, то методы машинного обучения без учителя позволяют уменьшить их объём, убрав схожие данные и оставив только несколько представителей различных групп.
* Если разработанная модель плохо или долго обучается, причина может быть в том, что у объекта слишком много признаков. Методы уменьшения размерности помогают уменьшить количество признаков, которые характеризуют объект, и ускорить обучение модели.
* Некоторые методы кластеризации помогают найти выбросы в данных.
* Методы ассоциации позволяют создавать шаблоны. Это может помочь правильно расставить товары на полках в магазине или спрогнозировать продукты, которые могут купить вместе (например, если человек купил творог, то, возможно, ему будет нужна и сметана).

# Введение в обучение без учителя. Базовая кластеризация
Обучение с учителем здесь не подходит, так как у нас нет правильных ответов о степени заинтересованности покупателей в продукте.

Однако не спешите расстраиваться — на помощь придёт обучение без учителя, а именно кластеризация.
Кластеризация позволяет разбить объекты на группы, которые называются кластерами.

Например, на картинке ниже изображены разные кластеры еды и напитков:
![image.png](attachment:image.png)

Также у каждого кластера есть центроид.

**Центроид** — это центр масс кластера, или среднее значение координат объектов кластера.

На рисунке ниже изображено три кластера, крестик в каждом из них — это центроид:
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)

## Алгоритм k-means
Рассмотрим один из наиболее популярных методов кластеризации — k-means.

Данный алгоритм был разработан ещё в 1950-х, но благодаря скорости своей работы он до сих пор остаётся востребованным.

Идея алгоритма состоит в том, что он разбивает множество элементов векторного пространства на заранее заданное пользователем число кластеров, а далее стремится минимизировать суммарное квадратичное отклонение объектов внутри кластера до центроида кластера.

Математически это выглядит следующим образом: 
![image-4.png](attachment:image-4.png)
![image-5.png](attachment:image-5.png)
![image-6.png](attachment:image-6.png)
![image-7.png](attachment:image-7.png)
![image-8.png](attachment:image-8.png)
![image-9.png](attachment:image-9.png)
Рассмотренный нами алгоритм был основан на центроидах: мы находили центры кластеров и присваивали объекты к ближайшему центроиду кластера.

На самом деле центры кластера инициализируют разными способами. В зависимости от этого выделяется несколько вариаций алгоритма k-means:
![image-10.png](attachment:image-10.png)
см.4.0dst3-ml4-2_clusterization
## Недостатки алгоритма k-means
* Необходимо заранее знать, на сколько кластеров мы хотим разделить данные. В учебных примерах известно, каким должно быть k, и определить это значение довольно легко. В реальности данные сложнее и трудно заранее предугадать, сколько кластеров мы хотим получить.

* Очевидно, что для объектов, которые в равной степени принадлежат к разным кластерам, алгоритм k-means будет отрабатывать плохо.

* Алгоритм чувствителен к выбросам в данных, так как выбросы сильно искажают местонахождение центроида кластера.

* Плохо работает на данных, которые образуют удлинённые кластеры, а также на кластерах неправильной формы.

* Так как в самом начале работы алгоритма центроиды определяются случайным образом, результат сильно зависит от того, какие начальные объекты будут определены как центры кластеров.

## Определение оптимального k для алгоритма k-means
Рассмотрим, как побороть один из существенных недостатков алгоритма, а именно — как подобрать оптимальное количество кластеров.

→ Для этого можно использовать несколько способов: метод локтя (elbow plot), статистику разрыва (Gap Statistic Method), коэффициент силуэта (Average Silhouette Method). Мы рассмотрим метод локтя и коэффициент силуэта.

Начнём с метода локтя.

Данный метод позволяет найти такое оптимальное число кластеров, чтобы добавление ещё одного кластера не приводило к лучшему моделированию данных.

Идея состоит в том, что в самом начале при добавлении новых кластеров качество моделирования улучшается. Эта область называется недообученной (underfitting).

Дальнейшее добавление новых кластеров существенно не улучшает качество моделирования, а значит стоит прекратить их добавление. Данная область называется переобученной (overfitting).

Чтобы определить оптимальное количество кластеров, используя метод локтя, необходимо нарисовать график, на котором по оси x будет отложено количество кластеров, а по оси y — инерция.

Инерция — это сумма квадратов расстояний объектов датасета до центра масс ближайшего к ним кластера.
см.в задание4
