### Виды машинного обучения: обучение без учителя

Данный вид машинного обучения разбивается на несколько самостоятельных типов задач:

- **кластеризация**
- **понижение размерности**
- **ассоциация**

### Задача кластеризации (clustering) — это задача, в которой мы разделяем данные на группы на основе признаков в данных.

Цель обучения — построить модель, которая наилучшим образом объединит «похожие» объекты в группы.

![image.png](attachment:image.png)

Самая сложная часть в задаче кластеризации — проинтерпретировать полученные кластеры, понять, что именно объединяет объекты, попавшие в тот или иной кластер.

Типичные методы кластеризации при известном заранее количестве кластеров:

- метод k-средних (k-means),
- EM-алгоритм,
- агломеративная кластеризация.

Иногда кластеры могут быть очень сложными и вы можете не знать их количество.

Представьте, что вы — геолог, которому нужно найти на карте схожие по структуре горные породы: ваши кластеры не только будут вложены друг в друга, но вы также не знаете, сколько их вообще получится.

Для таких задач используются хитрые методы, например алгоритм **DBSCAN**. Он сам находит скопления точек и строит вокруг кластеры. Очень рекомендуем посмотреть, как происходит процесс кластеризации алгоритмом **DBSCAN** в динамике. Это захватывающее зрелище.

Математическая постановка задачи кластеризации будет выглядеть следующим образом:

### ПОНИЖЕНИЕ РАЗМЕРНОСТИ (ОБОБЩЕНИЕ)

Понижение размерности (**dimensionality reduction**) — задача, в которой мы пытаемся уменьшить количество признаков, характеризующих объект. Обычно мы уменьшаем количество признаков до 2-3 для того, чтобы получить возможность визуализировать данные.


Представим, что у нас есть целевой признак цены и он зависит от 20 параметров. Мы хотим построить диаграмму рассеяния, которая показывает зависимость от всех признаков сразу. Если мы возьмём трёхмерную визуализацию, то целевой признак мы отложим по оси z, один из числовых признаков — по оси x, ещё один — по оси y. Оси закончились! Мы не можем отобразить четырёхмерную визуализацию.

В модуле по визуализации мы говорили, что при большом желании можно также добавить признаки в виде цвета, формы и размеров точек на графике. Но, как бы мы ни старались, все 20 признаков на диаграмме нам не уместить. Кроме того, такая диаграмма становится всё менее читабельной с добавлением каждого нового признака. Вот пример диаграммы:



Практическая польза этих методов состоит в том, что мы можем объединить несколько признаков в один и получить абстракцию.

Например, собаки с треугольными ушами, длинными носами и большими хвостами объединяются в полезную абстракцию «овчарки». Да, мы теряем информацию о конкретных овчарках, но новая абстракция точно полезнее этих лишних деталей.

Ещё одно проявление пользы таких алгоритмов — увеличение скорости обучения. Мы уже говорили о проклятии размерности: «чем больше признаков в данных, тем сложнее модели обучиться на них». Методы понижения размерности позволяют свести эту проблему к минимуму. Однако точность моделей может сильно упасть, поэтому необходимо уметь находить баланс.

Ещё один приятный бонус — мы автоматически избавляемся от мультиколлинеарности признаков. Методы понижения размерности устроены так, что в первую очередь объединяют между собой наиболее коррелированные признаки.

На рисунке ниже представлен пример понижения размерности данных с двух признаков до одного. Используемый алгоритм — метод главных компонент (Principal Component Analysis, PCA). С помощью него находится обобщающая ось (компонента), которая содержит наибольшее количество информации о признаках. Наблюдения проецируются на новую ось, в результате чего получается новый признак, который является обобщением двух предыдущих. Обучение состоит в поиске оптимальной оси обобщения, которая содержит наибольший объём информации.

![image.png](attachment:image.png)
Основные алгоритмы понижения размерности:

- метод главных компонент (PCA),
- сингулярное разложение (SVD),
- латентное размещение Дирихле (LDA),
- латентный семантический анализ (LSA),
- t-SNE.

### АССОЦИАЦИЯ (БОНУС)

aссоциация (association) — это задача, в которой мы пытаемся найти правила и законы, по которым существует последовательность действий. Давайте сразу перейдём к примерам.

римеры использования: прогноз акций и распродаж, анализ товаров, покупаемых вместе, расстановка товаров на полках, анализ паттернов поведения на веб-сайтах.

Основные ассоциативные модели:

- Apriori,
- Eclat,
- FP Growth.