Профессия Data Science  
Блок 4. Введение в машинное обучение  
**ML-4. Обучение без учителя: кластеризация и техники понижения размерности**

---

## **✍ Оглавление:**

1. Введение
2. Введение в обучение без учителя. Базовая кластеризация
3. Метрики
4. Иерархическая кластеризация
5. EM-алгоритмы кластеризации
 6. Спектральная кластеризация

---

## **1. Введение**

Давайте вспомним нашу карту машинного обучения:

![image.png](attachment:image.png)

При обучении с учителем у нас всегда есть размеченные данные , т. е. «правильные ответы». В данном случае мы предсказываем бинарные значения (например, уйдёт клиент от сотового оператора или нет) или точные значения (например, прибыль, которую получит магазин). 

→ Если размеченных данных нет, невозможно использовать подходы обучения с учителем. В таком случае на помощь приходят методы обучения без учителя.

К обучению без учителя можно отнести:

- **Методы кластеризации**. Они позволяют разделить объекты на группы, внутри которых объекты максимально похожи друг на друга.
- **Методы понижения размерности**. С их помощью можно уменьшить число признаков, которые характеризуют объект. Обычно количество признаков уменьшают до двух-трёх для дальнейшей визуализации данных или использования при обучении моделей.
- **Методы ассоциации**. Они используются для того, чтобы найти правила и законы, по которым существует последовательность действий.

**Какие проблемы можно решать с помощью методов обучения без учителя?**

- **разделять данные на группы**, которые схожи по каким-то признакам.

- Если данных, с которыми вы работаете, много, то методы машинного обучения без учителя **позволяют уменьшить их объём**, убрав схожие данные и оставив только несколько представителей различных групп.

- Если разработанная модель плохо или долго обучается, причина может быть в том, что у объекта слишком много признаков. Методы уменьшения размерности **помогают уменьшить количество признаков**, которые характеризуют объект, и ускорить обучение модели.

- Некоторые методы кластеризации **помогают найти выбросы в данных**.

- Методы ассоциации **позволяют создавать шаблоны**. Это может помочь правильно расставить товары на полках в магазине или спрогнозировать продукты, которые могут купить вместе (например, если человек купил творог, то, возможно, ему будет нужна и сметана).

## **2. Введение в обучение без учителя. Базовая кластеризация**

**Кластеризация** позволяет разбить объекты на группы, которые называются **кластерами**.

→ Похожие объекты оказываются внутри одного кластера. Если же объекты разные, то они должны оказаться в разных кластерах.

Также у каждого кластера есть центроид.

**Центроид** — это центр масс кластера, или среднее значение координат объектов кластера.

## <center> **Алгоритм k-means** </center>

Рассмотрим один из наиболее популярных методов кластеризации — **k-means**.

**Идея алгоритма** состоит в том, что он разбивает множество элементов векторного пространства на заранее заданное пользователем число кластеров, а далее стремится минимизировать суммарное квадратичное отклонение объектов внутри кластера до центроида кластера.

**Недостатки алгоритма k-means**

- Необходимо заранее знать, на сколько кластеров мы хотим разделить данные. В учебных примерах известно, каким должно быть k, и определить это значение довольно легко. В реальности данные сложнее и трудно заранее предугадать, сколько кластеров мы хотим получить.

- Очевидно, что для объектов, которые в равной степени принадлежат к разным кластерам, алгоритм k-means будет отрабатывать плохо.

- Алгоритм чувствителен к выбросам в данных, так как выбросы сильно искажают местонахождение центроида кластера.

- Плохо работает на данных, которые образуют удлинённые кластеры, а также на кластерах неправильной формы.

- Так как в самом начале работы алгоритма центроиды определяются случайным образом, результат сильно зависит от того, какие начальные объекты будут определены как центры кластеров.

**Определение оптимального k для алгоритма k-means**

→ Для этого можно использовать несколько способов: метод локтя (elbow plot), статистику разрыва (Gap Statistic Method), коэффициент силуэта (Average Silhouette Method). Мы рассмотрим метод локтя и коэффициент силуэта.

**метода локтя**

Данный метод позволяет найти такое оптимальное число кластеров, чтобы добавление ещё одного кластера не приводило к лучшему моделированию данных.

Идея состоит в том, что в самом начале при добавлении новых кластеров качество моделирования улучшается. Эта область называется **недообученной (underfitting)**.

Дальнейшее добавление новых кластеров существенно не улучшает качество моделирования, а значит стоит прекратить их добавление. Данная область называется **переобученной (overfitting)**.

Чтобы определить оптимальное количество кластеров, используя метод локтя, необходимо нарисовать график, на котором по оси x будет отложено количество кластеров, а по оси y — инерция.

**Инерция** — это сумма квадратов расстояний объектов датасета до центра масс ближайшего к ним кластера.

![image-2.png](attachment:image-2.png)

Когда инерция быстро снижается, область считается недообученной, а далее, после «перегиба», идёт очень медленное снижение инерции, и область считается переобученной.

![image-3.png](attachment:image-3.png)

На графике видно, что линия напоминает локоть — отсюда и название метода. Оптимальное число кластеров находится как раз на «локтевом сгибе». 

→ Таким образом, метод локтя — это довольно простой метод, основанный на учёте евклидова расстояния между объектами кластера и центроидами.

Однако изгиб на графике также может быть представлен нечётко:

![image-4.png](attachment:image-4.png)

Если вдруг в ходе работы вы встречаете график, на котором невозможно найти «локоть», на помощь придёт коэффициент силуэта.

График силуэта, в отличие от графика локтя, имеет пиковый характер, поэтому его проще визуализировать и анализировать.

На графике ниже по оси x отложено количество кластеров, а по оси y — значение коэффициента силуэта. Можно отчётливо увидеть, что пик графика приходится на количество кластеров, равное 3:

![image-5.png](attachment:image-5.png)

Коэффициент силуэта показывает, насколько объект похож на объекты кластера, в котором он находится, по сравнению с объектами из других кластеров.

Силуэт варьируется от -1 до +1: чем выше значение, тем больше объекты похожи на объекты своего кластера и меньше похожи на объекты соседних кластеров.

Если силуэт равен 1, это означает, что кластеры хорошо разделены между собой и имеют высокую плотность внутри себя, например, такая кластеризация, где данные чётко разделены на три группы.

Если вам нужно найти оптимальное количество кластеров для датасета, наиболее наглядным графиком будет график коэффициента силуэта, поэтому можно сразу воспользоваться им. Но стоит помнить, что для построения данного графика нужно минимум два кластера, так как мы сравниваем объекты одного кластера с другим, наиболее близким кластером.

## **3. Метрики**

→ Ранее мы говорили, что кластеризация относится к методу машинного обучения без учителя и применяется, когда нет размеченных данных, а значит мы не знаем правильных ответов. Однако иногда размеченные данные всё же есть. В таком случае мы можем провести дополнительный анализ получившихся кластеров.

Существует ряд метрик, которые можно подсчитать, **если данные размечены**. Мы рассмотрим четыре метрики, которые больше всего помогут нам при анализе результатов кластеризации:

**1. Однородность кластеров (homogeneity score)**

Данная метрика, как и три последующих, может применяться, **только** когда есть размеченные данные.

Кластер считается однородным, если в нём содержатся объекты, принадлежащие только к одному кластеру.

Значение метрики уменьшается, если объединить два разных кластера, которые содержат непохожие объекты.

**2. Полнота кластера (completeness score)**

Значение данной метрики показывает, насколько кластер заполнен объектами, которые в действительности должны принадлежать к этому кластеру.

Результат кластеризации удовлетворяет требованиям полноты, если все элементы данных, принадлежащие к одному классу, при кластеризации оказались в одном кластере.

Значение метрики уменьшается, если эталонный кластер разделить на части. Например, если кластер, в котором находятся только собаки, разделить на два более мелких кластера, то метрика полноты у такой кластеризации будет меньше.

При максимальном заполнении кластеров схожими объектами полнота равняется 1 (когда есть один большой кластер со всеми собаками), при минимальном заполнении — 0.

**3. V-мера (V-Measure)**

Эта метрика — комбинация метрик полноты и однородности.

Значение V-меры варьируется от 0 до 1. Метрика будет равна 1 только в том случае, если кластеры будут однородными и полными одновременно.

→ Метрику однородности кластера при кластеризации можно сравнить с метрикой precision из задачи классификации: метрика однородности также показывает, насколько точно мы предсказали, к какому классу принадлежит объект. Метрика полноты так же, как метрика recall из задачи классификации, показывает, насколько мы наполнили кластеры теми объектами, которые должны принадлежать к данным кластерам.

Данную метрику можно вычислять, когда одновременно важны и наполненность кластеров, и их однородность.

**4. Индекс Рэнда**

Данный индекс сравнивает предсказанный датасет и размеченные данные и подсчитывает, сколько образовалось пар объектов, которые оказались в одном кластере (number of agreeing pairs), среди предсказанных и размеченных данных.

## **4. Иерархическая кластеризация**

## <center> **Иерархическая кластеризация** </center>

Принцип иерархической кластеризации основан на построении дерева (иерархии) вложенных кластеров.

При иерархической кластеризации строится **дендрограмма.**

**Дендрограмма**  — это древовидная диаграмма, которая содержит n уровней. Каждый уровень — это шаг укрупнения кластеров.

![image-6.png](attachment:image-6.png)

Чем больше схожесть между двумя объектами на дендрограмме, тем ниже высота внутренней ветки, которая идёт из объекта или кластера.

при иерархической кластеризации выделяют два подхода: **агломеративный и дивизионный**. В первом случае кластеры образуются снизу вверх, т. е. при объединении кластеров, а во втором — сверху вниз, в ходе деления крупных кластеров:

![image-7.png](attachment:image-7.png)

**Дивизионный (дивизивный) метод (divisive)** - Кластеры создаются при делении крупных кластеров.

**Агломеративный метод (agglomerative)** - Новые кластеры создаются в ходе объединения более мелких кластеров.

Для того чтобы построить дендрограмму, нужна **матрица сходства**, построенная на основе расстояний между кластерами.

В общем виде матрица сходства выглядит следующим образом:

![image-8.png](attachment:image-8.png)

 K — это мера сходства между двумя кластерами. По диагонали в матрице записаны единицы, так как объекты максимально похожи на самих себя.

Чтобы рассчитать данную матрицу, нужно знать расстояния между двумя кластерами. Существуют разные подходы его вычисления, и выбранный подход влияет на результат кластеризации.

**Преимущества и недостатки иерархической кластеризации**

![image-9.png](attachment:image-9.png)

- Можно построить дендрограмму и понять, как устроены данные.
- Работает на небольшом датасете.

![image-10.png](attachment:image-10.png)

- Необходимость выбора оптимального количества кластеров.
- Если данных много, дендрограмма становится большой и сложной для понимания.
- Может неравномерно разделять данные на кластеры.

## **5. EM-алгоритмы кластеризации**

В основе данного подхода лежит предположение, что любой объект принадлежит ко всем кластерам, но с разной вероятностью.

Один из примеров EM (Expectation-maximization)-алгоритма — это k-means-кластеризация, рассмотренная нами ранее.

Алгоритм состоит из двух шагов. Если рассмотреть их на примере k-means, то:

- на шаге E мы вычисляем, к какому кластеру будет относиться объект на основании расстояний до центроида;
- на шаге M мы пересчитываем центроиды кластеров.

Когда данные распределены в форме вытянутых эллипсов (см. график ниже), алгоритм k-means не справляется с кластеризацией. В качестве альтернативы можно взять ещё один из алгоритмов EM-кластеризации — модель гауссовой смеси (Gaussian Mixture Model, GMM), в котором данные описываются функцией Гаусса. Это значит, что мы можем выделить два параметра для описания кластеров: среднее значение и стандартное отклонение. Если рассмотреть двухмерный случай, то кластеры могут принимать любую эллиптическую форму, так как есть стандартное отклонение в обоих направлениях (по x и по y).

На шаге E данного алгоритма мы будем определять вероятность того, что объект принадлежит к кластеру, а на шаге M будем пересчитывать параметры функции Гаусса, чтобы подобрать наиболее подходящие кластеры для наших данных.

**Для каких задач используется EM-кластеризация?**

- GMM-кластеризацию можно использовать для кластеризации документов по разным категориям, основываясь на тегах, заголовках или содержимом документа. Для этого текст документа представляется в виде вектора, а далее используется в кластеризации. Если у разных документов похожие векторы, их можно объединить в одну группу.

- GMM можно использовать для сегментации изображений, например чтобы находить опухоли на снимках МРТ. Для этого мы представляем изображение в виде вектора и далее используем такое представление снимка в кластеризации.

- Используя GMM, можно анализировать временные ряды цен в периоды действия акций.

**Преимущества и недостатки EM-кластеризации:**

![image-9.png](attachment:image-9.png)

- Кластеры, которые находит этот алгоритм, могут принимать форму эллипса, а не ограничиваться окружностями. K-Means является частным случаем GMM.

- Если объект находится в середине двух перекрывающихся кластеров, то, в отличие от k-means, не нужно решать, к какому кластеру он принадлежит: объект может принадлежать к двум разным кластерам с разной вероятностью.

![image-10.png](attachment:image-10.png)

- Нужно задавать количество кластеров.

- Чувствителен к тому, с какой точки начинается алгоритм.

- Может медленно сходиться, т. е. искать, как оптимально описать кластеры.

##  **6. Спектральная кластеризация**