# МЕТОДЫ ОБУЧЕНИЯ БЕЗ УЧИТЕЛЯ

К обучению без учителя можно отнести:

- Методы кластеризации. Они позволяют разделить объекты на группы, внутри которых объекты максимально похожи друг на друга.

- Методы понижения размерности. С их помощью можно уменьшить число признаков, которые характеризуют объект. Обычно количество признаков уменьшают до двух-трёх для дальнейшей визуализации данных или использования при обучении моделей.

- Методы ассоциации. Они используются для того, чтобы найти правила и законы, по которым существует последовательность действий.

Примечание: В отличие от обучения с учителем где данные на вход подаются **размеченными** т.е с правильными ответами, то в данный метод данные приходят **неразмеченными**!

# Где применяются кластеризация и понижение размерности данных?

### Медицина:

- Один из примеров использования методов обучения без учителя — классификация антибиотиков по их антибактериальной активности.

- Также кластерный анализ можно использовать для того, чтобы различить разные типы тканей на трёхмерных снимках томографа.

### Обработка изображений:

Изображение состоит из пикселей, которые можно рассматривать как набор точек в многомерном пространстве. С помощью метода понижения размерности (PCA), можно преобразовать этот набор точек и оставить только первые компоненты, полученные после преобразования. В этих компонентах будет содержаться основная информация об изображении, но не будет шума. Таким образом мы улучшим качество изображения.

### Интернет:

Повышение релевантности ответов на поисковые запросы путём группировки сайтов по смысловым значениям запросов.

Кластеризация позволяет разбить объекты на группы, которые называются **кластерами**.

У каждого кластера также имеется **цитроид**.

Центроид — это центр масс кластера, или среднее значение координат объектов кластера. По сути это центр скопления кластера.

Как найти этот центроид?

Допустим, у нас есть маленький кластер, состоящий из четырёх точек. Каждая точка описывается только одним свойством — $x_1$, рост человека:

| Человек № | x₁, рост |
|-----------|----------|
| 1         | 180      |
| 2         | 170      |
| 3         | 181      |
| 4         | 160      |


Тогда для нахождения центроида мы берём все значения по оси x и считаем среднее:

$$
x_1 \, (\text{центроид кластера}) = \frac{180 + 170 + 181 + 160}{4} = 172
$$

Что делать, если данные описываются двумя свойствами, например, рост ($x_1$) и вес ($x_2$)?

Тогда у этих точек есть $x_1$- и $x_2$-координаты:

| Человек № | $x_1$, рост | $x_2$, вес |
|-----------|-------------|------------|
| 1         | 180         | 70         |
| 2         | 170         | 60         |
| 3         | 181         | 65         |
| 4         | 160         | 45         |

Для нахождения координат центроида мы последовательно находим:

- Координату $x_1$:  
  $$
  x_1 \, (\text{центроид}) = \frac{180 + 170 + 181 + 160}{4} = 172
  $$

- Координату $x_2$:  
  $$
  x_2 \, (\text{центроид}) = \frac{70 + 60 + 65 + 45}{4} = 60
  $$

Таким образом, координаты центроида — $(172, 60)$.

Если объект описывается бόльшим количеством признаков (например, рост ($x_1$), вес ($x_2$), объём талии ($x_3$) и т. д.), то для нахождения координат центроида мы последовательно, по каждому признаку (координате), ищем среднее значение.

# Алгоритм k-means

Рассмотрим один из наиболее популярных методов кластеризации — k-means.

Данный алгоритм был разработан ещё в 1950-х, но благодаря скорости своей работы он до сих пор остаётся востребованным.


**Идея алгоритма** состоит в том, что он разбивает множество элементов векторного пространства на заранее заданное пользователем число кластеров, а далее стремится минимизировать суммарное квадратичное отклонение объектов внутри кластера до центроида кластера.

Цель: Разделить данные на $k$ кластеров так, чтобы точки внутри одного кластера были максимально похожи друг на друга, а кластеры — максимально различны.

### Шаги алгоритма:

1. Инициализация:

Случайным образом выбираются $𝑘$ начальных центроидов (точки в пространстве данных).

2. Назначение точек кластерам:

Каждая точка данных назначается к кластеру, центр которого находится ближе всего (по метрике, обычно Евклидово расстояние).

3. Обновление центроидов:

Для каждого кластера вычисляется новый центроид как среднее всех точек, принадлежащих этому кластеру.

4. Повторение:

Шаги 2 и 3 повторяются, пока центроиды не перестанут изменяться или не будет достигнут критерий остановки (например, максимальное количество итераций).

Пример:

Для кластеризации данных о клиентах банка (например, возраст и доход) алгоритм выделит $𝑘$ групп, представляющих сегменты клиентов.

Особенности:
* Быстрый и простой в реализации.

* Зависит от выбора $𝑘$ (количество кластеров).

* Чувствителен к выбросам и начальному положению центроидов.

* Подходит для числовых данных.

| Название       | Принцип работы                                                                                                      | Подробности                                                                                                  |
|----------------|---------------------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------|
| **K-MEANS**    | Находит центроиды кластера как среднее значение координат.                                                          | [Документация](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html) <br> *(init='random')*                                                                    |
| **K-MEANS++**  | В классическом алгоритме k-means центроиды выбираются случайно, но это может приводить к долгой работе алгоритма. <br> Алгоритм k-means++ чуть «хитрее» и выбирает центроиды кластеров не совсем случайно. | [Документация](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html) <br> *(init='k-means++', по умолчанию в sklearn при запуске k-means используется алгоритм k-means++)* |
| **K-MEDIANS**  | На этапе поиска центроидов кластера находит не среднее значение координат, а медиану.                               | [Документация](https://github.com/UBC-MDS/KMediansPy)                                                                                           |
| **K-MEDOIDS**  | Работает так же, как k-medians, но медианой кластера будет не какая-то точка в кластере, а объект, который находится ближе всего к этим координатам медианы кластера. | [Документация](https://scikit-learn-extra.readthedocs.io/en/stable/generated/sklearn_extra.cluster.KMedoids.html)                                                                                           |
| **FUZZY C-MEANS** | Данный алгоритм разрешает нечётко присваивать кластеры. Каждый объект может принадлежать к разным кластерам с разной вероятностью. | [Документация](https://github.com/omadson/fuzzy-c-means)                                                                                           |


Что необходимо для запуска?

* Обязательно задать количество кластеров, на которые необходимо разделить данные.
Данные, т. е. параметры объектов (), которые мы будем передавать в виде матрицы наблюдений X.

* После этого можно запустить алгоритм и для каждого объекта в данных получить метку, к какому кластеру этот объект относится:

In [None]:
# импортируем нужный модуль k-means-кластеризации
from sklearn.cluster import KMeans

# инициализируем алгоритм, при желании задаём разные параметры для алгоритма
k_means = KMeans(n_clusters=2, init='k-means++', n_init=10, random_state=42)
X = df[["x1", "x2", "x3"]]

# обучаем модель на данных, передав матрицу наблюдений X
k_means.fit(X)
# получаем результаты кластеризации (список меток, к какому кластеру относится каждый объект из X)
labels = k_means.labels_

ValueError: could not convert string to float: 'x1'

Таким образом, мы обучили модель кластеризации. Если нужно определить, к какому из существующих кластеров будут отнесены новые данные из df2, то мы просто воспользуемся методом predict:

In [None]:
X_new = df[["x1", "x2", "x3"]]
k_means.predict(X_new)

Чтобы запустить алгоритм, необходимо задать параметры кластеризации:

- n_clusters — количество кластеров. По умолчанию — 8.

- init — способ инициализации центроидов. Есть две опции: random (выбирает центроиды случайным образом) и k-means++ (более «хитрый» алгоритм, который позволяет модели быстрее сходиться). По умолчанию используется k-means++.

- n_init — количество случайных инициализаций алгоритма k-means. В конце будут выбраны те результаты, которые имеют наилучшие значения критерия k-means. По умолчанию n_init = 10.

- max_iter — максимальное количество итераций алгоритма k-means при одном запуске. По умолчанию — 300.

- random_state — параметр, который определяет генерацию случайных чисел для инициализации центроида. Чтобы детерминировать случайность, нужно задать какое-нибудь число.

### Недостатки k-means:

1. Требуется задание числа кластеров (k) — сложно определить заранее.

2. Чувствительность к масштабированию — признаки с разными шкалами могут исказить результат.

3. Влияние выбросов — выбросы сильно смещают центроиды.

4. Не работает с кластерами произвольной формы — эффективен только для сферических кластеров.

5. Может застрять в локальном минимуме — результат зависит от инициализации центроидов.

6. Не применим к категориальным данным — работает только с числовыми признаками.

7. Неустойчивость к изменениям данных — небольшие изменения могут сильно повлиять на результаты.

Для сложных данных рекомендуется использовать альтернативы, например, DBSCAN или k-means++.

# Метрики (для оценки кластеров)

Оценка качества кластеризации осуществляется с использованием различных метрик. Их можно разделить на две категории: **внутренние метрики** (анализируют только структуру данных) и **внешние метрики** (требуют наличия истинных меток кластеров).

Примечание: кластеризация относится к методу машинного обучения без учителя и применяется, когда нет размеченных данных, а значит мы не знаем правильных ответов. Однако иногда размеченные данные всё же есть. В таком случае мы можем провести дополнительный анализ получившихся кластеров.

Существует ряд метрик, которые можно подсчитать, если данные размечены.

### Однородность кластеров (homogeneity score)

Данная метрика, как и три последующих, может применяться, только когда есть размеченные данные!

Кластер считается однородным, если в нём содержатся объекты, принадлежащие только к одному кластеру.

Значение метрики уменьшается, если объединить два разных кластера, которые содержат непохожие объекты.

In [None]:
# импортируем подсчёт метрики однородности кластеров
from sklearn.metrics.cluster import homogeneity_score

# передаем предсказанную информацию (к какому кластеру относятся объекты датасета) и правильные ответы
result_1 = homogeneity_score(labels_true=[0, 0, 1, 1], labels_pred=[0, 0, 1, 1])
print(result_1 > 1.0)
result_2 = homogeneity_score(labels_true=[0, 0, 1, 1], labels_pred=[1, 1, 0, 0])
print(result_2 > 1.0)

False
False


### Полнота кластера (completeness score)

Значение данной метрики показывает, насколько кластер заполнен объектами, которые в действительности должны принадлежать к этому кластеру.

Результат кластеризации удовлетворяет требованиям полноты, если все элементы данных, принадлежащие к одному классу, при кластеризации оказались в одном кластере.

Значение метрики уменьшается, если эталонный кластер разделить на части. Например, если кластер, в котором находятся только собаки, разделить на два более мелких кластера, то метрика полноты у такой кластеризации будет меньше.

In [None]:
# импортируем метрику полноты
from sklearn.metrics.cluster import completeness_score

# передаём предсказанную информацию (к какому кластеру относятся объекты датасета) и правильные ответы, подсчитываем метрику
result_1 = completeness_score(labels_true=[0, 0, 1, 1], labels_pred=[0, 0, 1, 1])
print(result_1)

1.0


# V-мера (V-Measure)

Эта метрика — комбинация метрик полноты и однородности.

Значение V-меры варьируется от 0 до 1. Метрика будет равна 1 только в том случае, если кластеры будут однородными и полными одновременно.

Примечание: Метрику однородности кластера при кластеризации можно сравнить с метрикой precision из задачи классификации: метрика однородности также показывает, насколько точно мы предсказали, к какому классу принадлежит объект. Метрика полноты так же, как метрика recall из задачи классификации, показывает, насколько мы наполнили кластеры теми объектами, которые должны принадлежать к данным кластерам.

Данную метрику можно вычислять, когда одновременно важны и наполненность кластеров, и их однородность.

Примечание: Если при расчёте метрики V-меры (V-measure) нужно придать больший вес учёту однородности кластеров (homogeneity), то весовой коэффициент β действительно должен быть меньше 1 (β < 1).

In [None]:
# импортируем метрику полноты
from sklearn.metrics.cluster import v_measure_score

# передаём предсказанную информацию (к какому кластеру относятся объекты датасета) и правильные ответы, подсчитываем метрику
result_1 = v_measure_score(labels_true=[0, 0, 1, 1], labels_pred=[0, 0, 1, 1])
print(result_1)

1.0


# Индекс Рэнда

Данный индекс сравнивает предсказанный датасет и размеченные данные и подсчитывает, сколько образовалось пар объектов, которые оказались в одном кластере (number of agreeing pairs), среди предсказанных и размеченных данных.

In [None]:
# импортируем из библиотеки sklearn подсчёт индекса Рэнда
from sklearn.metrics.cluster import rand_score

# передаём в rand_score размеченные и предсказанные данные
result_1 = rand_score(labels_true=[0, 0, 1, 1], labels_pred=[0, 0, 1, 1])
print(result_1)

1.0


| **МЕТРИКА**               | **ИНТЕРПРЕТАЦИЯ И ПРИМЕНЕНИЕ**                                                                                               | **ДИАПАЗОН ЗНАЧЕНИЙ**                 | **ФУНКЦИЯ В МОДУЛЕ METRICS БИБЛИОТЕКИ SKLEARN** |
|---------------------------|-----------------------------------------------------------------------------------------------------------------------------|----------------------------------------|-------------------------------------------------|
| **Однородность (homogeneity score)** | Показывает, насколько однородны получившиеся кластеры. Если в кластере оказались элементы из другого кластера, значение метрики уменьшается. | 1 — идеально однородные кластеры; 0 — кластеры максимально разнородные. | `homogeneity_score`                             |
| **Полнота (completeness score)** | Показывает, насколько кластер заполнен объектами, которые в действительности должны принадлежать этому кластеру.                    | 1 — идеальное значение; 0 — объекты, которые должны образовать один кластер, разделены на большее количество кластеров. | `completeness_score`                            |
| **V-мера (V-measure)**    | Комбинация метрик полноты и однородности кластеров.                                                                         | 1 — идеально полные и однородные кластеры; 0 — полученные кластеры неоднородные, количество кластеров слишком большое. | `v_measure_score`                               |
| **Индекс Ранда**          | Показывает долю объектов датасета, которые мы правильно определили в кластере.                                              | 1 — все объекты в предсказанном кластере попали в правильные кластеры.            | `rand_score`                                    |

In [None]:
round(homogeneity_score(labels_true=[1,2,2,1,0], labels_pred=[1,0,2,1,2]), 2)

0.74

# Иерархическая кластеризация

Принцип иерархической кластеризации основан на построении дерева (иерархии) вложенных кластеров.

При иерархической кластеризации строится дендрограмма. Её можно сравнить с древом языков мира, на котором языки объединяются в различные семьи, укрупняясь и образуя всё более обширные языковые ветви:

<img src='Images/ml_1.png'>

Дендрограмма  — это древовидная диаграмма, которая содержит $n$ уровней. Каждый уровень — это шаг укрупнения кластеров.

Для того чтобы построить дендрограмму, нужна **матрица сходства**, построенная на основе расстояний между кластерами.

<img src='Images/ml_2.png'>

Иерархическая кластеризация используется для задач, таких как:

1. Анализ структуры данных (например, генетическое сходство).

2. Группировка документов (например, текстовая аналитика).

3. Компьютерное зрение (кластеризация изображений).

4. Сегментация потребителей в маркетинге.

5. Классификация и анализ рисков в финансах.

6. Анализ генетических данных.

7. Сегментация временных рядов.

Она позволяет выявить иерархические связи и не требует заранее заданного числа кластеров.

### Преимущества и недостатки иерархической кластеризации

Преимущества:

- Можно построить дендрограмму и понять, как устроены данные.

- Работает на небольшом датасете.

Недостатки:

- Необходимость выбора оптимального количества кластеров.

- Если данных много, дендрограмма становится большой и сложной для понимания.

- Может неравномерно разделять данные на кластеры.

# EM (Expectation-maximization)-алгоритм

Expectation-Maximization (EM) — это итеративный алгоритм, используемый для нахождения скрытых (латентных) параметров статистической модели, когда данные имеют некоторую неопределенность или неполноту.

Основные шаги:
1. E-шаг (Expectation): Вычисляет ожидание скрытых переменных, используя текущие параметры модели.

2. M-шаг (Maximization): Максимизирует функцию правдоподобия, обновляя параметры модели.

Применение:

- Кластеризация (например, Gaussian Mixture Models),
- Оценка параметров при пропущенных данных,
- Восстановление скрытых переменных в статистических моделях.

В качестве альтернативы можно взять ещё один из алгоритмов EM-кластеризации — модель гауссовой смеси (Gaussian Mixture Model, GMM), в котором данные описываются функцией Гаусса.

Применение:

- GMM-кластеризацию можно использовать для кластеризации документов по разным категориям, основываясь на тегах, заголовках или содержимом документа. Для этого текст документа представляется в виде вектора, а далее используется в кластеризации. Если у разных документов похожие векторы, их можно объединить в одну группу.
- GMM можно использовать для сегментации изображений, например чтобы находить опухоли на снимках МРТ. Для этого мы представляем изображение в виде вектора и далее используем такое представление снимка в кластеризации.

Преимущества:

- Работает с неполными данными.
- Подходит для сложных моделей.

Недостатки:

- Может застревать в локальных максимумах.
- Чувствителен к начальным условиям.

### Как запустить EM-кластеризацию?

Запустим алгоритм на датасете покемонов и попробуем кластеризовать их по силе атаки и уровню защиты:

In [21]:
# импортируем библиотеки numpy и sklearn
import numpy as np
from sklearn.mixture import GaussianMixture
import pandas as pd

# загрузим данные
df = pd.read_csv('Data/pokemon.csv')

# добавляем третий признак - скорость покемона, а алгоритм такой же
X = df[['Attack', 'Defense']]

gm_clustering = GaussianMixture(n_components=3, random_state=42)

# обучаем модель 
gm_clustering.fit(X)

# для матрицы X получаем предсказания, к какому кластеру принадлежат объекты
gm_prediction = gm_clustering.predict(X)

display(gm_prediction)

array([0, 2, 0, 0, 2, 1, 0, 1, 1, 1, 0, 1, 1, 0, 2, 0, 1, 2, 2, 1, 0, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 2, 0, 1, 2, 1, 1, 0, 1, 2, 2, 2, 2, 2, 2,
       0, 2, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 2, 1, 0, 1, 0,
       0, 2, 1, 2, 2, 1, 0, 1, 2, 0, 1, 0, 0, 1, 2, 2, 2, 0, 1, 2, 2, 2,
       2, 1, 2, 0, 1, 1, 2, 2, 0, 2, 0, 2, 1, 0, 2, 2, 2, 2, 2, 1, 1, 1,
       0, 2, 0, 2, 1, 1, 0, 0, 2, 1, 2, 1, 0, 2, 2, 2, 1, 1, 0, 1, 1, 2,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 2, 1, 2, 2, 0, 2, 2, 0,
       0, 1, 2, 0, 1, 0, 2, 0, 0, 0, 0, 1, 1, 2, 2, 2, 1, 2, 1, 1, 0, 2,
       2, 2, 2, 2, 1, 0, 2, 1, 2, 0, 2, 2, 1, 2, 0, 1, 0, 2, 2, 0, 0, 0,
       2, 1, 0, 0, 0, 0, 2, 1])

Основные параметры, которые необходимо задать для запуска алгоритма GaussianMixture:

- n_components — количество кластеров.

- random_state — так как в алгоритме есть случайность при инициализации, то для воспроизводимости результатов от запуска к запуску следует передать какое-то число.

# Спектральная кластеризация

Данный тип кластеризации использует собственные значения (спектр) матрицы сходства данных, чтобы снизить размерность данных и далее провести кластеризацию.

Алгоритм спектральной кластеризации состоит из четырёх шагов:

1. На первом шаге мы создаём граф, количество вершин которого равняется количеству объектов в датасете.

Рёбра графа, соединяющие две вершины, будут содержать информацию о схожести двух объектов, находящихся в вершине.

Информацию о схожести вершин записываем в матрицу, строки и столбцы которой — это вершины, а в ячейку записана схожесть двух вершин:

<img src='Images/ml_3.png'>

2. После этого проводим некоторые математические преобразования этой матрицы. Это нужно для того, чтобы далее мы могли описать вершину графа не шестью признаками, а всего одним:

<img src='Images/ml_4.png'>

3. Далее уменьшаем размерность данных.

Сейчас одна вершина описывается шестью признаками, а значит, если проводить кластеризацию этих данных, кластеризация будет в шестимерном пространстве. С помощью подходов понижения размерности мы можем уменьшить количество признаков, описывающих вершину:

<img src='Images/ml_5.png'>

4. Теперь одна вершина описывается одним признаком.

Далее проводим кластеризацию матрицы с уменьшенной размерностью.

Основываясь на значениях признаков v2, мы можем определить вершины 1, 2 и 3 в один кластер, а вершины 4, 5, 6 — в другой. То, что разные вершины стали принадлежать к разным кластерам, можно визуализировать следующим образом:

<img src='Images/ml_6.png'>

Таким образом, мы «разрезаем» исходный граф на два более маленьких графа. Каждый подграф — это отдельный кластер. Мы разрезаем граф так, чтобы похожие вершины оказываются в одном подграфе, а непохожие — в другом.

### Для каких задач используется спектральная кластеризация?

Данный метод широко используется для сегментации изображений. В данном случае вершины графа — это пиксели изображения.

Например, если у нас есть зашумлённая картинка, на которой нужно сегментировать изображение и выделить разные кластеры, то спектральная кластеризация отлично подойдёт для такой задачи.

### Преимущества и недостатки спектральной кластеризации

Преимущества:

- Подходит для кластеризации данных с большим количеством признаков, так как использует технику понижения размерности.
- Эффективна для кластеризации разрежённых данных.
- Хорошо работает на практически любых распределениях данных.

Недостатки:

- Нужно заранее задавать количество кластеров.
- Подходит для задач сбалансированной классификации, то есть количество точек между кластерами не сильно отличается.

# Кластеризация на основе плотности

Такая кластеризация находит в датасете области с высокой плотностью и на их основе образует кластеры. Редкие объекты, которые находятся в отдалении от других данных и для которых нужен отдельный кластер, считаются **шумом**.

При кластеризации на основе плотности нам не нужно задавать количество кластеров — алгоритм сам определяет оптимальное число. Такой алгоритм кластеризации отлично справляется с выбросами и с данными произвольной формы.

Наиболее популярный алгоритм кластеризации на основе плотности — DBSCAN.

### Данный алгоритм применим, если:

- перед вами стоит задача с данными сложной формы, например выделение районов на карте.
- в данных большое количество выбросов, например данные медицинских анализов пациентов.

### Преимущества алгоритма DBSCAN:

- В отличие от k-means, не нужно задавать количество кластеров — алгоритм сам определит оптимальное!
- Алгоритм хорошо работает с данными произвольной формы.
- DBSCAN отлично справляется с выбросами в датасетах.

Основные шаги работы:

1. Определение плотности: Для каждой точки проверяется, сколько других точек находится в пределах заданного радиуса (ε).

- Если точек больше или равно минимальному порогу (min_samples), точка становится ядром кластера.
- Если точек меньше порога, точка считается шумом.

2. Формирование кластеров:

- Для каждой точки ядра присоединяются все точки, находящиеся в её окрестности (ε).
- Процесс продолжается, объединяя плотные области в один кластер.

3. Идентификация шума: Точки, не относящиеся ни к одному кластеру, помечаются как шумовые.

### Для каких задач используется DBSCAN?

Данный алгоритм довольно популярный — областей его применения много.

- Можно использовать DBSCAN для разработки системы рекомендаций в магазине. Если мы точно не знаем, на какие группы можно разделить пользователей, то на основе того, что покупают люди, можно провести DBSCAN-кластеризацию.

Например, два покупателя оказались в одном кластере: один купил печенье, книгу и плед, а второй — только книгу и плед. На основе этой информации мы можем порекомендовать второму покупателю купить ещё и печенье.

- Данный алгоритм успешно справляется с поиском выбросов в данных. Рассмотренные ранее алгоритмы кластеризации, в отличие от DBSCAN, не выделяют выбросы в отдельные объекты.

Это свойство алгоритма можно использовать для поиска отклонений медицинских показателей пациентов или для анализа финансового мошенничества.

- Часто DBSCAN применяют для кластеризации геоданных, так как он может выделять данные сложной формы.

Например, на основе статистики заказов такси в пятничный вечер с помощью кластеризации можно выделить районы города, куда можно поехать отдыхать в преддверии выходных.

### Преимущества и недостатки DBSCAN

Преимущества:

- Не нужно задавать количество кластеров.
- Устойчив к шуму и выбросам, может находить выбросы в данных.
- Способен найти кластеры любой геометрической формы.

Недостатки:

- Не может качественно кластеризовать наборы данных с большой разницей в плотности.
- Равноудалённые от двух кластеров объекты могут быть отнесены к тому кластеру, с которого алгоритм начал работать, что не всегда оказывается верным.
- Бывает сложно подобрать eps.

| Алгоритм                     | Принцип работы                                                                                       | Преимущества                                                                                                                                                          | Недостатки                                                                                                                                                           |
|------------------------------|-----------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Иерархическая кластеризация  | Строит дерево (иерархию) вложенных кластеров.                                                      | - Позволяет построить дендрограмму кластеризации и тем самым лучше проанализировать данные;                                                                          | - Необходимо выбирать оптимальное количество кластеров;                                                                                                            |
|                              |                                                                                                     | - Позволяет найти иерархию в данных.                                                                                                                                | - Неравномерное распределение кластеров;                                                                                                                           |
|                              |                                                                                                     |                                                                                                                                                                     | - Работает на небольшом датасете.                                                                                                                                  |
| EM-кластеризация (модель гауссовой смеси) | Предполагает, что любое наблюдение принадлежит ко всем кластерам, но с разной вероятностью.                           | - Хорошо работает на данных в форме эллипса, окружности, на перекрывающихся данных;                                                                                | - Необходимо выбирать оптимальное количество кластеров;                                                                                                            |
|                              |                                                                                                     | - Устойчива к шуму в данных;                                                                                                                                        | - Работает долго при неудачном выборе кластеров.                                                                                                                   |
|                              |                                                                                                     | - Работает быстро при удачном выборе начальных кластеров.                                                                                                           |                                                                                                                                                                     |
| Спектральная кластеризация   | Снижает размерность данных, а затем применяет более простые алгоритмы кластеризации, например k-means. | - Подходит для кластеризации данных с большим количеством признаков;                                                                                                | - Необходимо выбирать оптимальное количество кластеров;                                                                                                            |
|                              |                                                                                                     | - Эффективна для кластеризации разреженных данных;                                                                                                                  | - Подходит для задач сбалансированной классификации, то есть количество точек между кластерами не сильно отличается.                                               |
|                              |                                                                                                     | - Хорошо работает на практических любых распределениях данных.                                                                                                      |                                                                                                                                                                     |
| Кластеризация на основе плотности | Находит в датасете области с высокой плотностью и, основываясь на этом, образует кластеры.                         | - Нет необходимости выбирать оптимальное количество кластеров;                                                                                                     | - Не способен качественно кластеризовать наборы данных с большой разницей в плотности;                                                                             |
|                              |                                                                                                     | - Устойчива к шуму и выбросам.                                                                                                                                      | - Иногда бывает сложно подобрать параметры для моделирования.                                                                                                      |


# Визуализация результатов кластеризации

В зависимости от количества признаков, описывающих объект, можно выделить две разновидности визуализации: 2D и 3D.

Если объект описывается двумя признаками, например рост и вес, эти значения легко распределить по осям X и Y. Если прибавляется ещё один признак, понадобится дополнительная ось Z, и график будет трёхмерным. В зависимости от алгоритма кластеризации мы можем просто визуализировать кластеры или же нарисовать дендрограмму.

<img src='Images/ml_7.png'>

Cводная таблица визуализации:

| **Способ визуализации**       | **Кластеризация**                                                               | **Цели визуализации**                                                                                               |
|-------------------------------|----------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------|
| **2D-визуализация (Диаграмма рассеяния)** | Любые алгоритмы, если удаётся отобразить двухмерное пространство признаков.          | Быстро визуально оценить результаты кластеризации.                                                                 |
| **2D-визуализация (Seaborn Pair)**        | Любые алгоритмы кластеризации, если удаётся отобразить признаки.                     | Понять размеры получившихся кластеров, их распределение и плотность, а также отношения объектов внутри кластеров.  |
| **2D-визуализация (Дендрограмма)**        | Иерархическая кластеризация на двухмерных пространствах признаков.                   | Визуализировать, как данные разбиваются на кластеры, включая связь между объектами и их принадлежность к кластерам. |
| **2D-визуализация (Silhouette)**          | K-means, GMM и иерархическая кластеризация. Требуется для проверки качества кластеров. | Понять, как хорошо данные разбиваются на кластеры, и определить возможные проблемы (перекрытия, изоляция кластеров).|
| **3D-визуализация (Matplotlib)**          | Любые алгоритмы кластеризации, отображающие трёхмерное пространство признаков.        | Быстро визуально оценить результаты кластеризации.                                                                 |
| **3D-визуализация (Plotly)**              | Любые алгоритмы кластеризации, отображающие трёхмерное пространство признаков.        | Быстро визуально оценить результаты кластеризации с интерактивными графиками.                                      |