Цель занятия — изучить алгоритм DBSCAN.

## Визуальная демонстрация алгоритма

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>DBSCAN (Density-Based Spatial Clustering of Applications with Noise)</b> — это алгоритм кластеризации данных, который определяет кластеры на основе плотности точек в пространстве данных.</div>

В отличие от других алгоритмов кластеризации, таких как k-средних или иерархическая кластеризация, DBSCAN может обнаруживать кластеры произвольной формы и способен обрабатывать шумовые точки.

Принцип работы DBSCAN:

1.    Определение окрестности точки. Для каждой точки в пространстве данных определяется окрестность, состоящая из всех точек, находящихся в заданном радиусе от данной точки.
2.    Определение основной точки. Если в окрестности точки находится не менее min_samples точек (включая саму точку), то эта точка считается основной точкой. На рисунке ниже основные точки обозначены красным цветом.
3.    Формирование кластеров. Начиная с основных точек, алгоритм идентифицирует связанные основные точки и объединяет их в кластеры. Две точки считаются связанными, если есть путь от одной точки к другой через серию соседних точек, и каждая точка на этом пути также является основной.
4.    Обработка граничных точек. Граничные точки находятся в окрестности основной точки, но сами не являются основными. Они могут принадлежать кластеру, если связаны с основной точкой, но также могут оставаться неразмеченными. На рисунке ниже граничные точки обозначены синим цветом.
5.    Идентификация шумовых точек. Точки, которые не являются ни основными, ни граничными, считаются шумовыми и не принадлежат ни одному кластеру. На рисунке ниже шумовые точки обозначены серым цветом.

DBSCAN — один из популярных алгоритмов кластеризации, особенно при работе с большими наборами данных и кластерами произвольной формы.

Визуальная демонстрация алгоритма представлена на рисунках ниже.

<img src='../static/img/module_7_15.png'>

<img src='../static/img/module_7_16.png'>

## Подготовка данных для алгоритма

Общий процесс подготовки данных для использования с алгоритмом DBSCAN:

1.    Масштабирование данных. Перед применением DBSCAN рекомендуется масштабировать признаки входных данных, особенно если признаки имеют различные шкалы или единицы измерения. Для приведения к общей шкале обычно используют стандартизацию или нормализацию данных.
2.    Удаление выбросов. Выбросы могут оказывать влияние на результаты DBSCAN, поскольку алгоритм опирается на плотность точек. Перед применением DBSCAN рекомендуется удалять или корректировать выбросы.
3.    Работа с категориальными переменными. Если в данных есть категориальные переменные, требуется преобразовать их в числовой формат. Для этого можно использовать One-Hot Encoding или Label Encoding.
4.    Обработка пропущенных значений. Если в данных есть пропущенные значения, в зависимости от контекста данных нужно либо удалить строки или столбцы с пропущенными значениями, либо заполнить их средними или медианными значениями.
5.    Отбор признаков. Если признаков много, важно выбрать из них наиболее релевантные и информативные. Для этого можно применять методы отбора признаков или снижения размерности данных, такие как анализ главных компонент (PCA), или методы выбора признаков на основе значимости.
6.    Обработка корреляций. Если между признаками есть сильные корреляции, это может повлиять на работу DBSCAN. Рекомендуется проанализировать корреляции и решить, какие признаки оставить, исключить или объединить в один признак.
7.    Учёт особенностей данных. Если в данных есть особенности, такие как выборки с несбалансированным размером кластеров или шум, следует учесть эти особенности при выборе параметров DBSCAN и интерпретации результатов.


## Процесс обучения

Процесс обучения алгоритма DBSCAN состоит из следующих шагов:

1.    Задание параметров. Прежде чем приступить к обучению DBSCAN, необходимо задать параметры алгоритма. Главные параметры:
   -     eps (epsilon) — радиус окрестности, в пределах которой точки считаются соседними;
   -     min_samples — минимальное количество точек в окрестности, необходимое для определения основной точки.

2.    Значения этих параметров необходимо выбрать в соответствии с характеристиками данных и требуемым уровнем плотности точек.
3.    Вычисление плотности. Алгоритм DBSCAN анализирует плотность точек в пространстве данных. Для каждой точки вычисляется число соседей, находящихся в пределах заданного радиуса eps.

4.    Определение типов точек. В зависимости от числа соседей каждая точка может быть классифицирована:
   -     как основная точка (core point) — точка, для которой число соседей в окрестности eps превышает или равно min_samples;
   -     граничная точка (border point) — точка, для которой число соседей в окрестности eps меньше min_samples, но она находится в окрестности основной точки;
   -     шумовая точка (noise point) — точка, для которой число соседей в окрестности eps меньше min_samples, и она не находится в окрестности основной точки.
5.    Формирование кластеров. DBSCAN идентифицирует связанные основные точки и объединяет их в кластеры. Две точки считаются связанными, если есть путь от одной точки к другой через серию соседних точек, и каждая точка на этом пути также является основной. В результате формируются кластеры различной формы и размеров.
6.    Маркировка граничных точек. Граничные точки, которые не принадлежат ни одному кластеру, могут быть отмечены соответствующим образом или оставаться без метки.

Важно: DBSCAN не требует явного обучения или итераций, как в случае с алгоритмами, основанными на центроидах (например, k-средних). Он основывается на анализе плотности точек и обнаружении связанных областей в данных. Поэтому процесс работы DBSCAN не включает фазы обучения и тестирования, а включает только параметризацию и применение алгоритма к данным.

## Оценка качества алгоритма

Оценить качество работы алгоритма DBSCAN можно с помощью перечисленных ниже метрик и методов.

<b>Коэффициент силуэта (silhouette coefficient).</b> Как и в случае с алгоритмом k-средних, коэффициент силуэта можно использовать для оценки качества кластеризации с помощью DBSCAN. Он измеряет, насколько каждая точка данных соответствует своему кластеру по сравнению с другими кластерами.

Значения коэффициента силуэта варьируются от -1 до 1, где значение ближе к 1 указывает на хорошую кластеризацию, ближе к -1 — на неправильную кластеризацию. Близость к 0 означает, что точки могут находиться на границе между кластерами.

<b>Количество обнаруженных кластеров</b>. DBSCAN не требует заранее задавать число кластеров. Однако количество обнаруженных кластеров можно использовать в качестве метрики для оценки работы алгоритма: слишком большое или слишком маленькое число кластеров может быть признаком неправильной кластеризации или недостаточной гибкости алгоритма.

<b>Визуализация результатов</b>. Визуализация кластеров, полученных с помощью DBSCAN, может быть полезным способом оценки их качества. Аналогично k-средним, можно построить диаграмму рассеяния и окрасить точки данных в соответствии с принадлежностью к кластерам. Визуальное исследование помогает определить, насколько хорошо алгоритм обнаруживает плотные области данных и как обрабатывает шумовые точки.

<b>Отношение шума к кластерам</b>. Работу DBSCAN также можно оценивать по отношению шумовых точек к обнаруженным кластерам: слишком большое количество шумовых точек может быть признаком плохой кластеризации или неправильно выбранных параметров алгоритма.

<b>Важно</b>: DBSCAN, в отличие от k-средних, может обнаруживать выбросы как шумовые точки, и его оценка может отличаться в зависимости от природы данных и параметров алгоритма.

## Применение алгоритма

Алгоритм DBSCAN имеет широкий спектр применений в различных областях:

- <b>    Кластерный анализ и сегментация данных</b>. DBSCAN используют для кластеризации данных и сегментации на группы схожих объектов. Он позволяет обнаруживать плотные области в данных и отделять их от разрежённых областей. DBSCAN применяют для сегментации географических данных, обнаружения сообществ в социальных сетях или анализа покупательского поведения.
- <b>    Обнаружение выбросов и аномалий.</b> DBSCAN можно использовать для обнаружения выбросов и аномалий в данных. Шумовые точки, которые не принадлежат ни одному кластеру, можно идентифицировать как выбросы или аномалии. DBSCAN применяют для обнаружения аномальных транзакций в финансовых данных или необычных медицинских записей.
- <b>    Геоинформационные системы</b>. В геоинформационных системах DBSCAN можно использовать для кластеризации пространственных данных, таких как точки на карте, географические регионы или маршруты. DBSCAN применяют для анализа распределения объектов на карте, выявления географических паттернов или планирования оптимальных маршрутов.
- <b>    Сегментация изображений</b>. DBSCAN можно использовать для сегментации изображений, разделения пикселей на группы в соответствии с их пространственным расположением. DBSCAN применяют в компьютерном зрении для выделения объектов на изображении или сегментации текстурных областей.
- <b>    Рекомендательные системы</b>. DBSCAN можно использовать в рекомендательных системах для группировки пользователей или элементов на основе их пространственной близости или схожести. Это позволяет создавать персонализированные рекомендации или группировать похожие элементы в рекомендациях.
- <b>    Анализ сетей и связей</b>. DBSCAN можно применять для анализа структуры сетей или связей между объектами. Например, он позволяет выявлять сообщества в социальных сетях.

Это только несколько примеров областей применения алгоритма DBSCAN. Его можно использовать во многих других сферах, где требуется кластеризация.

## Плюсы и минусы алгоритма

<b>Плюсы:</b>

 -   Способность обнаруживать кластеры произвольной формы. DBSCAN основывается на плотности точек данных и может определить плотные области, независимо от их формы.
 -   Работа с шумом и выбросами. DBSCAN может эффективно обрабатывать шумовые точки и выбросы. Он идентифицирует точки, которые не принадлежат ни одному кластеру, и относит их к категории шума. Это делает DBSCAN устойчивым к выбросам и способным обрабатывать данные с неопределёнными или неструктурированными областями.
 -   Не требует предварительной спецификации числа кластеров. DBSCAN не требует заранее задавать число кластеров, в отличие от некоторых других алгоритмов кластеризации. Это позволяет ему автоматически определять число кластеров на основе плотностной структуры данных.
 -   Гибкость в определении плотности. DBSCAN позволяет гибко настраивать параметры, определяющие плотность кластеров. Можно задать радиус окрестности точки (epsilon) и минимальное количество точек в окрестности (min_samples), чтобы определить, что точка является ядром кластера. Это позволяет адаптировать DBSCAN под различные плотностные характеристики данных.
 -   Эффективность для больших объёмов данных. DBSCAN может быть эффективным для обработки больших объёмов данных. Он использует индексацию и структуры данных, такие как деревья, для ускорения поиска ближайших соседей и определения плотных областей.
 -   Способность к обнаружению выбросов и аномалий. Благодаря способности DBSCAN идентифицировать шумовые точки его можно использовать для обнаружения выбросов и аномалий в данных. Это полезно во многих областях: обнаружение мошенничества, анализ аномалий или медицинская диагностика.


<b>Минусы:</b>

-    Чувствительность к выбору параметров. DBSCAN требует настройки двух основных параметров: радиуса окрестности (epsilon) и минимального количества точек в окрестности (min_samples). Выбор подходящих значений этих параметров может быть непростой задачей и требует предварительного анализа данных или итеративного подбора. Неправильный выбор параметров может привести к неправильной классификации или объединению кластеров.
-    Сложность работы с данными разной плотности. Если плотности кластеров значительно различаются, у DBSCAN может возникнуть сложность в правильном определении радиуса окрестности (epsilon) и минимального количества точек в окрестности (min_samples) для каждого кластера.
-    Зависимость от плотности данных. В областях, где плотность данных существенно меняется, алгоритму DBSCAN может быть трудно корректно определить границы кластеров.
-    Сложности при работе с высокоразмерными данными. DBSCAN сложно работать с высокоразмерными данными, так как пространство высокой размерности может быть разрежённым. Также алгоритм может столкнуться с проблемой при определении плотных областей. Это может привести к неправильной кластеризации или потере информации.
-    Отсутствие поддержки иерархической кластеризации. DBSCAN не поддерживает иерархическую кластеризацию, то есть невозможно получить иерархию кластеров с различными уровнями детализации.


Алгоритм DBSCAN реализован в библиотеке scikit-learn и доступен через класс DBSCAN из модуля sklearn.cluster. Для использования DBSCAN необходимо предварительно импортировать этот класс.

Основные параметры DBSCAN:

-    eps — радиус окрестности, в пределах которой должно находиться минимальное количество точек, чтобы рассматриваемая точка была считана основной (core point). Это обязательный параметр, который следует выбирать с учётом особенностей данных.
-    min_samples — минимальное количество точек, которые должны находиться в радиусе окрестности (eps), чтобы рассматриваемая точка была считана основной (core point). По умолчанию min_samples=5.
-    metric — используемая метрика для измерения расстояния между точками. Может принимать различные значения, такие как euclidean (евклидово расстояние), manhattan (манхэттенское расстояние) и другие. По умолчанию metric=euclidean.
-    algorithm — алгоритм, используемый для выполнения DBSCAN. Может принимать значения auto, ball_tree, kd_tree или brute. По умолчанию algorithm=auto, что позволяет автоматически выбрать наиболее эффективный алгоритм на основе входных данных.
-    leaf_size — размер листа, используемый в алгоритмах ball_tree или kd_tree. Этот параметр влияет на скорость построения дерева и использование памяти. По умолчанию leaf_size=30.
-    metric_params — дополнительные параметры, которые можно передать используемой метрике. Например, для метрики Минковского (Minkowski) можно указать значение параметра p через metric_params=p: 2.

Класс DBSCAN также имеет методы fit(X) — для обучения модели на данных X, fit_predict(X) — для кластеризации данных и присвоения меток кластеров, а также методы fit_transform(X) и transform(X) — для преобразования данных X в матрицу расстояний до основных точек и кластеризации соответственно.

---

Давайте резюмируем.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) — это алгоритм кластеризации, который основывается на плотности данных.

Основные преимущества DBSCAN:

-    Способность обнаруживать кластеры произвольной формы.
-    DBSCAN может успешно обрабатывать кластеры произвольной формы, включая кластеры с несферическими или неравными размерами.
-    Не нужно указывать количество кластеров.
-    DBSCAN автоматически определяет количество кластеров на основе плотности данных, что делает его особенно полезным при отсутствии заранее известной информации о количестве кластеров.
-    Устойчивость к выбросам.
-    DBSCAN способен обнаруживать и отделять выбросы (точки, не принадлежащие какому-либо кластеру) от кластеров, что помогает в обработке шумных данных.

Некоторые ограничения DBSCAN:

 -   Зависимость от параметров.
 -   DBSCAN требует задания двух параметров: радиуса окрестности (eps) и минимального числа точек в окрестности (min_samples). Неправильно выбранные значения этих параметров могут привести к нежелательным результатам.
 -   Чувствительность к плотности данных.
 -   DBSCAN может столкнуться с трудностями, когда между кластерами есть значительная разница в плотности. В таких случаях может быть сложно определить подходящие значения параметров.
 -   Высокая вычислительная сложность.
 -   DBSCAN может быть требовательным к вычислительным ресурсам при работе с большими объёмами данных, особенно если данные не были предварительно отфильтрованы или преобразованы.

В целом, DBSCAN — мощный инструмент для кластеризации данных, особенно когда форма и количество кластеров неизвестны заранее и когда важны выделение выбросов и обработка шумных данных. Однако правильный выбор параметров и управление вычислительной сложностью могут потребовать дополнительных усилий и экспериментов.