<a href="https://colab.research.google.com/github/pa2e37/dap-2024/blob/main/les08/rep8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import DBSCAN


def load_data() -> pd.DataFrame:
    iris = load_iris()
    return pd.DataFrame(iris.data, columns=iris.feature_names)


def scale_data(X: pd.DataFrame) -> np.ndarray:
    return StandardScaler().fit_transform(X)


def apply_dbscan(X_scaled: np.ndarray, eps: float = 0.5, min_samples: int = 5) -> np.ndarray:
    model = DBSCAN(eps=eps, min_samples=min_samples)
    return model.fit_predict(X_scaled)


def plot_clusters(X_scaled: np.ndarray, labels: np.ndarray) -> None:
    plt.figure(figsize=(8, 6))
    plt.scatter(
        X_scaled[:, 0],
        X_scaled[:, 1],
        c=labels,
        cmap='rainbow',
        s=50
    )

    plt.xlabel('Sepal Length (scaled)')
    plt.ylabel('Sepal Width (scaled)')
    plt.title('DBSCAN Clustering of Iris Dataset')
    plt.show()


def main():
    # 1. Загрузка данных
    X = load_data()

    # 2. Нормализация
    X_scaled = scale_data(X)

    # 3. Кластеризация
    clusters = apply_dbscan(X_scaled, eps=0.5, min_samples=5)

    # 4. Визуализация
    plot_clusters(X_scaled, clusters)

    # 5. Результаты
    print("Уникальные кластеры, найденные DBSCAN:", np.unique(clusters))
    print("Кластер '-1' — это шум (точки, не отнесённые к кластерам).")


if __name__ == "__main__":
    main()

Ответы на вопросы


1. В чем заключается задача кластеризации?

Кластеризация — это процесс разделения объектов на группы (кластеры), где:

элементы внутри одного кластера максимально похожи,

элементы из разных кластеров имеют значительные отличия.

Формально:
Есть множество объектов X = {x1, x2, …, xn} и метрика расстояния d(xi, xj).
Необходимо найти разбиение на K подмножеств C1, C2, …, Ck, оптимизирующее некоторый критерий компактности или разделимости.

Главное свойство: обучение проходит без меток, то есть без учителя.

2. Для чего применяется кластеризация?

Кластеризация используется в разных задачах анализа данных:

Сегментация:

деление клиентов на группы,

классификация пользователей по поведению,

выделение рыночных аудиторий.

Поиск аномалий:

обнаружение мошенничества,

выявление отклонений в работе оборудования.

Сжатие информации:

векторное квантование,

уменьшение размерности.

Предобработка:

создание новых признаков,

группировка объектов для более качественного обучения.

Наука и исследования:

биологическая классификация,

тематическое разделение документов,

анализ ДНК и геномных данных.

3. Алгоритм K-средних (метод Ллойда)

K-means — итеративная процедура, которая минимизирует разброс точек внутри кластеров.

Основные этапы:

Инициализация — случайный выбор K центров кластеров.

Назначение точек кластерам:
Каждая точка относится к ближайшему центру:

ci = argminj ||xi - uj||^2


Пересчёт центроидов:
Центр — это среднее всех точек кластера:

uj = (1/|Cj|) * E xi   (для всех xi в Cj)


Повторение шагов 2-3 до стабилизации.

Функция потерь (сумма квадратов внутрикластерных отклонений):

J = Ej E (xi e Cj) ||xi – uj||^2

4. Как определить подходящее число кластеров K?

Основные методы выбора оптимального K:

Метод «локтя» (Elbow):

строится график зависимости J(K) от K,

выбирается точка, где скорость уменьшения J заметно падает.

Силуэтный коэффициент:

оценивает качество кластеризации,

выбирают K с максимальным средним силуэтом.

Формула:

s(i) = (b(i) - a(i)) / max(a(i), b(i))


где:

a(i) — средняя дистанция до точек своего кластера,

b(i) — минимальная средняя дистанция до точек других кластеров.

Gap Statistic:

сравнивает значение J(K) с эталоном (случайно распределённые данные),

оптимальный K максимизирует gap.

Проверка устойчивости:

анализ результатов при разных начальных центрах.

5. Алгоритм DBSCAN

DBSCAN — плотностной алгоритм кластеризации, умеющий находить кластеры произвольной формы.

Основные понятия:

ε-окрестность Ne(x): точки в радиусе e.

Ядровая точка: |Ne(x)| >= minPts.

Прямая достижимость: y достижим из ядровой точки x.

Достижимость: цепочка прямой достижимости между точками.

Параметры:

e — радиус поиска соседей,

minPts — минимальное число точек для ядровой точки.

Алгоритм:

Определение ядровых точек по e и minPts.

Формирование кластеров вокруг ядровых точек за счёт достижимых элементов.

Точки, не попавшие ни в один кластер, маркируются как шум (-1).

Плюсы:

Не нужно задавать количество кластеров.

Работает с кластерами произвольной формы.

Устойчив к выбросам.

Не зависит от порядка обработки точек.

Минусы:

Сильно зависит от выбора ε и minPts.

Сложно применять при разной плотности кластеров.

Результат зависит от метрики расстояния.

Пример использования:

from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.5, min_samples=5)
labels = dbscan.fit_predict(X)