<a href="https://colab.research.google.com/github/CodeHunterOfficial/AI_DataMining/blob/main/%D0%98%D0%B5%D1%80%D0%B0%D1%80%D1%85%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Иерархическая кластеризация

## Введение

Иерархическая кластеризация является одним из наиболее популярных методов группировки данных, позволяющим формировать иерархические структуры. Этот метод полезен в ситуациях, когда требуется понять, как разные объекты связаны друг с другом, и визуализировать эти связи в виде дерева (дендрограммы). Иерархическая кластеризация делится на два основных типа: агломеративную и делительную.

### Применение

Иерархическая кластеризация применяется в различных областях, включая:

- **Биология**: для классификации организмов на основе их генетических данных.
- **Социология**: для группировки людей по схожим характеристикам.
- **Маркетинг**: для сегментации клиентов на основе покупательских привычек.
- **Обработка изображений**: для выявления паттернов и объектов в визуальных данных.

## Основные понятия

### Кластеризация

Кластеризация — это процесс разделения набора данных на группы (кластеры) таким образом, чтобы объекты внутри одной группы были более похожи друг на друга, чем объекты в других группах. Кластеризация помогает в понимании структуры данных, а также в нахождении закономерностей.

### Иерархическая структура

Иерархическая структура — это способ организации данных в виде дерева, где каждый уровень отражает различные группы и подгруппы объектов. В этой структуре можно визуализировать, как объекты связаны между собой.

## Алгоритмы иерархической кластеризации

### 1. Агломеративная кластеризация

Агломеративная кластеризация — это метод, начинающийся с того, что каждый объект представляет собой отдельный кластер. Затем кластеры последовательно объединяются на основе заданного критерия схожести.

#### Шаги агломеративной кластеризации

1. **Инициализация**: Каждое наблюдение (объект) рассматривается как отдельный кластер.

2. **Определение расстояния между кластерами**: Для вычисления расстояния между кластерами можно использовать различные метрики, такие как:

   - **Метрика минимального расстояния (single-linkage)**:
     $$
     d(A, B) = \min_{a \in A, b \in B} d(a, b)
     $$
   - **Метрика максимального расстояния (complete-linkage)**:
     $$
     d(A, B) = \max_{a \in A, b \in B} d(a, b)
     $$
   - **Метрика среднего расстояния (average-linkage)**:
     $$
     d(A, B) = \frac{1}{|A||B|} \sum_{a \in A} \sum_{b \in B} d(a, b)
     $$

3. **Объединение кластеров**: На каждом шаге алгоритма объединяются два кластера с наименьшим расстоянием между ними.

4. **Обновление матрицы расстояний**: После объединения кластеров необходимо пересчитать расстояния между новыми кластерами и остальными кластерами.

5. **Повторение**: Процесс продолжается до тех пор, пока не останется один кластер, который содержит все объекты.

### 2. Делительная кластеризация

В отличие от агломеративной кластеризации, делительная кластеризация начинается с одного кластера, который включает все объекты, и затем этот кластер последовательно делится на подгруппы.

#### Шаги делительной кластеризации

1. **Начальное разделение**: Все объекты находятся в одном кластере.

2. **Выбор кластера для деления**: Выбирается кластер, который необходимо разделить. На этом этапе обычно используется метрика, подобная k-средним, для нахождения центра кластера.

3. **Разделение кластера**: Объекты переносятся в новые кластеры в зависимости от их расстояния до центров.

4. **Обновление кластеров**: Обновляются кластеры на основе расстояний, и процесс повторяется, пока не будет достигнуто заданное количество кластеров или пока не произойдут значительные изменения в кластерах.

## Математические формулы

### Расстояние между объектами

Для расчета расстояния между двумя объектами часто используют метрику Евклида:

$$
d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}
$$

где $x$ и $y$ — это векторы объектов, а $n$ — количество признаков.

### Метрики оценки качества кластеризации

Для оценки качества кластеризации используются различные метрики:

1. **Силуэтный коэффициент (Silhouette Coefficient)**:

   Силуэтный коэффициент измеряет, насколько близки объекты внутри одного кластера и насколько они удалены от объектов других кластеров. Коэффициент варьируется от -1 до 1, где значения близкие к 1 указывают на хорошее разделение кластеров.

   $$
   S(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))}
   $$

   где:
   - $ a(i) $ — среднее расстояние от точки $ i $ до всех остальных точек в том же кластере.
   - $ b(i) $ — минимальное среднее расстояние от точки $ i $ до всех точек в ближайшем кластере.

2. **Коэффициент Дэвиса-Боулдина (Davies-Bouldin Index)**:

   Коэффициент Дэвиса-Боулдина измеряет степень схожести между кластерами. Чем меньше значение, тем лучше качество кластеризации.

   $$
   DB = \frac{1}{n} \sum_{i=1}^{n} \max_{j \neq i} \left( \frac{s_i + s_j}{d_{ij}} \right)
   $$

   где:
   - $ s_i $ — среднее расстояние между точками в кластере $ i $.
   - $ d_{ij} $ — расстояние между центрами кластеров $ i $ и $ j $.

3. **Коэффициент Ханна-Лейса (Hammond-Leisa Index)**:

   Коэффициент Ханна-Лейса используется для оценки качества кластеризации в соответствии с реальными классами, если такие имеются. Он вычисляется как отношение числа правильно классифицированных объектов к общему количеству объектов.

## Визуализация результатов кластеризации

Для визуализации результатов иерархической кластеризации обычно используются следующие методы:

1. **Графики рассеяния (scatter plots)**: Позволяют визуализировать, как объекты распределяются по кластерам.

2. **Дендрограммы**: Показывают иерархическую структуру кластеров, наглядно демонстрируя, как объекты объединяются на разных уровнях расстояний.

### Пример визуализации дендрограммы

Для построения дендрограммы обычно используется алгоритм связки, например, метод Уорда (Ward's method), который минимизирует сумму квадратов расстояний между кластерами.

### Заключение

Иерархическая кластеризация является мощным инструментом анализа данных, позволяющим глубже понять структуру данных и находить скрытые закономерности. Она универсальна и может применяться в самых разных областях, от биологии до социологии.

Используя различные метрики для оценки качества кластеризации и методы визуализации, вы можете более точно понять, насколько хорошо работает ваш алгоритм кластеризации и насколько информативны полученные результаты.


Объединяем все кластеры в один:

$$
\{A, B, C, D, E\}
$$

### Результат

Теперь у нас есть окончательный кластер: $\{A, B, C, D, E\}$. Дерево, которое мы получили, можно визуализировать как дендрограмму.

### Заключение

Итак, мы выполнили шаги агломеративной иерархической кластеризации с использованием небольшого набора данных и рассчитали все расстояния между кластерами. Теперь у нас есть единый кластер, в который входят все точки, а также информация о том, как эти точки были объединены на каждом шаге.


Давайте реализуем шаги агломеративной иерархической кластеризации на Python. Сначала мы сделаем это без использования готовых библиотек, а затем воспользуемся библиотеками для визуализации.

### 1. Реализация без готовых библиотек

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def euclidean_distance(point1, point2):
    """Вычисление евклидова расстояния между двумя точками"""
    return np.sqrt(np.sum((point1 - point2) ** 2))

def find_closest_clusters(distances):
    """Находит индексы ближайших кластеров и их расстояние"""
    min_dist = np.inf
    clusters = (-1, -1)
    for i in range(len(distances)):
        for j in range(i + 1, len(distances)):
            if distances[i, j] < min_dist:
                min_dist = distances[i, j]
                clusters = (i, j)
    return clusters, min_dist

def agglomerative_clustering(points):
    """Агломеративная иерархическая кластеризация"""
    n = len(points)
    # Начальная матрица расстояний
    distances = np.zeros((n, n))
    for i in range(n):
        for j in range(n):
            distances[i, j] = euclidean_distance(points[i], points[j])

    clusters = [[i] for i in range(n)]  # Инициализация кластеров
    dendrogram = []  # Список для хранения дендрограммы

    while len(clusters) > 1:
        # Находим ближайшие кластеры
        (i, j), min_dist = find_closest_clusters(distances)

        # Объединяем кластеры
        new_cluster = clusters[i] + clusters[j]
        dendrogram.append((clusters[i], clusters[j], min_dist))

        # Обновляем кластеры
        clusters.append(new_cluster)
        del clusters[max(i, j)]  # Удаляем старые кластеры

        # Пересчитываем расстояния
        new_distances = np.zeros((len(clusters), len(clusters)))
        for a in range(len(clusters)):
            for b in range(a + 1, len(clusters)):
                if a == len(clusters) - 1 or b == len(clusters) - 1:  # новый кластер
                    # Используем метод single-linkage
                    min_distance = np.inf
                    for point_a in clusters[a]:
                        for point_b in clusters[b]:
                            distance = euclidean_distance(points[point_a], points[point_b])
                            min_distance = min(min_distance, distance)
                    new_distances[a, b] = new_distances[b, a] = min_distance
                else:
                    new_distances[a, b] = distances[a, b]

        distances = new_distances

    return clusters[0], dendrogram

def plot_dendrogram(dendrogram):
    """Построение дендрограммы"""
    plt.figure(figsize=(10, 5))

    for i, (cluster1, cluster2, dist) in enumerate(dendrogram):
        # Расположение кластера
        x1 = len(cluster1) + i
        x2 = len(cluster2) + i
        plt.plot([x1, x2], [dist, dist], color='black')
        plt.text((x1 + x2) / 2, dist, str(len(cluster1) + len(cluster2)),
                 horizontalalignment='center', verticalalignment='bottom')

        # Отображение кластера
        for j in cluster1:
            plt.text(j, 0, str(j), horizontalalignment='center')
        for j in cluster2:
            plt.text(j, 0, str(j), horizontalalignment='center')

    plt.title('Дендрограмма')
    plt.ylabel('Расстояние')
    plt.xlabel('Кластеры')
    plt.show()

def calculate_within_cluster_distance(points, cluster):
    """Вычисление внутрикластерного расстояния"""
    cluster_points = points[cluster]
    distances = [euclidean_distance(p1, p2) for p1 in cluster_points for p2 in cluster_points if not np.array_equal(p1, p2)]
    return np.mean(distances)

def silhouette_score(points, labels):
    """Вычисление Silhouette Score"""
    unique_labels = np.unique(labels)
    s = 0.0

    for label in unique_labels:
        cluster_points = points[labels == label]
        if len(cluster_points) == 1:
            continue

        a = calculate_within_cluster_distance(points, cluster_points)

        b = np.inf
        for other_label in unique_labels:
            if other_label != label:
                other_cluster_points = points[labels == other_label]
                if len(other_cluster_points) > 0:
                    dist_to_other = np.mean([euclidean_distance(p, other_p) for p in cluster_points for other_p in other_cluster_points])
                    b = min(b, dist_to_other)

        s += (b - a) / max(a, b)

    return s / len(unique_labels)

# Данные
points = np.array([
    [1, 2],
    [2, 3],
    [5, 5],
    [6, 8],
    [8, 8]
])

# Выполнение кластеризации
final_clusters, dendrogram = agglomerative_clustering(points)

# Визуализация дендрограммы
plot_dendrogram(dendrogram)

# Метрики
# Определение меток кластеров
labels = np.zeros(len(points), dtype=int)
for i, cluster in enumerate(final_clusters):
    for idx in cluster:
        labels[idx] = i

# Внутрикластерное расстояние
within_cluster_distances = [calculate_within_cluster_distance(points, cluster) for cluster in final_clusters]
print("Внутрикластерное расстояние:", within_cluster_distances)

# Silhouette Score
silhouette = silhouette_score(points, labels)
print("Silhouette Score:", silhouette)

### 2. Реализация с использованием готовых библиотек
Теперь давайте использовать библиотеку scipy, которая уже имеет встроенные функции для выполнения агломеративной иерархической кластеризации и построения дендрограммы.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.metrics import silhouette_score

# Данные
points = np.array([
    [1, 2],
    [2, 3],
    [5, 5],
    [6, 8],
    [8, 8]
])

# Выполнение агломеративной кластеризации
Z = linkage(points, method='single')

# Построение дендрограммы
plt.figure(figsize=(10, 5))
dendrogram(Z)
plt.title('Дендрограмма')
plt.xlabel('Объекты')
plt.ylabel('Расстояние')
plt.show()

# Определение меток кластеров
from scipy.cluster.hierarchy import fcluster

# Обозначим количество кластеров, например, 2
labels = fcluster(Z, 2, criterion='maxclust')

# Внутрикластерное расстояние
within_cluster_distances = []
for label in np.unique(labels):
    cluster_points = points[labels == label]
    distances = np.mean([euclidean_distance(p1, p2) for p1 in cluster_points for p2 in cluster_points if not np.array_equal(p1, p2)])
    within_cluster_distances.append(distances)

print("Внутрикластерное расстояние:", within_cluster_distances)

# Silhouette Score
silhouette = silhouette_score(points, labels)
print("Silhouette Score:", silhouette)