<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/ML/Clustering/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_K_Means_%D0%9F%D0%BE%D0%B4%D1%80%D0%BE%D0%B1%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%8A%D1%8F%D1%81%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# 📌 Алгоритм K-Means: Подробное объяснение

## 🔍 Задача кластеризации

Алгоритм **K-Means** относится к классу методов **без учителя (unsupervised learning)**, поскольку используется для анализа данных без предварительной разметки.

### Цель:
Разделить набор данных на `k` групп (кластеров), так чтобы:
- Объекты внутри одного кластера были максимально **похожи друг на друга**.
- Объекты из разных кластеров были как можно более **различны между собой**.

Это делает алгоритм полезным для задач, таких как:
- Сегментация клиентов
- Анализ изображений
- Группировка документов
- И другие задачи структурирования неизвестных данных



## 🧮 Основные понятия

Предположим, у нас есть набор точек в n-мерном пространстве:

$$
X = \{x_1, x_2, ..., x_N\}, \quad \text{где } x_i \in \mathbb{R}^n
$$

То есть каждая точка $ x_i $ — это вектор из $ n $ признаков или координат.

Наша задача — разбить эти точки на $ k $ кластеров.

Каждый кластер имеет свой **центроид** (centroid) — точку в том же n-мерном пространстве, которая представляет «центр» этого кластера:

$$
C = \{c_1, c_2, ..., c_k\}, \quad \text{где } c_j \in \mathbb{R}^n
$$

> 💡 Центроиды динамически обновляются в процессе работы алгоритма и служат «якорями», вокруг которых формируются кластеры.



## 🔁 Работа алгоритма K-Means: Пошаговое описание

Алгоритм K-Means работает итеративно и состоит из следующих этапов:



### Шаг 0: Подготовка

#### 1. Выбор числа кластеров `k`
Число кластеров $ k $ задается пользователем заранее. Это **гиперпараметр** модели.

> ⚠️ Как выбрать оптимальное значение $ k $?  
> - Метод "локтя" (Elbow method)
> - Коэффициент силуэта (Silhouette score)
> - Информационный критерий Акаике (AIC), BIC и др.

#### 2. Инициализация центроидов
Центроиды можно инициализировать двумя основными способами:
- **Случайно**: выбираются $ k $ случайных точек из исходного набора данных.
- **K-Means++**: более умная стратегия, позволяющая лучше распределить начальные центры, чтобы избежать плохой сходимости.

> ✅ Рекомендуется использовать K-Means++, так как он ускоряет сходимость и уменьшает риск попадания в локальный минимум.



### Шаг 1: Назначение точек к ближайшему центроиду

Для каждой точки $ x_i $ вычисляем расстояние до каждого из центроидов $ c_j $ и относим её к тому кластеру, до центра которого расстояние минимально.

#### Формулы расстояния:

- **Евклидово расстояние** между точкой $ x_i $ и центроидом $ c_j $:
$$
d(x_i, c_j) = \|x_i - c_j\| = \sqrt{(x_{i1} - c_{j1})^2 + (x_{i2} - c_{j2})^2 + ... + (x_{in} - c_{jn})^2}
$$

- Для упрощения вычислений часто используют **квадрат евклидова расстояния**:
$$
d^2(x_i, c_j) = (x_i - c_j)^T(x_i - c_j)
$$

> 🧠 Почему квадрат? Потому что корень не влияет на сравнение расстояний, но требует больше вычислений.

#### Принадлежность точки к кластеру:
Точка $ x_i $ принадлежит кластеру $ j $, если:
$$
j = \arg\min_{j'} \|x_i - c_{j'}\|^2
$$

Таким образом, после выполнения этого шага все точки будут распределены по кластерам.



### Шаг 2: Пересчёт центроидов

Теперь обновляем каждый центроид как **среднее значение всех точек**, входящих в соответствующий кластер.

Формула:
$$
c_j = \frac{1}{|C_j|} \sum_{x_i \in C_j} x_i
$$

Где:
- $ C_j $ — множество точек, принадлежащих кластеру $ j $
- $ |C_j| $ — количество точек в кластере $ j $

> 📌 Пример: если кластер содержит три точки $ x_1 = [1, 2], x_2 = [3, 4], x_3 = [5, 6] $, то новый центроид будет:
$$
c_j = \frac{1}{3}([1, 2] + [3, 4] + [5, 6]) = [3, 4]
$$



### Шаг 3: Проверка на сходимость

Алгоритм повторяет шаги 1 и 2 до тех пор, пока не будет достигнут один из условий останова:

#### 1. Изменение центроидов меньше заданного порога $ \epsilon $:
$$
\|c_j^{(new)} - c_j^{(old)}\| < \epsilon \quad \text{для всех } j
$$

Обычно $ \epsilon $ выбирают очень маленьким, например $ 10^{-4} $.

#### 2. Число итераций превышает лимит
Иногда ограничивают число итераций, чтобы избежать бесконечного цикла.

#### 3. Суммарная ошибка (инерция) практически не меняется
Можно отслеживать изменение целевой функции $ J $. Если она почти не меняется, можно остановиться.



## 🎯 Целевая функция (инерция)

Алгоритм K-Means стремится минимизировать **суммарную ошибку квадратов внутри кластеров**, которую называют **инерцией**:

$$
J = \sum_{j=1}^{k} \sum_{x_i \in C_j} \|x_i - c_j\|^2
$$

Где:
- $ J $ — инерция (суммарное квадратичное отклонение точек от центроидов)
- $ x_i $ — точка из набора данных
- $ c_j $ — центроид $ j $-го кластера
- $ C_j $ — множество точек, принадлежащих $ j $-му кластеру
- $ \|x_i - c_j\| $ — евклидово расстояние между точкой и центроидом

> ✅ Мы хотим **минимизировать $ J $** — сделать кластеры как можно более плотными и компактными.



## 🔁 Как происходит минимизация?

K-Means использует **итеративный процесс оптимизации**, состоящий из двух чередующихся шагов:



### 1. **Шаг назначения (Assignment Step)**

На этом шаге мы фиксируем текущие центроиды $ c_1, ..., c_k $ и перераспределяем точки по кластерам.

Каждая точка $ x_i $ назначается к тому кластеру $ j $, для которого выполняется:
$$
j = \arg\min_{j'} \|x_i - c_{j'}\|^2
$$

Этот шаг **уменьшает инерцию $ J $**, так как теперь точки находятся ближе к своим центроидам.



### 2. **Шаг обновления (Update Step)**

На этом шаге мы фиксируем принадлежность точек к кластерам и пересчитываем положение центроидов.

Новый центроид рассчитывается как среднее значение всех точек в кластере:
$$
c_j = \frac{1}{|C_j|} \sum_{x_i \in C_j} x_i
$$

Этот шаг также **уменьшает инерцию $ J $**, потому что новое положение центроида минимизирует сумму квадратов расстояний до всех точек кластера.



## 📐 Математическое обоснование: почему это работает

Рассмотрим один кластер $ C_j $ с фиксированными точками $ x_1, ..., x_n $. Найдём такое $ c $, которое минимизирует:

$$
\sum_{i=1}^{n} \|x_i - c\|^2
$$

Раскрываем квадрат нормы:
$$
\|x_i - c\|^2 = (x_i - c)^T(x_i - c) = x_i^T x_i - 2 x_i^T c + c^T c
$$

> Tранспонирование разности равно разности транспонированных матриц (или векторов).  $(A-B)^T=A^T-B^T$ кроме того

$$
\boxed{c^T x_i = x_i^T c}
$$


Суммируем по всем $ i $:
$$
\sum_{i=1}^{n} \|x_i - c\|^2 = \sum_{i=1}^{n} (x_i^T x_i - 2 x_i^T c + c^T c)
$$

Разбиваем на части:
$$
= \sum_{i=1}^{n} x_i^T x_i - 2 c^T \sum_{i=1}^{n} x_i + n c^T c
$$

Чтобы найти минимум, возьмём производную по $ c $ и приравняем к нулю:
$$
\frac{\partial}{\partial c} \left( -2 c^T \sum x_i + n c^T c \right) = -2 \sum x_i + 2 n c = 0
$$

Решаем:
$$
2 n c = 2 \sum x_i \quad \Rightarrow \quad c = \frac{1}{n} \sum x_i
$$

✅ Таким образом, **оптимальный центроид для фиксированного кластера — это его среднее значение**.



## 🔄 Почему K-Means сходится?

Каждый шаг алгоритма гарантирует, что **целевая функция $ J $ не возрастает**:

1. При назначении точек к кластерам $ J $ **уменьшается или остаётся прежней**
2. При обновлении центроидов $ J $ **также уменьшается или остаётся прежней**

Поскольку $ J \geq 0 $, она не может уменьшаться бесконечно — значит, **алгоритм обязательно сойдётся за конечное число шагов**.

⚠️ Однако, K-Means может сойтись к **локальному минимуму**, а не к глобальному. Поэтому рекомендуется запускать алгоритм несколько раз с разными начальными значениями центроидов и выбирать лучший результат.



## 🧠 Вывод: как минимизируется целевая функция?

Алгоритм K-Means работает по следующей схеме:

1. **Инициализация центроидов** (например, через K-Means++)
2. **Повторяем до сходимости**:
   - **Шаг назначения**: каждая точка назначается к ближайшему центроиду
   - **Шаг обновления**: центроиды обновляются как среднее по кластеру
3. **Останавливаемся**, когда изменения центроидов становятся очень малыми или достигнут лимит итераций

Каждый шаг гарантирует, что **$ J $ не возрастает**, и в конечном итоге мы получаем группировку, где точки внутри кластеров максимально близки друг к другу.



## 📝 Дополнительные замечания

### 1. **Выбор начальных центроидов**
- Случайная инициализация может привести к плохому результату
- Используйте **K-Means++** для улучшения качества кластеризации

### 2. **Чувствительность к выбросам**
- K-Means чувствителен к выбросам, так как они сильно влияют на среднее значение
- Рекомендуется предварительно очищать данные или использовать **K-Medoids (PAM)**

### 3. **Масштабирование признаков**
- Алгоритм чувствителен к масштабу признаков
- Перед применением **всегда нормализуйте или стандартизируйте данные**

### 4. **Форма кластеров**
- K-Means хорошо работает только с **выпуклыми и сферическими кластерами**
- Для произвольных форм кластеров лучше подойдут методы вроде **DBSCAN**, **Spectral Clustering**



## 📈 Примеры использования

### Пример 1: Кластеризация данных Iris

```python
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data

model = KMeans(n_clusters=3)
model.fit(X)
labels = model.predict(X)
```

### Пример 2: Визуализация кластеров

```python
import matplotlib.pyplot as plt

plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.scatter(model.cluster_centers_[:, 0], model.cluster_centers_[:, 1], s=300, c='red', label='Centroids')
plt.legend()
plt.show()
```

## 🧪 Преимущества и недостатки K-Means

| ✅ Преимущества | ❌ Недостатки |
|------------------|----------------|
| Быстрый и простой в реализации | Требуется задавать `k` заранее |
| Хорошо работает на больших данных | Чувствителен к начальной инициализации |
| Легко интерпретируется | Не работает с несферическими кластерами |
| Хорошо масштабируется | Чувствителен к выбросам |






## 🎯 Пример: кластеризация точек на плоскости

### Дано:
- Набор точек (в 2D):
$$
X = \{(1, 2), (2, 1), (5, 6), (6, 7)\}
$$
- Число кластеров: $ k = 2 $
- Инициализация центроидов:
$$
c_1 = (1, 2), \quad c_2 = (6, 7)
$$



## 🔁 Шаг 0: Инициализация

Выбрали начальные центроиды:
$$
c_1^{(0)} = (1, 2), \quad c_2^{(0)} = (6, 7)
$$

> Здесь мы выбрали точки из самого набора данных. Можно и случайно, но в данном случае так проще.



## 🔍 Шаг 1: Назначение точек к ближайшему центроиду

### Формула евклидова расстояния между двумя точками:

Для двух точек $ x = (x_1, x_2) $ и $ c = (c_1, c_2) $:
$$
d(x, c) = \sqrt{(x_1 - c_1)^2 + (x_2 - c_2)^2}
$$

Часто используют **квадрат расстояния**, чтобы не вычислять корень:
$$
d^2(x, c) = (x_1 - c_1)^2 + (x_2 - c_2)^2
$$



### Вычислим квадраты расстояний для каждой точки:

#### Для точки $ x_1 = (1, 2) $

- До $ c_1 = (1, 2) $:
  $$
  d^2 = (1 - 1)^2 + (2 - 2)^2 = 0
  $$
- До $ c_2 = (6, 7) $:
  $$
  d^2 = (1 - 6)^2 + (2 - 7)^2 = 25 + 25 = 50
  $$

Точка $ x_1 $ → к $ c_1 $

#### Для точки $ x_2 = (2, 1) $

- До $ c_1 $:
  $$
  d^2 = (2 - 1)^2 + (1 - 2)^2 = 1 + 1 = 2
  $$
- До $ c_2 $:
  $$
  d^2 = (2 - 6)^2 + (1 - 7)^2 = 16 + 36 = 52
  $$

Точка $ x_2 $ → к $ c_1 $

#### Для точки $ x_3 = (5, 6) $

- До $ c_1 $:
  $$
  d^2 = (5 - 1)^2 + (6 - 2)^2 = 16 + 16 = 32
  $$
- До $ c_2 $:
  $$
  d^2 = (5 - 6)^2 + (6 - 7)^2 = 1 + 1 = 2
  $$

Точка $ x_3 $ → к $ c_2 $

#### Для точки $ x_4 = (6, 7) $

- До $ c_1 $:
  $$
  d^2 = (6 - 1)^2 + (7 - 2)^2 = 25 + 25 = 50
  $$
- До $ c_2 $:
  $$
  d^2 = (6 - 6)^2 + (7 - 7)^2 = 0 + 0 = 0
  $$

Точка $ x_4 $ → к $ c_2 $



### Результат после первого шага:

| Точка       | Расст. до c₁ | Расст. до c₂ | Ближайший центроид |
|-------------|----------------|----------------|----------------------|
| (1, 2)      | 0              | 50             | c₁                   |
| (2, 1)      | 2              | 52             | c₁                   |
| (5, 6)      | 32             | 2              | c₂                   |
| (6, 7)      | 50             | 0              | c₂                   |

Кластеры:
- Кластер 1 (c₁): $ \{(1, 2), (2, 1)\} $
- Кластер 2 (c₂): $ \{(5, 6), (6, 7)\} $



## 🔁 Шаг 2: Пересчёт новых центроидов

Центроид — это **среднее значение координат всех точек кластера**.

### Формула обновления центроида:

Для кластера $ C_j $ с $ n_j $ точками:
$$
c_j = \left( \frac{1}{n_j} \sum_{x_i \in C_j} x_{i1},\ \frac{1}{n_j} \sum_{x_i \in C_j} x_{i2} \right)
$$



### Обновляем $ c_1 $:

Точки: $ (1, 2), (2, 1) $

$$
c_1 = \left( \frac{1+2}{2}, \frac{2+1}{2} \right) = (1.5,\ 1.5)
$$

### Обновляем $ c_2 $:

Точки: $ (5, 6), (6, 7) $

$$
c_2 = \left( \frac{5+6}{2}, \frac{6+7}{2} \right) = (5.5,\ 6.5)
$$

Новые центроиды:
$$
c_1^{(1)} = (1.5, 1.5), \quad c_2^{(1)} = (5.5, 6.5)
$$


## 🔁 Шаг 3: Вторая итерация (ещё один цикл)

Повторяем шаги 1 и 2 с новыми центроидами.

### Вычислим расстояния до новых центроидов:

#### Для точки $ x_1 = (1, 2) $

- До $ c_1 = (1.5, 1.5) $:
  $$
  d^2 = (1 - 1.5)^2 + (2 - 1.5)^2 = 0.25 + 0.25 = 0.5
  $$
- До $ c_2 = (5.5, 6.5) $:
  $$
  d^2 = (1 - 5.5)^2 + (2 - 6.5)^2 = 20.25 + 20.25 = 40.5
  $$

→ к $ c_1 $

#### Для точки $ x_2 = (2, 1) $

- До $ c_1 $:
  $$
  d^2 = (2 - 1.5)^2 + (1 - 1.5)^2 = 0.25 + 0.25 = 0.5
  $$
- До $ c_2 $:
  $$
  d^2 = (2 - 5.5)^2 + (1 - 6.5)^2 = 12.25 + 30.25 = 42.5
  $$

→ к $ c_1 $

#### Для точки $ x_3 = (5, 6) $

- До $ c_1 $:
  $$
  d^2 = (5 - 1.5)^2 + (6 - 1.5)^2 = 12.25 + 20.25 = 32.5
  $$
- До $ c_2 $:
  $$
  d^2 = (5 - 5.5)^2 + (6 - 6.5)^2 = 0.25 + 0.25 = 0.5
  $$

→ к $ c_2 $

#### Для точки $ x_4 = (6, 7) $

- До $ c_1 $:
  $$
  d^2 = (6 - 1.5)^2 + (7 - 1.5)^2 = 20.25 + 30.25 = 50.5
  $$
- До $ c_2 $:
  $$
  d^2 = (6 - 5.5)^2 + (7 - 6.5)^2 = 0.25 + 0.25 = 0.5
  $$

→ к $ c_2 $

### Результат второй итерации:

Кластеры те же:
- Кластер 1: $ \{(1, 2), (2, 1)\} $
- Кластер 2: $ \{(5, 6), (6, 7)\} $

Значит, **алгоритм сошёлся**, можно останавливаться.



## ✅ Финальные результаты

### Центроиды:
$$
c_1 = (1.5,\ 1.5), \quad c_2 = (5.5,\ 6.5)
$$

### Кластеры:
- Кластер 1: $ \{(1, 2), (2, 1)\} $
- Кластер 2: $ \{(5, 6), (6, 7)\} $



## 📈 Целевая функция (инерция)

Считаем суммарное квадратичное отклонение (инерцию):

$$
J = \sum_{j=1}^{k} \sum_{x_i \in C_j} \|x_i - c_j\|^2
$$

### Для кластера 1:
- $ (1,2) $: $ (1 - 1.5)^2 + (2 - 1.5)^2 = 0.25 + 0.25 = 0.5 $
- $ (2,1) $: $ (2 - 1.5)^2 + (1 - 1.5)^2 = 0.25 + 0.25 = 0.5 $

Сумма: $ 0.5 + 0.5 = 1.0 $

### Для кластера 2:
- $ (5,6) $: $ (5 - 5.5)^2 + (6 - 6.5)^2 = 0.25 + 0.25 = 0.5 $
- $ (6,7) $: $ (6 - 5.5)^2 + (7 - 6.5)^2 = 0.25 + 0.25 = 0.5 $

Сумма: $ 0.5 + 0.5 = 1.0 $

### Общая инерция:
$$
J = 1.0 + 1.0 = 2.0
$$

Это минимальная возможная сумма квадратов для этого разделения.




# 📌 Часть 2: Метрики оценки качества кластеризации

После того как алгоритм K-Means разделил данные на кластеры, важно оценить, **насколько хорошо это было сделано**. Поскольку задача кластеризации — это обучение без учителя (unsupervised learning), мы не всегда можем сравнивать результаты с истинными метками. Поэтому используются **внутренние и внешние метрики**.

В этой части мы:
- Разберём основные метрики
- Приведём их математическую формулировку
- Свяжем их с понятиями из первой части лекции
- Объясним, зачем они нужны и как интерпретировать значения



## 🔹 1. Инерция (Inertia)

### Формула:
$$
J = \sum_{j=1}^{k} \sum_{x_i \in C_j} \|x_i - c_j\|^2
$$

Где:
- $ J $ — суммарное квадратичное отклонение точек от центроидов.
- $ C_j $ — множество объектов в кластере $ j $
- $ c_j $ — центроид кластера $ j $

> ✅ Это целевая функция, которую минимизирует K-Means.

### Интерпретация:
Чем меньше значение инерции — тем лучше: точки плотнее собраны вокруг центроидов.

> 🔗 **Связь с первой частью:**  
> Это та самая функция, которая минимизируется на шагах Assignment и Update. Она напрямую зависит от положения центроидов $ c_j $ и распределения точек внутри кластеров.



## 🔹 2. Коэффициент силуэта (Silhouette Score)

### Формула для одной точки $ x_i $:

$$
s(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))}
$$

Где:
- $ a(i) $ — среднее расстояние до других точек своего кластера:
  $$
  a(i) = \frac{1}{|C_l| - 1} \sum_{x_j \in C_l, j \ne i} \|x_i - x_j\|
  $$
- $ b(i) $ — среднее расстояние до точек ближайшего другого кластера:
  $$
  b(i) = \min_{m \ne l} \left( \frac{1}{|C_m|} \sum_{x_j \in C_m} \|x_i - x_j\| \right)
  $$

Общая метрика:
$$
S = \frac{1}{N} \sum_{i=1}^N s(i)
$$

### Диапазон: $ [-1, 1] $
- +1 — отличная кластеризация
- 0 — перекрывающиеся кластеры
- –1 — объекты присвоены неправильным кластерам

> 🔗 **Связь с первой частью:**  
> Silhouette Score дополняет инерцию, так как учитывает не только компактность кластеров, но и их разделённость — то есть качество границ между ними.



## 🔹 3. Метод локтя (Elbow Method)

Не метрика, а метод выбора числа кластеров $ k $. Строится график зависимости:

$$
k \to J(k)
$$

Выбирается значение $ k $, после которого снижение $ J $ резко замедляется — точка "локтя".

> 🔗 **Связь с первой частью:**  
> Позволяет выбрать гиперпараметр $ k $, который задается заранее и влияет на работу всего алгоритма.



## 🔹 4. Индекс Калинского-Харабаса (Calinski-Harabasz Index)

Также называется **вариационным отношением**.

### Формула:

$$
CH = \frac{B}{W} \cdot \frac{N - k}{k - 1}
$$

Где:
- $ B $ — межкластерная дисперсия:
  $$
  B = \sum_{j=1}^k N_j \|c_j - c\|^2
  $$
- $ W $ — внутрикластерная дисперсия:
  $$
  W = \sum_{j=1}^k \sum_{x_i \in C_j} \|x_i - c_j\|^2
  $$

### Интерпретация:
Чем больше CH — тем лучше: кластеры хорошо разделены и компактны.

> 🔗 **Связь с первой частью:**  
> Использует понятие центроидов $ c_j $ и евклидовых расстояний, введённых ранее.



## 🔹 5. Индекс Дэвиса-Болдина (Davies-Bouldin Index)

### Формула:

$$
DB = \frac{1}{k} \sum_{i=1}^k \max_{j \ne i} \left( \frac{S_i + S_j}{\|c_i - c_j\|} \right)
$$

Где:
- $ S_i $ — среднее расстояние от точек кластера $ i $ до его центроида:
  $$
  S_i = \frac{1}{|C_i|} \sum_{x \in C_i} \|x - c_i\|
  $$
- $ \|c_i - c_j\| $ — расстояние между центроидами кластеров $ i $ и $ j $

### Интерпретация:
Чем меньше DB — тем лучше: кластеры компактны и далеко друг от друга.

> 🔗 **Связь с первой частью:**  
> Оценивает качество кластеризации через сравнение кластеров по расстояниям между центроидами и внутренней плотности.



## 🔹 6. Adjusted Rand Index (ARI) — внешняя метрика

Требует наличия истинных меток $ y $.

### Формула:

$$
ARI = \frac{\text{RI} - \mathbb{E}[\text{RI}]}{\max(\text{RI}) - \mathbb{E}[\text{RI}]}
$$

Где:
- RI — Rand Index — доля пар точек, чьё относительное положение совпадает в предсказаниях и истинных метках.
- $ \mathbb{E}[\text{RI}] $ — ожидаемое значение RI при случайном назначении кластеров.

### Диапазон: $ [-1, 1] $
- $ +1 $: полное совпадение
- $ 0 $: случайная кластеризация
- $ -1 $: противоположная кластеризация

> 🔗 **Связь с первой частью:**  
> Если данные имеют известную структуру (например, Iris), ARI позволяет оценить, насколько модель восстановила её.



## 🔹 7. Нормированная взаимная информация (Normalized Mutual Information, NMI)

Также требует истинных меток.

### Формула:

$$
NMI = \frac{I(Y; C)}{\sqrt{H(Y) H(C)}}
$$

Где:
- $ I(Y; C) $ — взаимная информация между истинными классами $ Y $ и предсказанными кластерами $ C $
- $ H(Y), H(C) $ — энтропии соответственно

> 📌 NMI показывает, сколько информации содержит кластеризация о реальных классах.

> 🔗 **Связь с первой частью:**  
> Позволяет оценить качество кластеризации при наличии ground truth — если есть, то можно использовать эту метрику.



# 🧠 Обобщение: Как связаны метрики с первой частью?

| Метрика | Основа вычисления | Связь с первой частью |
|--------|--------------------|------------------------|
| **Инерция (J)** | Расстояния до центроидов | Целевая функция K-Means |
| **Silhouette** | Расстояния внутри и между кластерами | Учет структуры кластеров |
| **Elbow** | Зависимость J от k | Выбор числа кластеров |
| **Calinski-Harabasz** | Отношение меж/внутрикластерной дисперсии | Аналог F-статистики ANOVA |
| **Davies-Bouldin** | Отношение внутренней плотности к расстоянию между кластерами | Оценка качества через сравнение кластеров |
| **ARI/NMI** | Сравнение с истинными метками | Внешняя оценка при наличии разметки |


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.animation as animation
from sklearn.datasets import make_blobs, make_classification
from sklearn.metrics import pairwise_distances_argmin_min, adjusted_rand_score, normalized_mutual_info_score, pairwise_distances
from sklearn.decomposition import PCA
from typing import Optional, Union, List
from enum import Enum


class InitializationMethod(Enum):
    RANDOM = 'random'
    KMEANSPP = 'k-means++'


class KMeans:
    def __init__(self, n_clusters: int = 3, max_iter: int = 300,
                 init: Union[str, InitializationMethod] = 'k-means++',
                 batch_size: Optional[int] = None,
                 tol: float = 1e-4, random_state: Optional[int] = None,
                 verbose: bool = False):
        """
        K-Means clustering algorithm with mini-batch support

        Parameters:
        -----------
        n_clusters : int
            Number of clusters to form
        max_iter : int
            Maximum number of iterations
        init : str or InitializationMethod
            Initialization method ('random' or 'k-means++')
        batch_size : Optional[int]
            Size of mini-batch (None for full batch)
        tol : float
            Tolerance for convergence
        random_state : Optional[int]
            Random seed for reproducibility
        verbose : bool
            Whether to print progress
        """
        if isinstance(init, str):
            init = InitializationMethod(init.lower())

        self.n_clusters = n_clusters
        self.max_iter = max_iter
        self.init = init
        self.batch_size = batch_size
        self.tol = tol
        self.random_state = random_state
        self.verbose = verbose
        self.labels_ = None
        self.cluster_centers_ = None
        self.inertia_ = None
        self.n_iter_ = 0
        self.history_ = []

        if random_state is not None:
            np.random.seed(random_state)

    def _initialize_centers(self, X: np.ndarray) -> None:
        """Initialize cluster centers"""
        n_samples = X.shape[0]

        if self.init == InitializationMethod.RANDOM:
            idxs = np.random.choice(n_samples, self.n_clusters, replace=False)
            self.cluster_centers_ = X[idxs].copy()

        elif self.init == InitializationMethod.KMEANSPP:
            centers = []
            idx = np.random.choice(n_samples)
            centers.append(X[idx].copy())

            for _ in range(1, self.n_clusters):
                distances = pairwise_distances(X, np.array(centers))
                min_dists = np.min(distances, axis=1)
                probs = min_dists / min_dists.sum()
                new_idx = np.random.choice(n_samples, p=probs)
                centers.append(X[new_idx].copy())

            self.cluster_centers_ = np.array(centers)

    def _full_batch_update(self, X: np.ndarray) -> None:
        """Perform full batch update"""
        labels, distances = pairwise_distances_argmin_min(X, self.cluster_centers_)
        self.labels_ = labels
        self.inertia_ = np.sum(distances**2)

        new_centers = np.zeros_like(self.cluster_centers_)
        counts = np.zeros(self.n_clusters)

        for j, label in enumerate(labels):
            new_centers[label] += X[j]
            counts[label] += 1

        # Handle empty clusters
        empty_clusters = np.where(counts == 0)[0]
        if len(empty_clusters) > 0:
            if self.verbose:
                print(f"Warning: {len(empty_clusters)} empty clusters detected")
            far_points = pairwise_distances_argmin_min(X, self.cluster_centers_)[1]
            new_centers[empty_clusters] = X[np.argpartition(far_points, -len(empty_clusters))[-len(empty_clusters):]]
            counts[empty_clusters] = 1

        self.cluster_centers_ = new_centers / counts.reshape(-1, 1)

    def _mini_batch_update(self, X: np.ndarray) -> None:
        """Perform mini-batch update"""
        n_samples = X.shape[0]
        idxs = np.random.choice(n_samples, size=self.batch_size, replace=False)
        batch = X[idxs]

        labels_batch, distances = pairwise_distances_argmin_min(batch, self.cluster_centers_)
        self.labels_ = pairwise_distances_argmin_min(X, self.cluster_centers_)[0]
        self.inertia_ = np.sum(distances**2)

        # Update centers
        for j, label in enumerate(labels_batch):
            self.cluster_centers_[label] += 0.1 * (batch[j] - self.cluster_centers_[label])

        # Handle empty clusters
        present_clusters = np.unique(labels_batch)
        if len(present_clusters) < self.n_clusters:
            empty_clusters = np.setdiff1d(np.arange(self.n_clusters), present_clusters)
            far_points = pairwise_distances_argmin_min(X, self.cluster_centers_)[1]
            self.cluster_centers_[empty_clusters] = X[np.argpartition(far_points, -len(empty_clusters))[-len(empty_clusters):]]

    def fit(self, X: np.ndarray) -> 'KMeans':
        """
        Fit the model to the data

        Parameters:
        -----------
        X : np.ndarray
            Input data of shape (n_samples, n_features)

        Returns:
        --------
        self : KMeans
            Fitted model
        """
        self._validate_data(X)
        self._initialize_centers(X)
        self.history_.append(self.cluster_centers_.copy())

        for i in range(self.max_iter):
            old_centers = self.cluster_centers_.copy()

            if self.batch_size is None:
                self._full_batch_update(X)
            else:
                self._mini_batch_update(X)

            self.history_.append(self.cluster_centers_.copy())
            self.n_iter_ = i + 1

            # Check convergence
            center_shift = np.linalg.norm(self.cluster_centers_ - old_centers)
            if center_shift < self.tol:
                if self.verbose:
                    print(f"Converged at iteration {i+1}")
                break

        return self

    def predict(self, X: np.ndarray) -> np.ndarray:
        """Predict cluster labels for new data"""
        labels, _ = pairwise_distances_argmin_min(X, self.cluster_centers_)
        return labels

    def _validate_data(self, X: np.ndarray) -> None:
        """Validate input data"""
        if X.shape[0] < self.n_clusters:
            raise ValueError(f"n_samples={X.shape[0]} should be >= n_clusters={self.n_clusters}")

        if self.batch_size is not None and self.batch_size > X.shape[0]:
            raise ValueError(f"batch_size={self.batch_size} cannot be larger than n_samples={X.shape[0]}")


class ClusteringMetrics:
    @staticmethod
    def inertia(X: np.ndarray, labels: np.ndarray, centers: np.ndarray) -> float:
        """Compute inertia (sum of squared distances to nearest cluster center)"""
        return np.sum((X - centers[labels])**2)

    @staticmethod
    def silhouette_score(X: np.ndarray, labels: np.ndarray) -> float:
        """Compute silhouette score for each sample"""
        n_samples = X.shape[0]
        unique_labels = np.unique(labels)
        n_clusters = len(unique_labels)

        if n_clusters == 1:
            return 0.0

        a = np.zeros(n_samples)
        b = np.zeros(n_samples)

        for i in range(n_samples):
            cluster_i = labels[i]
            same_cluster = labels == cluster_i
            a[i] = np.mean(np.linalg.norm(X[i] - X[same_cluster], axis=1))

            other_dists = []
            for l in unique_labels:
                if l != cluster_i:
                    other_dists.append(np.mean(np.linalg.norm(X[i] - X[labels == l], axis=1)))
            b[i] = np.min(other_dists) if other_dists else 0

        s = (b - a) / np.maximum(a, b)
        return np.mean(s)

    @staticmethod
    def calinski_harabasz_score(X: np.ndarray, labels: np.ndarray) -> float:
        """Compute Calinski-Harabasz index"""
        n_clusters = len(np.unique(labels))
        n_samples = X.shape[0]

        if n_clusters == 1:
            return 0.0

        grand_mean = np.mean(X, axis=0)
        W = np.sum((X - grand_mean) @ (X - grand_mean).T)
        B = 0

        for label in np.unique(labels):
            X_c = X[labels == label]
            n_c = X_c.shape[0]
            mu_c = np.mean(X_c, axis=0)
            B += n_c * np.linalg.norm(mu_c - grand_mean)**2

        return (B / (n_clusters - 1)) / (W / (n_samples - n_clusters)) if W > 0 else 0

    @staticmethod
    def davies_bouldin_score(X: np.ndarray, labels: np.ndarray) -> float:
        """Compute Davies-Bouldin index"""
        n_clusters = len(np.unique(labels))

        if n_clusters == 1:
            return 0.0

        cluster_means = [np.mean(X[labels == i], axis=0) for i in range(n_clusters)]
        S = [np.mean(np.linalg.norm(X[labels == l] - cluster_means[l], axis=1))
             for l in range(n_clusters)]

        db = 0
        for i in range(n_clusters):
            max_ratio = 0
            for j in range(n_clusters):
                if i != j:
                    ratio = (S[i] + S[j]) / np.linalg.norm(cluster_means[i] - cluster_means[j])
                    max_ratio = max(max_ratio, ratio)
            db += max_ratio

        return db / n_clusters


class KMeansVisualizer:
    @staticmethod
    def animate_kmeans(X: np.ndarray, model: KMeans, save_path: str = "kmeans_animation.gif",
                       fps: int = 2, dpi: int = 100) -> None:
        """Create animation of K-Means clustering"""
        fig, ax = plt.subplots(figsize=(8, 6))

        def update(frame):
            ax.clear()
            centers = model.history_[frame]
            labels = pairwise_distances_argmin_min(X, centers)[0]

            for i in range(model.n_clusters):
                ax.scatter(X[labels == i, 0], X[labels == i, 1],
                          label=f'Cluster {i}', alpha=0.6)

            ax.scatter(centers[:, 0], centers[:, 1], s=300, c='red',
                      marker='X', label='Centroids', edgecolor='black')

            ax.set_title(f"Iteration {frame + 1}")
            ax.legend()
            ax.grid(True)

        ani = animation.FuncAnimation(fig, update, frames=len(model.history_),
                                      repeat=True)
        ani.save(save_path, writer='pillow', fps=fps, dpi=dpi)
        print(f"Animation saved to {save_path}")

    @staticmethod
    def plot_3d_clusters(X: np.ndarray, model: KMeans) -> None:
        """3D visualization of clusters using PCA"""
        n_components = min(3, X.shape[1])  # Не больше, чем количество признаков
        pca = PCA(n_components=n_components)
        X_transformed = pca.fit_transform(X)
        labels = model.labels_

        fig = plt.figure(figsize=(10, 7))

        if n_components == 3:
            ax = fig.add_subplot(111, projection='3d')
            for i in range(model.n_clusters):
                ax.scatter(X_transformed[labels == i, 0],
                          X_transformed[labels == i, 1],
                          X_transformed[labels == i, 2],
                          label=f'Cluster {i}', alpha=0.6)
            centers = pca.transform(model.cluster_centers_)
            ax.scatter(centers[:, 0], centers[:, 1], centers[:, 2],
                      s=300, c='black', marker='X', label='Centroids')
            ax.set_title('3D Cluster Visualization (PCA-reduced)')
        elif n_components == 2:
            ax = fig.add_subplot(111)
            for i in range(model.n_clusters):
                ax.scatter(X_transformed[labels == i, 0],
                          X_transformed[labels == i, 1],
                          label=f'Cluster {i}', alpha=0.6)
            centers = pca.transform(model.cluster_centers_)
            ax.scatter(centers[:, 0], centers[:, 1],
                      s=300, c='black', marker='X', label='Centroids')
            ax.set_title('2D Cluster Visualization (PCA-reduced)')
        else:
            raise ValueError("Data must have at least 2 features for visualization")

        ax.legend()
        plt.tight_layout()
        plt.show()


if __name__ == "__main__":
    # Generate sample data
    X, y_true = make_blobs(n_samples=300, centers=4, cluster_std=1.0, random_state=42)

    # Initialize and fit model
    kmeans = KMeans(n_clusters=4, init='k-means++', batch_size=50,
                    random_state=42, verbose=True)
    kmeans.fit(X)

    # Calculate metrics
    metrics = ClusteringMetrics()
    print("\nClustering Results:")
    print("Centroids:\n", kmeans.cluster_centers_)
    print(f"Inertia: {kmeans.inertia_:.2f}")
    print(f"Silhouette Score: {metrics.silhouette_score(X, kmeans.labels_):.3f}")
    print(f"Calinski-Harabasz Score: {metrics.calinski_harabasz_score(X, kmeans.labels_):.2f}")
    print(f"Davies-Bouldin Score: {metrics.davies_bouldin_score(X, kmeans.labels_):.3f}")
    print(f"ARI: {adjusted_rand_score(y_true, kmeans.labels_):.3f}")
    print(f"NMI: {normalized_mutual_info_score(y_true, kmeans.labels_):.3f}")

    # Visualize results
    visualizer = KMeansVisualizer()
    visualizer.animate_kmeans(X, kmeans, fps=3)
    visualizer.plot_3d_clusters(X, kmeans)