<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/ML/Clustering/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_K_Means_%D0%9F%D0%BE%D0%B4%D1%80%D0%BE%D0%B1%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%8A%D1%8F%D1%81%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# 📌 Алгоритм K-Means: Подробное объяснение

## 🔍 Задача кластеризации

Алгоритм **K-Means** относится к классу методов **без учителя (unsupervised learning)**, поскольку используется для анализа данных без предварительной разметки.

### Цель:
Разделить набор данных на `k` групп (кластеров), так чтобы:
- Объекты внутри одного кластера были максимально **похожи друг на друга**.
- Объекты из разных кластеров были как можно более **различны между собой**.

Это делает алгоритм полезным для задач, таких как:
- Сегментация клиентов
- Анализ изображений
- Группировка документов
- И другие задачи структурирования неизвестных данных



## 🧮 Основные понятия

Предположим, у нас есть набор точек в n-мерном пространстве:

$$
X = \{x_1, x_2, ..., x_N\}, \quad \text{где } x_i \in \mathbb{R}^n
$$

То есть каждая точка $ x_i $ — это вектор из $ n $ признаков или координат.

Наша задача — разбить эти точки на $ k $ кластеров.

Каждый кластер имеет свой **центроид** (centroid) — точку в том же n-мерном пространстве, которая представляет «центр» этого кластера:

$$
C = \{c_1, c_2, ..., c_k\}, \quad \text{где } c_j \in \mathbb{R}^n
$$

> 💡 Центроиды динамически обновляются в процессе работы алгоритма и служат «якорями», вокруг которых формируются кластеры.



## 🔁 Работа алгоритма K-Means: Пошаговое описание

Алгоритм K-Means работает итеративно и состоит из следующих этапов:



### Шаг 0: Подготовка

#### 1. Выбор числа кластеров `k`
Число кластеров $ k $ задается пользователем заранее. Это **гиперпараметр** модели.

> ⚠️ Как выбрать оптимальное значение $ k $?  
> - Метод "локтя" (Elbow method)
> - Коэффициент силуэта (Silhouette score)
> - Информационный критерий Акаике (AIC), BIC и др.

#### 2. Инициализация центроидов
Центроиды можно инициализировать двумя основными способами:
- **Случайно**: выбираются $ k $ случайных точек из исходного набора данных.
- **K-Means++**: более умная стратегия, позволяющая лучше распределить начальные центры, чтобы избежать плохой сходимости.

> ✅ Рекомендуется использовать K-Means++, так как он ускоряет сходимость и уменьшает риск попадания в локальный минимум.



### Шаг 1: Назначение точек к ближайшему центроиду

Для каждой точки $ x_i $ вычисляем расстояние до каждого из центроидов $ c_j $ и относим её к тому кластеру, до центра которого расстояние минимально.

#### Формулы расстояния:

- **Евклидово расстояние** между точкой $ x_i $ и центроидом $ c_j $:
$$
d(x_i, c_j) = \|x_i - c_j\| = \sqrt{(x_{i1} - c_{j1})^2 + (x_{i2} - c_{j2})^2 + ... + (x_{in} - c_{jn})^2}
$$

- Для упрощения вычислений часто используют **квадрат евклидова расстояния**:
$$
d^2(x_i, c_j) = (x_i - c_j)^T(x_i - c_j)
$$

> 🧠 Почему квадрат? Потому что корень не влияет на сравнение расстояний, но требует больше вычислений.

#### Принадлежность точки к кластеру:
Точка $ x_i $ принадлежит кластеру $ j $, если:
$$
j = \arg\min_{j'} \|x_i - c_{j'}\|^2
$$

Таким образом, после выполнения этого шага все точки будут распределены по кластерам.



### Шаг 2: Пересчёт центроидов

Теперь обновляем каждый центроид как **среднее значение всех точек**, входящих в соответствующий кластер.

Формула:
$$
c_j = \frac{1}{|C_j|} \sum_{x_i \in C_j} x_i
$$

Где:
- $ C_j $ — множество точек, принадлежащих кластеру $ j $
- $ |C_j| $ — количество точек в кластере $ j $

> 📌 Пример: если кластер содержит три точки $ x_1 = [1, 2], x_2 = [3, 4], x_3 = [5, 6] $, то новый центроид будет:
$$
c_j = \frac{1}{3}([1, 2] + [3, 4] + [5, 6]) = [3, 4]
$$



### Шаг 3: Проверка на сходимость

Алгоритм повторяет шаги 1 и 2 до тех пор, пока не будет достигнут один из условий останова:

#### 1. Изменение центроидов меньше заданного порога $ \epsilon $:
$$
\|c_j^{(new)} - c_j^{(old)}\| < \epsilon \quad \text{для всех } j
$$

Обычно $ \epsilon $ выбирают очень маленьким, например $ 10^{-4} $.

#### 2. Число итераций превышает лимит
Иногда ограничивают число итераций, чтобы избежать бесконечного цикла.

#### 3. Суммарная ошибка (инерция) практически не меняется
Можно отслеживать изменение целевой функции $ J $. Если она почти не меняется, можно остановиться.



## 🎯 Целевая функция (инерция)

Алгоритм K-Means стремится минимизировать **суммарную ошибку квадратов внутри кластеров**, которую называют **инерцией**:

$$
J = \sum_{j=1}^{k} \sum_{x_i \in C_j} \|x_i - c_j\|^2
$$

Где:
- $ J $ — инерция (суммарное квадратичное отклонение точек от центроидов)
- $ x_i $ — точка из набора данных
- $ c_j $ — центроид $ j $-го кластера
- $ C_j $ — множество точек, принадлежащих $ j $-му кластеру
- $ \|x_i - c_j\| $ — евклидово расстояние между точкой и центроидом

> ✅ Мы хотим **минимизировать $ J $** — сделать кластеры как можно более плотными и компактными.



## 🔁 Как происходит минимизация?

K-Means использует **итеративный процесс оптимизации**, состоящий из двух чередующихся шагов:



### 1. **Шаг назначения (Assignment Step)**

На этом шаге мы фиксируем текущие центроиды $ c_1, ..., c_k $ и перераспределяем точки по кластерам.

Каждая точка $ x_i $ назначается к тому кластеру $ j $, для которого выполняется:
$$
j = \arg\min_{j'} \|x_i - c_{j'}\|^2
$$

Этот шаг **уменьшает инерцию $ J $**, так как теперь точки находятся ближе к своим центроидам.



### 2. **Шаг обновления (Update Step)**

На этом шаге мы фиксируем принадлежность точек к кластерам и пересчитываем положение центроидов.

Новый центроид рассчитывается как среднее значение всех точек в кластере:
$$
c_j = \frac{1}{|C_j|} \sum_{x_i \in C_j} x_i
$$

Этот шаг также **уменьшает инерцию $ J $**, потому что новое положение центроида минимизирует сумму квадратов расстояний до всех точек кластера.



## 📐 Математическое обоснование: почему это работает

Рассмотрим один кластер $ C_j $ с фиксированными точками $ x_1, ..., x_n $. Найдём такое $ c $, которое минимизирует:

$$
\sum_{i=1}^{n} \|x_i - c\|^2
$$

Раскрываем квадрат нормы:
$$
\|x_i - c\|^2 = (x_i - c)^T(x_i - c) = x_i^T x_i - 2 x_i^T c + c^T c
$$

Суммируем по всем $ i $:
$$
\sum_{i=1}^{n} \|x_i - c\|^2 = \sum_{i=1}^{n} (x_i^T x_i - 2 x_i^T c + c^T c)
$$

Разбиваем на части:
$$
= \sum_{i=1}^{n} x_i^T x_i - 2 c^T \sum_{i=1}^{n} x_i + n c^T c
$$

Чтобы найти минимум, возьмём производную по $ c $ и приравняем к нулю:
$$
\frac{\partial}{\partial c} \left( -2 c^T \sum x_i + n c^T c \right) = -2 \sum x_i + 2 n c = 0
$$

Решаем:
$$
2 n c = 2 \sum x_i \quad \Rightarrow \quad c = \frac{1}{n} \sum x_i
$$

✅ Таким образом, **оптимальный центроид для фиксированного кластера — это его среднее значение**.



## 🔄 Почему K-Means сходится?

Каждый шаг алгоритма гарантирует, что **целевая функция $ J $ не возрастает**:

1. При назначении точек к кластерам $ J $ **уменьшается или остаётся прежней**
2. При обновлении центроидов $ J $ **также уменьшается или остаётся прежней**

Поскольку $ J \geq 0 $, она не может уменьшаться бесконечно — значит, **алгоритм обязательно сойдётся за конечное число шагов**.

⚠️ Однако, K-Means может сойтись к **локальному минимуму**, а не к глобальному. Поэтому рекомендуется запускать алгоритм несколько раз с разными начальными значениями центроидов и выбирать лучший результат.



## 🧠 Вывод: как минимизируется целевая функция?

Алгоритм K-Means работает по следующей схеме:

1. **Инициализация центроидов** (например, через K-Means++)
2. **Повторяем до сходимости**:
   - **Шаг назначения**: каждая точка назначается к ближайшему центроиду
   - **Шаг обновления**: центроиды обновляются как среднее по кластеру
3. **Останавливаемся**, когда изменения центроидов становятся очень малыми или достигнут лимит итераций

Каждый шаг гарантирует, что **$ J $ не возрастает**, и в конечном итоге мы получаем группировку, где точки внутри кластеров максимально близки друг к другу.



## 📝 Дополнительные замечания

### 1. **Выбор начальных центроидов**
- Случайная инициализация может привести к плохому результату
- Используйте **K-Means++** для улучшения качества кластеризации

### 2. **Чувствительность к выбросам**
- K-Means чувствителен к выбросам, так как они сильно влияют на среднее значение
- Рекомендуется предварительно очищать данные или использовать **K-Medoids (PAM)**

### 3. **Масштабирование признаков**
- Алгоритм чувствителен к масштабу признаков
- Перед применением **всегда нормализуйте или стандартизируйте данные**

### 4. **Форма кластеров**
- K-Means хорошо работает только с **выпуклыми и сферическими кластерами**
- Для произвольных форм кластеров лучше подойдут методы вроде **DBSCAN**, **Spectral Clustering**



## 📈 Примеры использования

### Пример 1: Кластеризация данных Iris

```python
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data

model = KMeans(n_clusters=3)
model.fit(X)
labels = model.predict(X)
```

### Пример 2: Визуализация кластеров

```python
import matplotlib.pyplot as plt

plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.scatter(model.cluster_centers_[:, 0], model.cluster_centers_[:, 1], s=300, c='red', label='Centroids')
plt.legend()
plt.show()
```

## 🧪 Преимущества и недостатки K-Means

| ✅ Преимущества | ❌ Недостатки |
|------------------|----------------|
| Быстрый и простой в реализации | Требуется задавать `k` заранее |
| Хорошо работает на больших данных | Чувствителен к начальной инициализации |
| Легко интерпретируется | Не работает с несферическими кластерами |
| Хорошо масштабируется | Чувствителен к выбросам |




## 🎯 Пример: кластеризация точек на плоскости

### Дано:
- Набор точек (в 2D):
$$
X = \{(1, 2), (2, 1), (5, 6), (6, 7)\}
$$
- Число кластеров: $ k = 2 $
- Инициализация центроидов:
$$
c_1 = (1, 2), \quad c_2 = (6, 7)
$$



## 🔁 Шаг 0: Инициализация

Выбрали начальные центроиды:
$$
c_1^{(0)} = (1, 2), \quad c_2^{(0)} = (6, 7)
$$

> Здесь мы выбрали точки из самого набора данных. Можно и случайно, но в данном случае так проще.



## 🔍 Шаг 1: Назначение точек к ближайшему центроиду

### Формула евклидова расстояния между двумя точками:

Для двух точек $ x = (x_1, x_2) $ и $ c = (c_1, c_2) $:
$$
d(x, c) = \sqrt{(x_1 - c_1)^2 + (x_2 - c_2)^2}
$$

Часто используют **квадрат расстояния**, чтобы не вычислять корень:
$$
d^2(x, c) = (x_1 - c_1)^2 + (x_2 - c_2)^2
$$



### Вычислим квадраты расстояний для каждой точки:

#### Для точки $ x_1 = (1, 2) $

- До $ c_1 = (1, 2) $:
  $$
  d^2 = (1 - 1)^2 + (2 - 2)^2 = 0
  $$
- До $ c_2 = (6, 7) $:
  $$
  d^2 = (1 - 6)^2 + (2 - 7)^2 = 25 + 25 = 50
  $$

Точка $ x_1 $ → к $ c_1 $

#### Для точки $ x_2 = (2, 1) $

- До $ c_1 $:
  $$
  d^2 = (2 - 1)^2 + (1 - 2)^2 = 1 + 1 = 2
  $$
- До $ c_2 $:
  $$
  d^2 = (2 - 6)^2 + (1 - 7)^2 = 16 + 36 = 52
  $$

Точка $ x_2 $ → к $ c_1 $

#### Для точки $ x_3 = (5, 6) $

- До $ c_1 $:
  $$
  d^2 = (5 - 1)^2 + (6 - 2)^2 = 16 + 16 = 32
  $$
- До $ c_2 $:
  $$
  d^2 = (5 - 6)^2 + (6 - 7)^2 = 1 + 1 = 2
  $$

Точка $ x_3 $ → к $ c_2 $

#### Для точки $ x_4 = (6, 7) $

- До $ c_1 $:
  $$
  d^2 = (6 - 1)^2 + (7 - 2)^2 = 25 + 25 = 50
  $$
- До $ c_2 $:
  $$
  d^2 = (6 - 6)^2 + (7 - 7)^2 = 0 + 0 = 0
  $$

Точка $ x_4 $ → к $ c_2 $



### Результат после первого шага:

| Точка       | Расст. до c₁ | Расст. до c₂ | Ближайший центроид |
|-------------|----------------|----------------|----------------------|
| (1, 2)      | 0              | 50             | c₁                   |
| (2, 1)      | 2              | 52             | c₁                   |
| (5, 6)      | 32             | 2              | c₂                   |
| (6, 7)      | 50             | 0              | c₂                   |

Кластеры:
- Кластер 1 (c₁): $ \{(1, 2), (2, 1)\} $
- Кластер 2 (c₂): $ \{(5, 6), (6, 7)\} $



## 🔁 Шаг 2: Пересчёт новых центроидов

Центроид — это **среднее значение координат всех точек кластера**.

### Формула обновления центроида:

Для кластера $ C_j $ с $ n_j $ точками:
$$
c_j = \left( \frac{1}{n_j} \sum_{x_i \in C_j} x_{i1},\ \frac{1}{n_j} \sum_{x_i \in C_j} x_{i2} \right)
$$



### Обновляем $ c_1 $:

Точки: $ (1, 2), (2, 1) $

$$
c_1 = \left( \frac{1+2}{2}, \frac{2+1}{2} \right) = (1.5,\ 1.5)
$$

### Обновляем $ c_2 $:

Точки: $ (5, 6), (6, 7) $

$$
c_2 = \left( \frac{5+6}{2}, \frac{6+7}{2} \right) = (5.5,\ 6.5)
$$

Новые центроиды:
$$
c_1^{(1)} = (1.5, 1.5), \quad c_2^{(1)} = (5.5, 6.5)
$$


## 🔁 Шаг 3: Вторая итерация (ещё один цикл)

Повторяем шаги 1 и 2 с новыми центроидами.

### Вычислим расстояния до новых центроидов:

#### Для точки $ x_1 = (1, 2) $

- До $ c_1 = (1.5, 1.5) $:
  $$
  d^2 = (1 - 1.5)^2 + (2 - 1.5)^2 = 0.25 + 0.25 = 0.5
  $$
- До $ c_2 = (5.5, 6.5) $:
  $$
  d^2 = (1 - 5.5)^2 + (2 - 6.5)^2 = 20.25 + 20.25 = 40.5
  $$

→ к $ c_1 $

#### Для точки $ x_2 = (2, 1) $

- До $ c_1 $:
  $$
  d^2 = (2 - 1.5)^2 + (1 - 1.5)^2 = 0.25 + 0.25 = 0.5
  $$
- До $ c_2 $:
  $$
  d^2 = (2 - 5.5)^2 + (1 - 6.5)^2 = 12.25 + 30.25 = 42.5
  $$

→ к $ c_1 $

#### Для точки $ x_3 = (5, 6) $

- До $ c_1 $:
  $$
  d^2 = (5 - 1.5)^2 + (6 - 1.5)^2 = 12.25 + 20.25 = 32.5
  $$
- До $ c_2 $:
  $$
  d^2 = (5 - 5.5)^2 + (6 - 6.5)^2 = 0.25 + 0.25 = 0.5
  $$

→ к $ c_2 $

#### Для точки $ x_4 = (6, 7) $

- До $ c_1 $:
  $$
  d^2 = (6 - 1.5)^2 + (7 - 1.5)^2 = 20.25 + 30.25 = 50.5
  $$
- До $ c_2 $:
  $$
  d^2 = (6 - 5.5)^2 + (7 - 6.5)^2 = 0.25 + 0.25 = 0.5
  $$

→ к $ c_2 $

### Результат второй итерации:

Кластеры те же:
- Кластер 1: $ \{(1, 2), (2, 1)\} $
- Кластер 2: $ \{(5, 6), (6, 7)\} $

Значит, **алгоритм сошёлся**, можно останавливаться.



## ✅ Финальные результаты

### Центроиды:
$$
c_1 = (1.5,\ 1.5), \quad c_2 = (5.5,\ 6.5)
$$

### Кластеры:
- Кластер 1: $ \{(1, 2), (2, 1)\} $
- Кластер 2: $ \{(5, 6), (6, 7)\} $



## 📈 Целевая функция (инерция)

Считаем суммарное квадратичное отклонение (инерцию):

$$
J = \sum_{j=1}^{k} \sum_{x_i \in C_j} \|x_i - c_j\|^2
$$

### Для кластера 1:
- $ (1,2) $: $ (1 - 1.5)^2 + (2 - 1.5)^2 = 0.25 + 0.25 = 0.5 $
- $ (2,1) $: $ (2 - 1.5)^2 + (1 - 1.5)^2 = 0.25 + 0.25 = 0.5 $

Сумма: $ 0.5 + 0.5 = 1.0 $

### Для кластера 2:
- $ (5,6) $: $ (5 - 5.5)^2 + (6 - 6.5)^2 = 0.25 + 0.25 = 0.5 $
- $ (6,7) $: $ (6 - 5.5)^2 + (7 - 6.5)^2 = 0.25 + 0.25 = 0.5 $

Сумма: $ 0.5 + 0.5 = 1.0 $

### Общая инерция:
$$
J = 1.0 + 1.0 = 2.0
$$

Это минимальная возможная сумма квадратов для этого разделения.
