<a href="https://colab.research.google.com/github/CodeHunterOfficial/AI_DataMining/blob/main/%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_K_means.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##  Алгоритм K-means

### Введение в K-means

Алгоритм K-means — это популярный метод кластеризации, который используется для разделения набора данных на K групп (кластеры). Это один из самых простых и интуитивно понятных алгоритмов кластеризации, который находит широкое применение в различных областях, таких как маркетинг, анализ изображений, биоинформатика и многое другое.

### Основная идея алгоритма

Основная идея K-means заключается в минимизации внутрикластерного расстояния, то есть, в том, чтобы точки в одном кластере были как можно ближе друг к другу, а кластеры между собой — как можно дальше.

### Шаги алгоритма K-means

Алгоритм K-means можно описать следующими шагами:

1. **Инициализация**: Выбрать K случайных точек из данных в качестве начальных центров кластеров (центроидов).
2. **Присвоение кластеров**: Для каждой точки данных вычислить расстояние до каждого из K центроидов и присвоить точку кластеру с ближайшим центроидом.
3. **Обновление центроидов**: Пересчитать центры кластеров, вычисляя среднее значение всех точек, принадлежащих каждому кластеру.
4. **Проверка сходимости**: Повторять шаги 2 и 3, пока центры кластеров не перестанут изменяться (или изменятся незначительно).

### Математические формулировки

#### 1. Выбор начальных центроидов

Пусть у нас есть набор данных, состоящий из $n$ точек $\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n$, где каждая точка $\mathbf{x}_i \in \mathbb{R}^m$.

Сначала мы выбираем $K$ случайных точек из данных для инициализации центроидов:

$$
C = \{ \mathbf{c}_1, \mathbf{c}_2, \ldots, \mathbf{c}_K \}
$$

#### 2. Присвоение кластеров

Для каждой точки $\mathbf{x}_i$ находим ближайший центроид $\mathbf{c}_j$:

$$
\text{cluster}(\mathbf{x}_i) = \arg \min_{j} \|\mathbf{x}_i - \mathbf{c}_j\|^2
$$

где $\|\cdot\|$ — это евклидова норма, определяемая как:

$$
\|\mathbf{x}_i - \mathbf{c}_j\|^2 = \sum_{k=1}^{m} (x_{ik} - c_{jk})^2
$$

#### 3. Обновление центроидов

После присвоения кластеров, обновляем центроиды:

$$
\mathbf{c}_j = \frac{1}{|S_j|} \sum_{\mathbf{x}_i \in S_j} \mathbf{x}_i
$$

где $S_j$ — множество точек, принадлежащих кластеру $j$, и $|S_j|$ — количество точек в кластере.

#### 4. Функция стоимости

Алгоритм K-means минимизирует функцию стоимости, которая измеряет внутрикластерное расстояние:

$$
J(C) = \sum_{j=1}^{K} \sum_{\mathbf{x}_i \in S_j} \|\mathbf{x}_i - \mathbf{c}_j\|^2
$$

### Пример работы алгоритма K-means

Рассмотрим простой пример. Пусть у нас есть набор данных, состоящий из следующих точек:

$$
\{(1, 2), (1, 4), (1, 0), (10, 2), (10, 4), (10, 0)\}
$$

#### Шаг 1: Инициализация

Выберем, например, $K = 2$ и инициализируем центроиды случайно:

- $\mathbf{c}_1 = (1, 2)$
- $\mathbf{c}_2 = (10, 2)$

#### Шаг 2: Присвоение кластеров

Теперь вычислим расстояния и присвоим кластеры:

- Для точки $(1, 2)$:
  - Расстояние до $\mathbf{c}_1$: $\sqrt{(1-1)^2 + (2-2)^2} = 0$
  - Расстояние до $\mathbf{c}_2$: $\sqrt{(1-10)^2 + (2-2)^2} = 9$
  - Присваиваем к кластеру 1.

- Для точки $(1, 4)$:
  - Расстояние до $\mathbf{c}_1$: $\sqrt{(1-1)^2 + (4-2)^2} = 2$
  - Расстояние до $\mathbf{c}_2$: $\sqrt{(1-10)^2 + (4-2)^2} \approx 9.2$
  - Присваиваем к кластеру 1.

- Аналогично обрабатываем остальные точки.

В результате после первой итерации кластеры могут быть:

- Кластер 1: $\{(1, 2), (1, 4), (1, 0)\}$
- Кластер 2: $\{(10, 2), (10, 4), (10, 0)\}$

#### Шаг 3: Обновление центроидов

Теперь пересчитаем центры кластеров:

- $\mathbf{c}_1 = \frac{1}{3} \left((1, 2) + (1, 4) + (1, 0)\right) = (1, \frac{6}{3}) = (1, 2)$
- $\mathbf{c}_2 = \frac{1}{3} \left((10, 2) + (10, 4) + (10, 0)\right) = (10, \frac{6}{3}) = (10, 2)$

#### Шаг 4: Проверка сходимости

Поскольку центроиды не изменились, алгоритм завершает свою работу. В результате мы получили два кластера:

- Кластер 1: $\{(1, 2), (1, 4), (1, 0)\}$
- Кластер 2: $\{(10, 2), (10, 4), (10, 0)\}$

### Преимущества и недостатки K-means

#### Преимущества:

- **Простота**: Легко реализовать и понимать.
- **Эффективность**: Быстро работает на больших наборах данных.

#### Недостатки:

- **Неопределенность K**: Необходимо заранее знать количество кластеров $K$.
- **Чувствительность к инициализации**: Разные начальные центроиды могут приводить к различным результатам.
- **Предположение о форме кластеров**: K-means предполагает, что кластеры имеют сферическую форму и одинаковые размеры, что не всегда справедливо.




Давайте рассмотрим два конкретных примера использования алгоритма K-means с подробными математическими решениями.

## Пример 1: Простые двумерные данные

### Данные

Рассмотрим набор точек:

$$
\{(1, 2), (1, 4), (1, 0), (10, 2), (10, 4), (10, 0)\}
$$

### Цель

Мы хотим разделить эти точки на $K = 2$ кластера с использованием алгоритма K-means.

### Шаг 1: Инициализация

Выберем случайные центроиды. Пусть:

- $\mathbf{c}_1 = (1, 2)$
- $\mathbf{c}_2 = (10, 2)$

### Шаг 2: Присвоение кластеров

Теперь мы будем вычислять расстояние от каждой точки до центроидов и присваивать их кластерам.

- Для точки $(1, 2)$:
  - $d_{1,1} = \sqrt{(1-1)^2 + (2-2)^2} = 0$
  - $d_{1,2} = \sqrt{(1-10)^2 + (2-2)^2} = 9$
  - **Присваиваем к кластеру 1.**

- Для точки $(1, 4)$:
  - $d_{2,1} = \sqrt{(1-1)^2 + (4-2)^2} = 2$
  - $d_{2,2} = \sqrt{(1-10)^2 + (4-2)^2} \approx 9.22$
  - **Присваиваем к кластеру 1.**

- Для точки $(1, 0)$:
  - $d_{3,1} = \sqrt{(1-1)^2 + (0-2)^2} = 2$
  - $d_{3,2} = \sqrt{(1-10)^2 + (0-2)^2} \approx 9.22$
  - **Присваиваем к кластеру 1.**

- Для точки $(10, 2)$:
  - $d_{4,1} = \sqrt{(10-1)^2 + (2-2)^2} = 9$
  - $d_{4,2} = \sqrt{(10-10)^2 + (2-2)^2} = 0$
  - **Присваиваем к кластеру 2.**

- Для точки $(10, 4)$:
  - $d_{5,1} = \sqrt{(10-1)^2 + (4-2)^2} = \sqrt{81 + 4} \approx 9.05$
  - $d_{5,2} = \sqrt{(10-10)^2 + (4-2)^2} = 2$
  - **Присваиваем к кластеру 2.**

- Для точки $(10, 0)$:
  - $d_{6,1} = \sqrt{(10-1)^2 + (0-2)^2} = \sqrt{81 + 4} \approx 9.05$
  - $d_{6,2} = \sqrt{(10-10)^2 + (0-2)^2} = 2$
  - **Присваиваем к кластеру 2.**

### Итог после первого присвоения

- **Кластер 1**: $\{(1, 2), (1, 4), (1, 0)\}$
- **Кластер 2**: $\{(10, 2), (10, 4), (10, 0)\}$

### Шаг 3: Обновление центроидов

Теперь пересчитаем центры кластеров:

- **Для кластера 1**:
$$
\mathbf{c}_1 = \left( \frac{1 + 1 + 1}{3}, \frac{2 + 4 + 0}{3} \right) = \left( 1, \frac{6}{3} \right) = (1, 2)
$$

- **Для кластера 2**:
$$
\mathbf{c}_2 = \left( \frac{10 + 10 + 10}{3}, \frac{2 + 4 + 0}{3} \right) = \left( 10, \frac{6}{3} \right) = (10, 2)
$$

### Шаг 4: Проверка сходимости

Центроиды не изменились, поэтому алгоритм завершает свою работу. Итоговые кластеры:

- **Кластер 1**: $\{(1, 2), (1, 4), (1, 0)\}$
- **Кластер 2**: $\{(10, 2), (10, 4), (10, 0)\}$

---

## Пример 2: Более сложные данные

### Данные

Рассмотрим набор точек в двумерном пространстве:

$$
\{(1, 2), (2, 3), (3, 1), (8, 7), (9, 6), (10, 8)\}
$$

### Цель

Разделить эти точки на $K = 2$ кластера.

### Шаг 1: Инициализация

Выберем случайные центроиды. Пусть:

- $\mathbf{c}_1 = (1, 2)$
- $\mathbf{c}_2 = (8, 7)$

### Шаг 2: Присвоение кластеров

Теперь вычислим расстояние от каждой точки до центроидов:

- Для точки $(1, 2)$:
  - $d_{1,1} = 0$
  - $d_{1,2} = \sqrt{(1-8)^2 + (2-7)^2} = \sqrt{49 + 25} = \sqrt{74} \approx 8.6$
  - **Присваиваем к кластеру 1.**

- Для точки $(2, 3)$:
  - $d_{2,1} = \sqrt{(2-1)^2 + (3-2)^2} = \sqrt{1 + 1} = \sqrt{2} \approx 1.41$
  - $d_{2,2} = \sqrt{(2-8)^2 + (3-7)^2} = \sqrt{36 + 16} = \sqrt{52} \approx 7.21$
  - **Присваиваем к кластеру 1.**

- Для точки $(3, 1)$:
  - $d_{3,1} = \sqrt{(3-1)^2 + (1-2)^2} = \sqrt{4 + 1} = \sqrt{5} \approx 2.24$
  - $d_{3,2} = \sqrt{(3-8)^2 + (1-7)^2} = \sqrt{25 + 36} = \sqrt{61} \approx 7.81$
  - **Присваиваем к кластеру 1.**

- Для точки $(8, 7)$:
  - $d_{4,1} = \sqrt{(8-1)^2 + (7-2)^2} = \sqrt{49 + 25} = \sqrt{74} \approx 8.6$
  - $d_{4,2} = 0$
  - **Присваиваем к кластеру 2.**

- Для точки $(9, 6)$:
  - $d_{5,1} = \sqrt{(9-1)^2 + (6-2)^2} = \sqrt{64 + 16} = \sqrt{80} \approx 8.94$
  - $d_{5,2} = \sqrt{(9-8)^2 + (6-7)^2} = \sqrt{1 + 1} = \sqrt{2} \approx 1.41$
  - **Присваиваем к кластеру 2.**

- Для точки $(10, 8)$:
  - $d_{6,1} = \sqrt{(10-1)^2 + (8-2)^2} = \sqrt{81 + 36} = \sqrt{117} \approx 10.82$
  - $d_{6,2} = \sqrt{(10-8)^2 + (8-7)^2} = \sqrt{4 + 1} = \sqrt{5} \approx 2.24$
  - **Присваиваем к кластеру 2.**

### Итог после первого присвоения

- **Кластер 1**: $\{(1, 2), (2,

3), (3, 1)\}$
- **Кластер 2**: $\{(8, 7), (9, 6), (10, 8)\}$

### Шаг 3: Обновление центроидов

Теперь пересчитаем центры кластеров:

- **Для кластера 1**:
$$
\mathbf{c}_1 = \left( \frac{1 + 2 + 3}{3}, \frac{2 + 3 + 1}{3} \right) = \left( 2, \frac{6}{3} \right) = (2, 2)
$$

- **Для кластера 2**:
$$
\mathbf{c}_2 = \left( \frac{8 + 9 + 10}{3}, \frac{7 + 6 + 8}{3} \right) = \left( \frac{27}{3}, \frac{21}{3} \right) = (9, 7)
$$

### Шаг 4: Проверка сходимости

Теперь проверим присвоение кластеров с новыми центроидами:

- Для точки $(1, 2)$:
  - $d_{1,1} = \sqrt{(1-2)^2 + (2-2)^2} = 1$
  - $d_{1,2} = \sqrt{(1-9)^2 + (2-7)^2} = \sqrt{64 + 25} = \sqrt{89} \approx 9.43$
  - **Присваиваем к кластеру 1.**

- Для точки $(2, 3)$:
  - $d_{2,1} = \sqrt{(2-2)^2 + (3-2)^2} = 1$
  - $d_{2,2} = \sqrt{(2-9)^2 + (3-7)^2} = \sqrt{49 + 16} = \sqrt{65} \approx 8.06$
  - **Присваиваем к кластеру 1.**

- Для точки $(3, 1)$:
  - $d_{3,1} = \sqrt{(3-2)^2 + (1-2)^2} = \sqrt{1 + 1} = \sqrt{2} \approx 1.41$
  - $d_{3,2} = \sqrt{(3-9)^2 + (1-7)^2} = \sqrt{36 + 36} = \sqrt{72} \approx 8.49$
  - **Присваиваем к кластеру 1.**

- Для точки $(8, 7)$:
  - $d_{4,1} = \sqrt{(8-2)^2 + (7-2)^2} = \sqrt{36 + 25} = \sqrt{61} \approx 7.81$
  - $d_{4,2} = \sqrt{(8-9)^2 + (7-7)^2} = 1$
  - **Присваиваем к кластеру 2.**

- Для точки $(9, 6)$:
  - $d_{5,1} = \sqrt{(9-2)^2 + (6-2)^2} = \sqrt{49 + 16} = \sqrt{65} \approx 8.06$
  - $d_{5,2} = \sqrt{(9-9)^2 + (6-7)^2} = 1$
  - **Присваиваем к кластеру 2.**

- Для точки $(10, 8)$:
  - $d_{6,1} = \sqrt{(10-2)^2 + (8-2)^2} = \sqrt{64 + 36} = \sqrt{100} = 10$
  - $d_{6,2} = \sqrt{(10-9)^2 + (8-7)^2} = \sqrt{1 + 1} = \sqrt{2} \approx 1.41$
  - **Присваиваем к кластеру 2.**

### Итог после второго присвоения

- **Кластер 1**: $\{(1, 2), (2, 3), (3, 1)\}$
- **Кластер 2**: $\{(8, 7), (9, 6), (10, 8)\}$

### Шаг 5: Проверка сходимости

Центроиды не изменились, и точки остались в тех же кластерах, что означает, что алгоритм завершил свою работу.

### Заключение

Мы рассмотрели два примера применения алгоритма K-means, где шаги были подробно объяснены с использованием математических формул. Эти примеры показывают, как можно разделить наборы данных на кластеры, используя K-means, и как обновляются центры кластеров на каждом этапе.






Давайте реализуем оба примера иерархической кластеризации на Python, используя библиотеки `numpy`, `pandas`, `scipy`, и `matplotlib`. Мы рассмотрим два примера: первый с простыми двумерными данными и второй с набором данных Iris.

### Установка необходимых библиотек

Если у вас ещё не установлены эти библиотеки, выполните команду:

```bash
pip install numpy pandas scipy matplotlib seaborn
```

### Пример 1: Простая агломеративная кластеризация

```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster

# Данные
data = np.array([
    [1, 2],   # A
    [2, 3],   # B
    [3, 3],   # C
    [6, 5],   # D
    [7, 8],   # E
    [8, 8]    # F
])

# Стандартизация данных (необязательно для простого примера)
# from sklearn.preprocessing import StandardScaler
# scaler = StandardScaler()
# data = scaler.fit_transform(data)

# Вычисление агломеративной кластеризации
Z = linkage(data, method='ward')

# Построение дендрограммы
plt.figure(figsize=(10, 5))
dendrogram(Z, labels=[f'Point {i+1}' for i in range(len(data))])
plt.title('Dendrogram for Hierarchical Clustering')
plt.xlabel('Data Points')
plt.ylabel('Distance')
plt.show()

# Получение кластеров с порогом (например, 5)
clusters = fcluster(Z, t=5, criterion='distance')
print("Clusters:", clusters)
```

### Пример 2: Иерархическая кластеризация на наборе данных Iris

Теперь давайте применим иерархическую кластеризацию к набору данных Iris.

```python
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler

# Загрузка данных Iris
iris = load_iris()
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)

# Стандартизация данных
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

# Вычисление агломеративной кластеризации
Z = linkage(data_scaled, method='ward')

# Построение дендрограммы
plt.figure(figsize=(10, 7))
dendrogram(Z, labels=iris.target_names[iris.target])
plt.title('Dendrogram for Iris Dataset')
plt.xlabel('Iris Species')
plt.ylabel('Distance')
plt.show()

# Получение кластеров с порогом
clusters = fcluster(Z, t=7, criterion='distance')
data['Cluster'] = clusters
print(data.head())
```

### Пояснения к коду

1. **Импорт библиотек**: Мы используем `numpy`, `pandas`, `scipy` и `matplotlib` для выполнения кластеризации и визуализации.
2. **Пример 1**:
   - Создаем массив с координатами объектов.
   - Применяем метод `linkage` для агломеративной кластеризации с использованием метода Уорда.
   - Строим дендрограмму с помощью функции `dendrogram`.
   - Получаем кластеры с использованием функции `fcluster` с заданным порогом.
3. **Пример 2**:
   - Загружаем набор данных Iris.
   - Стандартизируем данные.
   - Применяем агломеративную кластеризацию и строим дендрограмму.
   - Получаем кластеры и добавляем их к DataFrame.

### Запуск кода

Скопируйте каждый из примеров в отдельный Python файл или в Jupyter Notebook и выполните. Вы должны увидеть дендрограммы, а также распечатку кластеров, соответствующих объектам в обоих примерах.

