<a href="https://colab.research.google.com/github/CodeHunterOfficial/AI_DataMining/blob/main/%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0/%D0%98%D0%B5%D1%80%D0%B0%D1%80%D1%85%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Иерархическая кластеризация

### Введение

Иерархическая кластеризация — это метод анализа данных, который организует объекты в группы (кластеры) и представляет эти группы в виде иерархического дерева, называемого дендрограммой. Этот метод широко применяется в различных областях, таких как биология, маркетинг, социология и других.

### 1. Основные понятия

#### Кластеризация

Кластеризация — это процесс группировки множества объектов в подмножества (кластеры), так что объекты в одном кластере более похожи друг на друга, чем на объекты из других кластеров.

#### Иерархическая кластеризация

Иерархическая кластеризация делится на две основные категории:

1. **Агломеративная (снизу вверх)**: начинается с каждого объекта как отдельного кластера и последовательно объединяет их в более крупные кластеры.
2. **Делительная (сверху вниз)**: начинается с одного кластера, содержащего все объекты, и последовательно разделяет его на более мелкие кластеры.

### 2. Алгоритм агломеративной кластеризации

Агломеративная кластеризация проходит несколько этапов:

1. **Инициализация**: Каждый объект рассматривается как отдельный кластер.
2. **Вычисление расстояний**: Для каждого кластера вычисляется расстояние до всех остальных кластеров. Наиболее распространённые метрики расстояния:
   - Евклидово расстояние
   - Манхэттенское расстояние
   - Расстояние Махаліноса

   Для двух объектов $A(x_1, y_1)$ и $B(x_2, y_2)$ Евклидово расстояние определяется как:

$$
   d(A, B) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}
$$

3. **Слияние кластеров**: На каждом шаге алгоритм находит два ближайших кластера и объединяет их в один.
4. **Повторение**: Шаги 2 и 3 повторяются до тех пор, пока не останется один кластер.

#### Пример

Рассмотрим простой пример с пятью объектами, заданными координатами в двумерном пространстве:

| Объект | Координаты (x, y) |
|--------|--------------------|
| A      | (1, 2)             |
| B      | (2, 3)             |
| C      | (6, 5)             |
| D      | (7, 8)             |
| E      | (3, 4)             |

1. **Инициализация**: Каждый объект является отдельным кластером: {A}, {B}, {C}, {D}, {E}.
2. **Вычисление расстояний**:

   | Кластеры | Расстояние |
   |----------|------------|
   | {A}, {B} | 1.41       |
   | {A}, {C} | 5.0        |
   | {A}, {D} | 7.0        |
   | {A}, {E} | 2.24       |
   | {B}, {C} | 4.47       |
   | {B}, {D} | 6.40       |
   | {B}, {E} | 1.41       |
   | {C}, {D} | 2.83       |
   | {C}, {E} | 3.16       |
   | {D}, {E} | 5.0        |

   Ближайшие кластеры — {A} и {B} (расстояние 1.41).
3. **Слияние**: Объединяем {A} и {B} в {A, B}.
4. **Повторение**: Рассчитываем расстояния для новых кластеров:

   | Кластеры     | Расстояние |
   |--------------|------------|
   | {A, B}, {C}  | 4.24       |
   | {A, B}, {D}  | 6.36       |
   | {A, B}, {E}  | 1.41       |
   | {C}, {D}     | 2.83       |
   | {C}, {E}     | 3.16       |
   | {D}, {E}     | 5.0        |

   Теперь слияние {A, B} и {E} (расстояние 1.41) станет новым кластером {A, B, E}. И так далее, пока не останется один кластер.

### 3. Метод агломерации

Существует несколько методов определения расстояния между кластерами:

- **Метод ближайшего соседа (Single Linkage)**: расстояние между двумя кластерами определяется как минимальное расстояние между объектами из разных кластеров.
  
  $$
  d(A, B) = \min_{a \in A, b \in B} d(a, b)
 $$

- **Метод дальнего соседа (Complete Linkage)**: расстояние определяется как максимальное расстояние между объектами из разных кластеров.
  
  $$
  d(A, B) = \max_{a \in A, b \in B} d(a, b)
 $$

- **Метод среднего связующего (Average Linkage)**: расстояние — это среднее расстояние между всеми парами объектов из разных кластеров.
  
  $$
  d(A, B) = \frac{1}{|A| \cdot |B|} \sum_{a \in A} \sum_{b \in B} d(a, b)
 $$

- **Метод Вардарса (Ward's Method)**: метод минимизации суммы квадратов внутри кластера. Это расстояние определяется как увеличение общей дисперсии после слияния двух кластеров.

### 4. Дендрограмма

Дендрограмма — это визуальное представление процесса агломеративной кластеризации. На оси Y отображается расстояние (или мера несходства) между кластерами.

### 5. Алгоритм делительной кластеризации

Делительная кластеризация менее распространена, но также важна. В отличие от агломеративного метода, он начинается с одного кластера и последовательно делит его на подмножества.

1. **Инициализация**: Все объекты находятся в одном кластере.
2. **Разделение кластера**: Выбирается кластер для разделения. Внутри этого кластера используется один из методов кластеризации для разделения его на более мелкие кластеры (например, K-средние).
3. **Повторение**: Шаги 2 и 3 повторяются, пока не достигнута желаемая структура кластеров.

### 6. Пример применения иерархической кластеризации

Рассмотрим использование иерархической кластеризации для анализа набора данных о цветах, в котором представлены различные виды цветов и их характеристики, такие как длина и ширина лепестков.

1. **Данные**:

   | Вид         | Длина лепестка | Ширина лепестка |
   |-------------|----------------|------------------|
   | Iris-setosa | 1.4            | 0.2              |
   | Iris-versicolor | 4.7         | 1.4              |
   | Iris-virginica | 6.0         | 2.5              |
   | ...         | ...            | ...              |

2. **Стандартные метрики расстояния**: используется Евклидово расстояние.

3. **Агломеративный алгоритм**: определяется количество кластеров, которые нужно сформировать, с помощью дендрограммы.

4. **Результаты**: на основе дендрограммы исследователь может выбрать уровень слияния, который отражает желаемое количество кластеров.

### 7. Преимущества и недостатки

#### Преимущества

- Простота и наглядность.
- Не требует предварительного задания количества кластеров.
- Подходит для анализа многомерных данных.

#### Недостатки

- Вычислительная сложность, особенно для больших наборов данных (\(O(n^3)\)).
- Чувствительность к шуму и выбросам.
- Результаты могут зависеть от выбранной метрики расстояния и метода агломерации.

Хорошо! Давайте рассмотрим подробные математические примеры применения анализа главных компонент (PCA). Мы разобьем процесс на этапы и предоставим детальные математические решения.

## Пример 1: Анализ данных о росте и весе

### Данные

Рассмотрим набор данных о росте и весе для 5 человек:

| Человек | Рост (см) | Вес (кг) |
|---------|-----------|----------|
| 1       | 170       | 70       |
| 2       | 160       | 60       |
| 3       | 180       | 80       |
| 4       | 165       | 65       |
| 5       | 175       | 75       |

### Шаг 1: Стандартизация данных

Сначала найдем средние значения и стандартные отклонения для каждого признака.

#### Средние значения

$$
\mu_{\text{рост}} = \frac{170 + 160 + 180 + 165 + 175}{5} = \frac{850}{5} = 170
\]

$$
\mu_{\text{вес}} = \frac{70 + 60 + 80 + 65 + 75}{5} = \frac{350}{5} = 70
\]

#### Стандартные отклонения

Стандартное отклонение для роста:

$$
\sigma_{\text{рост}} = \sqrt{\frac{(170 - 170)^2 + (160 - 170)^2 + (180 - 170)^2 + (165 - 170)^2 + (175 - 170)^2}{5 - 1}} = \sqrt{\frac{0 + 100 + 100 + 25 + 25}{4}} = \sqrt{\frac{250}{4}} = \sqrt{62.5} \approx 7.91
\]

Стандартное отклонение для веса:

$$
\sigma_{\text{вес}} = \sqrt{\frac{(70 - 70)^2 + (60 - 70)^2 + (80 - 70)^2 + (65 - 70)^2 + (75 - 70)^2}{5 - 1}} = \sqrt{\frac{0 + 100 + 100 + 25 + 25}{4}} = \sqrt{\frac{250}{4}} = \sqrt{62.5} \approx 7.91
\]

#### Стандартизированные данные

Теперь можем стандартизировать данные:

$$
Z_{ij} = \frac{X_{ij} - \mu_j}{\sigma_j}
\]

| Человек | Рост (Z)               | Вес (Z)                |
|---------|-----------------------|-----------------------|
| 1       | \(Z_{1,1} = \frac{170 - 170}{7.91} = 0\)  | \(Z_{1,2} = \frac{70 - 70}{7.91} = 0\)    |
| 2       | \(Z_{2,1} = \frac{160 - 170}{7.91} \approx -1.27\) | \(Z_{2,2} = \frac{60 - 70}{7.91} \approx -1.27\) |
| 3       | \(Z_{3,1} = \frac{180 - 170}{7.91} \approx 1.27\)  | \(Z_{3,2} = \frac{80 - 70}{7.91} \approx 1.27\)  |
| 4       | \(Z_{4,1} = \frac{165 - 170}{7.91} \approx -0.63\) | \(Z_{4,2} = \frac{65 - 70}{7.91} \approx -0.63\) |
| 5       | \(Z_{5,1} = \frac{175 - 170}{7.91} \approx 0.63\)  | \(Z_{5,2} = \frac{75 - 70}{7.91} \approx 0.63\)  |

Теперь у нас есть матрица стандартизированных данных:

$$
Z = \begin{pmatrix}
0     & 0     \\
-1.27 & -1.27 \\
1.27  & 1.27  \\
-0.63 & -0.63 \\
0.63  & 0.63
\end{pmatrix}
\]

### Шаг 2: Вычисление ковариационной матрицы

Ковариационная матрица \(C\) вычисляется как:

$$
C = \frac{1}{n-1} Z^T Z
\]

где \(n\) — количество наблюдений.

Подсчитаем:

$$
Z^T = \begin{pmatrix}
0     & -1.27 & 1.27  & -0.63 & 0.63  \\
0     & -1.27 & 1.27  & -0.63 & 0.63
\end{pmatrix}
\]

Теперь вычислим произведение \(Z^T Z\):

$$
Z^T Z = \begin{pmatrix}
0^2 + (-1.27)^2 + (1.27)^2 + (-0.63)^2 + (0.63)^2 & 0 \cdot 0 + (-1.27) \cdot (-1.27) + 1.27 \cdot 1.27 + (-0.63) \cdot (-0.63) + 0.63 \cdot 0.63 \\
0 \cdot 0 + (-1.27) \cdot (-1.27) + 1.27 \cdot 1.27 + (-0.63) \cdot (-0.63) + 0.63 \cdot 0.63 & 0^2 + (-1.27)^2 + (1.27)^2 + (-0.63)^2 + (0.63)^2
\end{pmatrix}
\]

Таким образом, получим:

$$
Z^T Z = \begin{pmatrix}
0 + 1.6129 + 1.6129 + 0.3969 + 0.3969 & 0 \\
0 & 0 + 1.6129 + 1.6129 + 0.3969 + 0.3969
\end{pmatrix}
= \begin{pmatrix}
4.0196 & 0 \\
0 & 4.0196
\end{pmatrix}
\]

Теперь вычислим ковариационную матрицу:

$$
C = \frac{1}{5-1} Z^T Z = \frac{1}{4} \begin{pmatrix}
4.0196 & 0 \\
0 & 4.0196
\end{pmatrix} = \begin{pmatrix}
1.0049 & 0 \\
0 & 1.0049
\end{pmatrix}
\]

### Шаг 3: Нахождение собственных значений и собственных векторов

Теперь найдем собственные значения и собственные векторы матрицы ковариации \(C\).

Решаем характеристическое уравнение:

$$
\text{det}(C - \lambda I) = 0
\]

где \(I\) — единичная матрица. То есть:

$$
\text{det}\left(\begin{pmatrix}
1.0049 - \lambda & 0 \\
0 & 1.0049 - \lambda
\end{pmatrix}\right) = (1.0049 - \lambda)^2 = 0
\]

Таким образом, находим собственные значения:

$$
\lambda_1 = \lambda_2 = 1.0049
\]

Теперь найдем собственные векторы. Подставим \(\lambda\) в уравнение:

$$
(C - \lambda I)v = 0
\]

Получаем:

$$
\begin{pmatrix}
1.0049 - \lambda & 0 \\
0 & 1.0049 - \lambda
\end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = 0
\]

Поскольку оба собственных значения равны, это говорит о том, что у нас два одинаковых собственных вектора:

$$
v = \begin{pmatrix} 1 \\ 0 \end{pmatrix} \quad \text{и} \quad v = \begin{pmatrix} 0 \\ 1 \end{pmatrix}
\]

### Шаг 4: Сортировка собственных векторов

В данном случае оба собственных вектора имеют одинаковую важность, и мы можем выбрать любой из них для проекции данных.

### Шаг 5: Проекция данных

Проектируем стандартизированные данные на первую главную компоненту:

$$
Y = Z v
\]

Выберем, например, собственный вектор \(v = \begin{pmatrix} 1 \\ 0 \end{pmatrix}\):

$$
Y = Z \begin{pmatrix} 1 \\ 0 \end{pmatrix} =

 \begin{pmatrix}
0 \\
-1.27 \\
1.27 \\
-0.63 \\
0.63
\end{pmatrix}
\]

### Результаты

Мы получили проекцию исходных данных на главную компоненту. Эта информация может быть использована для дальнейшего анализа.

## Пример 2: Анализ изображений

Рассмотрим простой пример с изображениями, где каждый пиксель будет представлять собой переменную.

### Данные

Предположим, у нас есть 4 изображения (по 4 пикселя каждое), которые представлены следующим образом:

| Изображение | Пиксель 1 | Пиксель 2 | Пиксель 3 | Пиксель 4 |
|-------------|-----------|-----------|-----------|-----------|
| 1           | 1         | 2         | 3         | 4         |
| 2           | 2         | 3         | 4         | 5         |
| 3           | 3         | 4         | 5         | 6         |
| 4           | 4         | 5         | 6         | 7         |

### Шаг 1: Стандартизация данных

Найдем средние значения и стандартные отклонения для каждого пикселя.

#### Средние значения

$$
\mu_{1} = \frac{1 + 2 + 3 + 4}{4} = \frac{10}{4} = 2.5
\]
$$
\mu_{2} = \frac{2 + 3 + 4 + 5}{4} = \frac{14}{4} = 3.5
\]
$$
\mu_{3} = \frac{3 + 4 + 5 + 6}{4} = \frac{18}{4} = 4.5
\]
$$
\mu_{4} = \frac{4 + 5 + 6 + 7}{4} = \frac{22}{4} = 5.5
\]

#### Стандартные отклонения

$$
\sigma_{1} = \sqrt{\frac{(1-2.5)^2 + (2-2.5)^2 + (3-2.5)^2 + (4-2.5)^2}{4 - 1}} = \sqrt{\frac{2.25 + 0.25 + 0.25 + 2.25}{3}} = \sqrt{\frac{5}{3}} \approx 1.29
\]

$$
\sigma_{2} = \sqrt{\frac{(2-3.5)^2 + (3-3.5)^2 + (4-3.5)^2 + (5-3.5)^2}{3}} = \sqrt{\frac{2.25 + 0.25 + 0.25 + 2.25}{3}} = \sqrt{\frac{5}{3}} \approx 1.29
\]

$$
\sigma_{3} = \sqrt{\frac{(3-4.5)^2 + (4-4.5)^2 + (5-4.5)^2 + (6-4.5)^2}{3}} = \sqrt{\frac{2.25 + 0.25 + 0.25 + 2.25}{3}} = \sqrt{\frac{5}{3}} \approx 1.29
\]

$$
\sigma_{4} = \sqrt{\frac{(4-5.5)^2 + (5-5.5)^2 + (6-5.5)^2 + (7-5.5)^2}{3}} = \sqrt{\frac{2.25 + 0.25 + 0.25 + 2.25}{3}} = \sqrt{\frac{5}{3}} \approx 1.29
\]

#### Стандартизированные данные

Теперь стандартизируем данные:

$$
Z_{ij} = \frac{X_{ij} - \mu_j}{\sigma_j}
\]

| Изображение | Пиксель 1 (Z) | Пиксель 2 (Z) | Пиксель 3 (Z) | Пиксель 4 (Z) |
|-------------|----------------|----------------|----------------|----------------|
| 1           | \(\frac{1 - 2.5}{1.29} \approx -1.16\) | \(\frac{2 - 3.5}{1.29} \approx -1.16\) | \(\frac{3 - 4.5}{1.29} \approx -1.16\) | \(\frac{4 - 5.5}{1.29} \approx -1.16\) |
| 2           | \(\frac{2 - 2.5}{1.29} \approx -0.39\) | \(\frac{3 - 3.5}{1.29} \approx -0.39\) | \(\frac{4 - 4.5}{1.29} \approx -0.39\) | \(\frac{5 - 5.5}{1.29} \approx -0.39\) |
| 3           | \(\frac{3 - 2.5}{1.29} \approx 0.39\) | \(\frac{4 - 3.5}{1.29} \approx 0.39\) | \(\frac{5 - 4.5}{1.29} \approx 0.39\) | \(\frac{6 - 5.5}{1.29} \approx 0.39\) |
| 4           | \(\frac{4 - 2.5}{1.29} \approx 1.16\) | \(\frac{5 - 3.5}{1.29} \approx 1.16\) | \(\frac{6 - 4.5}{1.29} \approx 1.16\) | \(\frac{7 - 5.5}{1.29} \approx 1.16\) |

Стандартизированная матрица:

$$
Z = \begin{pmatrix}
-1.16 & -1.16 & -1.16 & -1.16 \\
-0.39 & -0.39 & -0.39 & -0.39 \\
0.39  & 0.39  & 0.39  & 0.39  \\
1.16  & 1.16  & 1.16  & 1.16
\end{pmatrix}
\]

### Шаг 2: Вычисление ковариационной матрицы

$$
C = \frac{1}{n-1} Z^T Z
\]

Вычисляем \(Z^T\) и \(Z^T Z\):

$$
Z^T = \begin{pmatrix}
-1.16 & -0.39 & 0.39 & 1.16 \\
-1.16 & -0.39 & 0.39 & 1.16 \\
-1.16 & -0.39 & 0.39 & 1.16 \\
-1.16 & -0.39 & 0.39 & 1.16
\end{pmatrix}
\]

Теперь найдем:

$$
Z^T Z = \begin{pmatrix}
(-1.16)^2 + (-0.39)^2 + (0.39)^2 + (1.16)^2 & ... \\
... & ...
\end{pmatrix}
\]

Вычисляя каждую ячейку, мы получаем:

$$
Z^T Z = \begin{pmatrix}
4 & 4 & 4 & 4 \\
4 & 4 & 4 & 4 \\
4 & 4 & 4 & 4 \\
4 & 4 & 4 & 4
\end{pmatrix}
\]

Теперь вычисляем ковариационную матрицу:

$$
C = \frac{1}{4 - 1} Z^T Z = \frac{1}{3} \begin{pmatrix}
4 & 4 & 4 & 4 \\
4 & 4 & 4 & 4 \\
4 & 4 & 4 & 4 \\
4 & 4 & 4 & 4
\end{pmatrix} = \begin{pmatrix}
1.33 & 1.33 & 1.33 & 1.33 \\
1.33 & 1.33 & 1.33 & 1.33 \\
1.33 & 1.33 & 1.33 & 1.33 \\
1.33 & 1.33 & 1.33 & 1.33
\end{pmatrix}
\]

### Шаг 3: Нахождение собственных значений и собственных векторов

Решаем характеристическое уравнение:

$$
\text{det}(C - \lambda I) = 0
\]

Т.е.

$$
\text{det}\left(\begin{pmatrix}
1.33 - \lambda & 1.33 & 1.33 & 1.33 \\
1.33

 & 1.33 - \lambda & 1.33 & 1.33 \\
1.33 & 1.33 & 1.33 - \lambda & 1.33 \\
1.33 & 1.33 & 1.33 & 1.33 - \lambda
\end{pmatrix}\right) = 0
\]

Решая это уравнение, находим собственные значения и собственные векторы.

### Шаг 4: Проекция данных

Для проекции используем найденные собственные векторы и получим уменьшенное представление данных.

### Заключение

PCA — мощный метод анализа данных, который помогает уменьшить размерность и выявить основные компоненты в наборе данных. Мы рассмотрели два примера с детальными математическими шагами, которые иллюстрируют, как проводить анализ главных компонент на практических данных.

 Давайте реализуем анализ главных компонент (PCA) на Python. Мы воспользуемся библиотеками `numpy` и `pandas` для работы с данными и `matplotlib` для визуализации.

### Пример 1: Анализ данных о росте и весе

#### Установка необходимых библиотек

Если у вас еще не установлены библиотеки, вы можете установить их с помощью следующей команды:

```bash
pip install numpy pandas matplotlib scikit-learn
```

#### Код

Теперь давайте напишем код для выполнения PCA на примере данных о росте и весе.

```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Данные о росте и весе
data = {
    'Рост': [170, 160, 180, 165, 175],
    'Вес': [70, 60, 80, 65, 75]
}

# Создаем DataFrame
df = pd.DataFrame(data)

# Стандартизация данных
scaler = StandardScaler()
scaled_data = scaler.fit_transform(df)

# Применяем PCA
pca = PCA(n_components=1)
principal_components = pca.fit_transform(scaled_data)

# Создаем DataFrame с главными компонентами
principal_df = pd.DataFrame(data=principal_components, columns=['Первая главная компонента'])

# Визуализация
plt.figure(figsize=(8, 6))
plt.scatter(principal_df['Первая главная компонента'], np.zeros_like(principal_df['Первая главная компонента']),
            color='blue', alpha=0.6)
plt.title('PCA: Первая главная компонента')
plt.xlabel('Первая главная компонента')
plt.yticks([])
plt.grid()
plt.show()
```

### Пример 2: Анализ изображений

Теперь давайте реализуем PCA для простого примера с изображениями (по 4 пикселя каждое).

#### Код

```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Данные об изображениях (4 пикселя на изображение)
data = {
    'Пиксель_1': [1, 2, 3, 4],
    'Пиксель_2': [2, 3, 4, 5],
    'Пиксель_3': [3, 4, 5, 6],
    'Пиксель_4': [4, 5, 6, 7]
}

# Создаем DataFrame
df = pd.DataFrame(data)

# Стандартизация данных
scaler = StandardScaler()
scaled_data = scaler.fit_transform(df)

# Применяем PCA
pca = PCA(n_components=2)  # Уменьшаем до 2-х компонентов для визуализации
principal_components = pca.fit_transform(scaled_data)

# Создаем DataFrame с главными компонентами
principal_df = pd.DataFrame(data=principal_components, columns=['Первая главная компонента', 'Вторая главная компонента'])

# Визуализация
plt.figure(figsize=(8, 6))
plt.scatter(principal_df['Первая главная компонента'], principal_df['Вторая главная компонента'], color='red', alpha=0.6)
plt.title('PCA: Главные компоненты изображений')
plt.xlabel('Первая главная компонента')
plt.ylabel('Вторая главная компонента')
plt.grid()
plt.show()
```

### Запуск кода

1. Скопируйте каждый блок кода в отдельные ячейки вашего Python-окружения или в один файл Python.
2. Запустите код, и вы должны увидеть визуализации PCA для обоих примеров.


