<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/ML/%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BE%D1%81%D0%BD%D0%BE%D0%B2%D1%8B_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D0%B0_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82_(PCA).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Математические основы метода главных компонент (PCA)

Метод главных компонент (Principal Component Analysis, PCA) — это один из ключевых инструментов в машинном обучении и анализе данных. Он используется для снижения размерности данных с минимальными потерями информации.



## Цель PCA

PCA помогает:
- Уменьшить количество переменных (факторов) в наборе данных.
- Устранить мультиколлинеарность между признаками.
- Найти проекции, которые сохраняют как можно больше дисперсии исходных данных.
- Визуализировать данные высокой размерности.



## 1. Основная идея PCA

PCA строит новую систему координат в пространстве исходных данных так, чтобы первая ось (главная компонента) соответствовала направлению наибольшей дисперсии данных, вторая — направлению второй по величине дисперсии и т.д. Эти новые оси ортогональны друг другу.

Таким образом, PCA находит **ортонормированный базис**, в котором дисперсия данных максимальна по первым координатам.



## 2. Формальная постановка задачи

Пусть у нас есть матрица данных $ X \in \mathbb{R}^{n \times p} $, где:
- $ n $ — количество объектов,
- $ p $ — количество признаков.

Каждая строка матрицы $ X $ — это вектор признаков одного объекта.

**Задача PCA:**
Найти такие единичные векторы $ w_1, w_2, ..., w_k $, что проекции данных на эти векторы имеют максимальную дисперсию, и при этом векторы $ w_i $ ортогональны друг другу.


----

## 🔹 Что такое единичный вектор?

Это вектор длины 1:  
$$
\|w_i\| = \sqrt{w_i^T w_i} = 1
$$

Зачем это нужно? Чтобы сравнивать направления "на равных условиях". Иначе можно было бы просто растягивать вектор — и дисперсия росла бы только из-за его длины, а не из-за направления.


## 🔸 Что такое проекция данных на вектор?

Представь, у тебя есть точка $ x \in \mathbb{R}^p $ (вектор признаков объекта), и ты хочешь спроецировать её на вектор $ w \in \mathbb{R}^p $. Тогда скалярная проекция будет:

$$
y = x \cdot w
$$

Если у тебя много таких точек (например, матрица данных $ X \in \mathbb{R}^{n \times p} $), то проекции всех объектов на $ w $ — это просто вектор $ Y = X \cdot w $ размерности $ n \times 1 $.

Теперь можем посчитать **дисперсию этих проекций** — то есть, насколько точки "разбросаны" вдоль этого направления.


## 🔸 Почему важна **максимальная дисперсия**?

Максимальная дисперсия означает, что мы выбираем такое направление, вдоль которого данные наиболее "разбросаны", т.е. **информативны**.

💡 Чем больше дисперсия — тем лучше различаются объекты вдоль этого направления, и тем меньше информации теряется при снижении размерности.


## 🔸 Что значит "векторы ортогональны друг другу"?

Два вектора $ w_i $ и $ w_j $ ортогональны, если их скалярное произведение равно нулю:

$$
w_i^T w_j = 0, \quad \text{при } i \ne j
$$

Геометрически это означает, что векторы перпендикулярны друг другу.

### Зачем нужна ортогональность?

- Это гарантирует, что новые оси (главные компоненты) **независимы** друг от друга.
- Проекции на разные главные компоненты не коррелируют между собой — это удобно для анализа и интерпретации.
- Ортогональность позволяет строить новый ортонормированный базис в пространстве данных.

----

## 3. Подготовка данных: центрирование

Первый шаг — **центрирование данных**:

$$
\bar{x}_j = \frac{1}{n} \sum_{i=1}^n x_{ij}, \quad j = 1,...,p
$$

Далее вычитаем среднее из каждого столбца:

$$
x_{ij}' = x_{ij} - \bar{x}_j
$$

Или в матричной форме:

$$
X_{\text{centered}} = X - \mathbf{1}_n \cdot \bar{x}^T
$$

где $ \mathbf{1}_n $ — вектор из единиц длины $ n $, $ \bar{x} $ — вектор средних значений признаков.



## 4. Ковариационная матрица

После центрирования данных вычисляем **ковариационную матрицу**:

$$
\Sigma = \frac{1}{n - 1} X_{\text{centered}}^T X_{\text{centered}}
$$

Это матрица размера $ p \times p $, где каждый элемент $ \Sigma_{ij} $ показывает ковариацию между i-м и j-м признаком.

### Свойства ковариационной матрицы:
- Она симметричная ($ \Sigma = \Sigma^T $).
- Все собственные значения неотрицательны (матрица положительно полуопределённая).



## 5. Собственные значения и собственные векторы

Чтобы найти направления максимальной дисперсии, нужно решить задачу на собственные значения:

$$
\Sigma w = \lambda w
$$

Где:
- $ w $ — собственный вектор (направление),
- $ \lambda $ — соответствующее собственное значение (мера дисперсии в этом направлении).

Собственные векторы матрицы $ \Sigma $ образуют ортогональный базис.

### Выбор главных компонент

Собственные векторы, соответствующие **наибольшим собственным значениям**, дают направления с наибольшей дисперсией.

Выбираем $ k $ первых собственных векторов $ w_1, w_2, ..., w_k $, отсортированных по убыванию собственных значений.



## 6. Построение проекций (новые признаки)

Строим матрицу проектирования:

$$
W = [w_1 \; w_2 \; ... \; w_k] \in \mathbb{R}^{p \times k}
$$

Проекция данных на новое подпространство:

$$
Y = X_{\text{centered}} \cdot W \in \mathbb{R}^{n \times k}
$$

Эта матрица $ Y $ содержит преобразованные данные в новом пространстве меньшей размерности.


## 7. Объяснённая дисперсия

Для оценки качества понижения размерности считают **долю объяснённой дисперсии**:

$$
\text{Доля дисперсии} = \frac{\sum_{i=1}^k \lambda_i}{\sum_{i=1}^p \lambda_i}
$$

Где $ \lambda_i $ — собственные значения, отсортированные по убыванию.

Обычно выбирают такое $ k $, чтобы эта доля была достаточно большой (например, 90%).



## 8. Геометрическая интерпретация

PCA находит такие взаимно перпендикулярные направления (оси), что если спроецировать данные на них, то:
- Первая ось будет иметь наибольшую возможную дисперсию среди всех возможных направлений.
- Вторая ось — наибольшую возможную дисперсию среди всех направлений, ортогональных первой, и т.д.



## 9. Альтернативный подход: SVD

PCA можно реализовать через **сингулярное разложение (SVD)** матрицы $ X_{\text{centered}} $:

$$
X_{\text{centered}} = U \Sigma V^T
$$

- $ U \in \mathbb{R}^{n \times n} $ — ортогональная матрица,
- $ \Sigma \in \mathbb{R}^{n \times p} $ — диагональная матрица сингулярных чисел,
- $ V \in \mathbb{R}^{p \times p} $ — ортогональная матрица, столбцы которой — собственные векторы $ \Sigma $.

**Собственные векторы PCA = правые сингулярные векторы матрицы $ X_{\text{centered}} $.**



## 10. Пример шаг за шагом

Рассмотрим небольшой пример:

### Шаг 1: Исходные данные
$$
X =
\begin{bmatrix}
1 & 2 \\
2 & 3 \\
3 & 4 \\
\end{bmatrix}
$$

### Шаг 2: Центрирование
Вычислим средние:
$$
\bar{x}_1 = \frac{1+2+3}{3} = 2,\quad \bar{x}_2 = \frac{2+3+4}{3} = 3
$$

$$
X_{\text{centered}} =
\begin{bmatrix}
-1 & -1 \\
0 & 0 \\
1 & 1 \\
\end{bmatrix}
$$

### Шаг 3: Ковариационная матрица
$$
\Sigma = \frac{1}{2} X_{\text{centered}}^T X_{\text{centered}} =
\frac{1}{2}
\begin{bmatrix}
(-1)^2 + 0^2 + 1^2 & (-1)(-1) + 0*0 + 1*1 \\
(-1)(-1) + 0*0 + 1*1 & (-1)^2 + 0^2 + 1^2 \\
\end{bmatrix}
=
\frac{1}{2}
\begin{bmatrix}
2 & 2 \\
2 & 2 \\
\end{bmatrix}
=
\begin{bmatrix}
1 & 1 \\
1 & 1 \\
\end{bmatrix}
$$

### Шаг 4: Собственные значения и векторы

Характеристическое уравнение:

$$
\det(\Sigma - \lambda I) = (1 - \lambda)^2 - 1 = 0 \Rightarrow \lambda^2 - 2\lambda = 0 \Rightarrow \lambda_1 = 2, \lambda_2 = 0
$$

Собственные векторы:
- Для $ \lambda_1 = 2 $: $ w_1 = \left[ \frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}} \right]^T $
- Для $ \lambda_2 = 0 $: $ w_2 = \left[ \frac{-1}{\sqrt{2}}, \frac{1}{\sqrt{2}} \right]^T $

### Шаг 5: Проекция на первую компоненту

$$
Y = X_{\text{centered}} \cdot w_1 =
\begin{bmatrix}
-1 & -1 \\
0 & 0 \\
1 & 1 \\
\end{bmatrix}
\cdot
\begin{bmatrix}
\frac{1}{\sqrt{2}} \\
\frac{1}{\sqrt{2}} \\
\end{bmatrix}
=
\begin{bmatrix}
-\frac{2}{\sqrt{2}} \\
0 \\
\frac{2}{\sqrt{2}} \\
\end{bmatrix}
=
\begin{bmatrix}
-\sqrt{2} \\
0 \\
\sqrt{2} \\
\end{bmatrix}
$$



## 11. Свойства PCA

- Сохраняет линейные зависимости.
- Чувствителен к масштабу признаков (поэтому часто применяют нормализацию перед PCA).
- Не сохраняет нелинейные структуры (для этого используются методы типа t-SNE, UMAP и др.).



## 12. Когда использовать PCA?

- Когда много коррелированных признаков.
- При необходимости уменьшить размерность.
- Для визуализации многомерных данных.
- Как предобработка перед классификацией или кластеризацией.



## Заключение

PCA — мощный инструмент анализа данных, основанный на линейной алгебре: ковариационных матрицах, собственных значениях и векторах. Он позволяет находить наиболее информативные направления в данных и эффективно уменьшать их размерность без существенной потери информации.

