# **Principal Component Analysis (PCA)**

Principal Component Analysis (PCA) — это метод, который позволяет **сократить размерность данных**, оставив только наиболее информативные признаки. Основная идея PCA — найти такие направления в пространстве признаков, вдоль которых данные имеют **максимальную дисперсию**, и преобразовать данные в новое пространство, где признаки **некоррелированы**.

### 1. Собственные числа и собственные векторы

Для PCA мы используем либо **ковариационную матрицу**:

$$
C = \frac{1}{n-1} (X - \bar X)^\top (X - \bar X)
$$

либо **матрицу Грама** для разреженных или нецентрированных данных:

$$
G = \frac{1}{n} X^\top X
$$

Далее решаем уравнение на собственные значения и собственные векторы:

$$
A w = \lambda w
$$

где

* $A$ — ковариационная матрица или матрица Грама,
* $w$ — собственный вектор (направление главной компоненты),
* $\lambda$ — собственное число (дисперсия вдоль этого направления).

При действии матрицы $A$ на собственный вектор $w$ **его направление не меняется**, меняется только масштаб на величину $\lambda$.

Собственные значения определяются из уравнения:

$$
\det(A - \lambda I) = 0
$$

а для каждого $\lambda$ находим соответствующий собственный вектор $w$.


### 2. Матрица собственных векторов

Собственные векторы собираются в матрицу $W$, где **каждый столбец — собственный вектор**:

$$
W = [w_1, w_2, \dots, w_m]
$$

Эта матрица **ортонормирована**, то есть $$W^\top W = I$$. Это означает, что столбцы $W$ перпендикулярны друг другу и имеют единичную длину.


### 3. Преобразование данных

Чтобы получить новые признаки, проецируем исходные данные $X$ на пространство главных компонент:

$$
Z = X W \quad \text{или} \quad Z = (X - \bar X) W
$$

* Новые признаки $Z$ некоррелированы.
* Они упорядочены по **убыванию дисперсии**: первая компонента несёт больше всего информации, последняя — меньше.


### 4. Отбор информативных компонент

* Собственные числа $\lambda_i$ показывают, насколько важна каждая компонента.
* Компоненты с малой дисперсией (например, $\lambda_i < 0.01$) считаются малозначимыми и могут быть **отброшены**.
* Часто используют порог по **доле объяснённой дисперсии**, оставляя компоненты, покрывающие 90–95% суммарной дисперсии.


### 5. Краткий алгоритм PCA

1. Вычислить матрицу $A = X^\top X / n$ или ковариацию.
2. Найти собственные значения $\lambda_i$ и собственные векторы $w_i$.
3. Отсортировать собственные числа по убыванию и переставить столбцы $W$ соответствующим образом.
4. Проецировать данные: $Z = X W$.
5. Удалить малозначимые компоненты по $\lambda_i$ или доле объяснённой дисперсии.
