В этом модуле мы поговорим про снижение размерности: зачем это нужно, какие математические методы стоят за этой задачей и какие алгоритмы в библиотеке sklearn нам помогут.

# Урок 1. Постановка задачи понижения размерности

Алгоритмы машинного обучения работают с выборками, в которых могут быть десятки и даже сотни признаков. Однако, не все признаки могут быть одинаково полезны. Например, если мы занимается задачей прогнозирования времени нервного срыва, то некоторые фичи у нас будут независимы друг от друга (например, "угрюмость" настроения и артериальное давление), в то время как другие переменные будут связаны друг с другом т.е. зависимы: например, на картинке мы видим, что фича *угрюмость настроения* зависит линейно от фичи *количество часов сна* - очевидно, что чем меньше человек спит, тем больше угрюмость.

![sleepy_mood](https://248006.selcdn.ru/public/DS.%20Block%202.%20M8/sleepy_mood.png)

Интуитивно кажется, что из двух зависимых переменных можно оставить одну, т.к. в данном случае "связанные" переменные не добавляют качественно новой информации - мы можем в модели использовать только количество часов сна, потому что "угрюмость" всё равно связана с этой фичёй. 

Так возникает задача снижения размерности - хотим заменить несколько таких "связанные" фичей на одну. Без потери качества.

Карлом Пирсоном в 1901 был придуман Principal Component Analysis, или метод главных компонент. Пирсон решал задачу аппроксимации (приближения) экспериментальных данных линейными преобразованиями, т.е. прямыми. Пирсон пытался перейти от двумерной задачи к одномерной. Ниже картинка из оригинальной работы, на которой демонстрируется главная компонента, которая представляет собой прямую линию

![главная компонента](https://248006.selcdn.ru/public/DS.%20Block%202.%20M8/PearsonFig.jpg)

**Метод PCA** ( principal component analysis) позволяет снизить число переменных, выбрав самые изменчивые из них . Интуиция тут такая: чем сильнее изменяется переменная (чем больше у неё дисперсия, такую переменную называют "вариативной") - тем больше она содержит информации. *Главные компоненты* - это новые переменные, которые представляют собой линейные преобразования от исходных фичей. Например, на картинке с предыдущего слайда есть прямая и вдоль этой прямой данные изменяются *сильнее всего*.

Например, есть переменные $x_1$ и $x_2$. Главные компоненты - это просто преобразования исходных координат. Выглядеть они могут, например так (**сильно вникать не нужно, это всего лишь пример**):
$$
\left\{
\begin{array}{c}
p_1 = \frac{1}{\sqrt{2}}x_1 + \frac{1}{\sqrt{2}}x_2 \\
p_2 = -\frac{1}{2}x_1 - \frac{\sqrt{3}}{2}x_2
\end{array}
\right.
$$

Пирсон предложил две формулы, которые по сути своей поворачивают систему координат так, чтобы новые оси координат указывали направление, где дисперсия в облаке точек максимальна - см. пример на картинке:

![pca_axes_transform](https://248006.selcdn.ru/public/DS.%20Block%202.%20M8/pca_axes_transform.png)

Мы берем одну из этих формул (всегда первую - потому что из-за математической магии первая главная компонента "забирает в себя" большую часть дисперсии) и пересчитываем по ней каждую точку, снижая размерность на единицу. Теперь у нас на одну фичу меньше! Как же нам это поможет?

Понижение размерности применяется для:

* визуализации многомерных данных на плоскости. Многомерные датасеты иногда проще воспринять графически
* подготовки данных для алгоритмов более высокого уровня. Мы знаем, что линейная регрессия плохо справляется с выбросами а PCA как раз сожмёт выбросы в линию (для двумерного случая)

В этом уроке мы поговорили о том, зачем нужно понижать размерность пространства фичей. Мы обсудили такой метод понижения размерности, как PCA. В следующем уроке мы посмотрим, как применять реализацию PCA "из коробки".