# <center> Линейный оператор
Умножение матрицы на вектор можно представить как его одновременный поворот и растяжение.

А если рассмотреть умножение матрицы на все векторы пространства, то получится преобразование всего этого пространства или так называемый **линейный оператор**.  
![image.png](attachment:image.png)  
![image-2.png](attachment:image-2.png)

Каждая квадратная матрица задаёт линейный оператор. Под действием этого оператора каждый вектор меняет длину и поворачивается. У разных векторов могут быть разные углы поворота и коэффициенты растяжения.

## <center> Собственные векторы и числа
>**Собственный вектор** или **айгенвектор** — это вектор, который не меняет направление под действием оператора, а только растягивается или сжимается.
$$ A \vec{v} = \lambda \vec{v} $$
>Коэффициент растяжения или сжатия **λ** («лямбда») называется **собственным числом** оператора А и его матрицы.

>**Айгенпарой** называется пара, состоящая из собственного числа и соответствующего ему собственного вектора. 

>**Спектром матрицы** называется набор её собственных чисел.

>Результат действия оператора на вектор называют **образом вектора**.
# <center> Собственные векторы и числа
Как искать **спектр матрицы** и **собственные числа** на примере квадратной матрицы *А*.

Итак, следующее уравнение должно иметь ненулевые решения:
$$ A \vec{v} = \lambda \vec{v} $$
$$ A \vec{v} - \lambda \vec{v} = 0 $$
$$ (A - \lambda E) \vec{v} = 0 $$
Чтобы было ненулевое решение, столбцы матрицы А – λE должны быть линейно зависимы. А как мы помним, столбцы квадратной матрицы линейно зависимы тогда и только тогда, когда она вырождена, то есть если её **определитель равен нулю**.
$$ \det(A - \lambda E) = 0 $$
## <center> Алгоритм поиска собственных векторов и чисел
1. Записываем характеристическое уравнение:

    $$
    \det(A - \lambda E) = \det \begin{pmatrix}
    a - \lambda & b \\
    c & d - \lambda
    \end{pmatrix} = (a - \lambda)(d - \lambda) - bc = 0
    $$

2. Находим собственные числа $\lambda_1=$..., $\lambda_2=$..., решив характеристическое уравнение;
3. Находим собственные векторы, решая систему уравнений $(A - \lambda E) \vec{v} = 0$ для каждого $\lambda$.

>**Свойство спектра матрицы**: произведение собственных чисел равно в точности определителю матрицы.

$$ \lambda_1 \cdot \lambda_2 = \det(A) $$

## <center>Свойства спектра
1. На основе спектра матрицы можно понять определённость матрицы:
    * Если все **λ > 0** → матрица A **положительно определена**.
    * Если все **λ ≥ 0** → матрица A **НЕотрицательно определена**.
    * Если все **λ < 0** → матрица A **отрицательно определена**.
    * Если все **λ ≤ 0** → матрица A **НЕположительно определена**.
2. Определитель матрицы равен произведению собственных чисел:
    $$ \det(A) = \lambda_1 \cdot \lambda_2 \cdot \dots \cdot \lambda_n $$
3. Из пункта 2 следует, что нулевое собственное число означает вырожденность матрицы.

    То есть, если хотя бы одно из собственных чисел $\lambda_i = 0$, то и определитель матрицы $\det(A)=0$, то есть матрица является вырожденной.

    Утверждение может быть и обратным: если определитель матрицы отличен от нуля, то это значит, что в спектре нет нулевых собственных чисел, то есть все $\lambda_i \neq 0$.

    Матрицы с нулевыми или близкими к нулю собственными числами называются **плохо обусловленными**.
4. Собственные векторы из разных *айгенпар*, то есть отвечающие разным собственным значениям, всегда **линейно независимы**.

Отдельно отметим свойства спектра для **симметричных матриц**:
1. У симметричных матриц всегда полный набор собственных чисел и векторов, то есть по одному собственному числу и собственному вектору на каждый столбец матрицы.
2. Собственные векторы симметричных матриц всегда ортогональны, то есть скалярное произведение любых собственных векторов симметричной матрицы всегда равно 0: $(v_i, v_j) = 0$.

К тому же, если A — матрица Грама, то она всегда **неотрицательно** определена и даже **положительно** определена, если её столбцы (регрессионные признаки) линейно независимы.

**Особый случай:**  
![image-3.png](attachment:image-3.png)
Характеристический многочлен матрицы $A \space λ^2 + 1$ не имеет вещественных корней. Это значит, что собственных чисел нет, а значит нет и собственных векторов. Это неудивительно: матрица $A$ задаёт поворот вокруг начала координат, и у неё нет неподвижных направлений.

Бороться с плохой обусловленностью можно с помощью предварительного отбора признаков, **метода главных компонент** (*Principal Compoment Analysis, PCA*) и **сингулярного разложения** (*Singular Value Decomposition, SVD*).

## <center>Спектральное разложение
Если у матрицы есть полный набор айгенпар, то у неё есть так называемое **спектральное разложение**.
$$ A = P \cdot D \cdot P^{-1} $$
Здесь $D$ — диагональная матрица, на диагонали которой стоят собственные числа $A$,
$P$ — матрица, составленная из собственных векторов, записанных в столбцы. Все векторы записаны в столбцы в том порядке, в котором расположены парные к ним собственные числа в матрице $D$.
>Про матрицу $A$ говорят, что она **диагонализуема**, а $D$ — её диагональный вид.


# <center> Комплексные числа
>i, или *мнимая единица* — это комплексное число, квадрат которого равен −1.

$$ i^2 = -1 $$

![image.png](attachment:image.png)

# <center> Метод главных компонент (Principal Compoment Analysis, PCA)
>**Задача снижения размерности** — это задача преобразования данных с целью уменьшения количества признаков, которые описывают объект.

Основными целями снижения размерности являются:
* Сокращение времени работы моделей машинного обучения.
* Сокращение избыточной информации за счёт выделения наиболее влиятельных факторов.
* Подготовка данных для визуализации.

## <center>Постановка задачи

![image.png](attachment:image.png)

Какой же фактор выбрать: NOX или DIS?

Наилучшим новым признаком окажется линейная комбинация из старых факторов, расположенная вдоль **синей прямой**.

Такая линейная комбинация называется **главной компонентой**. А алгоритм поиска этой комбинации как раз и называется **методом главных компонент**. **Алгоритм для случая двух факторов:**

1. Составить корреляционную матрицу факторов C. Она же — матрица Грама стандартизированных факторов:

    $$ C = corr(A) = G(x_{1_{st}}, x_{2_{st}}), $$
    где $ G(x_{1_{st}}, x_{2_{st}}) $ - матрица Грама, составленная из стандартизированных факторов.

2. Найти собственные числа (спектр матрицы) и соответствующие им собственные числа матрицы C, решив характеристическое уравнение:

    $$ \det(C - \lambda E) = 0 $$

3. Выбрать наибольшее собственное число из полученных $ \lambda^* = \max(\lambda_1, \lambda_2) $ и соответствующий ему собственный вектор $ \vec{v^*} $.

4. Координаты выбранного собственного вектора $ \vec{v^*_1} $ и $ \vec{v^*_2} $ будут являться коэффициентами линейной комбинации стандартизированных факторов — главной компонентой:

    $$ \vec{x^*} = \vec{v_1^*} \vec{x_{1_{st}}} + \vec{v_2^*} \vec{x_{2_{st}}} $$

    >При составлении нового фактора нужно брать именно стандартизированные признаки: центрированные и нормированные к единичной длине.

    >Дополнительно делается **нормировка** нового признака. Её можно выполнить в самом конце шага 4 после пересчёта, а можно нормировать собственные векторы на шаге 3 (так делает компьютер). Наличие или отсутствие нормировки не повлияет на большинство свойств главных компонент.

Изменится ли алгоритм метода главных компонент в общем случае при $k$ факторах?

* **Шаги 1 и 2** не изменятся.
* **Шаг 3**. Для избавления от мультиколлинеарности нам нужно будет взять несколько самых больших собственных чисел и их айгенпар, а маленькие — игнорировать.
* **Шаг 4**. Можно пересчитать старые признаки в новые матричными преобразованием.

## <center>Анализ алгоритма
1. Так как собственные векторы корреляционной матрицы ортогональны, то и новые признаки (главные компоненты) тоже будут ортогональны. Для нас это будет означать **нескоррелированность**.
2. В случае плохой обусловленности выбор значимых главных компонент позволяет достичь меньшей потери точности по сравнению с регрессией на сырые данные.
3. Можно искать не все собственные векторы, а только значимые — с «большими» собственными числами.
4. Есть несколько подходов к тому, какие собственные числа считать «большими».

    Самый простой из них — **метод Кайзера**: значимыми считаются только те компоненты, у которых собственное число больше среднего значения всех собственных чисел $\lambda_{mean}$.

В процессе выбора новых признаков никак не участвует целевая переменная.

Для БОЛЬШИНСТВА целевых переменных выбор **значимых** главных компонент даёт **лучший прогноз** среди всех возможных линейных комбинаций признаков.

## <center>Границы применимости
1. В случае хорошо обусловленных данных обрезать главные компоненты часто не нужно, так как потери точности могут оказаться больше, чем мы хотели бы.
2. Для плохо обусловленных данных МАЛЫХ размерностей (для малого количества факторов) PCA — «то, что доктор прописал».
3. Для плохо обусловленных данных БОЛЬШИХ размерностей (для большого количества факторов) при попытке применить PCA «в лоб» возникают **вычислительные сложности**.

    Дело в том, что если у нас, например, 10 000 факторов, то придётся считать, хранить и обрабатывать матрицу корреляций размера 10 000 × 10 000, что не слишком удобно с точки зрения памяти и скорости.

    Поэтому в таких случаях значимые главные компоненты вычисляют через **сингулярное разложение** матрицы данных.




# <center>Сингулярное разложение (Singular Value Decomposition, SVD)
Cингулярное разложение — это одна из теорем линейной алгебры с большим количеством полезных свойств. 

**Теорема:**
>Любую прямоугольную матрицу A размера (n, m) можно представить в виде произведения трёх матриц:

$$ A_{n \times m} = U_{n \times n} \cdot D_{n \times m} \cdot V^T_{m \times m} $$
>* $U$ — матрица размера (n, n). Все её столбцы ортогональны друг другу и имеют единичную длину. Такие матрицы называются **ортогональными**.
>* $D$ — матрица размера (n, m). На её главной диагонали стоят числа, называемые **сингулярными** числами, а вне главной диагонали стоят нули.
>* $V$ — матрица размера (m, m). Она тоже **ортогональная**.

**Как получаются эти матрицы:**

>Столбцы матрицы $U$ — нормированные собственные векторы $u_j$ матрицы Грама $AA^T$. При этом $UU^T = E$.

>Столбцы матрицы $V$ — нормированные собственные векторы $v_j$ матрицы Грама $A^TA$. При этом $VV^T=E$.

>Диагональные элементы матрицы $D$ — это корни из собственных чисел $ \text{diag}(\sqrt{\lambda_1}, \sqrt{\lambda_2}, \dots, \sqrt{\lambda_n}) $  матриц $A^TA$ и $AA^T$ (они будут одинаковы). Диагональные элементы $\sqrt{\lambda_j}$ — сингулярные числа.

![image.png](attachment:image.png)

Векторы $\vec{v_1}$ и $\vec{v_2}$ называются **правыми сингулярными векторами** матрицы A.

![image-2.png](attachment:image-2.png)

Векторы $\vec{u_1}$, $\vec{u_2}$ и $\vec{u_3}$ называются **левыми сингулярными векторами** матрицы A.

Для составления сингулярного разложения нам с вами осталось найти матрицу $D$. На её диагонали будут располагаться сингулярные числа, которые вычисляются как квадратные корни из ненулевых собственных чисел:
$$ \sigma_i = \sqrt{\lambda_i} $$

![image-3.png](attachment:image-3.png)

![image-4.png](attachment:image-4.png)

Если мы перемножим все полученные матрицы между собой, мы получим изначальную матрицу A.

## Усечённое сингулярное разложение
**Усечённое сингулярное разложение** — это когда из всех  выбираются только  первых, самых больших собственных чисел, а остальные кладутся равными нулю. Таким образом, мы отбрасываем незначительную информацию, оставляя только наиболее отличные от 0 собственные числа и собственные вектора.
## Решение МНК через сингулярное разложение
Благодаря сингулярному разложению мы можем получить защиту от работы с вырожденными матрицами.

Пусть мы решаем задачу регрессии и в качестве модели используем линейную регрессию:

$$ y = (\vec{\omega}, \vec{x}) $$
Здесь $\vec{\omega}=(\omega_0, \omega_1, \dots, \omega_k)^T$ — веса (коэффициенты уравнения линейной регрессии), а $\vec{x}=(1, x_1, x_2, \dots, x_k)^T$.

У нас есть $N$ наблюдений – это наша обучающая выборка или датасет, представленный в виде таблицы. В столбцах таблицы располагаются векторы признаков $\vec{x_i}$.

![image-5.png](attachment:image-5.png)

Чтобы получить решение, мы составляем матрицу наблюдений $A$, записав в её столбцы все наши регрессоры, включая регрессор-константу:

![image-6.png](attachment:image-6.png)

Тогда согласно МНК оценка вектора весов $\widehat{\vec{\omega}}$ вычисляется по формуле:

$$ \widehat{\vec{\omega}} = (A^TA)^{-1}A^T\vec{y} $$

Но как мы уже с вами знаем, матрица $A^TA$ может быть плохо обусловлена или даже вырождена, что приводит к неустойчивым решениям, либо вовсе невозможности получить решение.

Давайте представим матрицу наблюдений $A$ в виде сингулярного разложения и посмотрим, что получится.

$$ A = UDV^T $$
$$ A^T = (UDV^T)^T = VDU^T \text{[по правилу транспонирования произведения]} $$
Тогда подставим в формулу МНК вместо матрицы $A$ её сингулярное разложение:
$$ \widehat{\vec{\omega}} = (VDU^T UDV^T)^{-1} VDU^T \vec{y} $$
* $U^TU = E$;
* $(VD^2V^T)^{-1} = VD^{-2}V^T;$
* $V^TV = E.$

Финальный результат — формула вычисления МНК-оценки через сингулярное разложение матрицы $A$:
$$ \widehat{\vec{\omega}} = VD^{-1}U^T\vec{y} $$

>Если в классической формуле нужно было вычислять обратную матрицу $(A^TA)^{-1}$, которая может быть вырожденной, то в новой формуле мы вычисляем обратную матрицу от диагональной матрицы $D^{-1}$. Диагональная матрица никогда не может быть вырожденной, у неё всегда есть обратная. То есть решение будет существовать всегда, даже при линейно зависимых строках и столбцах.

