## <center>Линейный оператор</center>

Умножение матрицы на вектор можно представить как его одновременный поворот и растяжение.

А если рассмотреть умножение матрицы на все векторы пространства, то получится преобразование всего этого пространства или так называемый **линейный оператор**.

<u>Собственные векторы и числа:</u>

* **Собственный вектор** или **айгенвектор** — это вектор, который не меняет направление под действием оператора, а только растягивается или сжимается.

* Коэффициент растяжения или сжатия λ («лямбда») называется **собственным числом** оператора А и его матрицы.

* **Айгенпарой** называется пара, состоящая из собственного числа и соответствующего ему собственного вектора. 

* **Спектром матрицы** называется набор её собственных чисел.

Свойства спектра:

1) На основе спектра матрицы можно понять определённость матрицы:
    * Если все λ > 0 → матрица А **положительно определена**.
    * Если все λ ≥ 0 → матрица А **НЕотрицательно определена**.
    * Если все λ < 0 → матрица А **отрицательно определена**.
    * Если все λ ≤ 0 → матрица А **НЕположительно определена**.

2) Определитель матрицы равен произведению собственных чисел.

3) Из пункта 2 следует, что нулевое собственное число означает вырожденность матрицы.

4) Собственные векторы из разных айгенпар, то есть отвечающие разным собственным значениям, всегда линейно независимы.

Отдельно отметим свойства спектра для симметричных матриц:

1) У симметричных матриц всегда полный набор собственных чисел и векторов, то есть по одному собственному числу и собственному вектору на каждый столбец матрицы.

2) Собственные векторы симметричных матриц всегда ортогональны, то есть скалярное произведение любых собственных векторов симметричной матрицы всегда равно 0.

## <center>Собственные векторы и числа</center>

Для вычисления собственных чисел в библиотеке *numpy* предусмотрена специальная функция `np.linalg.eig()`. Эта функция возвращает кортеж, который состоит из собственных чисел и матрицы, составленной из собственных векторов, соответствующей собственным числам (собственные векторы записаны в столбцы матрицы).

In [2]:
import numpy as np

In [3]:
# Пример 1
# создаем матрицу А
A = np.array([
    [3, 1],
    [2, 2]
]).T
# вычисляем собственные числа и собственные векторы
eig_values, eig_vectors = np.linalg.eig(A)
print('Собственные числа: \n', eig_values)
print('Собственные векторы: \n', eig_vectors)

Собственные числа: 
 [4. 1.]
Собственные векторы: 
 [[ 0.89442719 -0.70710678]
 [ 0.4472136   0.70710678]]


Тут сразу возникают вопросы. Полученные собственные векторы вовсе не совпадают с тем, что мы получали в ручном счёте. Секрет в том, что в *numpy* при расчёте собственных векторов они автоматически стандартизируются (как векторы) — приводятся к длине, равной 1.

In [4]:
# Пример 2
# создаем матрицу А
A = np.array([
    [1, -5, -6],
    [4, 8, 7],
    [5, 9, 11]
]).T
# вычисляем собственные числа и собственные векторы
eig_values, eig_vectors = np.linalg.eig(A)
print('Собственные числа: \n', eig_values)
print('Собственные векторы: \n', eig_vectors)

Собственные числа: 
 [13.59373746  5.03209301  1.37416954]
Собственные векторы: 
 [[ 0.45145779  0.83661458  0.10258363]
 [ 0.62348353  0.44632316 -0.77299039]
 [ 0.63832135  0.31760303  0.62606905]]


In [5]:
# Пример 3
# создаем матрицу А
A = np.array([
    [1, -4, -5, -6],
    [4, 12, 8, 7],
    [5, 14, 9, 11],
    [8, 15, 7, 4]
]).T
# вычисляем собственные числа и собственные векторы
eig_values, eig_vectors = np.linalg.eig(A)
print('Собственные числа: \n', eig_values)
print('Собственные векторы: \n', eig_vectors)

Собственные числа: 
 [ 2.54687092e+01  1.53129080e+00  1.63252001e-14 -1.00000000e+00]
Собственные векторы: 
 [[-0.33176532 -0.6739195   0.5479715  -0.5312532 ]
 [-0.75622544 -0.67703635  0.72006173 -0.64930947]
 [-0.42446012 -0.00311685 -0.00452869 -0.11805627]
 [-0.37133334  0.2957103  -0.42569687  0.5312532 ]]


Одно из собственных чисел получилось равным 0. Это сигнал к тому, что строки или столбцы матрицы A являются линейно зависимыми, то есть матрица плохо обусловлена, а точнее — вырождена.

In [6]:
# Пример 4
# создаем матрицу А
A = np.array([
    [0, 1],
    [-1, 0],
]).T
# вычисляем собственные числа и собственные векторы
eig_values, eig_vectors = np.linalg.eig(A)
print('Собственные числа: \n', eig_values)
print('Собственные векторы: \n', eig_vectors)

Собственные числа: 
 [0.+1.j 0.-1.j]
Собственные векторы: 
 [[0.70710678+0.j         0.70710678-0.j        ]
 [0.        -0.70710678j 0.        +0.70710678j]]


Из теоретической части мы знаем, что у данной матрицы собственных чисел нет. Но результат есть. Только какой-то странный: что за +1.j и -1.j? Забегая вперёд, скажем, что это **комплексные числа**.

In [7]:
# # Пример 5
# from sklearn import datasets 
# import pandas as pd

# import matplotlib.pyplot as plt
# import seaborn as sns
# import warnings
# warnings.simplefilter(action='ignore', category=FutureWarning)

# # загружаем датасет
# boston = datasets.load_boston()
# #print(boston['DESCR'])
# boston_data = pd.DataFrame(
#     data=boston.data, #данные
#     columns=boston.feature_names #наименования столбцов
# )
# boston_data['PRICE']=boston.target
# boston_data.head()

In [8]:
# # Составим матрицу наблюдений
# A = boston_data.drop('PRICE', axis=1)
# y = boston_data[['PRICE']]

In [9]:
# # Затем составим корреляционную матрицу
# C = A.corr()
# fig = plt.figure(figsize=(10, 5))
# sns.heatmap(C, annot=True, cmap='coolwarm');

![image.png](https://lms-cdn.skillfactory.ru/assets/courseware/v1/d29b261a37239c389d33b435816b0259/asset-v1:Skillfactory+DSMED+2023+type@asset+block/dst-math-ml-3-10.png)

In [10]:
# # вычисляем собственные числа и собственные векторы
# eig_values, eig_vectors = np.linalg.eig(C)
# print('Собственные числа: \n', eig_values)
# #print('Собственные векторы: \n', eig_vectors)

![image.png](https://lms-cdn.skillfactory.ru/assets/courseware/v1/4ed6651a9952cee878f8dc2465bb03d6/asset-v1:Skillfactory+DSMED+2023+type@asset+block/dst-math-ml-3-33.png)

Так как корреляционная матрица диагональная, то её собственные числа всегда действительны и различны между собой. Это мы и наблюдаем. 

Проверим, что все собственные векторы корреляционной матрицы **ортогональны** друг другу. Это свойство понадобится нам в методе **главных компонент**.

Чтобы это проверить, достаточно найти матрицу Грама $L^{T}L$, где L — матрица, составленная из собственных факторов. В результате мы должны будем получить единичную матрицу. 

На её главной диагонали должны быть расположены единицы, а внедиагональные элементы — скалярные произведения собственных векторов — должны быть равны 0. 

In [11]:
# # считаем матрицу Грамма L^T*L:
# print(np.round(eig_vectors.T @ eig_vectors, 2))

![image.png](https://lms-cdn.skillfactory.ru/assets/courseware/v1/46a64e2f3dc47bc0ccb2b61b547be73d/asset-v1:Skillfactory+DSMED+2023+type@asset+block/dst-math-ml-3-11.png)

Мы получили единичную матрицу, а значит, собственные вектора ортогональны друг другу. Мы доказали ещё одно свойство собственных чисел для диагональных матриц.

In [12]:
# Задание 4.1

A = np.array([
    [1, 4, 13],
    [3, -4, 7],
    [5, 9, 12]
]).T
# вычисляем собственные числа и собственные векторы
eig_values, eig_vectors = np.linalg.eig(A)
print('Собственные числа: \n', eig_values.round())
print('Собственные векторы: \n', eig_vectors)

Собственные числа: 
 [20. -4. -7.]
Собственные векторы: 
 [[-0.29813912 -0.73141292  0.25078429]
 [-0.38491044  0.59044076 -0.95097448]
 [-0.87347411  0.34119621  0.18098281]]


In [13]:
# Задание 4.2

# создаем матрицу А
A = np.array([
    [1, 9, 4],
    [9, 4, 7],
    [4, 7, 12]
]).T
# вычисляем собственные числа и собственные векторы
eig_values, eig_vectors = np.linalg.eig(A.T@A)
print('Собственные числа: \n', np.round(eig_values, 0))

Собственные числа: 
 [391.  46.  16.]


## <center>Комплексные числа</center>

**i**, или *мнимая единица* — это комплексное число, квадрат которого равен −1.

$i^2=-1$

![image.png](https://lms-cdn.skillfactory.ru/assets/courseware/v1/4b733d6a7b11d9edfb53e6d54fb130d9/asset-v1:Skillfactory+DSMED+2023+type@asset+block/MAT_2_unit_37_1.png)

![image.png](https://lms-cdn.skillfactory.ru/assets/courseware/v1/e15def23feac2e33bf1b4dcf7eb4082e/asset-v1:Skillfactory+DSMED+2023+type@asset+block/MAT_2_unit_37_2.png)

## <center>Метод главных компонент</center>

Задача снижения размерности — это задача преобразования данных с целью уменьшения количества признаков, которые описывают объект.

Основными целями снижения размерности являются:
* Сокращение времени работы моделей машинного обучения.
* Сокращение избыточной информации за счёт выделения наиболее влиятельных факторов.
* Подготовка данных для визуализации.

Cнижать размерность можно как **линейными**, так и **нелинейными** способами.

В этом модуле мы приведём обзор именно линейных методов снижения размерности. Начнём мы с **метода главных компонент (Principal Compoment Analysis, PCA)**.

Вспомним классический датасет о домах в Бостоне (Boston Housing Dataset). 

Рассмотрим в качестве признаков DIS и NOX — это усреднённое расстояние до Employment Centres и уровень загрязнения воздуха. 

![image.png](https://lms-cdn.skillfactory.ru/assets/courseware/v1/d00a001119c5ca0186de9b90921b1e11/asset-v1:Skillfactory+DSMED+2023+type@asset+block/dst-math-ml-3-15.png)

На тепловой карте видно, что корреляция между нашими признаками DIS и NOX достаточно велика и составляет –0.77: Это значит, что в районах, которые расположены ближе к Employment Centres, выше уровень загрязнения воздуха. 

Линейная регрессия, построенная для зависимости фактора DIS от фактора NOX:

![image.png](https://lms-cdn.skillfactory.ru/assets/courseware/v1/5b2aa301f03e1fa178051fab35c5570a/asset-v1:Skillfactory+DSMED+2023+type@asset+block/dst-math-ml-3-16.png)

Какой же фактор выбрать: NOX или DIS?

Ни тот, ни другой! Наилучшим новым признаком окажется линейная комбинация из старых факторов, расположенная вдоль синей прямой.

Такая линейная комбинация называется главной компонентой. А алгоритм поиска этой комбинации как раз и называется **методом главных компонент**.

Приведём общую структуру алгоритма для случая двух факторов:

1. Составить корреляционную матрицу факторов C. Она же — матрица Грама стандартизированных факторов:

$$C=corr(A)=G(x_{1_{st}}, x_{2_{st}})$$

2. Найти собственные числа (спектр матрицы) и соответствующие им собственные числа матрицы C, решив характеристическое уравнение:

$$det(C-\lambda E)=0$$

3. Выбрать наибольшее собственное число из полученных $\lambda^{*}=max(\lambda_{1},\lambda_{2})$ и соответствующий ему собственный вектор $\vec{v^*}$.

4. Координаты выбранного собственного вектора $\vec{v_{1}^*}$ и $\vec{v_{2}^*}$ будут являться коэффициентами линейной комбинации — главной компонентой:

$$\vec{x^*}=v_{1}^*\vec{x_1}+ v_{2}^*\vec{x_2}$$

**P.S.**

Дополнительно делается нормировка нового признака. Её можно выполнить в самом конце шага 4 после пересчёта, а можно нормировать собственные векторы на шаге 3 (так делает компьютер). Наличие или отсутствие нормировки не повлияет на большинство свойств главных компонент.

Применим метод главных компонент для выбора оптимального признака в нашей задаче. Пусть NOX будет первым фактором, а DIS — вторым.

1. Вычислим корреляционную матрицу C:

$$corr(NOX, DIS)=-0.77$$

![image.png](https://lms-cdn.skillfactory.ru/assets/courseware/v1/e05ed4a6ee6ef6ee4e08fbc02e738d9f/asset-v1:Skillfactory+DSMED+2023+type@asset+block/dst-math-ml-3-17.jpg)

2. Вычислим собственные числа и собственные вектора матрицы C:

    Собственные числа:

    ![image.png](https://lms-cdn.skillfactory.ru/assets/courseware/v1/107586cfd56e8599fb87517787a0c173/asset-v1:Skillfactory+DSMED+2023+type@asset+block/dst-math-ml-3-18.png)

    Собственные векторы:

    ![image.png](https://lms-cdn.skillfactory.ru/assets/courseware/v1/bbb7dd46518e784ebd5a8ba7adb5c55b/asset-v1:Skillfactory+DSMED+2023+type@asset+block/dst-math-ml-3-19.png)

3. Выбираем максимальное из собственных чисел:

$\lambda^{*}=max(\lambda_{1},\lambda_{2})=max(1.77, 0.23)=1.77$ и соответствующий ему собственный вектор, это будет $\vec{v^{*}}=v_{1}=(1, -1)^T$.

4. Координаты собственного вектора $\vec{v^*}$ будут коэффициентами для линейной комбинации старых признаков:

$$NEWFACTOR =1 \cdot NOX_{st} - 1 \cdot DIS_{st}$$

**Важно!** При составлении нового фактора нужно брать именно стандартизированные признаки: центрированные и нормированные к единичной длине:

$$NOX_{st}=\frac{NOX-NOX_{mean}}{\left \| NOX-NOX_{mean}\right \|}$$

$$DIS_{st}=\frac{DIS-DIS_{mean}}{\left \|DIS-DIS_{mean}\right \|}$$

5. Далее необходимо будет нормировать полученный фактор:

$$NEWFACTOR_{st}=\frac{NEWFACTOR}{\left \|NEWFACTOR\right \|}$$

$NEWFACTOR_{st}$ называется **главной компонентой**. Есть ещё одна главная компонента, соответствующая меньшему собственному числу $\lambda_2$ и собственному вектору $v_2$. Для понижения размерности и борьбы с мультиколлинеарностью мы берём только первую главную компоненту.

<u>Аналтиз алгоритма:</u>

1. Так как собственные векторы корреляционной матрицы ортогональны, то и новые признаки (главные компоненты) тоже будут ортогональны. Для нас это будет означать нескоррелированность.

2. В случае плохой обусловленности выбор значимых главных компонент позволяет достичь меньшей потери точности по сравнению с регрессией на сырые данные.

3. Можно искать не все собственные векторы, а только значимые — с «большими» собственными числами.

4. Есть несколько подходов к тому, какие собственные числа считать «большими».

Самый простой из них — **метод Кайзера**: значимыми считаются только те компоненты, у которых собственное число больше среднего значения всех собственных чисел:

$$\lambda_{mean}=\frac{\lambda_{1}+\lambda_{2}+...+\lambda_{k}}{k}$$

Есть также **метод сломанной трости**. Иногда просто берут несколько максимальных собственных значений.

<u>Границы применимости:</u>

1. В случае хорошо обусловленных данных обрезать главные компоненты часто не нужно, так как потери точности могут оказаться больше, чем мы хотели бы.

2. Для плохо обусловленных данных МАЛЫХ размерностей (для малого количества факторов) PCA — «то, что доктор прописал».

3. Для плохо обусловленных данных БОЛЬШИХ размерностей (для большого количества факторов) при попытке применить PCA «в лоб» возникают вычислительные сложности.

In [14]:
# Задание 6.5-3

import numpy as np
x1 = np.array([1, 2, 1, 1]).T
x2 = np.array([70, 130, 65, 60]).T

C = np.array([
[1, 0.9922],
[0.9922, 1],
])

eig_values, eig_vectors = np.linalg.eig(C)

x1_norm = (x1 - x1.mean()) / np.linalg.norm(x1)
x2_norm = (x2 - x2.mean()) / np.linalg.norm(x2)

x_new = x1_norm * eig_vectors[0][0] + x2_norm * eig_vectors[1][0]

x_new_norm = (x_new - x_new.mean()) / np.linalg.norm(x_new)

print(np.round(x_new_norm, 2))

[-0.24  0.86 -0.29 -0.33]


## <center>Сингулярное разложение (Singular Value Decomposition, SVD)</center>

<u>Теорема</u>

Любую прямоугольную матрицу A размера (n, m) можно представить в виде произведения трёх матриц:

$$A_{n\times m}=U_{n \times n} \cdot D_{n \times m} \cdot V^{T}_{m \times m}$$

* $U$ - матрица размера (n, n). Все её столбцы ортогональны друг другу и имеют единичную длину. Такие матрицы называются **ортогональными**. 

* $D$ - матрица размера (n, m). На её главной диагонали стоят числа, называемые **сингулярными** числами, а вне главной диагонали стоят нули.

* $V$ - матрица размера (m, m). Она тоже **ортогональная**.

В библиотеке *numpy* сингулярное разложение реализовано в функции `np.linalg.svd()`:

In [15]:
# составляем матрицу А 
A = np.array([
    [2, 5, -4],
    [6, 3, 0],
]).T
# применяем сингулярное разложение
np.linalg.svd(A)

SVDResult(U=array([[-0.66666667,  0.66666667, -0.33333333],
       [-0.66666667, -0.33333333,  0.66666667],
       [ 0.33333333,  0.66666667,  0.66666667]]), S=array([8.48528137, 4.24264069]), Vh=array([[-0.70710678, -0.70710678],
       [-0.70710678,  0.70710678]]))

<u>Преимущетсва:</u>

1) **Усечённое сингулярное разложение**

Усечённое сингулярное разложение — это когда из всех $\lambda_i$ выбираются только $d$ первых, самых больших собственных чисел, а остальные кладутся равными нулю. Таким образом, мы отбрасываем незначительную информацию, оставляя только наиболее отличные от 0 собственные числа и собственные вектора.

Такой приём очень активно используется, например, в задачах понижения размерности, а также в рекомендательных системах. 

2) **Решение МНК через сингулярное разложение**

Благодаря сингулярному разложению мы можем получить защиту от работы с вырожденными матрицами.

Если в классической формуле нужно было вычислять обратную матрицу $(A^{T}A)^{-1}$, которая может быть вырожденной, то в новой формуле мы вычисляем обратную матрицу от диагональной матрицы $D^{-1}$. Диагональная матрица никогда не может быть вырожденной, у неё всегда есть обратная. То есть решение будет существовать всегда, даже при линейно зависимых строках и столбцах!