## **Метод главных компонент (Principal Component Analysis, PCA)**

### **Проклятие размерности** — это проблема, связанная с экспоненциальным возрастанием объёма данных из-за увеличения размерности пространства.

In [52]:
import numpy as np
import pandas as pd

from sklearn.decomposition import PCA, TruncatedSVD

In [2]:
A = np.matrix([[1,2,3,4],
               [5,5,6,7],
               [1,4,2,3],
               [5,3,2,1],
               [8,1,2,2]])

df = pd.DataFrame(A,columns  = ['x1','x2','x3','x4'])
df_std  = (df - df.mean()) / (df.std())

In [3]:
cov_mat = np.cov(df_std.T)
cov_mat

array([[ 1.        , -0.31622777,  0.04811252, -0.18098843],
       [-0.31622777,  1.        ,  0.63900965,  0.61812254],
       [ 0.04811252,  0.63900965,  1.        ,  0.94044349],
       [-0.18098843,  0.61812254,  0.94044349,  1.        ]])

In [19]:
eigen_val, eigen_vectors = np.linalg.eig(cov_mat)
display(eigen_vectors.T[:2])

array([[ 0.16195986, -0.52404813, -0.58589647, -0.59654663],
       [-0.91705888,  0.20692161, -0.3205394 , -0.11593512]])

In [26]:
df_std.values

array([[-1.        , -0.63245553,  0.        ,  0.26062335],
       [ 0.33333333,  1.26491106,  1.73205081,  1.56374007],
       [-1.        ,  0.63245553, -0.57735027, -0.1737489 ],
       [ 0.33333333,  0.        , -0.57735027, -1.04249338],
       [ 1.33333333, -1.26491106, -0.57735027, -0.60812114]])

In [34]:
eigen_vectors[:2].reshape(4, 2)

array([[ 0.16195986, -0.91705888],
       [-0.30707099,  0.19616173],
       [-0.52404813,  0.20692161],
       [-0.81731886,  0.12061043]])

In [42]:
df_std.values@(eigen_vectors[:2].reshape(4, 2))

array([[-0.18076349,  0.8244292 ],
       [-2.52018312,  0.48944296],
       [ 0.08839898,  0.90070028],
       [ 1.20859546, -0.55088811],
       [ 1.40395217, -1.66368432]])

In [7]:
#определяем метод главных компонент с двумя компонентами
pca = PCA(n_components=2)
#обучаем алгоритм на наших данных
principalComponents = pca.fit_transform(df_std)
principalComponents

array([[-1.40033078e-02,  7.55974765e-01],
       [ 2.55653399e+00, -7.80431775e-01],
       [ 5.14801919e-02,  1.25313470e+00],
       [-1.01415002e+00,  2.38808310e-04],
       [-1.57986086e+00, -1.22891650e+00]])

**Задание 5.1**

Найдите матрицу ковариаций для векторов $(3, 4, 1)$ и $(1, 6, 2)$ . В качестве ответа укажите сумму всех значений матрицы, округлённую до двух знаков после точки-разделителя.

In [47]:
A = np.array([3, 4, 1])
B = np.array([1, 6, 2])
np.cov(A, B).sum().round(2)

14.33

**Задание 5.4**

Дана матрица признаков

Какое минимальное количество главных компонент надо выделить, чтобы сохранить информацию о как минимум 90 % разброса данных?

In [48]:
A = np.matrix([[8,7,2,9],
               [1,3,6,3],
               [7,2,0,3],
               [10,3,1,1],
               [8,1,3,4]])

In [51]:
df = pd.DataFrame(A)
df_std  = (df - df.mean()) / (df.std())
pca = PCA(n_components=0.9)

principalComponents = pca.fit_transform(df_std)
principalComponents

array([[-1.61145254,  1.76368007,  0.01320928],
       [ 2.08441051,  1.01724955, -0.24417084],
       [-0.29568142, -0.95946326, -0.05272576],
       [-0.50390826, -1.24373821, -0.50808763],
       [ 0.3266317 , -0.57772816,  0.79177495]])

## **Сингулярное разложение (SVD)** 

Любую прямоугольную матрицу $A$ размера $(n,m)$ можно представить в виде произведения трёх матриц:

$ A = U_{nxn} * D_{nxm} * V^{T}_{mxn} $

В этой формуле:

 $U$ — матрица размера . Все её столбцы ортогональны друг другу и имеют единичную длину. Такие матрицы называются ортогональными. Эта матрица содержит нормированные собственные векторы матрицы

 $D$ — матрица размера . На её главной диагонали стоят числа, называемые сингулярными числами (они являются корнями из собственных значений матриц  и ), а вне главной диагонали стоят нули. Если мы решаем задачу снижения размерности, то элементы этой матрицы, если их возвести в квадрат, можно интерпретировать как дисперсию, которую объясняет каждая компонента.
 
 $V$ — матрица размера . Она тоже ортогональная и содержит нормированные собственные векторы матрицы .

In [55]:
X = np.array([[-1, 1, 0],
             [-1, -1, 1]
             ]
)

In [56]:
# создаём объект класса TruncatedSVD
# n_components — размерность нового пространства, n_iter — количество итераций
svd = TruncatedSVD(n_components=5, n_iter=7, random_state=42)
# обучаем модель на данных X
svd.fit(X)
# применяем уменьшение размерности к матрице X
transformed = svd.transform(X)

ValueError: n_components(5) must be <= n_features(3).

## **Стохастическое вложение соседей с t-распределением (t-SNE)**