<a href="https://colab.research.google.com/github/Svetorus/Data-analysis-algorithms/blob/master/Algoritm_8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [0]:
import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

%matplotlib inline

In [3]:
# Загрузим игрушечный датасет из sklearn
iris = datasets.load_iris()
X = iris.data
y = iris.target

X.shape

(150, 4)

### 1) Можно ли отобрать наиболее значимые признаки с помощью PCA?

Нет, поскольку отбор признаков и метод главных компонент - это разные методы решения задачи понижения размерности данных. Метод главных компонент задействует все исходные признаки $X$, создавая через линейную комбинацию новые, меньшей размерности: $Z=X\cdot W$.

### 3*). Написать свою реализацию метода главных компонент с помощью сингулярного разложения с использованием функции numpy.linalg.svd()

## Стандартизация данных

In [0]:
means = X.mean(axis=0)
stds = X.std(axis=0, ddof=1)

X_scaled = (X - means)/stds

### Норма Фробениуса  
$\left \| A \right \|_{F}=\sqrt{\sum_{i=1}^{m}\sum_{j=1}^{n}a_{ij}^{2}}$

In [0]:
def fro_norm(X):
    return np.sum(X ** 2) ** 0.5

### Метод главных компонент через SVD

In [0]:
def pca_with_svd(X, n_components):
    U, s, Vt = np.linalg.svd(X)
    
    D = np.zeros_like(X, dtype=float)
    D[np.diag_indices(min(X.shape))] = s
    V = Vt.T
    
    # проверка
    np.testing.assert_array_almost_equal(U.dot(D).dot(Vt), X)
    
    W = V[:, :n_components]
    Z = X.dot(W)
    
    return Z

### Поиск главных компонент

In [0]:
X_pca_4 = pca_with_svd(X_scaled, n_components=4)
X_pca_3 = pca_with_svd(X_scaled, n_components=3)
X_pca_2 = pca_with_svd(X_scaled, n_components=2)
X_pca_1 = pca_with_svd(X_scaled, n_components=1)

In [11]:
print('Норма Фробениуса')
print(f' - исходной матрицы X:   {fro_norm(X_scaled)}')
print(f' - четырех ГК матрицы X: {fro_norm(X_pca_4)}')
print(f' - трех ГК матрицы X:    {fro_norm(X_pca_3)}')
print(f' - двух ГК матрицы X:    {fro_norm(X_pca_2)}')
print(f' - одной ГК матрицы X:   {fro_norm(X_pca_1)}')

Норма Фробениуса
 - исходной матрицы X:   24.413111231467408
 - четырех ГК матрицы X: 24.413111231467404
 - трех ГК матрицы X:    24.349814976137612
 - двух ГК матрицы X:    23.896583749816823
 - одной ГК матрицы X:   20.853205381026367



Заметно уменьшение нормы Фробениуса с понижением количества главных компонент.