### Можно ли отобрать наиболее значимые признаки с помощью PCA?

#### Нет, с помощью PCA можно уменьшить размерность данных (сократить кол-во признаков). Для отбора наиболее значимых признаков следует использовать другие методы, например: feature_importance (Tree / RandomForest), коэф-ты регресии с L1-регуляризацией.

### Написать свою реализацию метода главных компонент с помощью сингулярного разложения с использованием функции numpy.linalg.svd()

In [17]:
import numpy as np
from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

import warnings
warnings.simplefilter('ignore')

In [19]:
X, y = load_iris(return_X_y=True)

In [20]:
scaler = StandardScaler()

X_scaled = scaler.fit_transform(X)

In [21]:
U, D, V = np.linalg.svd(X_scaled)

In [22]:
eig_sum = sum(D)
var_exp = [(i / eig_sum) * 100 for i in D]
cum_var_exp = np.cumsum(var_exp)
print(f'Доля дисперсии, описываемая каждой из компонент \n{var_exp}')
print(f'Кумулятивная доля дисперсии по компонентам \n{cum_var_exp}')

Доля дисперсии, описываемая каждой из компонент 
[53.52971788236241, 29.95681278402008, 12.003682417209488, 4.509786916408035]
Кумулятивная доля дисперсии по компонентам 
[ 53.52971788  83.48653067  95.49021308 100.        ]


Оставив 3 признака, теряем меньше 5% информации

In [23]:
W = V[:, :3]

In [24]:
X_ = X @ W

Получили новую матрицу с тремя признаками

### Обучить любую модель классификации на датасете iris до применения PCA и после него. Сравнить качество классификации по отложенной выборке.

In [25]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 5)

In [26]:
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [27]:
# до применения PCA
lr = LogisticRegression()

lr.fit(X_train, y_train)

y_pred_train = lr.predict(X_train)
y_pred_test = lr.predict(X_test)

print(accuracy_score(y_train, y_pred_train), accuracy_score(y_test, y_pred_test))

0.9809523809523809 0.9777777777777777


In [28]:
# после применения PCA
X_train, X_test, y_train, y_test = train_test_split(
    X_, y, test_size = 0.3, random_state = 5
)

lr.fit(X_train, y_train)

y_pred_train = lr.predict(X_train)
y_pred_test = lr.predict(X_test)

print(accuracy_score(y_train, y_pred_train), accuracy_score(y_test, y_pred_test))

0.9714285714285714 0.9555555555555556


Результаты очень похожи