### Практическое задание

- Обучить любую модель классификации на датасете IRIS до применения PCA и после него. Сравнить качество классификации по отложенной выборке.
- Написать свою реализацию метода главных компонент с помощью сингулярного разложения с использованием функции numpy.linalg.svd()

### Задание 1

In [1]:
import numpy as np
from sklearn import datasets
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler


In [2]:
iris = datasets.load_iris()
iris_frame = pd.DataFrame(iris.data)
iris_frame.columns = iris.feature_names 
iris_frame['target'] = iris.target

In [3]:
X_train, X_test, y_train, y_test = train_test_split(iris_frame[iris.feature_names], iris_frame['target'], test_size=0.3 ,random_state = 43 )

In [4]:
scaler = StandardScaler()

In [5]:
X_train_scaled = scaler.fit_transform(X_train)
X_train_scaled = pd.DataFrame(X_train_scaled, columns = iris.feature_names )

In [6]:
X_test_scaled = scaler.transform(X_test)
X_test_scaled = pd.DataFrame(X_test_scaled, columns = iris.feature_names )

In [7]:
lr_model_no_pca = LogisticRegression()

In [8]:
lr_model_no_pca.fit(X_train_scaled, y_train) 

LogisticRegression()

In [9]:
no_pca_predict = lr_model_no_pca.predict(X_test_scaled)

In [10]:
accuracy_score(y_test, no_pca_predict)

0.9555555555555556

##### Пробуем использовать самописный PCA

In [11]:
 
covariance_matrix = X_train_scaled.T.dot(X_train_scaled)

eig_values, eig_vectors = np.linalg.eig(covariance_matrix)

# сформируем список кортежей (собственное значение, собственный вектор)
eig_pairs = [(np.abs(eig_values[i]), eig_vectors[:, i]) for i in range(len(eig_values))]

# и отсортируем список по убыванию собственных значений
eig_pairs.sort(key=lambda x: x[0], reverse=True)

print('Собственные значения в порядке убывания:')
for i in eig_pairs:
    print(i)

Собственные значения в порядке убывания:
(304.4930838102175, array([ 0.52465916, -0.25004775,  0.58180886,  0.56895285]))
(98.62361482431878, array([-0.36738691, -0.92845041, -0.01663093, -0.0522504 ]))
(14.51797334097651, array([-0.73002103,  0.25137012,  0.16660771,  0.61328968]))
(2.3653280244874075, array([ 0.23838819, -0.11076558, -0.79590435,  0.54537906]))


In [12]:
eig_sum = sum(eig_values)
var_exp = [(i / eig_sum) * 100 for i in sorted(eig_values, reverse=True)]
cum_var_exp = np.cumsum(var_exp)
print(f'Доля дисперсии, описываемая каждой из компонент \n{var_exp}')

# а теперя оценим кумулятивную (то есть накапливаемую) дисперсию при учитывании каждой из компонент
print(f'Кумулятивная доля дисперсии по компонентам \n{cum_var_exp}')

Доля дисперсии, описываемая каждой из компонент 
[72.498353288147, 23.481813053409223, 3.45666031928012, 0.5631733391636682]
Кумулятивная доля дисперсии по компонентам 
[ 72.49835329  95.98016634  99.43682666 100.        ]


In [13]:
# Сформируем вектор весов из собственных векторов, соответствующих первым двум главным компонентам
W = np.hstack((eig_pairs[0][1].reshape(4,1), eig_pairs[1][1].reshape(4,1)))

print(f'Матрица весов W:\n', W)

Матрица весов W:
 [[ 0.52465916 -0.36738691]
 [-0.25004775 -0.92845041]
 [ 0.58180886 -0.01663093]
 [ 0.56895285 -0.0522504 ]]


In [14]:
# Сформируем новую матрицу "объекты-признаки"
X_train_scaled_pca = X_train_scaled.dot(W)

In [15]:
X_test_scaled_pca = X_test_scaled.dot(W)

In [16]:
lr_model_with_pca = LogisticRegression()

In [17]:
lr_model_with_pca.fit(X_train_scaled_pca, y_train)

LogisticRegression()

In [18]:
predict_pca = lr_model_with_pca.predict(X_test_scaled_pca)

In [19]:
accuracy_score(y_test, predict_pca)

0.9111111111111111

##### Попробуем сделать с РСА из коробки, вдруг что-то не так сделали.

In [20]:
from sklearn.decomposition import PCA

In [21]:
pca_my = PCA(n_components=2)

In [22]:
X_train_scaled_pca2=pca_my.fit_transform(X_train_scaled)

In [23]:
X_test_scaled_pca2 = pca_my.transform(X_test_scaled)

In [24]:
lr_model_with_pca2 = LogisticRegression()

In [25]:
lr_model_with_pca2.fit(X_train_scaled_pca2, y_train)

LogisticRegression()

In [26]:
predict_pca2 = lr_model_with_pca2.predict(X_test_scaled_pca2)

In [27]:
accuracy_score(y_test, predict_pca2)

0.9111111111111111

##### По итогу видим, что качество упало. Оно и понятно, модель и без наших манипуляций давала отличнй результат. (если брать дата сет из коробки и сразу подавать в модель, то выходит 0.977 accuracy). Сокращая размерность мы крадем информацию, и в данном конкретном случае, необходимости в сокращении размерности нет.

### Задание 2

- Попробуем понять, как это работает...

In [132]:
A = X_train.iloc[:,:4]
#A
U, s, W = np.linalg.svd(A)
# Транспонируем матрицу W
V = W.T

# s - список диагональных элементов, его нужно привести к виду диагональной матрицы для наглядности
Sigma = np.zeros_like(A, dtype=float)
Sigma[np.diag_indices(min(A.shape))] = s
print(f'Матрица Sigma размер:{Sigma.shape} :\n{Sigma[:4]}')
print(f'Матрица V размер:{V.shape} :\n{V}')

Матрица Sigma размер:(105, 4) :
[[81.06660922  0.          0.          0.        ]
 [ 0.         14.72690652  0.          0.        ]
 [ 0.          0.          2.80672273  0.        ]
 [ 0.          0.          0.          1.64176788]]
Матрица V размер:(4, 4) :
[[-0.74950495 -0.28906382  0.51705963 -0.29552289]
 [-0.38145361 -0.54131265 -0.69383574  0.28295887]
 [-0.51345687  0.70795958 -0.07464005  0.47914938]
 [-0.17057994  0.34959398 -0.49565126 -0.77654129]]


In [133]:
n_elements = 2
Sigma = Sigma[:, :n_elements]

V = V[:,:n_elements]
# reconstruct
B = U.dot(Sigma.dot(V.T))
X_train_svd = U.dot(Sigma.dot(V.T)) 

U, s, W = np.linalg.svd(B)
# Транспонируем матрицу W
V = W.T

Sigma = np.zeros_like(A, dtype=float)
Sigma[np.diag_indices(min(A.shape))] = s
print(f'Матрица Sigma размер:{Sigma.shape} :\n{Sigma[0:4]}')

Матрица Sigma размер:(105, 4) :
[[8.10666092e+01 0.00000000e+00 0.00000000e+00 0.00000000e+00]
 [0.00000000e+00 1.47269065e+01 0.00000000e+00 0.00000000e+00]
 [0.00000000e+00 0.00000000e+00 1.35074188e-14 0.00000000e+00]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 1.76176254e-15]]


In [136]:
W.dot(B.T).T[:3]

array([[-7.87255816e+00,  4.76951053e-01,  2.49070696e-16,
         2.16369011e-16],
       [-7.57796277e+00,  5.37270993e-01,  2.39665042e-16,
         1.89107440e-16],
       [-7.23163659e+00, -2.27624190e-01,  5.38962172e-16,
        -1.29905225e-16]])

- Ну по идее тут мы можем просто откинуть за нуленные компоненты.

##### Попробуем собрать все воедино.

In [121]:
def compress_svd(train, test, k): 
    U, s, W = np.linalg.svd(train)
    U2, s2, W2 = np.linalg.svd(test)
    
    B = np.dot(U[:,:k],np.dot(np.diag(s[:k]),W[:k,:])) 
    B2 = np.dot(U2[:,:k],np.dot(np.diag(s2[:k]),W2[:k,:])) 
    
    train_svd = W.dot(B.T).T
    test_svd = W.dot(B2.T).T
    
    return train_svd[:, :k], test_svd[:, :k]

In [145]:
X_train_svd, X_test_svd = compress_svd(X_train_scaled, X_test_scaled, 2)

In [146]:
lr_model_with_svd = LogisticRegression()

In [147]:
lr_model_with_svd.fit(X_train_svd, y_train)

LogisticRegression()

- Качество на трейне

In [148]:
predict_svd = lr_model_with_svd.predict(X_train_svd)

In [149]:
accuracy_score(y_train, predict_svd)

0.9238095238095239

- Качество на тесте

In [150]:
predict_svd = lr_model_with_svd.predict(X_test_svd)

In [151]:
accuracy_score(y_test, predict_svd)

0.9111111111111111

#### Используем метод из коробки

In [152]:
from sklearn.decomposition import TruncatedSVD

In [153]:
svd_transform = TruncatedSVD(n_components=2, random_state=42)

In [154]:
X_train_svd2 = svd_transform.fit_transform(X_train_scaled)

In [155]:
X_test_svd2 = svd_transform.transform(X_test_scaled)

In [156]:
lr_model_with_svd2 = LogisticRegression()

In [157]:
lr_model_with_svd2.fit(X_train_svd2, y_train)

LogisticRegression()

- Качество на трейне

In [158]:
predict_svd2 = lr_model_with_svd2.predict(X_train_svd2)

In [159]:
accuracy_score(y_train, predict_svd2)

0.9238095238095239

- Качество на трейне

In [160]:
predict_svd2 = lr_model_with_svd2.predict(X_test_svd2)

In [161]:
accuracy_score(y_test, predict_svd2)

0.9111111111111111

- Сложная тема, в виду необходимости хорошего представления линейного пространства и манипуляций с ним. На интуитивном уровне, понятно, что мы сокращая например из 4 признаков в 3, пытаемся информацию о дисперсии 4 признаков "размазать" на 3 признака, при этом часть информации всетаки теряется.