# Занятие 9
# Прикладная алгебра и численные методы
## PCA - метод главных компонент

In [1]:
import numpy as np
from sklearn.decomposition import PCA
import scipy.linalg
import numpy.linalg
import pandas as pd
import matplotlib.pyplot as plt
from google.colab import files

## Метод главных компонент в sklearn
https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html

https://scikit-learn.org/stable/modules/decomposition.html

## Приближенное разложение меньшего ранга
$$
A_{n\times n} = A_{n\times r} \times  A_{r\times n},\quad
r - \mbox{ ранг матрицы А}. 
$$
Пусть SVD-разложение матрицы $A = U\Sigma V^*$, где 
$$
\Sigma =
\left(
\begin{matrix}
\sigma_1 & 0 & 0 & ... & 0\\
0 & \sigma_2 & 0 & ... & 0 \\
0 &0 & ...& ... & 0\\
0 & ... & ...& ... & 0 \\
0 &0 & ... & ... & \sigma_n
\end{matrix}
\right),
$$
тогда $A_r = U\Sigma_r V^*$, где
$$
\Sigma_r  = 
\left(
\begin{matrix}
\sigma_1 & 0 & 0 & ... & ... & 0\\
0 & \sigma_2 & 0 & ... & ... &0 \\
0 &0 & ...& ... & ... & 0\\
0 & ... & ...& \sigma_r & ... & 0 \\
0 &0 & ... & ... &... & 0\\
 ...  & ...  & ... & ... &... &  ... \\
0 &0 & ... & ... &... & 0\\
\end{matrix}
\right),
$$
## Пример 1
В файле записаны значения нескольких признаков для выборки объема 117. Выделить 3, 5, 8 главных компонент, записать в один файл на отдельные листы с именами "3 components", "5 components", "8 components" выделенные главные компоненты. 

In [2]:
uploaded1 = files.upload()
for fn in uploaded1.keys():
  print(f'User uploaded file "{fn}"')

Saving PCA_1.xlsx to PCA_1.xlsx
User uploaded file "PCA_1.xlsx"


In [10]:
df1 = pd.read_excel(fn, index_col=0, header=0)
A1 = df1.to_numpy()
fname = 'PCA_5_8_10.xlsx'
with pd.ExcelWriter(fname) as writer:
    for k in (3, 5, 8):
        pca_k = PCA(n_components=k)
        pca_k_fit = pca_k.fit_transform(A1)
        pca_k_principal_components=pca_k.components_
        print(f"""n_components={k}
pca_k.explained_variance_ratio_={pca_k.explained_variance_ratio_}
pca_k.mean_={pca_k.mean_}
pca_k.singular_values_={pca_k.singular_values_}
pca_k_fit[:3, :]={pca_k_fit[:3, :]}\n""")
        df = pd.DataFrame(pca_k_principal_components)
        df.to_excel(writer, sheet_name=f'{k} components', header=False, index=False)
        
files.download(fname)

n_components=3
pca_k.explained_variance_ratio_=[0.3818094  0.18182869 0.12798267]
pca_k.mean_=[0.47992964 0.43899787 0.91892751 0.4643745  0.51743478 0.25392167
 0.50858681 0.48779725 0.50858681 0.51013297 0.47431947 1.23682795
 0.72669498]
pca_k.singular_values_=[7.95616832 5.49049949 4.6063426 ]
pca_k_fit[:3, :]=[[-0.28434855  0.71470434  0.01815325]
 [ 0.37400871  0.16855333  0.37523332]
 [ 0.31395641 -0.31608142 -0.34038116]]

n_components=5
pca_k.explained_variance_ratio_=[0.3818094  0.18182869 0.12798267 0.09264757 0.07452354]
pca_k.mean_=[0.47992964 0.43899787 0.91892751 0.4643745  0.51743478 0.25392167
 0.50858681 0.48779725 0.50858681 0.51013297 0.47431947 1.23682795
 0.72669498]
pca_k.singular_values_=[7.95616832 5.49049949 4.6063426  3.91920213 3.51501669]
pca_k_fit[:3, :]=[[-0.28434855  0.71470434  0.01815325  0.12176518 -0.03786658]
 [ 0.37400871  0.16855333  0.37523332 -0.29268357  0.5991926 ]
 [ 0.31395641 -0.31608142 -0.34038116  0.18036018 -0.04354373]]

n_components=8

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>