## PCA(Principal Components Analysis, 主成分分析)
重要的降维算法
#### Mechanism Of PCA
- 假设数据集是$n$维的，共有$m$个数据 $(x^{(1)},x^{(2)},\dots,x^{(m)})$。我们希望将这$m$个数据的维度从$n$维降到$n'$维，且尽可能地降低损失。我们希望找到某一个维度方向，样本点到这个维度的超平面的距离足够近,或者说样本点在这个超平面上的投影能尽可能的分开。
- 假设 $(x^{(1)},x^{(2)},\dots,x^{(m)})$ 已经进行了中心化，即 $\sum^m_{i=1}x^{(i)}=0$.
- 经过投影变换后得到的新坐标系为 $\lbrace w_1,w_2,\dots,w_n\rbrace$，其中$w$是标准正交基，即 $||w||_2=1,w^T_iw_j=0$。如果我们将数据从$n$维降到$n'$维，即丢弃新坐标系中的部分坐标，则新的坐标系为 $\lbrace w_1,w_2,\dots,w_{n'}\rbrace$.
- 故样本点 $x^{(i)}$ 在 $n'$ 维坐标系的投影为：$z^{(i)}=(z^{(i)}_1,z^{(i)}_2,\dots,z^{(i)}_{n'})^T$. 其中，$z_j^{(i)}=w^T_jx^{(i)}$ 是 $x^{(i)}$ 在低维坐标系里第$j$维的坐标.
- 如果我们用 $z^{(i)}$ 来恢复原始数据，则得到的恢复数据 $\bar{x}^{(i)}=\sum^{n'}_{j=1}z^{(i)}_jw_j=Wz^{(i)}$，其中，$W$为标准正交基组成的矩阵。
- 现在我们考虑整个样本集，我们希望所有的样本到这个超平面的距离足够近，即最小化：$$\sum^m_{i=1}||\bar{x}^{(i)}-x^{(i)}||_2^2$$

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import preprocessing

np.set_printoptions(suppress=True)  # 不使用用科学计数法

In [None]:
data = pd.read_excel('cost_data.xlsx', index_col=0)
data.head()

In [None]:
n, p = data.shape

# 标准化
scale_data = preprocessing.scale(data)
scale_data

In [None]:
cor = data.corr()
cor

In [None]:
# 支持显示中文
plt.rcParams['font.family'] = 'Heiti TC'
plt.rcParams['axes.unicode_minus'] = False
sns.set_theme(font='Heiti TC')

In [None]:
fig, ax = plt.subplots(figsize = (10,10))

# cor：相关系数矩阵
# cmap：颜色
# xticklabels：显示x轴标签
# yticklabels：显示y轴标签
# annot：方块中显示数据
# square：方块为正方形
sns.heatmap(cor, cmap='YlGnBu', xticklabels=True, yticklabels=True, annot=True, square=True)

In [None]:
# V是特征值，E是特征值对应的特征向量
V,E = np.linalg.eig(cor)

lamb = np.array(sorted(V, reverse=True))

# 贡献率
contribution_rate = lamb / sum(lamb)
contribution_rate

In [None]:
# 累计贡献率
cum_contri_rate = np.cumsum(contribution_rate)
cum_contri_rate

In [None]:
# 按照特征值递减对特征向量排序的结果
A = E[:, V.argsort()[::-1]]
A

In [None]:
m = 2
F = np.zeros((n, m))
for i in range(m):
    ai = A[:, i]
    Fi = (ai * scale_data).sum(axis=1)
    F[:, i] = Fi
    
F