# PCA
主成分分析（Principal components analysis，PCA）是一种减少数据集维数的方法，同时保持数据集中的对方差贡献最大的特征，使得经过转化过的特征之间不相关，减少冗余信息

## 理论
$\def\bm{\boldsymbol}$
对于数据 
$$
\bm X_{m\times n} = 
\begin{pmatrix}
x_{11} & \dots & x_{1n} \\
\vdots & \ddots& \vdots \\
x_{m1} & \dots & x_{mn}
\end{pmatrix}
$$

其中 $n$ 为特征维数，$m$ 为样本数量 

首先特征零均值化 

$$
\bm X' = \bm X - (\bm\mu_1,...,\bm\mu_n)
$$

协方差矩阵为

$$
\begin{align}
cov(\bm X,\bm X) &= E[(\bm x-\mu)(\bm x-\mu)^T] \\ \\
&=
\begin{pmatrix}
\frac{1}{m}\sum_{i}^{m}{x'_{i1}}^2 & \dots & 
\frac{1}{m}\sum_{i}^{m}x'_{i1}x'_{in} \\
\vdots & \ddots & \vdots \\
\frac{1}{m}\sum_{i}^{m}x'_{in}x'_{i1} & \dots & 
\frac{1}{m}\sum_{i}^{m}{x'_{in}}^2
\end{pmatrix} \\ \\
&= \frac{1}{m} {\bm X'}^T\bm X'
\end{align}
$$

为使经过变换的特征方差最大，即协方差矩阵对角线最大；为使经过变换的特征之间协方差为 0，即协方差矩阵除对角线外为 0。又由于协方差矩阵为实对称阵，可以容易联想到对角化

$$
\begin{align}
\bm \Lambda &= \bm P^T cov(\bm X,\bm X) \bm P\\ \\
&= \frac{1}{m} \bm P^T {\bm X'}^T\bm X' \bm P\\ \\
&= \frac{1}{m} \bm (\bm X' \bm P)^T \bm X' \bm P\\ \\
\Rightarrow &\bm Y = \bm X \bm P
\end{align}
$$

这其中的具体证明不再复述

## 方法
1. 特征零均值化，计算 $\bm X'$

2. 计算 $\frac{1}{m} {\bm X'}^T\bm X'$

3. 计算协方差矩阵特征值

4. 特征值排序，并选择对应特征向量，作为 $P$

5. $\bm Y = \bm X \bm P$

In [2]:
import numpy as np
from matplotlib import pyplot as plt
%matplotlib widget

In [11]:
def PCA(X, k=None):
    # X：数据
    # k：保留的维数
    
    # 特征零均值化
    Xc = X - X.sum(axis=0)
    
    # 计算协方差矩阵
    C = 1/len(Xc)*Xc.T@Xc
    
    # 计算协方差矩阵特征值
    ev, fv = np.linalg.eig(C)
    
    # 特征值排序，并选择对应特征向量，作为 P
    index = np.argsort(ev)[::-1]
    P = fv[:, index[:k]]
    
    # 计算 Y = XP
    Y = X@P
    
    return Y

In [12]:
from sklearn import datasets
iris = datasets.load_iris().data

In [13]:
# 原数据分布
fig = plt.figure()
plt.plot()
plt.scatter(iris[:,0], iris[:,1], marker='*');

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

In [14]:
iris_PCA = PCA(iris, 2)

In [15]:
# PCA后数据分布
fig = plt.figure()
plt.plot()
plt.scatter(iris_PCA[:,0], iris_PCA[:,1], marker='+');

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

In [16]:
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
iris_PCA = pca.fit_transform(iris)

In [17]:
# 和 sklearn 库比照，不同是因为 特征向量的正负
fig = plt.figure()
plt.plot()
plt.scatter(iris_PCA[:,0], iris_PCA[:,1], marker='+');

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

# Kenerl Trick
核技巧：通过替换内积公式间接实现空间变换