## 降维思路
1. 去掉特征间的相关性，想办法创造另一组新的特征来描述样本，并且新的特征必须彼此之间不相关
2. 在新的彼此无关的特征集中，舍弃掉不重要的特征，保留较少的特征，实现数据的特征降维，保证尽量少的信息损失  
其中，常用的协方差表示是先将A零均值化后：  
$C=AA^T,   A=\begin{bmatrix}x_1&x_2&x_3&\dots&x_n\\y_1&y_2&y_3&\dots&y_n\end{bmatrix}$  
当X和Y满足线性无关时，协方差矩阵C是对称的、正定的满秩矩阵

In [8]:
import numpy as np

x = [2,2,4,8,4]
y = [2,6,6,8,8]
S = np.vstack((x,y))
print(np.cov(S))
x = x-np.mean(x)
y = y-np.mean(y)
S = np.vstack((x,y))
print(S)
print(np.cov(S))

[[6. 4.]
 [4. 6.]]
[[-2. -2.  0.  4.  0.]
 [-4.  0.  0.  2.  2.]]
[[6. 4.]
 [4. 6.]]


In [11]:
import numpy as np
from scipy import linalg
C = np.array([[6,4],
              [4,6]])
evalue, evector = linalg.eig(C)
print(evalue)
print(evector)

[10.+0.j  2.+0.j]
[[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]]


新特征的协方差矩阵D

In [19]:
D = np.dot(np.dot(evector.T,C),evector) / (len(x)-1)
D

array([[2.5, 0. ],
       [0. , 0.5]])

In [20]:
import numpy as np
p_1 = [0.707, 0.707]
p_2 = [-0.707, 0.707]
P = np.vstack((p_1, p_2))
print(S)
print(np.dot(P, S))

[[-2. -2.  0.  4.  0.]
 [-4.  0.  0.  2.  2.]]
[[-4.242 -1.414  0.     4.242  1.414]
 [-1.414  1.414  0.    -1.414  1.414]]


由D可知协方差矩阵为对角阵，此时特征值就是方差  
由于两个新的特征值彼此无关，我们保留方差大的特征（数据分布的离散程度大，包含的信息量就越大）  
由于p_1方向上的特征对应的方差为2.5，我们保留该方向上的特征取值

In [1]:
%%html
<img src="./PCA.jpg" height=480 width=640>