# PCA学习与实践

降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。在实际的生产和应用中，降维在一定的信息损失范围内，可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。

降维具有如下一些优点：

（1）使得数据集更易使用

（2）降低算法的计算开销

（3）去除噪声

（4）使得结果容易理解

### PCA(Principal Component Analysis)，即主成分分析方法
是一种使用最广泛的数据降维算法，PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。

PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。


### PCA有两种通俗易懂的解释：
(1)最大方差理论；(2)最小化降维造成的损失

### 我们如何得到这些包含最大差异性的主成分方向
事实上，通过计算数据矩阵的协方差矩阵，然后得到协方差矩阵的特征值特征向量，选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中，实现数据特征的降维。

#### 通过Python实现PCA 

In [6]:
# implement PCA by Python
import numpy as np

def pca(X,k): 
  #k is the components you want
  #mean of each feature
  n_samples, n_features = X.shape
  mean = np.array([np.mean(X[:, i]) for i in range(n_features)])
  #normalization
  norm_X = X - mean
  #scatter matrix
  scatter_matrix = np.dot(np.transpose(norm_X),norm_X)
  #Calculate the eigenvectors and eigenvalues
  eig_val, eig_vec = np.linalg.eig(scatter_matrix)
  eig_pairs = [(np.abs(eig_val[i]), eig_vec[:,i]) for i in range(n_features)]
  # sort eig_vec based on eig_val from highest to lowest
  eig_pairs.sort(reverse=True)
  # select the top k eig_vec
  feature = np.array([ele[1] for ele in eig_pairs[:k]])
  #get new data
  data = np.dot(norm_X, np.transpose(feature))
  return data
 
X = np.array([[-1, 1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
pca(X, 1)

array([[-0.50917706],
       [-2.40151069],
       [-3.7751606 ],
       [ 1.20075534],
       [ 2.05572155],
       [ 3.42937146]])

#### 通过sklearn实现PCA，与Python实现的作对比

In [8]:
# implement PCA by sklearn
from sklearn.decomposition import PCA
import numpy as np

X = np.array([[-1, 1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
pca = PCA(n_components = 1)
pca.fit(X)
print(pca.transform(X))

[[ 0.50917706]
 [ 2.40151069]
 [ 3.7751606 ]
 [-1.20075534]
 [-2.05572155]
 [-3.42937146]]


#### sklearn与我们通过Python实现的PCA得到的结果不一致
sklearn中的PCA是通过svd_flip函数实现的，sklearn对奇异值分解结果进行了一个处理，因为$ui*σi*vi=(-ui)*σi*(-vi)$，也就是u和v同时取反得到的结果是一样的，而这会导致通过PCA降维得到不一样的结果（虽然都是正确的）