# PCA (Principal Components Analysis)
## * 作用：降维 消除数据冗余 防止过拟合
## * 数学定义（维基）:PCA的数学定义是：一个正交化线性变换，把数据变换到一个新的坐标系统中，使得这一数据的任何投影的第一大方差在第一个坐标（称为第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推.
## * 步骤+原理：

### 1. 均值 方差归一化 
### 2. 计算协方差矩阵 
    数据为nxd，n为实例个数，d维为特征维数，计算列与列之间的协方差矩阵即代表特征之间的相关性
### 3. 计算协方差矩阵的特征值和特征向量 
    弄清楚特征值与特征向量的概念，这里特征值越大，即代表协方差矩阵的在对应的特征向量上的投影值越大，即特征之间的方差越大，这里又可以从两个方面理解，a.方差越大即特征之间的相关性越小，特征值冗余度越小，故要保留 b. 噪声肯定是存在的，从下图可以看出数据在噪声方向的方差远远小于数据可分方向的方差，故保留特征值大的特征向量的方向 
   ![示意图](http://deeplearning.stanford.edu/wiki/images/b/b4/PCA-u1.png)
### 4. 将特征值从大到小排序，保留前k个特征值（自己指定降维数） 或者 根据保留的特征值之和/所有特征值和=信息保留来进行选择需保留的特征（一般至少大于90%）
### 5. 将上一步选出的特征值所对应的特征向量组合起来,即为变换矩阵
### 6. 将输入数据和变换矩阵相乘,即为降维后的数据

## * tips:
### 实际应用中是使用数据数据训练PCA得到第5步的变换矩阵保存下来，再对训练数据和测试数据都进行同样的降维变换（这样训练数据和测试数据是投影到同一个空间）
## * references：
http://deeplearning.stanford.edu/wiki/index.php/PCA  
https://en.wikipedia.org/wiki/Principal_component_analysis

In [3]:
import numpy as np

# pca_train #
# input
# mat: (nxd) the data matrix we need to reduce dimention #
# k : the feature dimention after pca, make sure k<=n #
# output
# mat_tf: (dxk) the transfer matrix #
def pca_train(mat,k):
    # step 1
    mat_mean=np.mean(mat,axis=0) #get mean according to column
    mat_std=np.std(mat) # get variance
    mat=(mat-mat_mean)/mat_std # normalization
    # step 2
    mat_cov=np.cov(mat,rowvar=0) # dxd
    # step 3
    eigval,eigvec=np.linalg.eig(mat_cov)
    # step 4
    ind=np.argsort(-eigval,axis=0) # sort ergval
    infor_ratio=sum(eigval[ind[0:k]])/sum(eigval) # we can print the information ratio, better ensure that the value is greater than 0.9
    print 'information ratio: ',infor_ratio
    # step 5
    mat_tf=eigvec[:,ind[0:k]]  # dxk
    #mat_final=np.dot(mat,mat_tf)
    #mat_reco=mat_final*mat_tf.T+mat_mean
    return mat_tf
# pca_excute #
# input
# mat: (nxd) the data matrix we need to reduce dimention #
# mat_tf: (dxk) the transfer matrix #
# output
# mat_result: (nxk) the reduced matrix #
def pca_excute(mat,mat_tf):
    # step 1
    mat_mean=np.mean(mat,axis=0)
    mat_std=np.std(mat)
    mat=(mat-mat_mean)/mat_std
    # step 6
    return np.dot(mat,mat_tf) # nxd dxk ->nxk

In [22]:
# test #
from numpy import random
a= random.random(size=(500,256))
print a.shape
mat_tf=pca_train(a,200)
b=pca_excute(a,mat_tf)
print b.shape

(500L, 256L)
information ratio:  0.953246409878
(500L, 200L)
