<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#降维技术" data-toc-modified-id="降维技术-1">降维技术</a></span></li><li><span><a href="#3.2-PCA" data-toc-modified-id="3.2-PCA-2">3.2 PCA</a></span><ul class="toc-item"><li><span><a href="#3.2.1-移动坐标轴" data-toc-modified-id="3.2.1-移动坐标轴-2.1">3.2.1 移动坐标轴</a></span></li><li><span><a href="#在Numpy中实现PCA" data-toc-modified-id="在Numpy中实现PCA-2.2">在Numpy中实现PCA</a></span></li></ul></li></ul></div>

# 利用PCA来简化数据
在低维下，数据更容易进行处理，另外，其相关特征可能在数据中明确地显示出来。通常而言，在进行机器算法之前，我们都要应用**特征工程**识别出其相关特征。

## 降维技术
真实世界中数据的维度很大，对数据和模型结果的展示成为了一个挑战。同时，对数据进行简化还有以下原因：
- 使得数据更易使用
- 降低很多算法的计算开销
- 去除噪声
- 使得结果更易懂

降为技术：
- 主成份分析\PCA(Principal Component Analysis)
- 因子分析(Factor Analysis)
- 独立成分分析\ICA(Independent Component Analysis)

## 3.2 PCA
- 优点：降低数据的复杂性，识别最重要的多个特征
- 缺点：不一定需要，且可能损失有用信息
- 适用数据：数值型数据

### 3.2.1 移动坐标轴
- [ ] 补充图片内容


### 在Numpy中实现PCA
伪代码如下：

    去除平均值
    计算协方差矩阵
    计算协方差矩阵的特征值和特征向量
    将特征值从大到小排序
    保留最上面的N个特征向量
    将数据转换到上述N个特征向量构建的新空间当中

In [1]:
# PCA算法
from numpy import *
def loadDataSet(fileName, delim='\t'):
    fr = open(fileName)
    stringArr = [line.strip().split(delim) for line in fr.readlines()]    # 按照tab划分数据
    datArr = [mat(float, line) for line in stringArr]    # line转换为浮点类型
    return mat(datArr)    # 返回numpy mat类型

def pca(dataMat, topNfeat = 9999999):
    '''pca 降维
    传入：
    dataMat：数据
    返回：
    lowDDataMat：原始数据
    reconMat：降低维度的数据
    '''
    meanVals = mean(dataMat, axis=0)    # 计算样本均值，第0维度是n个样本
    meanRemoved = dataMat - meanVals    # 减去均值 
    covMat = conv(meanRemoved, rowvar=0)    # 计算协方差矩阵
    print "covMat shape ", shape(conMat)    # 检查特征矩阵维度
    eigVals, eigVects = linalg.eig(mat(covMat))    # 计算协方差矩阵的特征值和特征向量
    eigValInd = argsort(eigVals)    # 特征值排序
    eigValInd = eigValInd[:-(topNfeat+1):-1]    # 
    redEigVects = eigVects[:,eigValInd]    # 保留最上面的特征
    lowDDataMat = meanRemoved * redEigVects    # 映射到新的空间
    reconMat = (lowDDataMat * redEigVects.T) + meanVals    # 映射到特征空间
    return lowDDataMat, reconMat


In [3]:
# 读取数据
dataMat = loadDataSet('testSet.txt')
# pca算法, 压缩到1的维度
lowDMat, reconMat = pca(dataMat, 1)




IOError: [Errno 2] No such file or directory: 'testSet.txt'

In [None]:
#绘制数据
import matplotlib.pyplot as plt
%matplotlib inline
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(dataMat[:,0].flatten().A[0], dataMat[:,1].flatten().A[0], marker='^', s=90)
ax.scatter(reconMat[:,0].flatten().A[0], reconMat[:,1].flatten().A[0], marker='0', s=50, c='red')