# 使用PCA来简化数据

PCA 即主成分分析法，通过将数据降维，将数据的特征压缩成更小，在低维中，数据会变得更加容易处理。是数据预处理的常用方法，除了使得数据更加易用外，往往还能够去除数据中的噪声，是典型的非监督学习。

## 算法原理

PCA降维的过程就是找出数据中前N个主成分。而主成分就是找到去除前一个主成分后，覆盖数据差异性最大的向量（即投影到该向量后使得方差和最大）
实现过程如下：
1. 去除数据的平均值
2. 求得N维的主成分矩阵
3. 将数据转换到上述主成分向量构建的新空间中

## scikit-learn 中使用PCA降维

In [6]:
# 加载minist数据集
from sklearn.datasets import fetch_mldata
import numpy as np

In [3]:
mnist = fetch_mldata('MNIST original')

In [5]:
X, y = mnist.data, mnist.target

In [10]:
# 数据集分割
X_train = np.array(X[:60000,:], dtype=float)
y_train = np.array(y[:60000], dtype=float)
X_test = np.array(X[60000:,:], dtype=float)
y_test =  np.array(y[60000:], dtype=float)

In [11]:
# 数据预处理 使用PCA降维
from sklearn.decomposition import PCA

In [12]:
pca = PCA(0.9)  # 代表样本覆盖率为90%

In [13]:
pca.fit(X_train, y_train)

PCA(copy=True, iterated_power='auto', n_components=0.9, random_state=None,
  svd_solver='auto', tol=0.0, whiten=False)

In [14]:
X_train_reduction = pca.transform(X_train)
X_test_reduction = pca.transform(X_test)

In [15]:
X_train_reduction.shape

(60000, 87)

In [16]:
# 使用KNN进行分类
from sklearn.neighbors import KNeighborsClassifier

In [17]:
clf = KNeighborsClassifier()

In [19]:
clf.fit(X_train_reduction, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')

In [20]:
clf.score(X_test_reduction, y_test)

0.9728

## scikit-learn 中使用PCA降噪
使用pca将去除数据中的噪声

In [None]:
# 1. 获取降维后的数据
reduction = pca.transform(example)
# 2. 将降维后的数据升维
filtered = pca.inverse_transform(reduction)
