- 降维肯定会丢失一些信息（好比将图片压缩成JPEG格式会降低图像质量）。
- 这种方法可以加快训练速度，同时会让系统表现的稍微差一点。
- 降维会让工作流水线更复杂因尔更难维护。
- 应该先尝试使用原来的数据来训练，如果训练速度太慢再考虑使用降维。
- 通常不会发生，降低训练集数据的维度可能会筛选掉一些噪音和不必要的细节，让结果比降维前更好的情况。
- 除了加快训练速度外，在可视化方面也十分有用。

# 降维方法
投影（projection）和流行学习（Manifold Learing）。
## 流行的降维技术
- 主成分分析（PCA）
- 核主成分分析（Kernel PCA）
- 局部线性嵌入（LLE）

## 主成分分析
- 找到接近数据集分布的超平面。
- 将所有的数据都投影到这个超平面上。
### 保留（最大）方差
- 选择保持最大方差的轴看起来是合理的，因为它很可能比其他投影损失更少的信息。
- 证明这种选择的另一种方法是，选择这个轴使得将原始数据集投影到该轴上的均方距离最小。
### 主成分(Principle Components)
- 主成分的方向不稳定：稍微打乱一下训练集并再次运行PCA，则某些新PC可能会指向与原始PC方向相反。
- 它们通常是在同一轴线上。
- 某些情况下，一对PC甚至可能会旋转或交换，但它们定义的平面通常保持不变。

In [None]:
#使用Numpy的svd()方法获得训练集的所有主成分，然后提取前两个PC：
X_centered = X-X.mean(axis=0)
U,s,V=np.linalg.svd(X_centered)
c1=V.T[:,0]
c2=V.T[:,1]

In [None]:
##使用sklearn
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X2D = pca.fit_transform(X)

## 方差解释率（Explained Variance Ratio）
表示每个主成分轴上的数据集方差的比例。
```python
print(pca.explained_variance_ratio_)
array([0.84248607, 0.14631839])
```
表明，84.2%数据集方差位于第一轴，14.6%方差位于第二轴。第三轴比例不到1.2%。因此可认为它没有包含什么信息。

## 选择正确的维度
## PCA压缩
## 增量PCA（IPCA）
将训练集分批，并一次只对一个批量使用IPCA算法。这对大型训练集非常有用，并且可以在线应用PCA。

In [None]:
from sklearn.decomposition import IncrementalPCA
import numpy as np

n_batches = 100
inc_pca = IncrementalPCA(n_components=154)
for X_batch in np.array_split(X_mnist, n_batches):
    inc_pca.partial_fit(X_batch)
X_mnist_reduced = inc_pca.transform(X_mnist)

## 随机PCA