## 数据降维

降维就是采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中.


降维的本质是学习一个映射函数$f:x->y$,通常y的维度要小于x的维度.

## 降维方法

### 1.主成分分析(PCA)
算法:

输入:样本集$D=\{\vec{x_1},\vec{x_2},...,\vec{x_N}\}$

输出:投影矩阵$W=(\vec{w_1},\vec{w_2},...,\vec{w_d})$

#### 算法步骤
- 对所有样本中心化操作：$$\vec{x_i}\leftarrow \vec{x_1}-\frac{1}{N}\sum\limits_{j=1}^N{\vec{x_j}}$$
- 计算样本的协方差矩阵$XX^T$
- 对协方差矩阵$XX^T$做特征值分解
- 取最大的d个特征值对应的特征向量$\vec{w_1},\vec{w_2},...,\vec{w_d}$,构造投影矩阵$W=(\vec{w_1},\vec{w_2},...,\vec{w_d})$.

通常低维空间维数d的选取值的方法有两种：
1. 通过交叉验证选取较好的d
2. 从算法原理的角度设置一个阈值，比如t=95%，然后使成立的最小的d.
$$\frac{\sum\nolimits_{i=1}^d{\lambda}}{\sum\nolimits_{i=1}^n{\lambda}}\geq{t}$$
其中$\lambda_i$从大到小排序.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets,decomposition,manifold

  return f(*args, **kwds)


In [2]:
def load_data():
    iris = datasets.load_iris()
    return iris.data,iris.target

In [3]:
def test_PCA(*data):
    X,y = data
    pca = decomposition.PCA(n_components=None)
    pca.fit(X)
    print('explained variance ratio :%s' % str(pca.explained_variance_ratio_))

In [4]:
X,y = load_data()
test_PCA(X,y)

explained variance ratio :[0.92461621 0.05301557 0.01718514 0.00518309]
