# PCA 的测试代码
培训平台产生的学习监管数据有很多特征, 我们想要降维, 但是又不想丢失太多信息, 这时候就可以使用 PCA 来降维  
https://blog.csdn.net/MoreAction_/article/details/107463336

### PCA() 常用参数
- `n_components`： 这个参数类型有 `int` 型，`float` 型，`string` 型，默认为 `None`，常用的设置有两种：
若 `0<n_components<1`，则 `n_components` 的值为主成分方差的阈值； 通过设置该变量，即可调整主成分数量 `K`；
若 `n_components≥1`，则降维后的特征数为 `n_components`；

- `whiten`：参数为 `bool` 型，是否对降维后的数据的每个特征进行归一化，默认是 `False`。

### 其它常用方法：
- `fit(X,y=None)` ：用训练数据 X 训练模型，由于 PCA 是无监督降维，因此 y=None。
- `transform(X,y=None)` ：训练好模型后，对输入数据 X 进行降维。
- `fit_transform(X)`：用训练数据 X 训练模型，并对 X 进行降维。相当于先用 fit(X)，再用 transform(X)。
- `inverse_transform(X)` ：将降维后的数据还原成原始数据的近似。(PCA 的重建)

### PCA 对象常用属性：
- `components`：array, shape (n_components, n_features) ，降维后各主成分方向，并按照各主成分的方差值大小排序。
- `explained_variance`：array, shape (n_components,) ，降维后各主成分的方差值，方差值越大，越主要。
- `explained_variance_ratio`：array, shape (n_components,) ，降维后的各主成分的方差值占总方差值的比例，比例越大，则越主要。

In [1]:
import numpy as np
from sklearn.decomposition import PCA

### 1 生成数据

In [3]:
# 3 x 5 , 3维特征，5组数据
data = np.array(
    [[-1, -1, 0, 2, 1],
     [2, 0, 0, -1, -1],
     [2, 0, 1, 1, 0]], dtype=np.float64)
k = 2

### 2 PCA 降维

In [4]:
pca = PCA(n_components=k)

### 3 转置

In [5]:
# 注意转置
new_data = pca.fit_transform(data.T)
# 降维后的数据各个维度特征 所占信息比例
ratios = pca.explained_variance_ratio_

### 4 输出

In [11]:
# 要求在 3 维数据中提取 2 维数据，所以输出的数据是 2 维的
print("new_data: \n", new_data)
print("ratios: \n", ratios)

new_data: 
 [[ 2.50856792 -0.76054613]
 [ 0.59089386  1.31546989]
 [ 0.19057608 -0.02787302]
 [-1.84517782 -0.93519683]
 [-1.44486004  0.40814608]]
ratios: 
 [0.7801724  0.21479774]
