# PCA
PCA = Principal Components Analysis，主成分分析，是一种降维的方法，并不用来分类/聚类/回归。假设了多个变量之间存在强的相关性，多重共线性，或者说变量反映的内容是有重复的。可以把高维(指特征数较多)转化为低维。转化后的数据是包含原始数据信息的，但是解释性比较差。且会损失一定数量的信息，但是对于计算成本来说，能把数据转化为低维是更好的。

一般的处理过程是：原始数据通过PCA降维，得到新的数据，再用新数据去进行分类/聚类/回归等。从这个角度来看，PCA也属于一种数据预处理方法。

## 参数
**n_components：int,float,None or str**

=2 代表返回前2个主成分

=0.98 代表返回满足主成分方差累计贡献率达到98%的主成分

=None 返回所有主成分

='mle' 自动选取主成分个数n使得满足所要求的方差百分比

**copy:bool类型，True/False** 是否复制原数据

=True时，fit_transform(X)能显示出降维后的数据

=False时，fit(X).transform(X)才能显示

**whiten:bool, True/False** 

白化，一种预处理过程，目的是降低输入数据的冗余性，白化处理后的输入数据有以下特点：

(1)特征间相关性较低，(2)所有特征具有相同方差。PCA中的白化就是PCA之后的数据的标准化。

**svd_solver:str, str{'auto','full','arpack','randomized'}** 

奇异值分解SVD的方法，默认auto，'randomized'适用于数据量大数据维度多，同时主成分数目比例较低的PCA降维

## 类的属性
components_:返回主成分分析矩阵

explained_variance_:降维后的各主成分的方差值

explained_variance_ratio:降维后各主成分的方差值占总方差值的比例(主成分方差贡献率)

## 类的方法
fit_transform() 将模型与X进行训练，并对X进行降维处理，返回的是降维后的数据

In [3]:
import numpy as np
import pandas as pd
data = pd.read_csv('/data/Iris.csv')
X = data.iloc[:,1:-1]
y = data.iloc[:,-1]
y = y.map({'Iris-setosa':0,'Iris-versicolor':1,'Iris-virginica':2})

In [4]:
from sklearn.decomposition import PCA
from sklearn import preprocessing
X_std = preprocessing.scale(X)

In [5]:
pca = PCA(n_components=2, copy=True)
pca.fit(X_std)

print('主成分系数矩阵是:', pca.components_)
print('特征值:', pca.explained_variance_)
print('方差解释率:', pca.explained_variance_ratio_) # 即主成分方差贡献率

主成分系数矩阵是: [[ 0.52237162 -0.26335492  0.58125401  0.56561105]
 [ 0.37231836  0.92555649  0.02109478  0.06541577]]
特征值: [2.93035378 0.92740362]
方差解释率: [0.72770452 0.23030523]


In [7]:
X_PCA = pca.fit_transform(X_std)
print(X_PCA[:5,:])
X_PCA.shape

[[-2.26454173  0.5057039 ]
 [-2.0864255  -0.65540473]
 [-2.36795045 -0.31847731]
 [-2.30419716 -0.57536771]
 [-2.38877749  0.6747674 ]]


(150, 2)

In [10]:
from sklearn.linear_model import LogisticRegression
LR = LogisticRegression()
LR.fit(X_PCA, y)
print('PCA后分类准确率:', LR.score(X_PCA, y))

PCA后分类准确率: 0.9333333333333333
