`sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False, svd_solver='auto')`
* `n_components=`
	* 2：返回前2个主成分
	* 0.98：返回满足主成分差累积贡献率达到98%的主成分
	* None：返回所有主成分
	* 'mle'：将自动选取主成分个数n，使得满足所要求的方差百分比
* `copy`：是否把原本的数据复制一份
* `whiten`：白化，即对PCA之后的数据进行标准化处理
* `svd_solver`：奇异值分解SVD的方法，除了'auto'，还有'full'、'arpack‘、'randomized'三种

类的属性
* `components_`：返回主成分系数矩阵
* `explained_variance_`：降维后的主成分的方差值
* `explained_variance_ratio_`：降维后的主成分的方差值占总方差值得比例（主成分方差贡献率）

类的方法
* `fit_transform()`：将模型与X进行训练，并对X进行降维处理，返回的是降维后的数据


In [1]:
from sklearn.decomposition import PCA
from sklearn import preprocessing as pre
from sklearn.datasets import load_iris

iris = load_iris()
# 标准化
X = pre.scale(iris.data)
# 设置 PCA 模型
pca = PCA(n_components=2, copy=True)


# 将该模型拟合到 X 上
# pca.fit(X)  # 这一步计算了主成分和解释方差
# print('主成分系数矩阵：', pca.components_)  
# # 主成分系数矩阵，表示每个原始特征对每个主成分的贡献程度。
# # 每一行代表一个主成分，每一行的四个数据分别 代表四个原始特征对该主成分的影响
# print('特征值：', pca.explained_variance_)   # 特征值越大说明该主成分越重要
# print('方差解释率：', pca.explained_variance_ratio_)  # 方差解释率就越大
# # 方差解释率为该特征值除以总的特征值
# # 方差解释率越高，说明解释了更大比例的方差，保留了更多有用的信息

X_PCA = pca.fit_transform(X)  # 得到经过 PCA 处理后的数据集
print("标准化前的数据集：", iris.data[:5,:])  # 未标准化的数据
print("标准化后且PCA前的数据集：", X[:5,:])        # 标准化后PCA前的数据
print("PCA后的数据集：", X_PCA[:5,:])  # PCA后的数据
# 皆展示前五行

from sklearn.linear_model import LogisticRegression

# 创建一个逻辑回归模型
LR1 = LogisticRegression()
LR2 = LogisticRegression()
LR3 = LogisticRegression()
# 将该模型拟合到 PCA 转换后的数据集 X_PCA 和目标标签上 
LR1.fit(iris.data, iris.target)  
# 若像上面这样未进行标准化处理直接进行拟合，运行后会有一个警告信息：
# `ConvergenceWarning` 表示模型在训练过程中没有收敛
# 并提示我们需要进行标准化处理
LR2.fit(X, iris.target)
LR3.fit(X_PCA, iris.target)

# 通过回归拟合效果来观察经过 PCA 处理后是否有利于回归拟合准确率的提升
print('标准化前分类准确率：', LR1.score(iris.data, iris.target)) 
print('标准化后且PCA前分类准确率：', LR2.score(X, iris.target)) 
print('PCA后分类准确率：', LR3.score(X_PCA, iris.target))  


标准化前的数据集： [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
标准化后且PCA前的数据集： [[-0.90068117  1.01900435 -1.34022653 -1.3154443 ]
 [-1.14301691 -0.13197948 -1.34022653 -1.3154443 ]
 [-1.38535265  0.32841405 -1.39706395 -1.3154443 ]
 [-1.50652052  0.09821729 -1.2833891  -1.3154443 ]
 [-1.02184904  1.24920112 -1.34022653 -1.3154443 ]]
PCA后的数据集： [[-2.26470281  0.4800266 ]
 [-2.08096115 -0.67413356]
 [-2.36422905 -0.34190802]
 [-2.29938422 -0.59739451]
 [-2.38984217  0.64683538]]
标准化前分类准确率： 0.9733333333333334
标准化后且PCA前分类准确率： 0.9733333333333334
PCA后分类准确率： 0.9333333333333333


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


从最下面三行来看，pca处理后怎么准确率反而变少了？这是当然了，因为降维避免不了会有信息损失，而pca要做的是使得计算量减小并且损失最小，而不是使得没有损失。可以看出，0.97到0.93，准确率下降的并不多，说明确实使得损失最小。