# PCA
(n_components=None, copy=True, whiten=False, svd_solver='auto', tol=0.0, iterated_power='auto', random_state=None)

* <font color=red>n_components</font>: int, float, None or string    
  - 需要保留的组件数量。如果没有设置n_components，则保留所有组件:  
  n_components == min(n_samples, n_features)  
  n_components == 'mle' and svd_solver == 'full', Minka's MLE是用来猜测维数的。  
  Use of n_components == 'mle' will interpret svd_solver == 'auto' as svd_solver == 'full'.
  If 0 < n_components < 1 and svd_solver == 'full', select the number of components such that the amount of variance that needs to be explained is greater than the percentage specified by n_components.  
  If svd_solver == 'arpack', the number of components must be strictly less than the minimum of n_features and n_samples.
  Hence, the None case results in:  
  n_components == min(n_samples, n_features) - 1  
* <font color=red>copy</font>: bool (default True)  
False:则会覆盖传递给fit的数据，并且运行fit(X).transform(X)不会产生预期的结果，而是使用fit_transform(X)。
* <font color=red>whiten</font>: bool, optional (default False)  
当True(默认为False)时，组件向量乘以n_samples的平方根，然后除以奇异值，以确保输出与单元组件相关的方差不相关。  
白化将从转换后的信号(各分量的相对方差尺度)中去除一些信息，但有时可以通过使下游估计量的数据尊重某些硬连线假设来提高预测精度。  
* <font color=red>svd_solver</font>: string {'auto', 'full', 'arpack', 'randomized'}
  - auto :  
该解决程序由基于X的默认策略选择。形状和n_components:如果输入数据大于500x500，而要提取的组件数量小于数据最小维度的80%，则启用更有效的“随机”方法。否则，完整的SVD将被计算出来，然后可选地截断。
  - full :   
通过scipy.linalg调用标准的LAPACK解决程序，运行完全SVD。svd，并通过后处理选择组件
  - arpack :  
运行截断为n_components的SVD，通过scipy.sparse.linalg.svds调用ARPACK求解器。它严格要求0 < n_components < min(X.shape)
  - randomized :  
用Halko等方法运行随机SVD。
* <font color=red>tol</font>: float >= 0, optional (default .0)   
svd_solver == 'arpack'计算的奇异值的公差。
* <font color=red>iterated_power</font>: int >= 0, or 'auto', (default 'auto')  
由svd_solver == ' random'计算的power方法的迭代次数。
* <font color=red>random_state</font>: int, RandomState instance or None, optional (default None)  
如果是int, random_state是随机数生成器使用的种子;如果是RandomState实例，random_state是随机数生成器;如果没有，随机数生成器是np.random使用的RandomState实例。用于svd_solver == 'arpack'或' randomze '。

In [1]:
import numpy as np
from sklearn.decomposition import PCA
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
pca = PCA(n_components=2)
pca.fit(X)
print(pca.explained_variance_ratio_)  

print(pca.singular_values_)  

[0.99244289 0.00755711]
[6.30061232 0.54980396]


In [2]:
pca = PCA(n_components=2, svd_solver='full')
pca.fit(X)                 
print(pca.explained_variance_ratio_)  

print(pca.singular_values_)  

[0.99244289 0.00755711]
[6.30061232 0.54980396]


In [3]:
pca = PCA(n_components=1, svd_solver='arpack')
pca.fit(X)
print(pca.explained_variance_ratio_)  

print(pca.singular_values_)  

[0.99244289]
[6.30061232]
