# 主成分分析（PCA）

## 相关背景


在许多领域的研究与应用中，通常需要对含有多个变量的数据进行观测，收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息，但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下，许多变量之间可能存在相关性，从而增加了问题分析的复杂性。如果分别对每个指标进行分析，分析往往是孤立的，不能完全利用数据中的信息，因此盲目减少指标会损失很多有用的信息，从而产生错误的结论。

因此需要找到一种合理的方法，在减少需要分析的指标同时，尽量减少原指标包含信息的损失，以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系，因此可以考虑将关系紧密的变量变成尽可能少的新变量，使这些新变量是两两不相关的，那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。主成分分析与因子分析就属于这类降维算法


## 数据降维

**降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。**
在实际的生产和应用中，降维在一定的信息损失范围内，可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。

优点：
* 使得数据集更易使用。
* 降低算法的计算开销。
* 去除噪声。
* 使得结果容易理解。

降维的算法有很多，比如：
* 奇异值分解(SVD)
* 主成分分析(PCA)
* 因子分析(FA)
* 独立成分分析(ICA)

## PCA原理详解

### PCA的概念

**PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。**
\
\
PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。
\
\
PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。


#### 如何得到这些包含最大差异性的主成分方向？

通过计算数据矩阵的协方差矩阵，然后得到协方差矩阵的特征值特征向量，选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中，实现数据特征的降维。
\
\
由于得到协方差矩阵的特征值特征向量有两种方法：特征值分解协方差矩阵、奇异值分解协方差矩阵，所以PCA算法有两种实现方法：
* 基于特征值分解协方差矩阵实现PCA算法
* 基于SVD分解协方差矩阵实现PCA算法

### 协方差和散度矩阵

In [1]:
import numpy as np
# 设置精度
np.set_printoptions(suppress=True, threshold=np.inf,precision=4)

X = np.random.random(10)
Y = np.random.random(10)
X,Y

(array([0.6021, 0.626 , 0.032 , 0.7378, 0.0826, 0.0201, 0.2973, 0.6131,
        0.3066, 0.3067]),
 array([0.3001, 0.1596, 0.0719, 0.7408, 0.3412, 0.0652, 0.2781, 0.184 ,
        0.733 , 0.4353]))

样本均值：

$$\bar x=\frac{1}{n}\sum_{i=1}^{N}x_i$$

In [2]:
x_bar1 = np.mean(X)
x_bar2 = np.sum(X)/X.shape[0]
x_bar1,x_bar2

(0.36243458478272184, 0.36243458478272184)

样本方差/协方差（协方差和方差较为接近，区别在于除数为N-1）：
$$S^2=\frac{1}{n-1}\sum_{i=1}^N(x_i-\bar x)^2$$

In [3]:
cov1 = np.cov(X)

x_bar = np.mean(X)
cov2 = np.sum(np.power(X-x_bar,2))/(len(X)-1)

cov1,cov2

(array(0.0718), 0.07175772310979896)

In [4]:
# np.std(X) # 标准差
# np.var(X) # 方差

样本X和样本Y的协方差：
\begin{align}
Cov(X,Y) &= E[(X-E(X))(Y-E(Y))] \\
&=\frac{1}{n-1}\sum_{i=1}^N(x_i-\bar x)(y_i-\bar y)
\end{align}

In [5]:
x_bar = np.mean(X)
y_bar = np.mean(Y)

xy = np.array([0. for x in X])
for i in range(len(X)):
    xy[i] = (X[i]-x_bar)*(Y[i]-y_bar)
    
cov_x_y1 = np.sum(xy)/(len(xy)-1)


# np.cov
xy2 = np.vstack((X,Y))
cov_x_y2 = np.cov(xy2)

cov_x_y1,cov_x_y2[0][-1]

(0.023705096386198818, 0.02370509638619881)

In [6]:
# help(np.cov)

对于数据X的散度矩阵为$XX^T$ 。其实协方差矩阵和散度矩阵关系密切，散度矩阵就是协方差矩阵乘以（总数据量-1）。因此它们的特征值和特征向量是一样的。这里值得注意的是，散度矩阵是SVD奇异值分解的一步，因此PCA和SVD是有很大联系。

In [7]:
# 矩阵散度
m = np.mean(X)
S1 = np.sum((X-m)**2)

S2 = (X-m).dot((X-m).T)

S3 = np.cov(X)*(len(X)-1)

S1,S2,S3

(0.6458195079881907, 0.6458195079881907, 0.6458195079881907)

### 特征值分解矩阵原理

#### 特征值与特征向量

$$Av=\lambda v$$
其中A为矩阵，$\lambda$为特征向量$v$对应的特征值，一个矩阵的一组特征向量是一组正交向量

In [8]:
A = np.array([
    [1,3,5],
    [2,4,6],
    [3,5,6]
])
#　矩阵的秩
np.linalg.matrix_rank(A)

3

#### 特征值分解矩阵
对于矩阵A，有一组特征向量v，将这组向量进行正交化单位化，就能得到一组正交单位向量。**特征值分解**，就是将矩阵A分解为如下式：
$$A=Q\Sigma Q^{-1}$$

其中，Q是矩阵A的特征向量组成的矩阵，[公式]则是一个对角阵，对角线上的元素就是特征值。

参考：https://mp.weixin.qq.com/s/Dv51K8JETakIKe5dPBAPVg

In [9]:
Eigenvalue, Eigenvector = np.linalg.eig(A)
Eigenvalue, Eigenvector

(array([12.3856, -1.2572, -0.1284]),
 array([[-0.4501, -0.7706,  0.6029],
        [-0.5881, -0.3295, -0.7368],
        [-0.672 ,  0.5456,  0.306 ]]))

In [10]:
# 对角化
Eigenvalue = np.diag(Eigenvalue)
Eigenvalue

array([[12.3856,  0.    ,  0.    ],
       [ 0.    , -1.2572,  0.    ],
       [ 0.    ,  0.    , -0.1284]])

### SVD分解原理
奇异值分解是一个能适用于任意矩阵的一种分解的方法，对对于任意矩阵A总是存在一个奇异值分解：
$$A = U\Sigma V^T$$


$A$是一个m\*n的矩阵，那么得到的$U$是一个m\*m的方阵，$U$里面的正交向量被称为左奇异向量。
$\Sigma$是一个m\*n的矩阵，$\Sigma$除了对角线其它元素都为0，对角线上的元素称为奇异值。 $V^T $是$V$的转置矩阵，是一个n\*n的矩阵，它里面的正交向量被称为右奇异值向量。而且一般来讲，会将$\Sigma$上的值按从大到小的顺序排列。

\
\

SVD分解矩阵A的步骤：

(1) 求$AA^T$ 的特征值和特征向量，用单位化的特征向量构成 $U$。

(2) 求 $A^TA$ 的特征值和特征向量，用单位化的特征向量构成 $V$。

(3) 将 $AA^T$ 或者 $A^TA$ 的特征值求平方根，然后构成 $\Sigma$。


In [11]:
def sort_by_eigen_value(EigenValues,EigenVectors):
    """
    将特征值从大到小进行排序，并且基于特征值的大小，对特征向量进行排序
    """
    index = np.argsort(EigenValues)[::-1]
    EigenValues = EigenValues[index]
    EigenVectors = EigenVectors[:,index]
    return EigenValues,EigenVectors

def svd(A):
    ATA = np.dot(A.T,A)
    # 求右奇异向量，V
    lambda_V,V = np.linalg.eig(ATA)
    lambda_V, V = sort_by_eigen_value(lambda_V, V)
    
    # 求奇异值
    sigmas = lambda_V
    
    # 由于python里很小的数有时候是负数
    sigmas = list(map(lambda x: np.sqrt(x)
                      if x > 0 else 0, sigmas))
    
    
    # 将末尾为0的特征值进行舍去
    sigma_nozeros_len = len(list(filter(lambda x: x > 0,sigmas)))
    
    sigmas_matrix = np.diag(sigmas)
    sigmas_matrix = sigmas_matrix[:sigma_nozeros_len,:]
    
    # 求左奇异向量,U
    U = np.zeros((A.shape[0],sigma_nozeros_len))
    for i in range(sigma_nozeros_len):
        U[:,i] = (A.dot(V[:,i])/sigmas[i]).T
    
    Sigma = sigmas_matrix[:sigma_nozeros_len, :sigma_nozeros_len]
    
#     print(U.shape,Sigma.shape,V.shape)
    return U,Sigma,V


# A = np.array([[1, 1, 1, 2, 2], 
#               [0, 0, 0, 3, 3],
#               [0, 0, 0, 1, 1], 
#               [1, 1, 1, 0, 0],
#               [2, 2, 2, 0, 0], 
#               [5, 5, 5, 0, 0],
#               [1, 1, 1, 0, 0]])

A = np.array([
    [1,6],
    [7,9],
    [3,6]
])

# 默认FULL
U,Sigma,V = svd(A)
U,Sigma,V,U.dot(Sigma).dot(V.T),A

(array([[-0.3958,  0.8301],
        [-0.7905, -0.5257],
        [-0.4674,  0.1862]]),
 array([[14.3138,  0.    ],
        [ 0.    ,  2.6676]]),
 array([[-0.5122, -0.8589],
        [-0.8589,  0.5122]]),
 array([[1., 6.],
        [7., 9.],
        [3., 6.]]),
 array([[1, 6],
        [7, 9],
        [3, 6]]))

In [12]:
# 调用np.linalg.svd查看，对比
np.linalg.svd(A)

(array([[-0.3958,  0.8301, -0.3928],
        [-0.7905, -0.5257, -0.3143],
        [-0.4674,  0.1862,  0.8642]]),
 array([14.3138,  2.6676]),
 array([[-0.5122, -0.8589],
        [-0.8589,  0.5122]]))

In [13]:
# full_matrices：是否进行剪切掉不需要的数据
np.linalg.svd(A,full_matrices=False)

(array([[-0.3958,  0.8301],
        [-0.7905, -0.5257],
        [-0.4674,  0.1862]]),
 array([14.3138,  2.6676]),
 array([[-0.5122, -0.8589],
        [-0.8589,  0.5122]]))

### PCA算法两种实现方法

#### 基于特征值分解协方差矩阵实现PCA算法

输入：数据集 $X=\{x_1,x_2,x_3,\cdots,x_n \}$ ，需要降到$k$维。

In [14]:
X = np.array([
    [-1,-1,0,2,0],
    [-2,0,0,1,1]
])
X

array([[-1, -1,  0,  2,  0],
       [-2,  0,  0,  1,  1]])

1. 去平均值(即去中心化)，即每一位特征减去各自的平均值。

> 因为X矩阵的每行已经是零均值，所以不需要去平均值

In [15]:
# 取每个特征值的平均值
np.mean(X,axis=0)# or X.mean(axis=0)

array([-1.5, -0.5,  0. ,  1.5,  0.5])

In [16]:
# 去中心化
X1 = X-X.mean(axis=0)
X1

array([[ 0.5, -0.5,  0. ,  0.5, -0.5],
       [-0.5,  0.5,  0. , -0.5,  0.5]])

2. 计算协方差矩阵$\frac{1}{n}XX^T$,注：这里除或不除样本数量n或n-1,其实对求出的特征向量没有影响。

In [17]:
n = X.shape[1]
C = 1/n*X.dot(X.T)
C

array([[1.2, 0.8],
       [0.8, 1.2]])

3. 用特征值分解方法求协方差矩阵$\frac{1}{n}XX^T$ 的特征值与特征向量。

In [18]:
# 求协方差矩阵的特征值与特征向量
eigenvalue, eigenvector = np.linalg.eig(C)
eigenvalue, eigenvector 

(array([2. , 0.4]),
 array([[ 0.7071, -0.7071],
        [ 0.7071,  0.7071]]))

4. 对特征值从大到小排序，选择其中最大的$k$个。然后将其对应的$k$个特征向量分别作为行向量组成特征向量矩阵P。

In [19]:
k = 2

# 将特征值从大到小排序，并且基于特征值将特征向量进行排序
index = np.argsort(eigenvalue)[::-1]
eigenvalue = eigenvalue[index]
eigenvector = eigenvector[:,index]
eigenvalue,eigenvector

(array([2. , 0.4]),
 array([[ 0.7071, -0.7071],
        [ 0.7071,  0.7071]]))

In [20]:
# 将其对应的 𝑘 个特征向量分别作为行向量组成特征向量矩阵P
P = eigenvector.T[:k,:]
P

array([[ 0.7071,  0.7071],
       [-0.7071,  0.7071]])

5. 将数据转换到k个特征向量构建的新空间中，即$Y=PX$。
> 注意：如果通过特征值分解协方差矩阵，那么只能得到一个方向的PCA降维。这个方向就是对数据矩阵X从行(或列)方向上压缩降维。

In [21]:
Y = P[0,:].dot(X)
Y

array([-2.1213, -0.7071,  0.    ,  2.1213,  0.7071])

#### 基于SVD分解协方差矩阵实现PCA算法
输入：数据集 $X=\{x_1,x_2,x_3,\cdots,x_n \}$ ，需要降到$k$维。

In [22]:
X = np.array([[-1, 1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
n_samples, n_features = X.shape
X

array([[-1,  1],
       [-2, -1],
       [-3, -2],
       [ 1,  1],
       [ 2,  1],
       [ 3,  2]])

1. 去平均值，即每一位特征减去各自的平均值

In [23]:
mean = X.mean(axis=0)
mean

array([0.    , 0.3333])

In [24]:
X_norm = X - mean
X_norm

array([[-1.    ,  0.6667],
       [-2.    , -1.3333],
       [-3.    , -2.3333],
       [ 1.    ,  0.6667],
       [ 2.    ,  0.6667],
       [ 3.    ,  1.6667]])

2. 通过SVD计算A的奇异值与奇异向量

In [25]:
U,Sigma,V = svd(X_norm)
U,Sigma,V

(array([[-0.0829,  0.8536],
        [-0.3911, -0.0804],
        [-0.6148, -0.3441],
        [ 0.1955,  0.0402],
        [ 0.3348, -0.3665],
        [ 0.5585, -0.1028]]),
 array([[6.1406, 0.    ],
        [0.    , 1.2754]]),
 array([[ 0.855 , -0.5187],
        [ 0.5187,  0.855 ]]))

3. 对特征值从大到小排序，选择其中最大的k个。然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵

In [26]:
# 上述已经默认排序好了
eig_pairs = [(np.abs(Sigma[i,i]), V[:,i]) for i in range(n_features)]
eig_pairs

[(6.140581853834897, array([0.855 , 0.5187])),
 (1.2753775243773604, array([-0.5187,  0.855 ]))]

In [27]:
k = 1 # 确保k<n
feature=np.array([ele[1] for ele in eig_pairs[:k]])
feature

array([[0.855 , 0.5187]])

4. 将数据转换到k个特征向量构建的新空间中

In [28]:
data=X_norm.dot(feature.T) # 将数据降到了一维
data

array([[-0.5092],
       [-2.4015],
       [-3.7752],
       [ 1.2008],
       [ 2.0557],
       [ 3.4294]])

#### 用sklearn的PCA与手动实现的PCA做个比较

In [29]:
##用sklearn的PCA
from sklearn.decomposition import PCA
import numpy as np
X = np.array([[-1, 1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
pca=PCA(n_components=1)
pca.fit(X)
print(pca.transform(X))

[[ 0.5092]
 [ 2.4015]
 [ 3.7752]
 [-1.2008]
 [-2.0557]
 [-3.4294]]


在PCA降维中，我们需要找到样本协方差矩阵$XX^T$的最大k个特征向量，然后用这最大的k个特征向量组成的矩阵来做低维投影降维。可以看出，在这个过程中需要先求出协方差矩阵 $XX^T$,当样本数多、样本特征数也多的时候，这个计算还是很大的。当我们用到SVD分解协方差矩阵的时候，SVD有两个好处：

1) 有一些SVD的实现算法可以先不求出协方差矩阵 $XX^T$ 也能求出我们的右奇异矩阵V。也就是说，我们的PCA算法可以不用做特征分解而是通过SVD来完成，这个方法在样本量很大的时候很有效。实际上，scikit-learn的PCA算法的背后真正的实现就是用的SVD，而不是特征值分解。

2)注意到PCA仅仅使用了我们SVD的左奇异矩阵，没有使用到右奇异值矩阵，那么右奇异值矩阵有什么用呢？

假设我们的样本是m\*n的矩阵X，如果我们通过SVD找到了矩阵 $XX^T$ 最大的k个特征向量组成的k\*n的矩阵 $V^T$,则我们可以做如下处理：

$$X^{'}_{m*k}=X_{m*n}V^T_{n*k}$$

可以得到一个m\*k的矩阵X',这个矩阵和我们原来m\*n的矩阵X相比，列数从n减到了k，可见对列数进行了压缩。也就是说，左奇异矩阵可以用于对行数的压缩；右奇异矩阵可以用于对列(即特征维度)的压缩。这就是我们用SVD分解协方差矩阵实现PCA可以得到两个方向的PCA降维(即行和列两个方向)。

## PCA的理论推导

PCA有两种通俗易懂的解释：
* 最大方差理论；
* 最小化降维造成的损失。

扩:<a href="https://blog.csdn.net/Dark_Scope/article/details/53150883">从PCA和SVD的关系拾遗</a>

## 选择降维后的维度K(主成分的个数)

如何选择主成分个数K呢？先来定义两个概念：
* avaerage squared projection error:$\frac{1}{m}\sum_{i=1}^m||x^{(i)}-x^{(i)}_{appror}||^2$，其中$x^{(i)}_{appror}$为映射值
* total variation in the data:$\frac{1}{m}\sum_{i=1}^m||x^{(i)}||^2$

选择不同的K值，然后用下面的式子不断计算，选取能够满足下列式子条件的最小K值即可。
$$\frac{\frac{1}{m}\sum_{i=1}^m||x^{(i)}-x^{(i)}_{appror}||^2}{\frac{1}{m}\sum_{i=1}^m||x^{(i)}||^2}$$
其中t值可以由自己定，比如t值取0.01，则代表了该PCA算法保留了99%的主要信息。当觉得误差需要更小，可以把t值设置的更小。上式还可以用SVD分解时产生的S矩阵来表示，如下面的式子：
$$1-\frac{\sum_{i=1}^kS_{ii}}{\sum_{i=1}^nS_{ii}} \lt = t$$


扩:<a href="https://www.cnblogs.com/zy230530/p/7074215.html">机器学习实战之PCA</a>