# 极客时间 - 程序员基础数学课 - [第42课 - PCA主成因分析(上)](https://time.geekbang.org/column/article/87097)



## 课后题

```
1  3  -7
2  5  -14
-3 -7 2
```

假设这个矩阵的每一列表示一个特征的维度，每一行表示一个样本。请完成：

1. 按照列（也就是同一个特征维度）进行标准化。
2. 生成这个矩阵的协方差矩阵。

## 自己解题

In [1]:
import numpy as np

# 把方程组设定为增广矩阵
A = np.array([
    [1, 3,  -7],
    [2, 5,  -14],
    [-3, -7,  2]
], np.double)

print(A)

[[  1.   3.  -7.]
 [  2.   5. -14.]
 [ -3.  -7.   2.]]


In [2]:
# 计算每列的平均值

A_mean = A.mean(axis=0)
print("计算每列的平均值:")
print(A_mean)


计算每列的平均值:
[ 0.          0.33333333 -6.33333333]


In [3]:
# 计算每列标准差
A_stddev = A.std(axis=0)
print("计算每列的标准差:")
print(A_stddev)

计算每列的标准差:
[2.1602469  5.24933858 6.5489609 ]


In [4]:
# 每列标准化
A_std = np.zeros(A.shape, np.double)
for i in range(len(A)):
    for j in range(len(A[i])):
        A_std[i][j] = (A[i][j] - A_mean[j]) / A_stddev[j]

print("每列标准化")
print(A_std)

每列标准化
[[ 0.46291005  0.50800051 -0.10179732]
 [ 0.9258201   0.88900089 -1.17066918]
 [-1.38873015 -1.3970014   1.2724665 ]]


In [5]:
# 计算协方差矩阵

# m个采样
m = len(A)

# n个维度
n = len(A[0])

A_std_mean = A_std.mean(axis=0)
print("标准化后的平均值:")
print(A_std_mean)

# 构建协方差矩阵
Cov_matrix = np.zeros((n, n), np.double)

for x1 in range(0, n):
    for x2 in range(0, n):
        cov = 0
        for i in range(0, m):
            cov += (A_std[i][x1] - A_std_mean[x1]) * (A_std[i][x2] - A_std_mean[x2])
        Cov_matrix[x1][x2] = cov / (m-1)

print("协方差矩阵:")
print(Cov_matrix)

标准化后的平均值:
[ 0.00000000e+00  0.00000000e+00 -7.40148683e-17]
协方差矩阵:
[[ 1.5         1.4991357  -1.44903232]
 [ 1.4991357   1.5        -1.43503825]
 [-1.44903232 -1.43503825  1.5       ]]


## 答案

极客时间 - 程序员基础数学课 - [PCA主成分分析（下）](https://time.geekbang.org/column/article/87337) 里提供的答案

In [6]:
import numpy as np
from numpy import linalg as LA
from sklearn.preprocessing import scale

# 原始数据，包含了3个样本和3个特征，每一行表示一个样本，每一列表示一维特征
x = np.mat([[1,3,-7],[2,5,-14],[-3,-7,2]])

# 矩阵按列进行标准化
# scale 函数使用了 axis=0，表示对列进行标准化
x_s = scale(x, with_mean=True, with_std=True, axis=0)
print("标准化后的矩阵: \n", x_s)

标准化后的矩阵: 
 [[ 0.46291005  0.50800051 -0.10179732]
 [ 0.9258201   0.88900089 -1.17066918]
 [-1.38873015 -1.3970014   1.2724665 ]]


In [7]:
# 计算协方差矩阵，注意这里需要先进行转置，因为这里的函数是看行与行之间的协方差
x_cov = np.cov(x_s.transpose())
# 输出协方差矩阵
print("协方差矩阵：\n", x_cov, "\n")

协方差矩阵：
 [[ 1.5         1.4991357  -1.44903232]
 [ 1.4991357   1.5        -1.43503825]
 [-1.44903232 -1.43503825  1.5       ]] 



In [8]:
# 求协方差矩阵的特征值和特征向量
eigVals,eigVects = LA.eig(x_cov)
print("协方差矩阵的特征值：", eigVals)
print("协方差的特征向量（主成分）：\n", eigVects, "\n")

协方差矩阵的特征值： [ 4.42231151e+00 -3.76638147e-16  7.76884923e-02]
协方差的特征向量（主成分）：
 [[-0.58077228 -0.74495961  0.3282358 ]
 [-0.57896098  0.66143044  0.47677453]
 [ 0.57228292 -0.08686171  0.81544301]] 



In [18]:
# 找到最大的特征值，及其对应的特征向量
max_eigVal = -1
max_eigVal_index = -1

for i in range(0, eigVals.size):
    if (eigVals[i] > max_eigVal):
        max_eigVal = eigVals[i]
        max_eigVal_index = i

    eigVect_with_max_eigVal = eigVects[:,max_eigVal_index]

# 输出最大的特征值及其对应的特征向量，也就是第一个主成分
print("最大的特征值：", max_eigVal)
print("最大特征值所对应的特征向量：", eigVect_with_max_eigVal)

# 输出变换后的数据矩阵。注意，这里的三个值是表示三个样本，而特征从3维变为1维了。
print("变换后的数据矩阵：", x_s.dot(eigVect_with_max_eigVal), "\n")

最大的特征值： 4.422311507725755
最大特征值所对应的特征向量： [-0.58077228 -0.57896098  0.57228292]
变换后的数据矩阵： [-0.62121467 -1.72234145  2.34355612] 



### 直接利用sklearn的PCA

In [17]:
from sklearn.decomposition import PCA

# 挑选前2个主成分
pca = PCA(n_components=2)

# 进行PCA分析
pca.fit(x_s)

# 输出变换后的数据矩阵。注意，这里的三个值是表示三个样本，而特征从3维变为1维了。
print("方差（特征值）: ", pca.explained_variance_)
print("主成分（特征向量）", pca.components_)
print("变换后的样本矩阵: \n", pca.transform(x_s))
print("信息量:\n", pca.explained_variance_ratio_)

方差（特征值）:  [4.42231151 0.07768849]
主成分（特征向量） [[-0.58077228 -0.57896098  0.57228292]
 [ 0.3282358   0.47677453  0.81544301]]
变换后的样本矩阵: 
 [[-0.62121467  0.31113544]
 [-1.72234145 -0.22687371]
 [ 2.34355612 -0.08426173]]
信息量:
 [0.98273589 0.01726411]


第一个主成分包含了原始样本矩阵中的 98.27% 的信息，而第二个主成分包含了原始样本矩阵中的 1.73% 的信息