# 第16章主成分分析

## 习题16.1
&emsp;&emsp;对以下样本数据进行主成分分析：
$$
X = \left[ 
\begin{array}{lll}
2 & 3 & 3 & 4 & 5 & 7 \\
2 & 4 & 5 & 5 & 6 & 8
\end{array}
\right]
$$

**解答：**  

**解答思路：**

1. 给出主成分分析算法
2. 自编程基于`numpy`库实现主成分分析算法

**解答步骤：**  

**第1步：主成分分析算法**

**第2步：自编程基于`numpy`库实现主成分分析算法**

In [1]:
import numpy as np
def pca_by_svd(X, k):
    """数据矩阵奇异值分解进行的主成分分析算法

    :param X: 样本矩阵X
    :param k: 主成分个数k
    :return:
    """
    n_samples = X.shape[1]

    # 构造新的n×m矩阵
    T = X.T / np.sqrt(n_samples - 1)

    # 对矩阵T进行截断奇异值分解
    U, S, V = np.linalg.svd(T)
    V = V[:, :k]

    # 求k×n的样本主成分矩阵
    return V, np.dot(V.T, X)

In [6]:
X = np.array([[2, 3, 3, 4, 5, 7],
              [2, 4, 5, 5, 6, 8]])
X = X.astype("float64")

# 规范化变量
avg = np.average(X, axis=1)
var = np.var(X, axis=1)
for i in range(X.shape[0]):
    X[i] = (X[i, :] - avg[i]) / np.sqrt(var[i])

# 设置精度为2
np.set_printoptions(precision=3, suppress=True)
V, vnk = pca_by_svd(X, 2)
print("正交矩阵V：")
print(V)
print("样本主成分矩阵Y：")
print(vnk)

正交矩阵V：
[[ 0.707  0.707]
 [ 0.707 -0.707]]
样本主成分矩阵Y：
[[-2.028 -0.82  -0.433  0.     0.82   2.461]
 [ 0.296 -0.046 -0.433  0.     0.046  0.137]]


## 习题16.2
&emsp;&emsp;证明样本协方差矩阵$S$是总体协方差矩阵$\Sigma$的无偏估计。

**解答：**

**解答思路：**  

1. 给出总体协方差矩阵$\Sigma$
2. 给出样本协方差矩阵$S$
3. 给出无偏估计的定义
4. 证明样本协方差矩阵$S$是总体协方差矩阵$\Sigma$的无偏估计

**解答步骤：**   

**第1步：总体协方差矩阵$\Sigma$**

**第2步：样本协方差矩阵$S$**

**第3步：无偏估计的定义**

**第4步：证明样本协方差矩阵$S$是总体协方差矩阵$\Sigma$的无偏估计**

## 习题16.3
&emsp;&emsp;设$X$为数据规范化样本矩阵，则主成分等价于求解以下最优化问题：
$$
\begin{array}{cl}
\min \limits_L & \|X - L\|_F \\
\text{s.t.} & \text{rank}(L) \leqslant k
\end{array}
$$
其中，$F$是弗罗贝尼乌斯范数，$k$是主成分个数。试问为什么？

**解答：**

**解答思路：**  

1. 给出矩阵$X$的奇异值分解算法
2. 证明主成分是该最优化问题的最优解
3. 证明该最优化问题的最优解是$X$的主成分

**解答步骤：**   

**第1步：矩阵$X$的奇异值分解算法**

**第2步：证明主成分是该最优化问题的最优解**

**第3步：证明该最优化问题的最优解是$X$的主成分**