# PCA(主成分分析)降维

### PCA 从二维降到一维的原理

1. **数据中心化**  
   将二维样本点 $\{(x_i,y_i)\}$ 减去均值，使数据中心移到原点：  
   $x_i' = x_i - \bar{x},\quad y_i' = y_i - \bar{y}$

2. **计算协方差矩阵**  
   对中心化后的数据求 $2\times2$ 协方差矩阵：  
   $\mathbf{C} = \frac{1}{n}\sum_{i=1}^n \begin{bmatrix}x_i'\\y_i'\end{bmatrix}\begin{bmatrix}x_i' & y_i'\end{bmatrix} = \begin{bmatrix}\mathrm{Var}(x') & \mathrm{Cov}(x',y')\\ \mathrm{Cov}(x',y') & \mathrm{Var}(y')\end{bmatrix}$

3. **特征值分解**  
   求解 $\mathbf{C}\mathbf{v}=\lambda\mathbf{v}$，得到两个特征值 $\lambda_1\ge\lambda_2\ge0$ 及对应单位特征向量 $\mathbf{u}_1,\mathbf{u}_2$。

4. **选取主成分**  
   最大特征值 $\lambda_1$ 对应的特征向量 $\mathbf{u}_1$ 即为第一主成分方向，也是数据方差最大的方向。

5. **投影降维**  
   将所有中心化后的二维点投影到 $\mathbf{u}_1$ 上，得到一维坐标：  
   $z_i = \mathbf{u}_1^\top\begin{bmatrix}x_i'\\y_i'\end{bmatrix}$  
   最终用 $\{z_i\}$ 作为降维后的一维表示，保留最大方差信息。


In [7]:
import numpy as np
from sklearn.decomposition import PCA

X=np.array([
    [1,2,3,4,5],
    [6,7,8,9,10],
    [11,12,13,14,15]
])

pca=PCA(n_components=2)#初始化PCA,降维到2维

#训练PCA模型
X_pca=pca.fit_transform(X)#拟合PCA模型,并转换数据
print("输出降维后的数据:")

# 输出结果
print(f"原始数据结构:{X.shape[0]}个数据,{X.shape[1]}维")
print(f"降维后数据结构:{X_pca.shape[0]}个数据,{X_pca.shape[1]}维")
print(f"主成分方向(降为后的数据):{pca.components_}")
print(f"方差比:{pca.explained_variance_ratio_}")


输出降维后的数据:
原始数据结构:3个数据,5维
降维后数据结构:3个数据,2维
主成分方向(降为后的数据):[[-0.4472136  -0.4472136  -0.4472136  -0.4472136  -0.4472136 ]
 [ 0.89442719 -0.2236068  -0.2236068  -0.2236068  -0.2236068 ]]
方差比:[1.0000000e+00 4.3114171e-33]
