主成分分析（PCA）是一种常用的数据降维技术，它通过提取数据的主要特征成分来减少数据的维度，同时尽可能保留原有数据的信息。下面，我们通过一个简单的例子来说明PCA算法的基本步骤。

假设有如下三个二维数据点：
- \( (1, 2) \)
- \( (3, 4) \)
- \( (5, 6) \)

我们的目标是将这些二维数据降至一维。

### 步骤 1: 数据标准化
由于PCA对数据的尺度很敏感，所以首先要对数据进行标准化处理。标准化的目的是使得每个特征的平均值为0，标准差为1。

计算每个维度的平均值和标准差：
- 平均值 \( \mu_x = 3, \mu_y = 4 \)
- 标准差 \( \sigma_x = \sigma_y = 2 \)

标准化后的数据点：
- \( \left(\frac{1-3}{2}, \frac{2-4}{2}\right) = (-1, -1) \)
- \( \left(\frac{3-3}{2}, \frac{4-4}{2}\right) = (0, 0) \)
- \( \left(\frac{5-3}{2}, \frac{6-4}{2}\right) = (1, 1) \)

### 步骤 2: 计算协方差矩阵
接下来，计算标准化数据的协方差矩阵。协方差矩阵展示了各变量间的协方差，即变量间如何随彼此变化。

\[
\text{协方差矩阵} = \begin{bmatrix}
1 & 1 \\
1 & 1
\end{bmatrix}
\]

### 步骤 3: 计算特征值和特征向量
求解上述协方差矩阵的特征值和对应的特征向量。这些特征向量将作为新的轴，而特征值决定了轴的“重要性”即方差大小。

特征值：\(2, 0\)\
特征向量：\([1, 1], [1, -1]\)（可能需要归一化）

### 步骤 4: 选择主成分
选择特征值最大的特征向量作为主成分。在本例中，特征向量 \([1, 1]\) 对应的特征值是2，是最大的，因此选取这个特征向量为主成分。

### 步骤 5: 转换到新空间
最后，将原始数据点投影到选定的主成分上。
- 投影 \( (-1, -1) \)：\( -1 \times 1 + -1 \times 1 = -2 \)
- 投影 \( (0, 0) \)：\( 0 \times 1 + 0 \times 1 = 0 \)
- 投影 \( (1, 1) \)：\( 1 \times 1 + 1 \times 1 = 2 \)

最终，降维后的数据为 \(-2, 0, 2\)。

这个简单例子展示了PCA算法从原始数据中抽取主要特征，并将其转换为较低维度表示的过程。在实际应用中，PCA可以应用于更高维度的数据，并且通常用于图像处理、数据压缩、以及增强机器学习模型的性能等领域。

In [1]:
import numpy as np

# 原始数据
data = np.array([[1, 2], [3, 4], [5, 6]])

# 步骤 1: 数据标准化
mean = np.mean(data, axis=0)
std_dev = np.std(data, axis=0)
data_normalized = (data - mean) / std_dev

# 步骤 2: 计算协方差矩阵
cov_matrix = np.cov(data_normalized, rowvar=False)

# 步骤 3: 计算特征值和特征向量
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)

# 步骤 4: 选择主成分（最大特征值对应的特征向量）
sorted_indexes = np.argsort(eigenvalues)[::-1]
principal_components = eigenvectors[:, sorted_indexes[:1]]

# 步骤 5: 转换到新空间
transformed_data = np.dot(data_normalized, principal_components)

print("原始数据：\n", data)

原始数据：
 [[1 2]
 [3 4]
 [5 6]]


In [2]:
print("标准化后的数据：\n", data_normalized)

标准化后的数据：
 [[-1.22474487 -1.22474487]
 [ 0.          0.        ]
 [ 1.22474487  1.22474487]]


In [3]:
print("协方差矩阵：\n", cov_matrix)

协方差矩阵：
 [[1.5 1.5]
 [1.5 1.5]]


In [4]:
print("特征值：\n", eigenvalues)

特征值：
 [3. 0.]


In [5]:
print("特征向量：\n", eigenvectors)

特征向量：
 [[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]]


In [6]:
print("降维后的数据：\n", transformed_data)

降维后的数据：
 [[-1.73205081]
 [ 0.        ]
 [ 1.73205081]]
