# 降维技术
## 1. 主成分分析 (Principal Component Analysis, PCA)

### 核心思想
- PCA 的目的是在保持数据方差尽可能多的前提下，将高维数据投影到低维空间。
- 通过线性变换找到数据的主成分（Principal Components），这些主成分是原始特征的线性组合且彼此正交（即线性无关）。

### 关键步骤
1. 对数据进行标准化处理（使每个特征的均值为 0，方差为 1）。
2. 计算协方差矩阵（衡量特征之间的关系）。
3. 计算协方差矩阵的特征值和特征向量。
4. 选择最大特征值对应的特征向量作为主成分，构建新的坐标系。
5. 用这些主成分对数据进行降维。

### 通俗理解
PCA 就是找一组新的轴（特征方向），这些轴是最能解释数据变化的方向，保留最重要的几个轴进行降维。例如，考察智力情况时，可能只需要看数学成绩，而忽略其他不太重要的特征。

### 优点
- 高效，适用于大规模数据集。
- 不需要先验知识。
- 易于实现，结果可解释。

### 局限性
- 仅考虑线性关系，忽略非线性模式。
- 对数据的缩放和中心化敏感。
- 无法处理缺失值。

### 应用场景
图像处理、压缩、金融数据分析、特征工程等。

---

## 2. 因子分析 (Factor Analysis, FA)

### 核心思想
- 因子分析假设观察数据是由少数几个隐变量（潜在因子）和噪声的线性组合产生的。
- 这些隐变量通常不可直接观测，但通过因子分析模型可以估计隐变量的值。

### 关键步骤
1. 定义因子模型：假设每个观测变量是若干因子和噪声的线性组合。
2. 使用协方差矩阵分析变量之间的关系，提取潜在因子。
3. 对提取的因子进行旋转（如正交旋转或斜交旋转），使其具有更好的可解释性。
4. 评估模型的拟合优度，确定因子数目。

### 通俗理解
假如我们考察一个学生的综合能力，与其分别分析语文、数学和英语成绩，不如将这三个科目组合成一个“学习能力”因子。这种聚合方式减少了分析的复杂性。

### 优点
- 能处理噪声数据。
- 适用于多个相关变量的降维和聚合。
- 可解释性强，因子能直接对应实际问题中的潜在特征。

### 局限性
- 对数据分布有较强的假设要求（如正态分布）。
- 模型复杂，参数估计过程较繁琐。

### 应用场景
社会科学、心理学（如性格测量）、金融（如市场风险因子分析）。

---

## 3. 独立成分分析 (Independent Component Analysis, ICA)

### 核心思想
- ICA 假设观测数据是若干统计上 **相互独立** 的信号线性混合的结果。
- ICA 的目标是从混合信号中分离出这些独立信号（解混）。

### 关键步骤
1. 数据预处理，包括去中心化和白化（使数据去除冗余相关性）。
2. 使用最大化非高斯性的方法找到最独立的信号源。
3. 还原信号源，得到独立分量。

### 通俗理解
想象在 KTV 房间中，有两种声音混在一起：一个是原唱，另一个是主唱。ICA 会分离出这两种声音，帮你分别听清楚是哪首歌和谁在唱。

### 优点
- 能捕获高阶统计信息。
- 擅长信号分离，例如语音和图像处理。
- 对于混合信号处理非常有效。

### 局限性
- 假设信号之间是独立的，可能不符合实际情况。
- 需要较大的样本量，性能受噪声干扰影响较大。

### 应用场景
语音分离（如盲源分离问题）、图像分割、脑电信号处理（EEG 数据分析）。

---

## 为什么 PCA 使用最广？

1. **简单高效**：
   - PCA 计算快速，适合大规模数据集。
   - 特别适合线性相关的高维数据集降维。
   - 在特征工程中常用于减少数据维度以提高机器学习模型的效率。

2. **无强分布假设**：
   - 与因子分析（需要数据符合正态分布）相比，PCA 对数据分布没有过多限制。

3. **明确目标**：
   - PCA 的目标是最大化数据的方差，使降维后的数据保留尽可能多的信息量。
   - 这一目标简单且适用于多种场景。

4. **应用广泛**：
   - 图像压缩：PCA 被用来去除冗余信息，减少存储空间。
   - 数据可视化：将高维数据降至 2D 或 3D，便于可视化分析。
   - 特征选择：通过降维去除不重要的特征，简化模型。

5. **工具和库支持**：
   - PCA 已被集成到各种主流的数据分析工具（如 Python 的 sklearn、R 等），实现简单，使用便捷。

## PCA算法流程
## 1. 数据预处理

### 步骤：
- 将数据标准化，确保不同特征具有相同的量纲。
- 公式为：

$$
x_{i,j}^{\text{standardized}} = \frac{x_{i,j} - \mu_j}{\sigma_j}
$$

其中：
- $x_{i,j}$ 表示数据集中第 $i$ 个样本的第 $j$ 个特征值。
- $\mu_j$ 为第 $j$ 个特征的均值。
- $\sigma_j$ 为第 $j$ 个特征的标准差。

---

## 2. 构建协方差矩阵

### 步骤：
- 计算标准化后的数据集的协方差矩阵，用于衡量各特征之间的线性关系。
- 公式为：

$$
\mathbf{C} = \frac{1}{n-1} \mathbf{X}^\top \mathbf{X}
$$

其中：
- $\mathbf{X}$ 是标准化后的数据矩阵，大小为 $n \times d$（$n$ 为样本数，$d$ 为特征数）。
- $\mathbf{C}$ 为大小为 $d \times d$ 的协方差矩阵。

协方差矩阵的每个元素定义为：

$$
\text{Cov}(X_j, X_k) = \frac{1}{n-1} \sum_{i=1}^{n} (x_{i,j} - \mu_j)(x_{i,k} - \mu_k)
$$

---

## 3. 计算特征值和特征向量

### 步骤：
- 对协方差矩阵 $\mathbf{C}$ 求解特征值和特征向量。
- 特征值公式：

$$
\mathbf{C} \mathbf{v} = \lambda \mathbf{v}
$$

其中：
- $\lambda$ 为特征值，表示该方向上数据的方差大小。
- $\mathbf{v}$ 为特征向量，表示数据投影的方向。

### 解释：
- 特征值越大，对应的特征向量越重要，表示该方向的数据变化越大。

---

## 4. 选择主成分

### 步骤：
- 将特征值按降序排列，选择前 $k$ 个最大的特征值及其对应的特征向量，构成投影矩阵：

$$
\mathbf{W} = [\mathbf{v}_1, \mathbf{v}_2, \dots, \mathbf{v}_k]
$$

其中：
- $k$ 是降维后的目标维度。
- $\mathbf{W}$ 是大小为 $d \times k$ 的投影矩阵。

### 选择主成分的依据：
- **方差贡献率**：衡量主成分对总方差的贡献，公式为：

$$
\text{方差贡献率} = \frac{\lambda_i}{\sum_{j=1}^{d} \lambda_j}
$$

- 通常选择方差贡献率累计达到 90% 或 95% 的前 $k$ 个主成分。

---

## 5. 数据投影

### 步骤：
- 将原始数据投影到低维空间，公式为：

$$
\mathbf{Z} = \mathbf{X} \mathbf{W}
$$

其中：
- $\mathbf{X}$ 为标准化后的原始数据矩阵，大小为 $n \times d$。
- $\mathbf{W}$ 为投影矩阵，大小为 $d \times k$。
- $\mathbf{Z}$ 为降维后的数据矩阵，大小为 $n \times k$。

### 解释：
- 投影后的数据矩阵 $\mathbf{Z}$ 是 $k$-维的，保留了数据中主要的变化方向。

---

## 数学推导核心

PCA 的目标是寻找一组正交的投影方向，使得投影后数据的方差最大化。具体目标公式为：

$$
\text{maximize: } \mathbf{v}^\top \mathbf{C} \mathbf{v} \quad \text{subject to: } \|\mathbf{v}\| = 1
$$

解得的 $\mathbf{v}$ 就是协方差矩阵的特征向量。

In [None]:
import numpy as np
import csv
from sklearn.impute import SimpleImputer

def loadData(fileName):
    with open(fileName, 'r') as file:
        reader = csv.reader(file)
        data = []
        for row in reader:
            data.append([float(x) for x in row[0].split()])
    return np.array(data)

def pca(dataMat, nComponents):
    # 处理 NaN
    imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
    dataMat = imputer.fit_transform(dataMat)

    # 检查是否还有 NaN
    if np.isnan(dataMat).any():
        raise ValueError("填充后仍存在 NaN 值，请检查数据")

    # 1. 数据标准化
    mean = np.mean(dataMat, axis=0)
    # std = np.std(dataMat, axis=0)
    # if np.any(std == 0):
    #     raise ValueError("某些特征的标准差为零，可能是由于数据中存在常数列")
    # X = (dataMat - mean) / std
    X = (dataMat - mean)

    # 2. 计算协方差矩阵
    C = np.cov(X, rowvar=False)
    if np.isnan(C).any() or np.isinf(C).any():
        raise ValueError("协方差矩阵中存在 NaN 或无穷值")

    # 确保协方差矩阵是正定的
    if not np.allclose(C, C.T):
        raise ValueError("协方差矩阵不是对称的")
    C += np.eye(C.shape[0]) * 1e-8  # 数值稳定性调整

    # 3. 计算特征值和特征向量
    eigVals, eigVecs = np.linalg.eig(C)

    # 4. 排序特征值和特征向量
    idx = np.argsort(eigVals)[::-1]
    eigVecs = eigVecs[:, idx]
    eigVals = eigVals[idx]

    # 5. 选择前 nComponents 个主成分
    W = eigVecs[:, :nComponents]

    # 6. 投影到主成分方向
    Z = X @ W

    return Z


def main():
    data = loadData("secom.data")
    Z = pca(data, 4)
    print(Z)

if __name__ == "__main__":
    main()

ValueError: 某些特征的标准差为零，可能是由于数据中存在常数列