# 📘 深度理解三大经典工具：PCA / t-SNE / KMeans

本笔记涵盖：
- 每个方法的原理与推导
- 使用时机与判断依据
- 数学公式与直觉解释
- Python 使用代码模板
- 适用与不适用场景

## 🔷 1. 主成分分析（PCA）

### ✅ 适用场景：
- 数值特征维度高，存在共线性、冗余
- 希望压缩数据维度、加速模型
- 可视化高维数据结构

### 🧠 原理：
PCA 的目标是找到投影方向，使得投影后数据的方差最大。这些方向称为“主成分”，它们是协方差矩阵的特征向量。

### 📐 数学流程：
1. 零均值化：$\tilde{X} = X - \bar{X}$
2. 协方差矩阵：$C = \frac{1}{n} \tilde{X}^T \tilde{X}$
3. 求特征值与特征向量：$C = U\Lambda U^T$
4. 选取前 $k$ 个主成分：$Z = \tilde{X}U_k$

### 🧪 判断依据：
- `np.sum(pca.explained_variance_ratio_) > 0.95` 说明压缩后信息保留足够

### 💻 示例代码：

In [None]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
X_scaled = StandardScaler().fit_transform(X)
pca = PCA(n_components=0.95)  # 保留95%方差
X_pca = pca.fit_transform(X_scaled)

## 🔶 2. t-SNE（非线性降维）

### ✅ 适用场景：
- 想在 2D 或 3D 图上“看见”高维结构
- 分析聚类效果、数据群组

### ⚠️ 注意：
- t-SNE 是可视化工具，不适合用于训练或预测
- 对噪声敏感，不能保留全局结构

### 🧠 原理：
t-SNE 构造高维中相邻点的概率分布（高斯），在低维中用 t 分布重建这种邻近关系，通过最小化 KL 散度实现。

### 📐 关键公式：
- 高维邻接概率：
$p_{j|i} = \frac{e^{-\|x_i - x_j\|^2 / 2\sigma_i^2}}{\sum_{k \ne i} e^{-\|x_i - x_k\|^2 / 2\sigma_i^2}}$
- 低维相似度：$q_{ij} \propto (1 + \|y_i - y_j\|^2)^{-1}$
- KL 散度优化目标：$KL(P\|Q) = \sum p_{ij} \log \frac{p_{ij}}{q_{ij}}$

### 💻 示例代码：

In [None]:
from sklearn.manifold import TSNE
X_embedded = TSNE(n_components=2, perplexity=30).fit_transform(X)

## 🔵 3. KMeans 聚类

### ✅ 适用场景：
- 无监督任务中寻找簇结构
- 客户/用户/样本分群
- 特征工程中构造 cluster id 作为伪标签

### 🧠 原理：
KMeans 通过迭代最小化簇内平方误差（inertia），每个点分配给最近中心。

### 📐 数学模型：
- 优化目标：$J = \sum_k \sum_{x_i \in C_k} \|x_i - \mu_k\|^2$
- 每轮迭代：
  - E-step：指定每个点到最近中心
  - M-step：更新中心为簇内平均值

### 💡 判断依据：
- 肘部法估计 k 值：绘制 inertia vs k 折线图

### 💻 示例代码：

In [None]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=5).fit(X)
labels = kmeans.labels_

## 📊 三者比较总结：
| 方法 | 类型 | 用途 | 可视化 | 预测能力 | 数学核心 |
|------|------|------|----------|------------|------------|
| PCA | 线性降维 | 压缩数据、去冗余 | ✅ | ✅ | 特征值分解 |
| t-SNE | 非线性降维 | 可视化群组结构 | ✅✅ | ❌ | 概率邻接 + KL 散度 |
| KMeans | 聚类 | 无监督分群 | 可配合可视化 | ❌（非监督） | 最小平方距离 |

### 🧭 建议使用顺序：
1. 先用 PCA 预压缩高维数据
2. 用 KMeans 找聚类结构
3. 用 t-SNE 将聚类结果可视化