## 理论基础

UMAP的数学基础主要涉及拓扑数据分析、流形学习和优化技术。

1. **拓扑空间和流形假设**：
   - UMAP假设数据点位于某个高维流形上。流形是一个局部欧几里得空间的拓扑空间，可以理解为高维空间中的“曲面”。
   - UMAP通过邻域图（neighborhood graph）来捕捉高维流形的局部结构。

2. **构建高维空间中的图**：
   - 对于每个数据点，UMAP首先找到其最近邻数据点（使用k-近邻算法）。
   - 定义加权边，边的权重由高斯核函数计算，表示两个点之间的相似度。具体来说，权重计算如下：
$$
w_{ij} = \exp\left(-\frac{{d_{ij}^2 - \rho_i}}{{\sigma_i}}\right)
$$
其中，$ d_{ij} $ 是数据点 $ i $ 和 $ j $ 之间的距离，$ \rho_i $ 是用于控制局部密度的距离阈值， $ \sigma_i $ 是局部尺度参数。

3. **低维空间中的布局**：
   - 低维空间中也构建一个邻域图。低维空间中的边权重使用二项分布近似：
$$
w'_{ij} = \frac{1}{1 + a \cdot (d'_{ij})^{2b}}
$$
其中，$ d'_{ij} $ 是低维空间中数据点 $ i $ 和 $ j $ 之间的距离，$ a $ 是超参数，用于调整低维空间中的距离分布。

4. **优化目标函数**：
   - 通过最小化高维和低维空间中的图之间的差异来优化数据点的低维嵌入。UMAP使用交叉熵作为优化目标函数：
$$
C = \sum_{(i,j)} w_{ij} \log\left(\frac{w_{ij}}{w'_{ij}}\right) + (1 - w_{ij}) \log\left(\frac{1 - w_{ij}}{1 - w'_{ij}}\right)
$$
   - 该目标函数衡量高维和低维空间中的邻域相似度的差异。通过最小化这个目标函数，可以获得一个低维表示，使得低维空间中相似的数据点仍然保持相似，不相似的数据点保持不相似。

### 算法流程

1. **数据预处理**：
   - 标准化输入数据，使得每个特征的均值为0，标准差为1。
   
2. **构建高维邻域图**：
   - 使用k-近邻算法找到每个数据点的k个最近邻。
   - 计算高维邻域图中的边权重，使用高斯核函数确定相似度。

3. **初始化低维嵌入**：
   - 使用随机初始化或其他降维算法（如PCA）来生成低维嵌入的初始点。

4. **优化低维嵌入**：
   - 通过最小化目标函数来优化低维嵌入。常用的方法是梯度下降，具体步骤：
     1. 计算目标函数的梯度。
     2. 根据梯度更新低维嵌入的位置。
     3. 重复上述步骤，直到目标函数收敛或达到预定的迭代次数。

5. **后处理**：
   - 对低维嵌入结果进行可视化。
   - 根据需要进行进一步的分析或聚类。

通过上述步骤，UMAP能够将高维数据映射到低维空间，同时保留数据的局部和全局结构，使得数据的模式和关系在低维空间中更加清晰和易于解释。
