

##  机器学习基础知识详解

---

###  1. 有监督学习（Supervised Learning）

---

#### 定义

有监督学习是指：在输入数据（特征）与对应的**目标标签**（目标值）均已知的情况下，训练模型学习从输入到输出的映射关系。

$$
\text{给定：} \mathcal{D} = \{(x_i, y_i)\}_{i=1}^{N}
$$

目标是学习函数 $f: X \rightarrow Y$，使得预测 $\hat{y} = f(x)$ 尽可能接近真实值 $y$。

---

####  常见任务

| 类型 | 示例               |
| -- | ---------------- |
| 分类 | 图像识别、垃圾邮件检测、疾病预测 |
| 回归 | 房价预测、温度估计、股票走势建模 |

---

####  典型算法

* 决策树（Decision Tree）
* 支持向量机（SVM）
* 逻辑回归（Logistic Regression）
* k近邻（k-NN）
* 神经网络（MLP、CNN、RNN 等）

---

####  特点

| 优点       | 缺点              |
| -------- | --------------- |
| 精度高、结果可控 | 需要大量带标签数据，标注成本高 |

---

---

###  2. 半监督学习（Semi-Supervised Learning）

---

####  定义

半监督学习介于有监督与无监督之间，它结合了**少量标注样本**与**大量未标注样本**来提升模型学习效果。

$$
\mathcal{D}_{\text{labeled}} = \{(x_i, y_i)\}_{i=1}^{l},\quad \mathcal{D}_{\text{unlabeled}} = \{x_j\}_{j=l+1}^{l+u}
$$

目标是用 $\mathcal{D}_{\text{labeled}} \cup \mathcal{D}_{\text{unlabeled}}$ 来训练出更强的模型。

---

####  常见方法

| 方法                 | 思路                  |
| ------------------ | ------------------- |
| 自训练（Self-training） | 模型用自己预测的标签训练自己      |
| 一致性正则化             | 同一输入不同扰动下预测结果保持一致   |
| 图半监督学习（如 GCN）      | 将数据建图，在图上传播标签信息     |
| 伪标签                | 未标数据使用置信度高的预测作为训练目标 |

---

####  特点

| 优点             | 缺点             |
| -------------- | -------------- |
| 利用未标注数据，节省标注成本 | 对伪标签质量依赖大，难以调试 |

---

---

###  3. 无监督学习（Unsupervised Learning）

---

####  定义

无监督学习处理的是**纯粹的未标注数据**，目标是从数据中自动发现结构、分布或规律。

$$
\mathcal{D} = \{x_i\}_{i=1}^N
$$

---

####  主要任务类型

| 类型                           | 目标     | 应用示例      |
| ---------------------------- | ------ | --------- |
| 聚类（Clustering）               | 自动分组   | 用户分群、图像分割 |
| 降维（Dimensionality Reduction） | 表征压缩   | 可视化、特征抽取  |
| 密度估计（Density Estimation）     | 学习数据分布 | 生成模型、异常检测 |

---

####  常见算法

* 聚类：k-means、DBSCAN、层次聚类
* 降维：PCA、t-SNE、AutoEncoder
* 表征学习：变分自编码器（VAE）、生成对抗网络（GAN）

---

####  特点

| 优点      | 缺点          |
| ------- | ----------- |
| 不依赖人工标注 | 可解释性差、效果难验证 |

---

---

###  4. 训练（Training）

---

#### 定义

训练是指：在给定训练数据集的基础上，通过**最小化损失函数**，不断更新模型参数以拟合数据的过程。

---

####  核心流程

1. 初始化模型参数 $\theta$
2. 定义损失函数 $\mathcal{L}(f(x_i; \theta), y_i)$
3. 通过梯度下降（SGD/Adam）更新参数：

$$
\theta \leftarrow \theta - \eta \cdot \nabla_\theta \mathcal{L}
$$

4. 重复多轮迭代（Epoch），直至收敛或满足早停条件。

---

####  技术要点

* **损失函数选择**：

  * 分类：交叉熵（Cross-Entropy）
  * 回归：均方误差（MSE）

* **优化器**：SGD、Adam、RMSprop 等

* **正则化手段**：Dropout、L2范数、数据增强、防止过拟合

* **训练模式**：批量（Batch）、小批（Mini-Batch）、在线（Online）

---

---

###  5. 测试（Testing）

---

####  定义

测试是在**模型训练完成后**，使用**从未见过的测试集数据**评估模型泛化能力的过程。

$$
\text{Test set: } \mathcal{D}_{\text{test}} = \{(x_i^{\text{test}}, y_i^{\text{test}})\}
$$

---

####  测试目标

* **衡量泛化能力**：模型对未知数据的表现如何
* **防止过拟合**：只在训练集表现好并不代表模型优秀

---

####  常见评估指标

| 任务类型 | 指标                                         |
| ---- | ------------------------------------------ |
| 分类   | Accuracy, Precision, Recall, F1-score, AUC |
| 回归   | MSE, MAE, $R^2$ Score                      |
| 聚类   | Silhouette Score, ARI, NMI                 |

---

####  注意事项

* 测试集应完全独立于训练集，避免数据泄露
* 可在训练过程中使用验证集（Validation Set）调参，但测试集应仅用于最终评估

---

###  总结图表

| 类别  | 数据标签 | 目标        | 示例算法              |
| --- | ---- | --------- | ----------------- |
| 有监督 | 有    | 学习输入与标签关系 | SVM, CNN, MLP     |
| 半监督 | 少量有  | 结合有标与无标数据 | GCN, FixMatch     |
| 无监督 | 无    | 发现结构/分布   | k-means, PCA, GAN |

