# 机器学习

机器学习是关于构建可以从数据中学习的系统。学习意味着在一 定的性能指标下，在某些任务上会变得越来越好

机器学习非常适合没有算法解答的复杂问题，它可以替代一系列 需要手动调整的规则，来构建适应不断变化的环境的系统并最终帮助人 类（例如，数据挖掘）

# 学习分类

根据训练期间接受的监督数量和监督类型，可以将机器学习系统分 为以下四个主要类别：有监督学习、无监督学习、半监督学习和强化学 习

## 有监督学习

它的特点是有标签，也就是说，我们给算法的数据是带有明确答案的。
监督学习的任务是让机器从这些带标签的数据中学习规律，然后用学到的规律去预测新数据的标签。

分类任务是一个典型的有监督学习任务。
另一个典型的任务是通过给定一组称为预测器的特征（里程、使用 年限、品牌等）来预测一个目标数值（例如汽车的价格）。这种类型的 任务称为*回归*

*回归问题：在给定输入特征的情况下预测值（通常有多个输入 特征，有时有多个输出值）*

## 无监督学习

无监督学习的任务是让机器自己从数据中发现规律、结构或模式。

（1）**聚类（Clustering）**

- **目标**：把相似的数据分到同一组，不相似的数据分到不同组。
    
- **例子**：
    
- 把顾客分成不同的群体，比如“高消费群体”和“低消费群体”。
    
- 把新闻文章按主题分类（比如体育、科技、娱乐）。
    
 （2）**降维（Dimensionality Reduction）**

- **目标**：把高维数据压缩到低维，同时保留重要信息。
    
- **例子**：
    
- 把一张高清图片压缩成低分辨率图片，但保留主要内容。
    
- 把多个特征（如年龄、收入、消费习惯）压缩成少数几个关键特征。

 3. **异常检测（Anomaly Detection）** —— “抓出异类”

 4. **关联规则学习（Association Rule Learning）** —— “发现共现规律”


## 半监督学习

在现实世界中，**标注数据（打标签）非常昂贵、耗时**，比如请专家给医学图像标注肿瘤位置。但**未标注的数据却很容易获得**，比如网上有海量的图片、文本。

于是，**半监督学习**就来了：

> ✅ 它使用**少量的标注数据 + 大量的未标注数据**来训练模型。

目标是：**利用未标注数据中的信息，提升模型的性能**，比只用少量标注数据效果更好。

## 强化学习

智能体（Agent）通过与环境（Environment）互动，根据获得的奖励或惩罚，学会做出最优决策。

## 批量学习

批量学习，也叫 **离线学习（Offline Learning）**，是指：

**模型在训练阶段一次性使用全部训练数据进行学习，训练完成后部署使用，之后不再更新。**

这个解决方案比较简单，通常也都能正常工作，只是每次都使用完 整数据集进行训练可能需要花上好几个小时
此外，使用完整数据集训练需要耗费大量的计算资源

 如果想更新模型？必须**重新收集新数据 + 重新训练 + 重新部署**

所以，我们有*在线学习*

## 在线学习

在线学习是指：

**模型一次只看一个（或一小批）样本，边接收数据边更新自己，持续学习。**

在在线学习中，你可以循序渐进地给系统提供训练数据，逐步积累 学习成果。
这种提供数据的方式可以是单独的，也可以采用小批量的小 组数据来进行训练。每一步学习都很快速并且便宜，这样系统就可以根 据飞速写入的最新数据进行学习

对于这类系统——需要接收持续的数据流（例如股票价格），同时 对数据流的变化做出快速或自主的反应，使用在线学习是一个非常好的 方式。

![image.png](attachment:f56fc130-82e4-4291-88e4-2a7025f403c5.png)


### 核外学习
对于超大数据集——超出一台计算机的主存储器的数据，在线学习 算法也同样适用（这称为*核外学习*）。算法每次只加载部分数据，并针 对这部分数据进行训练，然后不断重复这个过程，直到完成所有数据的 训练


![image.png](attachment:aecdd533-02d3-4450-9ccb-b72e3fd8aaec.png)

### 学习率和挑战

![image.png](attachment:2fdc01f3-f686-4075-add5-4ec601f69110.png)

这就像一个“边学边干”的智能助手：

- 学得太快，可能被假信息误导；
- 学得太慢，跟不上时代；
- 所以要聪明地调“学习节奏”，同时保持“眼睛亮”，防止被“坏数据”带偏。

## 基于实例的学习与基于模型的学习

另一种对机器学习系统进行分类的方法是看它们如何泛化。大多数 机器学习任务是要做出预测。这意味着系统需要通过给定的训练示例， 在它此前并未见过的示例上进行预测（泛化）。

泛化的主要方法有两种：基于实例的学习和基于模型的学习。

*基于实例的学习*

不总结规律，而是“记住”所有见过的例子，当新数据来时，**找最相似的老例子**来预测。
就是死记硬背

 工作流程：

1. 保存所有（或部分）训练数据
2. 当新样本到来时，计算它和每个旧样本的**相似度**
3. 根据最相似的几个实例（“邻居”）来做预测

*基于模型的学习*

模型学习从**训练数据中归纳出一个通用的规则或函数**（即“模型”），然后用这个模型来预测新数据。

 工作流程：

1. 给模型一堆训练数据（输入 + 输出）
2. 模型从中**学习参数**，比如线性回归中的斜率和截距
3. 得到一个**数学模型**（如：房价 = 80 × 面积 + 20 × 房间数 - 100）
4. 用这个模型对**新数据**做预测





# 机器学习的主要挑战

## 训练数据的数量不足

## 训练数据不具代表性

## 低质量数据

## 无关特征

包含足够多的 相关特征以及较少的无关特征，系统才能够完成学习。

一个成功的机器 学习项目，其关键部分是提取出一组好的用来训练的特征集。这个过程 叫作*特征工程*，包括以下几点： 

·特征选择（从现有特征中选择最有用的特征进行训练）。 

·特征提取（将现有特征进行整合，产生更有用的特征——正如前 文提到的，降维算法可以提供帮助）。 

·通过收集新数据创建新特征

## 过拟合训练数据

假设你正在国外旅游，被出租车司机敲诈，你很可能会说，那个国 家的所有出租车司机都是强盗。过度概括是我们人类常做的事情，不幸 的是，如果我们不小心，机器很可能也会陷入同样的陷阱。

在机器学习 中，这称为过拟合，
也就是指模型在训练数据上表现良好，但是泛化时 却不尽如人意。

### 解决方案

·简化模型：可以选择较少参数的模型（例如，选择线性模型而不 是高阶多项式模型）也可以减少训练数据中的属性数量，或者是约束模 型。

·收集更多的训练数据。 

·减少训练数据中的噪声（例如，修复数据错误和消除异常值）。

通过约束模型使其更简单，并降低过拟合的风险，这个过程称为*正则化*。

**正则化就是给模型“上紧箍咒”，防止它学得太“疯狂”或“死记硬背”。**
防止过拟合


在学习时，应用正则化的程度可以通过一个超参数来控制。*超参数* 是学习算法（不是模型）的参数。因此，它不受算法本身的影响。
超参 数必须在训练之前设置好，并且在训练期间保持不变。

如果将正则化超 参数设置为非常大的值，会得到一个几乎平坦的模型（斜率接近零）。

## 欠拟合训练数据

它的产生通常是因 为对于底层的数据结构来说，你的模型太过简单。
例如，用线性模型来 描述生活满意度就属于欠拟合。现实情况远比模型复杂得多，所以即便 是对于用来训练的示例，该模型产生的预测都一定是不准确的

解决这个问题的主要方式有： 
·选择一个带有更多参数、更强大的模型。 
·给学习算法提供更好的特征集（特征工程）。 
·减少模型中的约束（例如，减少正则化超参数）。

## 通俗理解欠拟合和过拟合

|                    |        |          |
| ------------------ | ------ | -------- |
| 你完全没复习，考试全靠猜       | ❌ 学得太少 | **欠拟合**  |
| 你把课本所有字都背下来，但考试题变了 | ❌ 学得太死 | **过拟合**  |
| 你理解了公式和方法，能解新题     | ✅ 刚刚好  | **拟合良好** |
欠拟合：模型太简单，- 训练数据和测试数据都表现差。     用更复杂模型、加特征
过拟合：太复杂， 训练数据号，测试数据差。          简化模型、正则化、加数据

|          |             |             |
| -------- | ----------- | ----------- |
| ✅ 恰好拟合   | < 0.05      | 模型泛化能力强     |
| ⚠️ 轻微过拟合 | 0.05 ~ 0.10 | 可接受，但可优化    |
| ❌ 明显过拟合  | > 0.10      | 模型记住了噪声，需调整 |

# 测试与验证

![image.png](attachment:d8855b68-77cd-4451-b48b-3350e0800acc.png)


## 超参数调整和模型选择

在机器学习中，我们通常把数据分成三部分：

| 数据集                     | 用途            |            |
| ----------------------- | ------------- | ---------- |
| **训练集（Training Set）**   | 训练模型，让模型“学习”  | 学习课本内容     |
| **验证集（Validation Set）** | 调整模型参数、选择最佳模型 | 做模拟考试，查漏补缺 |
| **测试集（Test Set）**       | 最终评估模型性能      | 正式考试，看真实水平 |
关键点：
- **测试集只能用一次**，不能用来调参或选模型！
- 否则你就“作弊”了——模型已经“见过”测试集，自然会表现好，但实际不行。

如果使用测试集来调整超参数，则可能会过拟合测试集，而且 所测得的泛化误差会过于乐观（你可能会得到一个性能比预期差的模 型）

 解决方案：保持验证集（Hold-out Validation）
 
### 保持验证

你这样做：

1. 把数据分为三份：
    
    - 70% 训练集
    - 15% 验证集
    - 15% 测试集
2. 用**训练集 + 验证集**来训练多个模型（比如不同正则化强度的模型）
    
3. 在**验证集**上比较这些模型的表现，选出最好的那个
    
4. 再用**完整的训练集（包括验证集）** 重新训练这个最优模型
    
5. 最后，在**测试集**上只评估一次，得到最终泛化能力

### 问题

 如果验证集太小：

- 模型评估不准确
- 可能误选了一个“运气好”的次优模型（比如刚好碰上了几个好样本）

📌 比如：只用5个样本做验证，可能偶然选到一个看起来好的模型，其实不好。


 如果验证集太大：

- 训练集就变小了
- 模型学得不够充分，就像“短跑运动员参加马拉松”

📌 所以要平衡大小

### 更好的方法：交叉验证

想象你有100个数据，把它分成5份（每份20个）。

然后做5次实验：

1. 用第1份当验证集，其余4份训练 → 得到一个分数
2. 用第2份当验证集，其余4份训练 → 得到一个分数 ...
3. 用第5份当验证集，其余4份训练 → 得到一个分数

最后取这5个分数的平均值作为模型表现。

✅ 优点：

- 每个样本都当过验证集
- 评估更稳定、更准确
- 不浪费数据

❌ 缺点：

- 训练次数多，耗时长

## 数据不匹配

假设你要做一个 App，让用户用手机拍照，自动识别是哪种花。

你用 网络上的高清图 训练模型，但用户用手机（手抖，光影，模糊）拍的图完全不同 → 模型在真实世界表现差。

模型在“网络图片”上表现很好，但在“手机照片”上却经常认错。

这就是：**数据不匹配（Data Mismatch）**

### 解决方法：train-dev集

它是从**原始训练数据中分出来的一小部分**，用来做“中间检查”。

![image.png](attachment:60da49c8-a3e0-42a1-95a5-44b51389d5d2.png)

train-dev 集
用于检查：模型在“真实风格”数据上表现如何？  
→ 如果差，说明“训练数据不匹配”

![image.png](attachment:0333a3c5-40e4-40d0-a132-7aaa9659267e.png)


### “没有免费的午餐”定理NFL

> **没有任何一个模型是“永远最好”的。  
> 它在某些问题上表现好，就一定在另一些问题上表现差。**

换句话说：

> ❌ 不存在一个“通吃所有任务”的超级算法。

# 总结

### 一、什么是机器学习？

> **让计算机从数据中自动学习规律，并用这些规律对新数据做出预测或决策。**

### 二、机器学习的主要类型（按学习方式分）

|           | 特点             | 目标             | 任务         |
| --------- | -------------- | -------------- | ---------- |
| **监督学习**  | 有标签（输入 + 正确答案） | 学会“输入→输出”映射    | 分类、回归      |
| **无监督学习** | 无标签            | 发现数据中的结构       | 聚类、降维、异常检测 |
| **半监督学习** | 少量标签 + 大量无标签   | 利用未标注数据提升性能    | 图像/语音识别    |
| **强化学习**  | 环境反馈（奖励/惩罚）    | 学会“在什么状态下做什么事” | 游戏AI、机器人控制 |
### 三、常见的无监督任务

1. **聚类**：把相似的数据分组（如客户分群）→ K-Means
2. **降维**：简化数据，便于可视化 → PCA、t-SNE
3. **异常检测**：找出异常样本 → Isolation Forest
4. **关联规则**：发现共现模式（如“买A也买B”）→ Apriori
5. **生成模型**：生成新数据 → GAN、VAE



---

### 四、学习方式的其他分类

| 分类维度 | 类型 | 特点 |
|----------|------|------|
| **学习节奏** | 批量学习 | 一次性训练，长期使用 |
| | 在线学习 | 边接收数据边学习，持续更新 |
| **学习机制** | 基于模型的学习 | 总结规律，构建模型（如线性回归） |
| | 基于实例的学习 | 记住例子，靠相似性判断（如KNN） |

---

### 五、模型与参数

| 概念 | 说明 |
|------|------|
| **模型参数** | 模型在训练中自动学会的“内部知识”<br>如：线性回归的权重 $w$、神经网络的连接强度 |
| **超参数** | 训练前手动设置的“外部配置”<br>如：学习率、KNN中的K、正则化强度 |
| **正则化** | 防止过拟合的“紧箍咒”<br>L1/L2 正则化让模型更简单、泛化更好 |

---

### 六、机器学习的主要挑战

1. **数据不足** → 用数据增强、迁移学习
2. **数据不具代表性** → 注意采样偏差
3. **低质量数据** → 清洗、去噪、处理缺失值
4. **无关特征** → 特征选择、特征工程
5. **过拟合** → 正则化、交叉验证、简化模型
6. **欠拟合** → 用更复杂模型、更好特征
7. **数据不匹配** → 用 train-dev 集诊断，做数据增强
8. **计算与部署问题** → 模型压缩、边缘计算

---

### 七、关键概念深入理解

| 概念 | 核心思想 |
|------|----------|
| **No Free Lunch 定理** | 没有哪个算法在所有任务上都最优<br>→ 要根据问题选模型 |
| **train-dev 集** | 用于诊断“数据不匹配”问题<br>不是用来调参，而是判断模型是否适应真实数据 |
| **验证集 vs 测试集** | 验证集：调参用（可多次）<br>测试集：最终评估（只能用一次） |
| **交叉验证** | 多次模拟考试，取平均成绩<br>更稳定地评估模型性能 |

---

### 八、如何选择学习方式

🧠 **三步法**：

1. **看标签**：
   - 有标签 → 监督学习
   - 无标签 → 无监督学习
   - 少量标签 → 半监督学习

2. **看目标**：
   - 预测类别/数值 → 监督学习
   - 分组/降维/找异常 → 无监督学习
   - 做决策 → 强化学习

3. **看数据变化**：
   - 数据持续到来 → 在线学习
   - 数据静态 → 批量学习

