# 第一章 机器学习概览

* 原书代码地址： [01_the_machine_learning_landscape.ipynb](https://github.com/ageron/handson-ml2/blob/master/01_the_machine_learning_landscape.ipynb)
* 本章地址：[Gitee](https://gitee.com/XuXiaoCong/learn-ai/blob/master/book-handson-ml2/01_the_machine_learning_landscape/01_the_machine_learning_landscape.ipynb) / [Github](https://github.com/xuxiaocong/learn-ai/blob/master/book-handson-ml2/01_the_machine_learning_landscape/01_the_machine_learning_landscape.ipynb)

## 1.1 什么是机器学习

机器学习是一门通过编程让计算机从数据中进行学习的学科（和艺术）。

* 举例

抖音、快手等短视频软件，通过用户点赞、收藏、停留时间等数据，学习用户喜好，最终让用户沉迷刷视频无法自拔。

* 反例

下载维基百科到电脑上，虽然电脑有很多数据，但是机器并不会因此学会处理什么事情。

## 1.2 为什么使用机器学习

使用"识别标题党"举例

* 传统编程

当你要编写一个识别标题党的程序时，通过穷举法，把例如"震惊!"、"不转不是和谐人"等等短语来判断。一段时间后标题党有出现了新的短语，如"XX排第三，第一名竟然是他/她"等等，此时需要继续增加短语来判断。

* 机器学习

不需要硬编码。通过收集标题，标记出哪些属于标题党，哪些不属于标题党。基于机器学习的程序通过学习后，自动判断新的标题是否"标题党"。

* 疑问：当新的词汇出现，不都有工作量吗？

确实都需要工作量，传统编程需要修改程序，或者往枚举库里添加新短语；机器学习需要重新收集标题和对应的标签。但是当机器学习配上自动化就真香了，例如在文章中加上"赞"/"踩"的功能，这样通过用户的点击就能不断自我学习。总得来说，就是工作量是用户帮我们做了。

* 总结，机器学习适用于：

1. 有解决方案，但是机器学习可以简化代码
2. 传统方法难以解决的辅助问题
3. 需要适应新数据
4. 洞察复杂问题和大量数据

## 1.3 机器学习的应用示例

* 车牌识别 - 图像分类、语义分割，使用卷积神经网络(CNN)
* 自动分类新闻 - 自然语言处理(NLP)，使用循环神经网络(RNN)、CNN或者Transformer
* 购物推荐 - 推荐系统，聚类
* 语音助手 - 语音识别，要求能处理音频采样。一般使用RNN，CNN或者Transformer
* 游戏机器人 - AlphaGo下围棋

## 1.4 机器学习系统的类型

* 是否人类监督下训练
    * 有监督学习
    * 无监督学习
    * 半监督学习
    * 强化学习
* 是否增量学习
    * 在线学习
    * 批量学习
* 泛化方法
    * 基于实例的学习
    * 基于模型的学习

### 1.4.1 有监督学习和无监督学习

#### 有监督学习

在有监督学习中，提供给算法的包含所需解决方案的训练集成为标签。简单来说，标签就是提供给算法的标准答案。

分类任务是一个经典的有监督学习任务。垃圾邮件过滤器是很好的示例，通过大量电子邮件和所属分类(垃圾邮件还是常规邮件)进行训练，然后学习如何对新邮件进行分类。

另一个经典的任务是通过给定一组成为预测器的特征(里程、使用年限、品牌等)来预测一个目标值（二手车价格）。这种类型的任务成为回归。

#### 无监督学习

无监督学习的训练数据都是未经标记的。就是没有提供标准答案的情况下进行训练。

* 聚类

例如当你走进公园，看到很多植物，你可以分出哪些植物是同个种类，但就是叫不出名字。这时就可以通过聚类算法来检测相似的植物分组。

* 异常检测

比如下图，找出和其他个体都不一样的物体。

![diff](imgs/diff.jpeg)

#### 半监督学习

通常给数据做标记是非常耗时和昂贵的，你往往会有很多未标记的数据和一小部分已标记的数据。有些算法可以处理部分已标记的数据。这成为半监督学习。

大部分半监督学习是无监督算法和有监督算法像结合。例如，上面逛公园的例子，你能分出哪些植物属于一类，那么你每种拍一张，发到网上问小亮老师，得到回答植物名称后，你就为所有同类做上标记。你就能按有监督学习进行训练了。

![park](imgs/park.jpg)

#### 强化学习

强化学习能够观察环境，做出选择，执行动作，并获得回报。

比如AlphaGo在围棋比赛中击败世界冠军。通过分析数百万场比赛，然后自己跟自己下棋，学到了制胜策略。

### 1.4.2 批量学习和在线学习

#### 批量学习

也称为全量学习，每次都需要使用完整数据集进行训练。当数据更新或增加时，需要删除旧的学习结果，从头开始训练。需要花费大量的时间和计算资源，面对海量数据的时候，甚至做不到全量学习。

#### 在线学习

也称为增量学习，可以分批次给系统提供训练数据，逐步积累学习成果。当数据更新或增加时，在旧的学习结果上继续训练。如果资源有限，在线学习是很好的选择。

核外学习可以处理无法容纳在计算机主内存中的大量数据。核外学习算法将数据分成小批量，并使用在线学习技术从这些小批量数据中学习。

### 1.4.3 基于实例的学习和基于模型的学习

泛化就是预测的意思。大多数机器学习任务是要做出预测。

#### 基于实例的学习

根据相似度度量来比较新的实例和已经学习的示例，从而泛化新实例。

比如下图中的动物，你可能不知道这是一只约克夏，但不妨碍你把它归类为狗而不是猫，因为它长得像一只狗而不像一只猫。

"长得像/不像"就是根据相似度，对比以前看过的猫和狗，从而做出预测（泛化）。

![dog](imgs/dog.png)

#### 基于模型的学习

构建实例集的模型，使用该模型进行预测。

你可以根据品牌(宝马/大众)、生产年限(1年前/10年前)等指标来判断一辆二手车的价值。

## 1.5 机器学习的主要挑战

最可能出现的两个问题不外乎是"坏数据"和"坏算法"。

### 1.5.1 训练数据的数量不足

教一个牙牙学语的小朋友什么是苹果，只需要指着苹果说"苹果"，可能重复几次后孩子就能识别苹果了。

机器学习还没达到这一步，大部分机器学习算法需要大量的数据才能正常工作。即使是最简单的问题，很可能也需要成千上万个示例。

### 1.5.2 训练数据不具代表性

为了很好地实现泛化（预测），至关重要的一点是对于将要泛化的新示例来说，训练数据一定要非常有代表性。

例如，2016年美国总统大选时，特朗普在各种民调支持中都比对手低，但投票结果却相反。

下图是人均GDP和生活满意度的调查，X轴是人均GDP，Y轴是生活满意度

![gdp1](imgs/gdp1.png)

### 1.5.3 低质量数据

如果训练集满是错误、异常值和噪声，系统更难检测到底层模式，更不太可能表现良好。

花时间来清理训练数据是非常值得的投入。

* 常用做法
1. 数据明显异常的情况，直接丢弃或尝试手动修复实例
2. 某些实例缺少部分特征的情况，必须决定是整体忽略特征，还是将缺失值补充完整

### 1.5.4 无关特征

正如我们常说的：垃圾入，垃圾出。只有训练数据里包含足够多的相关特征以及较少的无关特征，系统才能够完成学习。

一个成功的机器学习项目，其关键部分是提取出一组好的用来训练的特征集。这个过程叫做特征工程。

### 1.5.5 过拟合训练数据

为了贴合每一个点，预测的曲线很可能如下图所示，但根据这个预测，当人均GDP在60000刀的时候，满意度为0（或者说是负数），这明显是错误的。

通过约束模型使其更简单，并降低过拟合的风险，这个过程成为正则化。

![gdp2](imgs/gdp2.png)

![gdp3](imgs/gdp3.png)

解决方式：

1. 简化模型，选择较少参数的模型
2. 收集更多训练数据
3. 减少数据中的噪声

### 1.5.6欠拟合训练数据

欠拟合和过拟合正好相反，通常是因为模型过于简单。

解决这个问题主要方式有：

1. 选择一个更强大的模型
2. 提供更好地特征集
3. 减少模型中的约束


### 1.5.7 退后一步

总结一下：

* 机器学习是处理某些特定任务的理论，它从数据中学习，而无需硬编码。
* 机器学习系统分为很多类型：有监督、无监督和无监督，批量（全量）和在线（增量），基于实例的和基于模型的，等等
* 处理"坏数据"和"坏算法"

## 1.6 测试和验证

了解一个模型对新场景的泛化能力的唯一办法就是让模型真实地去处理新场景。

我们会将数据集分割为两部分：训练集和测试集。顾名思义，用训练集来训练模型，然后用测试集来测试模型。通常是按80%训练集，20%测试集的比例来分割。（通常还会将训练集划分为训练集和验证集，使用验证集来进行评估模型的效果）

如果训练误差很低，测试集误差高，说明过拟合了。

如果训练集和测试集误差都很高，很可能是欠拟合了。

### 1.6.1 超参数调整和模型选择

在机器学习中，超参数是在开始学习之前设置的参数。比如正则化的强度、判断阈值等等。

当你在两个模型间犹豫不决时，可以对比它们对测试数据的泛化能力，来确定使用哪一个模型。

### 1.6.2 数据不匹配

训练和生产环境的数据不一致。例如你训练了一个识别花卉的模型，是从网上收集到数百万的图片进行训练。但是生产环境中，使用者是使用手机拍摄的照片，与训练的图片有很大差异。

这种情况下，可以将生产环境中使用的数据具有相同代表性的图片混洗后，一半放入验证集，一半放入测试集。训练完成后使用验证集性能很差时，此时无法判断是因为模型过拟合，还是因为数据不匹配导致的。

一种解决方案是从训练集中再分出一部分作为训练开发集（train-dev），即先在训练集中训练模型，之后分别在训练开发集和验证集中预测，如果在训练开发集中表现良好，说明没有过拟合；与此同时，在验证集中表现不好，说明确实是因为数据不匹配。（如果模型在训练开发集和验证集上都不佳，说明模型过拟合了）