## 1.1 定义机器学习

长久以来，我们的想象力一直被那些能够学习和模仿人类智慧的机器所吸引。尽管具有一般人工智能的机器 （比如阿瑟·克拉克笔下的 HAL 和艾萨克·阿西莫夫笔下的 Sonny）仍然没有实现，但是能够从经验中获取新知识和新技能的软件正在变得越来越普遍。我们使用这些机器学习程序去寻找自己可能喜欢的新音乐， 找到自己真正想在网上购买的鞋子。机器学习程序允许我们对智能手机下达命令，并允许用恒温控制器自动设置温度。机器学习程序可以比人类更好地破译书写凌乱的邮寄地址，并更加警觉地防止信用卡欺诈。从研发新药到估计一个头条新闻的页面访问量，机器学习软件正在成为许多行业的核心部分。机器学习甚至已经侵占了许多长久以来一直被认为只有人类能涉及的领域，例如撰写一篇关于杜克大学篮球队输给了北卡大学篮球队的体育专栏报道。

机器学习是对软件工件的设计和学习，它使用过去的经验去指导未来的决策。机器学习是对从数据中学习的软件的研究。机器学习的基础目标是归纳，或者从一种未知规则的应用例子中归纳出未知规则。机器学习的典型例子是垃圾邮件过滤。通过观察已经被标记为垃圾邮件或非垃圾邮件的电子邮件，垃圾邮件过滤器可以分类新消息。研究人工智能的先锋科学家亚瑟·萨缪尔曾说过机器学习是“给予计算机学习的能力而无须显式地编程的研究”。在20世纪50 年代到20世纪60 年代之间，萨缪尔开发了多个下棋程序。虽然下棋的规则很简单，但是要战胜技艺高超的对手需要复杂的策略。萨缪尔从来没有显式地编程过这些策略，而是通过几千次比赛的经验，程序学习了复杂的行为以此打败了许多人类对手。

计算机科学家汤姆·米切尔对机器学习给出了一个更加正式的定义：“如果一个程序的性能在‘T’中体现，通过‘P’来衡量，并通过经验‘E’来提升，那么该程序可以被视为针对一些任务类型‘T’和性能衡量‘P’从经验‘E’中进行学习”。例如，假设你有一个图片集合，每一张图片描绘了一只狗或一只猫。任务是将图片分为狗图片类和猫图片类，而程序可以通过观察已经被分类好的图片来学习执行这个任务，同时它可以通过计算分类图片的正确比例来提升性能。

我们将使用米切尔关于机器学习的定义来组织本章内容。首先，我们将讨论经验的类型，包括监督学习和无监督学习。接着，我们将讨论可以用机器学习系统解决的常见任务。最后，我们将讨论能够用于衡量机器学习系统性能的标准。

## 1.2 从经验中学习

机器学习系统经常被描述为在人类监督或无监督之下从经验中学习。在`监督学习`问题中，一个程序会通过标记的输入和输出进行学习，并从一个输入预测一个输出。也就是说，程序从“正确答案”的例子中学习。在`无监督学习`中，一个程序不会从标记数据中学习。相反，它尝试在数据中发现模式。例如，假设你已经收集了描述人身高体重的数据。一个无监督学习的例子是将数据划分到不同的组中。一个程序可能会产出对应到男性和女性，或者儿童和成人的组。现在假设数据也标记了性别。一个监督学习的例子是归纳出一个规则，基于一个人的身高和体重来预测一个人是男性还是女性。我们将在后面的章节中讨论监督学习和无监督学习的算法和例子。

监督学习和无监督学习可以被认为是一个范围的两端。一些类型的问题，被称为`半监督学习`问题，这些问题同时使用监督学习的数据和无监督学习的数据，位于监督学习和无监督学习之间。 `强化学习`靠近监督学习一端。和无监督学习不同，强化学习程序不会从标记的输出对中进行学习。相反，它从决策中接收反馈，但是错误并不会显式地被更正。例如，一个学习去玩像超级玛丽兄弟这样的横向卷轴游戏的强化学习程序，当完成一个关卡或者达到一个特定分数时，可能会接收到一个奖励，而当失去一次生命时会受到惩罚。然而，这样的监督反馈并不会附带一个特定的决策去指挥角色跑动，躲开栗子怪，或者捡起一朵火焰花。我们将主要关注监督学习和无监督学习，因为这两个类别包含了最常见的机器学习问题。在下一节中，我们将更细致地审阅监督学习和无监督学习。

一个监督学习程序从标记输出的例子中进行学习，这些输出例子应该由对应的输入产出。一个机器学习程序的输出有很多名字，在机器学习中汇集了一些学科，许多学科都会使用自己的术语。在本书中，我们将把输出称为`响应变量`。响应变量的其他名字包括“依赖变量”“回归变量”“标准变量”“测定变量”“应答变量”“被解释变量”“输出变量”“实验变量”“标签”和“输出变量”。类似的，`输入变量`也有很多名字。在本书中，我们将输入变量称为`特征`，它们代表的现象称为`解释变量`。解释变量的其他名字包括“预测器”“回归器”“控制变量”和“暴露变量”。响应变量和解释变量可以是实数值或离散值。

组成监督学习经验的实例集合称为一个`训练集`。一个用于衡量程序性能的实例集合称为一个`测试集`。响应变量可以被看作是由解释变量引发问题的回答，监督学习问题会从一个针对不同问题回答的集合中进行学习。也就是说，监督学习程序会被提供正确的答案，而它需要学习去正确地回答没见过的类似问题。

## 1.3 机器学习任务

两种最常见的监督机器学习任务是`分类`和`回归`。在分类任务中，程序必须学习去从一个或多个特征去预测一个或多个响应变量的`离散值`。也就是说，程序必须为新观测值预测最可能的分类、类别或者标签。分类的应用包括预测一只股票的价格会上涨或下跌，或者决定一篇新闻文章属于政治主题板块还是休闲娱乐板块。在回归问题中，程序必须从一个或多个特征预测一个或多个`连续响应变量`值。回归问题的例子包括预测一个新产品的销售收入，或者基于一个职位的描述预测其薪水。和分类问题一样，回归问题也需要监督学习。

一个常见的无监督学习任务是在数据集内发现互相关联的观测值群组，称之为`聚类`。该项任务称为聚类或者聚类分析，会基于一些相似性衡量标准，把观测值放入和其他群组相比相互之间更加类似的群组中。聚类经常用于探索一个数据集。例如，对于一个电影评论集合，一个聚类算法可找出正向评价和负向评价。系统不会将聚合的类标记为正向或者负向。由于缺乏监督，系统只能通过一些衡量标准来判断聚合的观测值相互之间很类似。聚类的一个常见应用是在**市场中为一个产品发现客户群体**。通过了解特定客户群体的共同属性，销售人员可以决定应该注重销售活动的哪个方面。聚类也应用于网络广播服务中。对于一个歌曲集合，聚类算法可以根据歌曲的特征将歌曲划分为不同的分组。通过使用不同的相似性衡量标准，同样的聚类算法可以通过歌曲的音调，或者通过歌曲中包含的乐器来为歌曲划分不同的组。

`降维`是另一种常见的使用无监督学习完成的任务。一些问题可能包含数千或者上百万个特征，这会导致计算能力的极大消耗。另外，如果一些特征涉及噪声或者和潜在的关系无关，程序的泛化能力将会减弱。降维是发现对响应变量变化影响最大的特征的过程。降维还可以用于数据可视化。通过房屋面积预测房屋价格这样的回归问题的可视化很简单，房屋的面积可以作为图的x轴，价格可以作为y轴。当为房屋价格回归问题添加第二个特征以后，可视化依然很简单，房屋的浴室数量可以作为z轴。然而，对一个包含上千个特征的问题，可视化几乎不可能完成。

## 1.4 训练数据、测试数据和验证数据

正如前面提到的，一个训练集是一个观测值集合。这些观测值组成了算法用来学习的经验。在监督学习问题中，每一个观测值包含一个观测响应变量和一个或多个观测解释变量特征。`测试集`是一个类似的观测值集合。测试集被用于使用一些衡量标准来评估模型性能。不把训练集中的观测值包含在测试集中是非常重要的。如果测试集中包含来自训练集中的例子，我们很难评估算法是真的从训练集中学习到了泛化能力，还是只是简单地记住了训练例子。一个能够很好地泛化的程序可以有效地执行一个包含新数据的任务。相反，一个通过学习过于复杂的模型记住了训练数据的程序可以准确地预测训练集中的响应变量，但是无法预测新例子中的响应变量值。对训练集产生记忆称为`过拟合`。一个对观测值产生记忆的程序会记住训练数据中保持一致的关系和结构，因此并不能很好地完成任务。平衡泛化能力和记忆能力对很多机器学习算法来说是一个常见问题。在后面的章节中我们将讨论`正则化`，它可以应用于很多模型来减少过拟合。

除了训练数据和测试数据，我们经常需要第三个观测值集合，称为`验证集`或者`保留集`。验证集常用来微调被称为超参数的变量，超参数用于控制算法如何从训练数据中学习。在现实世界中程序依然会在测试集上评估，以提供对其性能的估计。由于程序已经被微调过，可以以某种方式从训练数据中学习以提高在验证数据上的得分，因此验证集不应该用来估计现实世界的性能。在现实世界中程序并不会具备在验证数据上的优势。

通常一个监督观测值集合会被划分为训练集、验证集和测试集。划分的每个部分的数量并不会作要求，根据可用数据的数量划分的比例将会有所不同。通常来说，训练集占50%～75%，测试集占 10%～25%，剩下的则是验证集。

一些训练集可能只包含几百个观测值，其他有的则可能包含数百万个。廉价的存储设备，增强的网络连通性，以及带有传感器智能手机的普及，造就了现代大数据“帝国”，或者说包含数以百万甚至数以十亿计的实例训练集。虽然本书不会处理需要在几十台乃至数百台计算机上并行处理的数据集，许多机器学习算法预测能力的提升依赖于训练数据数量的增加。然而，机器学习算法同时遵循格言“无用数据入、无用数据出”。假如一个学生通过阅读一本错误百出、令人困惑的大部头教材来准备考试，他的考试成绩并不会比阅读篇幅短小但内容质量较高的教材的学生的成绩好。类似地，在现实世界中，一个算法如果在一个包含噪声、不相关或者错误标签数据的集上进行训练，其表现并不会比一个在包含更能代表问题的小数据集上训练的模型表现好。

许多监督训练数据集需要通过手动或者半自动处理来准备。在一些领域，创建一个大型监督数据集代价不菲。幸运的是， scikit-learn 类库包含了一些数据集，这让开发者可以专注于模型实验。在开发过程中，尤其是当训练数据很缺乏时，一种称为`交叉验证`的实战技巧可用于在同样的数据上训练和验证一个模型。在交叉验证过程中，训练数据被分割为几部分。模型在除了一个部分以外的数据上进行训练，并在剩余的部分上测试。划分被转换几次以便模型可以在全部数据上训练和评估。在现实世界中，每个划分上的模型性能估计得分均值会优于单一的训练/测试划分。图 1.1 描绘了5-部分，或5-重交叉验证：

![image.png](attachment:image.png)

原始数据集被划分为5个数量相等的子集，标记A～E。最开始模型在划分B～E上训练，在划分A上测试。在下一次迭代中，模型在划分A、C、D 和E上进行训练，在划分B上测试。接着划分被转换直到模型已经在所有的划分上进行训练和测试。相比在单一模型划分上进行测试，交叉验证能为模型提供更准确的性能预估。

## 1.5 偏差和方差

许多标准被用来衡量一个模型是否能有效地通过学习去完成任务。对于监督学习问题，许多性能标准能衡量预测误差的量。预测误差有两个根本原因：模型的`偏差`和模型的`方差`。假设你有许多独一无二但是都代表了总体的训练集。一个具有高偏差的模型，无论是在哪个训练集上学习，对于一个输入都将产出类似的误差。**模型偏差代表我们对真实关系的假设和在训练数据中证明的关系之间的差别。**相反，**一个具有高方差的模型，对一个输入产出的不同误差依赖于模型学习的训练集。**一个具有高偏差的模型是不灵活的，但是一个具有高方差的模型可能会很灵活以至于模型可能会对训练集中的噪声进行建模。也就是说，一个具有高方差的模型过拟合训练数据，而一个具有高偏差的模型则欠拟合训练数据。将偏差和方差可视化为射向标靶的飞镖对理解其含义很有帮助。如图 1.2 所示，每一个飞镖相当于一个预测，它通过一个模型每次在不同的数据集上进行训练来射向标靶。一个具有高偏差低方差的模型射出的飞镖将紧密聚集在一起，但是却可能远离靶心。一个具有高偏差高方差的模型射出的飞镖将布满整个标靶，飞镖远离靶心且相互之间距离很大。一个具有低偏差高方差的模型射出的飞镖不会聚集但是却都很靠近靶心。最后，一个具有低偏差低方差的模型射出的飞镖将聚集在靶心周围。

![image.png](attachment:image.png)

理想情况下，一个模型应该具有低方差和低偏差，但是减小其中一个经常会增大另一个，这个现象被称为`偏差方差权衡`。在本书中，我们将讨论模型的偏差和方差。


无监督学习问题没有一个误差指标能用于衡量，相反，无监督学习问题的性能指标可以衡量在数据中发现结构的一些属性，例如聚类内部和聚类之间的距离。

大部分性能衡量只能对一种特定类型任务（例如分类和回归）计算。在现实世界中，机器学习系统应该使用能够代表产生错误的代价的性能指标来评估。尽管这条规则看起来似乎很明显，但是下面的例子使用一个性能衡量指标来描述该规则，这条规则适用于一般的任务，而不是只适用于该任务。

考虑一个分类任务，一个机器学习系统观察肿瘤并对肿瘤是恶性还是良性做出预测。准确率或者预测正确的实例的比例，是一种衡量程序性能的直观标准。尽管准确率确实能够用来衡量程序性能，但是它无法区分出恶性被分类为良性，还是良性被分类为恶性。在一些应用中，与所有误差类型相关联的代价可能是相同的。然而在这个问题中，没有能分辨出一个恶性肿瘤是一种比错误地将良性肿瘤识别为恶性更严重的错误。

我们可以衡量每种可能的预测输出结果来创建不同的分类器性能视图。当系统正确地将一个肿瘤分类为恶性时，预测结果称为真阳性。当系统错误地将一个良性肿瘤分类为恶性时，预测结果称为假阳性。类似地，一个假阴性代表错误地预测肿瘤为良性，一个真阴性代表正确地预测肿瘤是良性。注意到阴性和阳性仅仅作为二元标签来使用，同时也不会去评判它们所代表的现象。在这个例子中，恶性肿瘤被编码为阴性或阳性都不重要，只要它在过程中保持一致。真和假、阳和阴可以用来计算一些常见的分类性能衡量标准，包括准确率、 精准率和召回率。

`准确率`使用公式1.1 来计算，在公式中TP是真阳性的数量，TN是真阴性的数量，FP是假阳性的数量，FN是假阴性的数量：
$$ACC = \frac{TP+TN}{TP+TN+FP+FN}$$

`精准率`是被预测为恶性的肿瘤确实为恶性的比例。精准率可以使用公式 1.2 来计算：
$$P = \frac{TP}{TP+FP}$$

`召回率`是系统识别出恶性肿瘤的比例。召回率通过公式 1.3 来计算：
$$R = \frac{TP}{TP+FN}$$

* 另外补充一下F1值：
$$F1 = \frac{2 \times P \times R}{P + R}$$

在这个例子中，精准率用来衡量被预测为恶性的肿瘤实际上也是恶性的比例。召回率用来衡量真正的恶性肿瘤被发现的比例。

精准率和召回率的衡量方式可以说明，一个高准确率的分类器实际上并不能探测到大部分恶性肿瘤。如果测试集中的大部分肿瘤都是良性的，即使是从未探测出恶性肿瘤的分类器也会拥有高准确率。而另一个低准确率高召回率的分类器可能会更适合这个任务，因为它能探测出更多的恶性肿瘤。

许多用于分类器的性能衡量指标可以被使用。我们将在后面的章节中讨论更多的指标，包括对于多标签分类问题的指标。在下一章中，我们将讨论一些对于回归任务的常用性能衡量方式。本书内容也会涉及无监督任务的性能，我们将在本书后续的聚类分析中讨论无监督任务的性能衡量。

## 1.7 安装 scikit-learn
本书基于 scikit-learn 类库的 0.18.1 版本编写，使用这个版本可以保证本书中的例子正确地运行。如果你之前已经安装过 scikit-learn，可以通过在一个记事本或者 Python 解释器中执行代码 1.1 来获取版本号：

In [None]:
import sklearn
sklearn.__version__

: 

如果之前没有安装过 scikit-learn，你可以从一个包管理器安装，或者从源码构建。我们将在后面的内容中回顾针对 Ubuntu 16.04 系统、 Mac OS 系统和 Windows 10 系统的安装过程，最新的安装指令可以参考 http://scikit-learn.org/stable/insatall.html。以下的指令只假 定 你 已 经 安 装 了 Python 版 本 2.6 或 者 3.3 。 关 于 安 装 Python 的 指 导 请 参 考http://www.python.org/download/。

### 1.7.1 使用 pip 安装
scikit-learn 最简单的安装方式是使用 pip，即 PyPA 推荐的用于安装 Python 包的工具。使用下面指令来使用 pip 安装 scikit-learn：

`$ pip install -U scikit-learn`

如果 pip 在你的系统中不可用，后面的几节内容会涉及不同平台的安装指导。

### 1.7.2 在 Windows 系统下安装

scikit-learn 类库需要 setuptools，一个支持对 Python 打包和安装软件的第三方包。setuptools 可以通过执行启动脚本 https://bootstrap.pypa.io/ez_setup.py 在 Windows 系统下安装。

Windows 系统下也有可用的 32-bit 和 64-bit 版本的二进制文档。如果你不能决定自己应该使用哪个版本， 那就安装 32-bit 版本。两个版本都依赖 Numpy 1.3 或更新的版本。32-bit版本的 Numpy 可以从 http://sourceforge.net/projects/numpy/files/Numpy/下载。 64-bit 版本可以从 http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn 下载。

32-bit 版本 scikit-learn 的 Windows 安装器可以从 http://sourceforge.net/project/scikitlearn/files/scikit-learn0.17.win32-py2.7.exe/download 下载。64-bit 版本 scikit-learn 的 Windows安装器可以从 http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn 下载。

### 1.7.3 在 Ubuntu 16.04 系统下安装
在 Ubuntu 16.04 系统中可以使用 apt 安装 scikit-learn：`$ sudo apt install python-scikits-learn`

### 1.7.4 在 Mac OS 系统下安装
在 OS X 系统中可以使用 Macports 安装 scikit-learn：
`$ sudo port install py27-sklearn`

### 1.7.5 安装 Anaconda
Anaconda 是一个免费的包含超过 720 个 Python 开源数据科学包的集合，其中包含 scikitlearn、 Numpy、 Scipy、 pandas 和 matplotlib。 Anaconda 覆盖全平台且易于安装。请参考https://docs.continuum.io/anaconda/install/来查看你的操作系统下的安装指令。

### 1.7.6 验证安装

为了验证你的 scikit-learn 类库已经正确地安装，打开一个 Python 控制台，输入上面的代码，能够成功显示版本号即可。

为了运行 scikit-learn 类库单元测试，首先需要安装 nose Python 包。然后在一个终端模拟器中执行下面的命令：`$ nosetest sklearn -exe`

恭喜你！你已经成功安装了 scikit-learn。

## 1.8 安装 pandas、Pillow、NLTK 和 matplotlib

pandas 是一个提供数据结构和分析工具的开源 Python 类库。pandas 是一个强大的类库，
关于如何使用 pandas 进行数据分析的书籍并不少。我们将使用 pandas 中一些方便的工具来导入数据和计算概括统计量。 Pillow 是 Python 类库 Imaging 的一个分支，它提供了许多图像处理特性。 NLTK 是一个处理人类语言的类库。和 scikit-learn 一样，使用 pip 是推荐用来安装 pandas、 Pillow、和 NLTK 类库的方法。在一个终端模拟器中执行以下命令：
```sh
$ pip install pandas pillow nltk matplotlib
```
matplotlib 是一个能轻松创建绘图、柱状图和其他图表的 Python 类库。我们将使用它
来可视化训练数据和模型。matplotlib有一些依赖项。和 pandas一样，matplotlib依赖于 Numpy。在 Ubuntu 16.04 系统下， matplotlib 和其依赖项可以使用以下命令安装：`$ sudo apt install python-matplotlib`

用于 Mac OS 系统和 Windows 10 系统下的二进制软件包可以从 https://matplotlib.org/downloads.html 下载。

## 1.9 小结

在本章中，我们将机器学习定义为设计能在一个任务中从经验中学习并提高性能的软件的过程。我们讨论了进行监督的范围。其中一端是监督学习，监督学习程序从标记的输入和对应的输出中学习。而无监督学习则位于另一端，无监督学习软件必须从非标记输入中发现结构。半监督学习会同时使用标记和非标记训练数据。

接着，我们讨论机器学习任务的常见类型，并审阅了每种类型的几个例子。在分类任务中，程序从观测到的解释变量预测离散的响应变量值。在回归任务中，程序必须从解释变量预测连续响应变量值。无监督学习包括聚类（观测值会根据一些相似性衡量标准被组织到不同群组中）和降维（将一个解释变量集合减少到一个合成特征的小型集合，同时尽可能保持信息）。我们还审阅了偏差方差权衡，并讨论了对于不同机器学习任务的常见性能衡量方法。

在本章内容中，我们讨论了 scikit-learn 类库的历史、目标和优势。最后，我们通过安装scikit-learn 类库以及其他经常一起联合使用的类库来准备开发环境。在下一章中，我们将论一个用于回归任务的简单模型，并使用 scikit-learn 类库构建自己的第一个机器学习模。