## 1   机器学习简介

## 什么是机器学习？

 机器学习是自动从数据中提取知识的过程，通常是为了预测新的、未知类别的数据。一个典型的例子是垃圾邮件过滤器，用户对垃圾邮件进行标记，然后机器学习算法从区分正常邮件与垃圾邮件的数据中“学习”预测模型，该模型可以预测新电子邮件是否是垃圾邮件。

机器学习的核心是自动化数据决策的概念，而不需要用户指定明确的规则如何做出这个决策。

对于电子邮件的情况，用户不提供使电子邮件成为垃圾邮件的单词或特征的列表。相反，用户只提供被标记为垃圾邮件和非垃圾邮件的样本。

第二个中心概念是泛化。机器学习模型的目标是预测新的，未知类别的数据。在真实世界的应用程序中，我们对已经标记为垃圾邮件的邮件不感兴趣。相反，我们希望通过自动分类新的邮件来让用户的生活更加轻松。

<img src="figures/supervised_workflow.svg" width="100%">

数据通常作为数字的二维数组（或矩阵）呈现给算法。 我们要从中学习或做出决定的每个数据点（也称为* sample *（样本）或* training instance *（训练集））被表示为一个数字列表，即所谓的特征向量，其包含的特征表示这一点的属性。

稍后，我们将用一个名为* Iris鸢尾花 *的流行数据集进行实验，还有许多其他数据集。 Iris是机器学习领域的经典基准数据集，包含来自3种不同物种的花：Iris-Setosa清风藤，Iris-Versicolor云芝和Iris-Virginica锦葵。

Iris Setosa清风藤
<img src="figures/iris_setosa.jpg" width="50%">

Iris Versicolor云芝
<img src="figures/iris_versicolor.jpg" width="50%">

Iris Virginica锦葵
<img src="figures/iris_virginica.jpg" width="50%">


我们在数据数组中将每个花样本表示为一行，而列（特征）表示以厘米为单位的花朵测量值。

例如，我们可以表示这个Iris数据集，包括150个样本和4个特征，一个二维数组或矩阵$\mathbb{R}^{150 \times 4}$格式如下:


$$\mathbf{X} = \begin{bmatrix}
    x_{1}^{(1)} & x_{2}^{(1)} & x_{3}^{(1)} & \dots  & x_{4}^{(1)} \\
    x_{1}^{(2)} & x_{2}^{(2)} & x_{3}^{(2)} & \dots  & x_{4}^{(2)} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{1}^{(150)} & x_{2}^{(150)} & x_{3}^{(150)} & \dots  & x_{4}^{(150)}
\end{bmatrix}.
$$
（上标表示第* i *行，下标表示第* j *个特征）

### 今天我们将讨论两种机器学习方法：监督学习和无监督学习

### 监督学习：分类和回归
在**监督式学习**中，我们有一个包含输入特征和所需输出的数据集，例如垃圾邮件/无垃圾邮件示例。
其任务是构建一个模型（或程序），能够从给定的特征集预测一个看不见的对象的期望输出。

一些更复杂的例子是：
- 通过望远镜给出一个物体的彩色图像，确定这个物体是星星，类星体还是星系。
- 给出一张人的照片，确定照片中的人。
- 给出一个人观看的电影列表和他们的个人评级推荐他们想要的电影列表。
- 给定一个人的年龄，教育和职位，推断他们的薪水

这些任务的共同之处在于有一个或多个与物体相关的未知量，需要从其他观测量来确定。

监督学习进一步分为两类，**分类**和**回归**：

- **在分类中，标签是离散的**，如“垃圾邮件”或“无垃圾邮件”。 换句话说，它提供了一个明确的类别之间的区别。 此外，重要的是要注意，类标签是名义变量，而不是有序变量。 名义变量和有序变量都是分类变量的子类别。 顺序变量意味着一个订单，例如，T恤大小“XL> L> M> S”。 相反，名义变量并不意味着一个订单，例如，我们（通常）不能假设“橙色>蓝色>绿色”。


- **在回归中，标签是连续的**，即浮点输出。 例如，在天文学中，确定物体是星星，星系还是类星体的任务是一个分类问题：标签来自三个不同的类别。 另一方面，我们可能希望基于这样的观察来估计对象的年龄：这将是一个回归问题，因为标签（年龄）是一个连续的数量。

在监督式学习中，对于给定期望结果的**训练集**和需要推断出期望结果的**测试集**总是有区别的。 学习模型符合预测模型的训练集，我们使用测试集来评估其泛化性能。

### 无监督学习

在**无监督学习**中没有与数据相关的所需输出。 相反，我们要从给定的数据中提取某种形式的知识或模型。 从某种意义上说，可以将无监督学习看作是从数据本身发现标签的手段。 无监督学习往往难以理解和评估。

无监督学习包括*降维*，*聚类*和*密度估计*等任务。 例如，在上面讨论的Iris数据中，我们可以使用无监督的方法来确定最能显示数据结构的测量组合。 正如我们将在下面看到的那样，可以使用这样的数据投影来以二维可视化四维数据集。 更多涉及无监督的学习问题是：

- 给定遥远星系的详细观测资料，确定哪些特征或特征组合能够最好地总结这些信息。
- 给定两个声源的混合（例如，一个人在谈论某些音乐），将其分开（这被称为[盲源分离问题]（http://en.wikipedia.org/wiki/Blind_signal_separation ）
- 给定一个视频，隔离一个移动的对象，并将其与已经看到的其他移动对象进行分类。
- 给定大量的新闻文章，在这些文章中找到重复的主题。
- 给定图像集合，将相似的图像聚集在一起（例如，在可视化集合时对其进行分组）

有时这两者甚至可以合并：例如 无监督学习可以用来在异构数据中找到有用的特征，然后这些特征可以在监督框架内使用。