# 机器学习之绪论

#### 【简介】

机器学习是从数据中提取知识。它是统计学，人工智能和计算机科学交叉的研究领域，也被称为统计学习。近年来，机器学习方法已经应用到日常生活的方方面面。如：识别信封上手写的邮政编码，基于医学影像判断肿瘤是否为良性，检测信用卡交易中的诈骗行为，检测网站的异常访问模式等等。

#### 【目录】

1. [什么是机器学习](#1.-什么是机器学习)
2. [机器学习的常见术语](#2.-机器学习的常见术语)
3. [机器学习的主要任务](#3.-机器学习的主要任务)

## 1. 什么是机器学习

### 什么是机器学习

相信大家一定都非常喜欢吃西瓜，有经验的同学都知道如果一个西瓜色泽青绿、根蒂蜷缩、敲声浊响，那么就能判断这是一个正熟的好瓜。那么，为什么通过色泽、根蒂、敲声，这几个特征就能帮我们做出相当好的判断呢？因为我们吃过，看过很多好瓜，累积了这方面很多的经验，而通过对经验的利用，就能对新的情况做出有效的决策。

上面对经验的利用是靠我们人类自身来完成的，计算机能帮忙吗？

**机器学习**正是这么一门学科，它致力于研究如何**通过计算的手段**，**利用经验来改善系统自身的性能**。在计算机系统中，“经验”通常以“数据”的形式存在，因此，**机器学习**所**研究**的**主要内容**，是关于在计算机上从**数据中产生的“模型”的算法**，即“**学习算法**”。有了学习算法，我们就把经验数据提供给它，它就能**基于**这些**数据产生模型**，在面对新的情况时，模型会给我们提供相应的判断。

![image.png](attachment:1f5517dc-42a4-4abd-a048-dcb583b51ba1.png)

## 2. 机器学习的常见术语

### 常见术语

我们已经知道了，**机器学习**是利用数据，从数据中**归纳**出规律，并用来对新事物进行**预测**，即**归纳和演绎**。所以，机器学习首先要有数据，假设我们收集了一份关于西瓜的数据。

![image.png](attachment:2c5247fa-01a7-439b-88c7-a0a17840f6fb.png)

- 我们把数据中的每一**行**称为一个**示（实）例**或**样本**
- 反映事件或对象在某方面的表现或性质的事项，如：色泽、根蒂、敲声，称为**属性**或**特征**
- 属性上的取值，例如：青绿、乌黑。称为**属性值**或**特征值**；
- 我们把一个示例（样本）称为一个**特征向量**。

一般地，令$D = \lbrace x_1, x_2, \ldots, x_m \rbrace$ 表示包含$m$个示例的**数据集**，每个示例由$d$个属性描述（例如上面的西瓜数据使用了三个属性），则每个示例：

$$
x_i = (x_{i1};x_{i2};\ldots;x_{id})
$$

是$d$维样本空间$X$中的一个向量，$x_i \in X$，其中x_{ij}是$x_i$在第$j$个属性上的取值。$d$称为样本$x_i$的维数。

从**数据**中学得**模型**的过程称为“**学习**”或“**训练**”或“**拟合**”，这个过程通过执行某个**学习算法**来完成。**训练过程**中使用的**数据**称为“**训练数据**”，其中每个样本称为一个“**训练样本**”，训练样本组成的集合称为“**训练集**”，**学习过程**就是为了**找出**或**逼近**数据中蕴含的“**真相**”或“**规律**”。

### 假设空间

**假设空间**在已知属性和属性可能取值的情况下，对所有可能满足目标的情况的一种毫无遗漏的假设集合。

接下来举个例子来说明什么是假设空间。在选择配偶时我们可能有以下几个指标：

- 体型 : 肥胖，匀称，过瘦
- 财富 : 富有，一般，贫穷
- 性子 : 急，不急不慢，慢

现在我们要构建一个合适的假设空间来构建一个择偶观：

对于体型来说有肥胖、均匀和过瘦3种，也有可能价值观里认为这个无关紧要，所以有4种可能。

对于财富来说有富有、一般以及贫穷3种可能，也有可能价值观里认为这个无关紧要，所以有4种可能。

对于性子来说有急、不急不慢以及慢3种可能，也有可能价值观里认为这个无关紧要，所以有4种可能。

最后再加上一个极端的情况，也就是体型、财富以及性子这3个评判准则选出来的都不是想要的配偶。

所以假设空间的规模大小为4*4*4+1=65。

### 归纳偏好

**归纳偏好**是机器学习算法在学习过程中对某种类型假设的偏好。说白了就是“什么样的模型更好”这一问题。

以韦小宝的7个老婆为例，这7个老婆均满足小宝的要求，因此构成了大小为7的假设空间。(实际上，假设空间的大小一般是无穷大的。为了说明问题，我们暂时以7为大小)。那么，如何衡量哪一个假设空间中哪一个假设函数（老婆）最好呢？如果以温柔体贴为偏好来选，当然是小双；如果以小宝的迷恋为偏好来讲，假设函数就是阿珂。说白了，**归纳偏好**就是一个用于**挑选假设函数**的**基准**。

因此**归纳偏好**可看作学习算法自身在一个可能很庞大的假设空间中**对假设进行选择**的**启发式**或“**价值观**”。

而在具体的现实问题中，学习算法本身所做的假设是否成立，也即算法的**归纳偏好是否与问题本身匹配**，大多数时候直接**决定**了算法能否取得好的**性能**。

## 3. 机器学习的主要任务

### 主要任务

**分类**是机器学习的一项主要任务，主要是将实例数据划分到合适的分类中。

机器学习的另外一项任务是**回归**，主要是预测数值型的数据，比如通过数据值拟合曲线等。

分类和回归属于**监督学习**，这类算法必须**知道**预测什么，即**目标变量的分类**信息。与监督学习相对应的是**无监督学习**，此时数据**没有类别**信息，也不会给定目标值。在无监督学习中，将数据集合**分**成由**类似**的对象组成的**多个类**的过程称为“**聚类**”。

#### 分类

![image.png](attachment:60d9ed92-a676-4fd3-9fc0-04b05388f57a.png)

这是一系列关于西瓜的数据，这里的每个实体，或者**每一行**被称为一个**样本**或**数据点**，而**每一列**（用来描述这些实体的属性）则被称为**特征**。假如说，我们现在想通过色泽、根蒂、敲声这几个特征来**区分**一个西瓜**是**好瓜与**不是**好瓜，这就是一个**分类**问题。分类问题的**目标**是**预测类别标签**。在这个例子中，“是”与“否”则是预测类别的两个不同的标签。分类问题有时可分为**二分类**和**多分类**，西瓜的例子则是一个二分类问题，多分类指的是数据不止两个类别，它有多个类别。

#### 回归

**回归**任务的**目标**是**预测**一个**连续值**，编程术语叫作浮点数。假如说我们现在手里得到的是如下数据：

![image.png](attachment:fad1433a-9a11-4848-89db-74897ce6076b.png)

我们要通过色泽、根蒂、敲声来预测西瓜的价格，这就是一个回归问题。**区分分类任务和回归任务**有一个简单方法，就是看**输出**是否具有某种**连续性**。如果在可能的结果之间具有连续性，那么它就是一个回归问题，比如说价格。

#### 聚类

**聚类**属于**无监督学习**，它是指我们的数据**只有输入**，**没有输出**，并需要从这些数据中**提取知识**。**聚类算法**将数据**划分**成不同的**组**，每组包含**相似**的样本。比如说：

![image.png](attachment:c7f6e4ab-e27b-4a70-aec9-662fefa66c5d.png)

我们现在手里的数据只有色泽、根蒂、敲声这几个特征，我们通过这三个特征，把性状相似的西瓜分到一个组，这就是一个聚类问题。**聚类**问题与**分类**问题的**本质区别**就是**有没有标签**。