# 1 引言

## 1.1 机器学习的组件：

**机器学习（machine learning，ML）** 是一类强大的可以从经验中学习的技术。通常采用观测数据或与环境交互的形式，机器学习算法会积累更多的经验，其性能也会逐步提高。

#### 数据：

**数据集（dataset）**：
- 大量 **样本（example，sample）/ 数据点（data point）/ 数据实例（data instance）** 的集合，大多遵循独立同分布。
- 通常每个样本由一组称为 **特征（features）/ 协变量（covariates）** 的属性组成。
- 当特征类型数量相同时，特征向量长度固定，称为数据的 **维数（dimensionality）** 。<font color="FF0000">与传统机器学习方法相比，深度学习的一个主要优势是可以处理不同长度的数据。</font>
- 机器学习模型根据特征进行预测的特殊属性称为 **标签（label）/ 目标（target）** 。
- 可用[数据集](#dataset)分为两部分：**训练数据集**和**测试数据集**。

**参数（parameter）**：
- 决定输出，调整程序的行为
- 使用数据集可以确定当下的最佳参数集，即可通过某种性能度量方式达到完成任务的最佳性能的参数

**模型（model）**：任一调整参数后的程序

**模型族**：通过操作参数而生成的所有不同程序（输入‐输出映射）的集合

**学习（learning）/训练（train）**：
1. 从一个随机初始化参数的模型开始，这个模型基本没有“智能”；
2. 获取一些数据样本（例如，音频片段以及对应的是或否标签）；
3. 调整参数，使模型在这些样本中表现得更好；
4. 重复第（2）步和第（3）步，直到模型在任务中的表现令人满意。

![image.png](attachment:image.png)



#### 目标函数：

定义 **目标函数（objective function）/ 损失函数（loss、cost）** 以度量模型的优劣程度，希望优化它到最低点（或最高点）。

常见的损失函数：
- 当任务在试图预测数值时，最常见的损失函数是 **平方误差（squared error）** ，即预测值与实际值之差的平方。
- 当试图解决分类问题时，最常见的目标函数是 **错误率** ，即预测与实际情况不符的样本比例。

<span id="dataset"></span>

可用数据集：
- **训练数据集（training dataset）** 由一些为训练而搜集的样本组成，又称为训练集（training set），用于拟合模型参数。
- **测试数据集（test dataset）** 又称为测试集（test set），用于评估拟合的模型。

当一个模型在训练集上表现良好，但不能推广到测试集时，这个模型被称为**过拟合（overfitting）** 。

#### 优化算法：

使用优化算法搜索出最佳参数以最小化损失函数。深度学习中，大多流行的优化算法通常基于**梯度下降（gradient）** ，通过检查每个参数获得减少损失的方向，并在该方向上优化参数。

## 1.2 常见的机器学习问题：

### 监督学习：

**监督学习（supervised learning）** 根据给定特征和相应标签的训练数据集进行学习，生成一个模型以能将任何输入特征映射到标签（即预测）。

监督学习的学习过程：
1. 选择带标签的训练数据集（可能需要人工打标）。
2. 选择有监督的学习算法，将训练数据集作为输入，并输出一个已完成学习的模型。
3. 通过新数据的样本预测新数据的标签。

![image.png](attachment:image.png)

- **回归（regression）**： 回归处理标签为连续数值/任意数值的问题，目标是生成一个模型，使它的预测非常接近实际标签值。

- **分类（classification）**：
分类处理标签为离散类别的问题，目标是生成一个模型，能够预测样本属于哪个类别（category）/类（class）。对给定的样本特征，模型会为每个可能的类分配一个概率。分类有二项分类（binomial classification）和多项分类（multiclass classification）。

- **标记（Labeling Problem）**：
为大量未标注数据生成标签。学习预测不相互排斥的类别的问题称为多标签分类（multi‐label classification）。

- **搜索 / 推荐系统（recommender system）**：对一组项目进行排序。

- **序列学习**：
输入和输出都是可变长度的连续序列，序列学习需要摄取输入序列或预测输出序列，或两者兼而有之。

### 无监督学习：

**无监督学习（unsupervised learning）** 从无标签的数据中自动发现隐藏的结构或规律。

- **聚类（clustering）**：无标签情况下的数据分类。
- **主成分分析（principal component analysis）**：找到少量的参数以准确地捕捉数据的线性相关属性。


## 1.3 强化学习：

在 **强化学习（reinforcement learning）** 中， **智能体（agent）** 在一系列的时间步骤上与环境交互。在每个特定时间点，智能体从环境接收一些 **观察（observation）** ，并且必须选择一个 **动作（action）** ，然后通过某种机制（有时称为执行器）将其传输回环境，最后智能体从环境中获得 **奖励（reward）** 。此后新一轮循环开始，智能体接收后续观察，并选择后续操作，依此类推。

强化学习的目标是产生一个好的 **策略（policy）**。强化学习智能体选择的“动作”受策略控制，即一个从环境观察映射到行动的功能。

![image.png](attachment:image.png)

当环境可被完全观察到时，强化学习问题被称为马尔可夫决策过程（markov decision process）。当状态不
依赖于之前的操作时，我们称该问题为上下文赌博机（contextual bandit problem）。当没有状态，只有一组最初未知回报的可用动作时，这个问题就是经典的多臂赌博机（multi‐armed bandit problem）。