# 机器学习

## 应用场景

* 语音识别技术、自然语言处理（Siri，小娜，小度，小艾同学）
* 人脸识别（张学友演唱会上逃犯落网）
* 汽车无人驾驶技术（百度Apollo）
* 专家系统（AlphaGo）
* 推荐系统 (电商)
* 搜索引擎 (利用历史点击数据把用户经常点击的结果排在前面)
* 各种预测系统 (天气预测，足球预测)
* ……

机器学习已经应用在各行各业中，这就是它现在这么火的原因。

## 人工智能与机器学习
* 人工智能（Artificial Intelligence,AI）是计算机科学的一个分支，目的是让计算机能够像人一样，对外界的环境做出反应。
* 机器学习（Machine Learning,ML），正是实现人工智能的一种方式。
* 深度学习（Deep Learning,DL）,是一种机器学习技术，基于神经网络，适用于处理音频、视频、语言理解等方面。  
<img src="imgs/03.png" width="250">

## 基本概念

> **Machine Learning：**A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

![](imgs/logo.png)
> 对于某给定的任务 T 及合理的性能度量 P ，某计算机程序在 T 上以 P 衡量的性能随着经验 E 自我完善，那么我们称这个计算机程序在从经验 E 学习。

简单的讲，机器学习就是让计算机程序利用已知数据，发现数学模型，然后再使用模型对未知数据进行预测的一门学科。

## 模型训练

什么是`模型`？

我们可以将模型理解为一个`函数`（比如：$f(x)=kx+b$）。

输入模型的数据，我们称为`训练数据`。

由训练数据来确定函数的参数的过程就叫`训练模型`（其实就是解方程）。

通过不断的训练，我们最终会得到一个合适的模型，从而可以对未知的数据进行预测。而这个过程，是与我们人类学习的过程是相似的。只不过人的认知与判断是通过经验得到的，而机器的认知与判断是通过数据得到的。

<img src="imgs/hl&ml.png" width="600">

其中，用于训练模型的每条数据，我们称为一个`样本`，而样本中的每个属性，我们称为`特征`。每个样本的目标输出值，我们称为`标签`（监督学习）。我们习惯使用 $x$ 来表示特征，习惯使用 $y$ 来表示标签。

其实，我们在初中就会训练模型了： 
> 已知直线经过点A(3,7)、B(9,19)与C点的横坐标x=20, 求C点的纵坐标y？

|特征|标签|
|--|--|
|3|7|
|9|19|
|20|?|

> 解：设 $y=kx+b$，则有
$\left\{\begin{matrix}3k+b=7 &\\9k+b=19 & \end{matrix}\right. \Rightarrow  \left\{\begin{matrix}k=2 &\\b=1 & \end{matrix}\right. \Rightarrow y=2\times20+1=41$

以上的例子其实已经包括了机器学习2个重要步骤:<br>
1）训练<br>
2）预测<br><br> 
正如大家所感受到的, 机器学习就是一个**类似解方程的过程**。<br>
然而，现实中的数据不可能像上例中那么简单，模型也不可能总是通过肉眼就能观察出来的，这就需要我们通过机器学习算法来进行建模了。

## 机器学习分类

* 监督学习（supervised leaning）：学习样本中有标签，好比有老师告诉你正确答案
    + 分类（classification）
        - 输出为有限的离散型变量，比如预测明天的天气类型：晴天
    + 回归（regression）
        - 输出为连续型变量，比如预测明天的温度：8-25°
<img src="imgs/jd.png" width="500">

* 无监督学习（unsupervised learning）：学习样本中无标签，靠机器观察自学，自己找模式和特征
    + 聚类（clustering）
    + 降维（dimensionality reduction）
<img src="imgs/fjd.png" width="500">


* 强化学习（reinforcement learning）：智能体（Agent）以“试错”的方式在环境（Environment）中进行学习（action），通过与环境进行交互获得的奖赏或惩罚来指导行为，最终目标是使智能体获得最大的奖赏。
<img src="imgs/rl.png" width="400">

## 常见经典机器学习算法
* 监督学习
    + k-近邻
    + 线性回归
    + 逻辑回归
    + 支持向量机
    + 决策树
* 非监督学习
    + Kmeans
    + PCA
    + Apriori

## 机器学习流程
<img src="imgs/mlp.png" width="600">

### 数据预处理

>数据集成：合并来自不同数据源的数据、处理冗余数据<br>
数据清洗：缺失值、异常值<br>

### 特征工程
>特征选择：通过各种统计和模型评分等筛选出合适的特征<br>
特征变换：将类别型特征转换为数值型特征<br>
特征组合：结合业务数据，两两组合一阶离散特征形成高阶组合特征<br>
特征降维：PCA、LDA等算法减少特征个数<br>
特征归一化：消除数据特征之间的量纲影响，把特征值转变控制在[0,1]的区间


##### 处理类别型特征的常用编码方式
**类别型特征**：指在有限选项内取值的特征，比如性别（男、女）、血型（A、B、AB、O）等。

序号编码（Ordinal Encoding）
>通常用于处理类别间具有大小关系的数据。比如学历分为了专科、本科、硕士三档，那么用3表示硕士、2表示本科、1表示专科，转换后依然保留了大小关系。

独热编码（One-hot Encoding）
>通常用于处理类别间不具有大小关系的特征。比如血型，一共有4个取值（A、B、AB、O），独热编码会把血型变成一个4维稀疏向量，A型血 $\rightarrow $（1，0，0，0），B型血 $\rightarrow $（0，1，0，0），AB型血 $\rightarrow $（0，0，1，0），O型血 $\rightarrow $（0，0，0，1）

二进制编码（Binary Encoding）
>先用序号编码给每个类赋予一个类型ID，然后将类别ID对应的二进制作为结果。同样用血型为例，假如A、B、AB、O型血对应的类型ID分别为1、2、3、4，那么A型血的二进制编码就是001，B就是010。

### 数据建模
>选择模型 $\rightarrow $ 训练模型 $\rightleftharpoons $ 评估模型 $\rightarrow $ 部署模型

#### 模型评估的方法

留出法（Holdout）:
> Holdout是最简单的也是最直接的验证方法。它将原始的样本集划分为训练集和测试集两部分：比如70%用于模型训练，30%用于模型评估测试。缺点就是评估效果与原始分组有关系。为了消除随机性，就引入了“交叉检验”的思想。

交叉检验（Cross Validation）:
> 1）$k$ 折交叉验证（$k-fold$）：首先将全部样本划分为 $k$ 个大小相等的样本子集；依次遍历这 $k$ 个子集，每次把当前自己作为验证集，其余所有子集作为训练集；最后把$k$次评估指标的平均值作为最终评估指标，k经常取10。<br><br>
  2）留一验证（$leave-one-out$）：每次留下一个样本作为验证集，其它所有样本作为训练集。如果有 $k$ 个样本，则需要训练 $k$ 次，测试 $k$ 次。留一法计算最繁琐，但样本利用率最高。适合于小样本的情况。

自助法（Bootstrap）:
> 上述2种方法都是基于对原始样本划分为训练集和测试集的方法进行模型评估的。当样本规模很小时，将样本集划分会让训练集进一步缩小，这可能会影响训练效果。自助法就解决了这个问题：<br>
对于总数为 $n$ 的样本集合，进行 $n$ 次有放回的随机抽样，被抽中的样本放入训练集，最终训练集的大小也是 $n$ 。$n$ 次采样过程中，有的样本会被重复抽中，有的从未被抽中，将这些从未被抽中的样本作为测试集。

>**关于自助法的面试题**：在自助法的采样过程中，对 $n$ 个样本进行 $n$ 次自助采样，当$n$ 趋于无穷大时，最终有多少数据从未被选择过？<br><br>
解答：一个样本在一次抽样中被抽中的概率是 $\frac{1}{n}$ ，未被抽中的概率就是 $(1-\frac{1}{n})$，连续 $n$ 次未被抽中的概率就是 $（1-\frac{1}{n}）^n$ 。当  $n\rightarrow\infty$时，即是求$\lim\limits_{n\rightarrow\infty}\left(1-\frac{1}{n} \right)^n$。<br>
$\lim\limits_{n\rightarrow\infty}\left(1-\frac{1}{n} \right)^n=
\lim\limits_{n\rightarrow\infty}\left(1+\frac{1}{-n} \right)^{n}=
\lim\limits_{n\rightarrow\infty}\left(1+\frac{1}{-n} \right)^{(-n)(-1)}=
\frac{1}{
\lim\limits_{n\rightarrow\infty}\left(1+\frac{1}{-n} \right)^{-n}
}
$
<br>根据重要极限，
$
\lim\limits_{n\rightarrow\infty}\left(1+\frac{1}{n} \right)^n=e
$ 
$$\therefore \lim\limits_{n\rightarrow\infty}\left(1-\frac{1}{n} \right)^n=\frac{1}{e}\approx 0.368$$



大家如果对机器学习感兴趣，那么 线性代数、概率论、微积分这些数学知识要捡回来！！！！