### 生成模型与判别模型
监督学习的任务就是学习一个模型，这个 模型一般是决策函数：$$Y=f(X)$$或者条件概率分布：$$P(Y|X)$$
#### 分类
监督学习的方法分为两类：
- 生成方法
- 判别方法
#### 生成方法
生成方法由数据学习联合概率分布$P(X,Y)$，然后求出条件概率分布$P(Y|X)$作为预测模型，生成模型为：$$P(Y|X)=\frac{P(X,Y)}{P(X)}$$
- 典型算法：朴素贝叶斯法和隐马尔可夫模型
- 特点：
    - 更够还原出联合概率分布$P(X,Y)$
    - 样本容量多时，学习收敛速度快，能够更快地收敛于真实模型
#### 判别方法
判别方法由数据直接学习决策函数$f(X)$或者条件概率分布$P(Y|X)$作为预测的模型。判别方法关心的是给定输入X，应该预测出什么样的Y值。
- 典型算法：k近邻法、感知机、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、条件随机场等
- 特点：
    - 直接学习条件概率或者决策函数，学习的准确率更高
    - 能够对数据进行各种程度上的抽象，定义特征和使用特征，简化学习问题
    
### 监督学习应用
#### 分类问题
在监督学习中，**输出变量Y取有限个离散值**，预测问题变成了分类问题。输入变量X离散或者连续均可。分类问题有学习和分类两个过程：
- 学习：根据已知的训练数据集利用学习方法学习一个分类器
- 分类：利用学习过程中得到的分类器，对新的输入实例进行分类
##### 评价指标
评价分类问题的指标是分类准确率`accuracy`。定义：给定的预测数据集，分类器正确分类的样本数/总样本数，也是损失函数是0-1损失时候测试机数据上的准确率:
$$r_{test}=\frac{1}{N'}\sum_{i=1}^{N'}I(y_i={\hat f(x_i)})$$

对于二分类问题常用的评价指标是：精准率`precision`和召回率`recall`。根据实际结果和预测结果的正负性，有4种情况:
**第一个字母表示预测的正确或者错误；第二个字母表示预测出来的结果**

- TP：将正类预测为正类
- FN：将正类预测为负类
- FP：将负类预测为正类
- TN：将负类预测为负类

**1：表示预测为正例；0：表示预测为负例**

分类|真实值|预测值
---|---|---
TP|1|1
FN|1|0
FP|0|1
TN|0|0

精准率定义为：预测为正例的数据里预测正确的个数$$P=\frac{TP}{TP+FP}$$召回率定义为：真实为正例的那些数据里预测正确的数据个数$$R=\frac{TP}{TP+FN}$$

$F_1$值是精准率和召回率的调和平均值，定义为$$\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}=\frac{2TP}{2TP+FP+FN}$$

关于精准率和召回率以及混淆矩阵的知识点，参考：

https://www.cnblogs.com/liweiwei1419/p/9870034.html

https://zhwhong.cn/2017/04/14/ROC-AUC-Precision-Recall-analysis/
![image.png](attachment:image.png)


##### 具体应用
- 银行业务：构建客户分类模型，对客户按照贷款风险的大小进行分类
- 网络安全：可以利用日志数据的分类对非法入侵进行检测
- 手写识别：用于识别手写的数字
- 互联网搜索：网页的分类可以帮助网页的抓取、索引和排序

#### 标注问题
标注`tagging`问题输入的是一个观测序列，输出的是一个标记序列或状态序列。标注问题分为学习和标注两个过程。应用领域
- 信息抽取
- 自然语言处理NLP，词性标注问题

常用标注问题的统计学习方法：
- 隐马尔可夫模型
- 条件随机场

#### 回归问题
##### 特点
回归问题是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系。
- 回归的模型正是输入和输出变量之间映射的函数。
- 回归函数的学习等价于函数拟合
- 回归问题分为学习和预测

基本过程：从训练数据集构建一个模型，即函数$Y=f(X)$，然后对新的输入$x_{N+1}$根据学习到的模型$Y=f(X)$确定相应的输出$y_{N+1}$
损失函数：回归问题中常用的损失函数是`平方损失函数`，通过`最小二乘法`求解

##### 应用
- 商务领域：市场预测、产品质量管理
- 股价预测：