# 监督学习概述
1、**监督学习的目标**

- 利用一组带有标签（即含有目标变量）的数据，学习从输入到输出的映射，然后将这种映射关系应用到未知数据上，达到分类或回归的目的。
 - **分类**：当输出（或目标变量）为离散情形时，即为分类；
 - **回归**：当输出（或目标变量）为连续情形时，即为回归；

2、**训练集、测试集**

- **训练集（training set）**：用来训练模型的含有标签（或目标变量）的数据，用于建立模型，发现规律；
- **测试集（testing set）**：也含有标签（或目标变量），但一般讲该部分数据集的标签隐藏，当做无标签数据集作为训练好的模型的输入，通过模型结果与真实标签的对比，进而评估模型的优劣
- **划分方法**：
 - **方法一**：根据已有标签（或目标变量）的数据，随机选取一部分（一般为70%）作为训练集，剩余部分作为测试集（一般为30%）；
 - **方法二**：交叉验证法；
 - **方法三**：自助法Bootstrap

## 一、分类
1、**分类问题**

- **输入**：一组有标签（或目标变量）的训练数据（或观察、评估），标签（或目标变量）表明了这些数据的所属类别；
- **输出**：分类模型根据这些训练数据，训练自己的模型参数，学习出一个适合这组数据的分类器，当有新数据（非训练数据）需要进行类别判断时，就可以将这组新数据作为输入，利用构建的分类器进行类别判断

2、**分类问题—评价标准**

- **混淆矩阵**：用于表示预测结果（分类问题）。横行表示的是真实样本类别，纵列表示预测结果。

![](https://cos.name/wp-content/uploads/2011/09/confusion_matrix.png)

- **准确率,accuracy**：该指标针对预测结果而言，表示总样本中有多少被准确预测。即可表示为：
$$A = \frac{TP + TN}{TP + FN + FP + TN}$$

- **精确率,precision**：该指标是针对预测结果而言（以二分类为例），表示预测为正的样本中有多少为真实为正的样本。（预测为正的样本的中会有两种可能：将正类样本预测为正类（TP，True Position）、将负类样本预测为正类（FP））,即可表示为：
$$P = \frac{TP}{TP + FP}$$

- **召回率,recall**：该指标是针对原来的样本而言，表示样本中的正例有多少被预测正确了。（样本中正例被预测正确也有两种可能：将原来的正例预测为正例（TP）、将原来的正例预测为负例（FN，False Negative））。即可表示为：
$$R = \frac{TP}{TP + FN}$$

3、**sklearn库与分类**

- 由于在sklearn库中分类算法与之前的聚类、降维算法不同，并未将分类算法统一封装在某个子模块中（如：聚类算法统一封装在cluster、降维算法统一封装在decomposition），因此对于不同的分类算法对应的import方法各不相同。
- sklearn库中提供的分类函数包括：K近邻（KNN）、朴素贝叶斯（Naive Bayes）、支持向量机（SVM）、决策树（Decision Tree）、神经网络模型（Neural Network）等，其中有线性分类器及非线性分类器

4、**应用**

- **金融**：判断贷款是否能够批准
- **医疗诊断**：判断肿瘤属于恶性、良性
- **欺诈检测**：判断一笔银行交易是否涉嫌欺诈
- **网页分类**：判断网页所属类别等

## 二、回归
1、**回归问题**

- 统计学中分析数据的方法，其目的在于了解两个或者多个变量间是否相关、研究其相关方向及影响大小，并建立数学模型便于观察特定变量来预测研究者感兴趣的变量。
- 回归分析可以帮助人们了解自变量变化时因变量的变化情况。一般而言，利用回归分析可以由给出的自变量估计因变量的条件期望。

2、**sklearn库与回归**

- sklearn库的回归函数主要被封装在两个子模块：**sklearn.linear_model**(该子模块主要封装一些线性函数)、sklearn.perprocessing
 - 主要的**线性回归函数**包括：
   - **普通线性回归函数**，Linear Regression
   - **岭回归**，Ridge Regression
   - **Lasso回归**，Lasso Regression
 - 主要的**非线性函数**包括：
   - 多项式回归，通过sklearn.preprocessing子模块进行拟合。
   
3、**应用**

- 回归方法适用于一些带有时序信息的数据进行预测或者趋势拟合，常用于金融及其他涉及时间序列的领域，如：股票趋势的预测、交通流量的预测。