# 过拟合和欠拟和
## 泛化能力
泛化能力：机器学习算法对未知数据的识别能力，举一反三的能力。
在训练开始时，训练集误差和验证集误差都很大，处于欠拟合状态，高偏差低方差。训练不断进行，训练集误差不断减小，验证集先减小后增大。验证集误差变大即进入过拟合状态，此时低偏差高方差。

## 过拟合和欠拟合及解决
过拟合：模型的复杂度要高于实际的问题，训练过头。机器只是记住了训练数据:在训练数据上表现好，在未知数据上表现差。

解决方法：
1.	重新清洗数据，过拟合可能是数据不纯导致的。
2.	增加训练数据量，两者是相对的。
3.	减少参数 。

$\triangleright$损失函数引入正则项。参数过多，惩罚越重，对应损失函数就会变大，而我们的目标是最小化loss 。

$\triangleright$对于一些特定的模型采取剪枝或dropout,BN。
4. 重采样方法和验证集方法 常用K折交叉检验：在训练数据的子集上训练和测试模型k次，基于指标优化。
5.	换个模型，模型不适合这个任务。

欠拟合：模型的复杂度较低，训练不够。没有学习到数据背后的规律。在训练数据和未知数据上表现都很差。
解决方法：不断训练至过拟合，增加模型复杂度（增加特征，减少正则项）。
## 交叉验证
交叉验证:
对样本数据进行切分为k个大小相似的互斥子集，每个子集尽可能保持数据分布的一致性,然后每次用k-1个子集的并集做为训练集，余下的子集做为测试集样本.打乱可以得到多组不同的训练集和测试集;某次训练集中的样本在下次可能成为测试集中的样本，即所谓“交叉”。常用方法：留出法，k折交叉检验，bootstrapping 。对应的python库有sklearn。

# 如何度量模型性能
## 回归指标
统一使用预测值f,期望值y
- MAE(平均绝对误差）
$\frac{1}{m}\sum^m_{i=1}\mid y-f\mid$
误差越小，模型越好
- MSE(均方误差）
$\frac{1}{m}\sum^m_{i=1}(y-f)^2$
就是之前定义的损失函数
- RMSE(均方根误差）
$\sqrt{\frac{1}{m}\sum^m_{i=1}(y-f)^2}$均方误差加个根号
- R平方
$1-\frac{(y-f)^2}{(y-\overline{y})^2}$，分子表示模型预测误差，分母表示原始数据的离散程度，相除是为了消除原始离散的影响，$R^2$越接近1，模型越好，当$y=f$时全部预测正确，$R^2=1$；当$f=\overline{y}$时模型胡乱预测，结果为0；当$R^2<0$时，表示x,y没有线性关系。但是随样本量增加，$R^2$也会增加
- Adjusted R平方
$R_{adjusted}=1-\frac{(1-R^2)(n-1)}{n-p-1}$
n,p分别表示样本量，特征量；放在分母就是为了消除两者的影响
- MAPE
$\frac{100}{n}\sum^n_{i=1}\mid \frac{y_i-f_i}{y_i}\mid$
考虑了误差与期望值的距离
- RMSPE
$\sqrt{\frac{1}{n}\sum^n_{i=1}(\frac{y_i-f_i}{y_i})^2}$ kaggle使用的一套指标

## 分类指标：
### 准确率

分类正确样本占总样本的比例，不适合用于非平衡数据，$ACC=\frac{TP+TN}{TP+TN+FP+FN}$

### 精确率和召回率：
![5.png](attachment:5.png)

TP—将正类预测为正类数 

FN—将正类预测为负类数 

FP—将负类预测为正类数 

TN—将负类预测为负类数

精确率(查准率):$P=\frac{TP}{TP+FP}$。已知所有预测为正的样本，其中有多少预测准确。

召回率(查全率):$R=\frac{TP}{TP+FN}$。已知所有实际为正的样本，其中有多少预测出来。

$F_1$值:精确率和召回率的调和平均,$\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}$

$F_1=2\frac{PR}{P+R}$,

$F_\beta=(1+\beta^2)\frac{PR}{\beta^2P+R}$,

$F_2$:召回率的权重高于精确率,$F_{0.5}$:精确率的权重高于召回率。

Micro-F1:所有类别统一计算,F1公式不变，关键是P,R计算的差异，

$P=\frac{\sum^m_{i=1}TP_i}{\sum^m_{i=1}TP_i+\sum^m_{i=1}FP_i}$，$R=\frac{\sum^m_{i=1}TP_i}{\sum^m_{i=1}TP_i+\sum^m_{i=1}FN_i}$

Macro-F1:分别计算各类的F1并计算均值 $P=\frac{1}{m}\sum^m_{i=1}p_i$,$R=\frac{1}{m}\sum^m_{i=1}r_i$,m表示类别数目

P-R曲线:根据不同阈值产生不同P,R画出来的曲线，横坐标为查全率，纵坐标为查准率

比较性能：取P=R的点，看大小

### ROC 和AUC：
ROC:以𝑇𝑃𝑅=𝑇𝑃𝑇𝑃+𝐹𝑁为横坐标，以𝐹𝑃𝑅=𝐹𝑃𝐹𝑃+𝑇𝑁为纵坐标，画出的曲线。

(0,1):FN = 0, FP = 0, 表示所有样本都正确分类

(1,0):TN = 0, TP = 0, 表示所有样本都分类错误

(0,0):FP = 0, TP = 0, 表示所有样本都分类为负

(1,1):TN = 0, FN = 0, 表示左右样本都分类为正

显然越靠近右上角，效果越好

如何绘制？数据(类别，判断为正类的概率)按𝑃正从高到底排列，每次选取一个不同的threshold，𝑝正≥𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑时为正样本，否则为负样本,得到一组FPR和TPR，即ROC曲线上的一点。训练最极限的状态就是所有的正样本都在负样本前面。

过程：

1.起点(0,0),n=0

2.下一个点以排序后第一个样本的概率值为阈值，计算正类数k,负类数p;n=n+1

3.前一个点坐标为(x,y),当前类为正，新坐标更新为(𝑥,𝑦+1𝑘),否则更新为(𝑥+1𝑝,𝑦)
4.如果n=样本数，停止，否则回到2

AUC:ROC曲线下的面积，0.5≤𝐴𝑈𝐶≤1
当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变

# 