## 培训的十个算法

1. 线性回归
2. Ridge回归
3. Lasso回归
4. ElasticNet
5. RANSAC回归
6. 支持向量机
7. 决策树
8. 随机森林
9. GBDT
10. KNN（K最近邻）

## 每个算法的简单原理、调参方法、以及python实现指令

#### 机器学习常见算法调参建议

![image.png](attachment:image.png)

## 不同模型的预测效果的比较方法

机器学习算法太多了，分类、回归、聚类、推荐、图像识别领域等等，要想找到一个合适算法真的不容易，所以在实际应用中，我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法，诸如SVM、GBDT、随机森林，现在深度学习很火热，神经网络也是一个不错的选择。假如你在乎精度（accuracy）的话，最好的方法就是通过交叉验证（cross-validation）对各个算法一个个地进行测试，进行比较，然后调整参数确保每个算法达到最优解，最后选择最好的一个。

```
请简要说说一个完整机器学习项目的流程。

1 抽象成数学问题
明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情，胡乱尝试时间成本是非常高的。
这里的抽象成数学问题，指的我们明确我们可以获得什么样的数据，目标是一个分类还是回归或者是聚类的问题，如果都不是的话，如果划归为其中的某类问题。
2 获取数据
数据决定了机器学习结果的上限，而算法只是尽可能逼近这个上限。
数据要有代表性，否则必然会过拟合。
而且对于分类问题，数据偏斜不能过于严重，不同类别的数据数量不要有数个数量级的差距。
而且还要对数据的量级有一个评估，多少个样本，多少个特征，可以估算出其对内存的消耗程度，判断训练过程中内存是否能够放得下。如果放不下就得考虑改进算法或者使用一些降维的技巧了。如果数据量实在太大，那就要考虑分布式了。
3 特征预处理与特征选择
良好的数据要能够提取出良好的特征才能真正发挥效力。
特征预处理、数据清洗是很关键的步骤，往往能够使得算法的效果和性能得到显著提高。归一化、、缺失值处理、去除共线性等，数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制，收益稳定可预期，是机器学习的基础必备步骤。
筛选出显著特征、摒弃非显著特征，需要机器学习工程师反复理解业务。这对很多结果有决定性的影响。特征选择好了，非常简单的算法也能得出良好、稳定的结果。这需要运用特征有效性分析的相关技术，如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法。
4 训练模型与调优
直到这一步才用到我们上面说的算法进行训练。现在很多算法都能够封装成黑盒供人使用。但是真正考验水平的是调整这些算法的（超）参数，使得结果变得更加优良。这需要我们对算法的原理有深入的理解。理解越深入，就越能发现问题的症结，提出良好的调优方案。
5 模型诊断
如何确定模型调优的方向与思路呢？这就需要对模型进行诊断的技术。
过拟合、欠拟合 判断是模型诊断中至关重要的一步。常见的方法如交叉验证，绘制学习曲线等。过拟合的基本调优思路是增加数据量，降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量，增加模型复杂度。
误差分析 也是机器学习至关重要的步骤。通过观察误差样本，全面分析误差产生误差的原因:是参数的问题还是算法选择的问题，是特征的问题还是数据本身的问题……
诊断后的模型需要进行调优，调优后的新模型需要重新进行诊断，这是一个反复迭代不断逼近的过程，需要不断地尝试， 进而达到最优状态。
6 模型融合
一般来说，模型融合后都能使得效果有一定提升。而且效果很好。
工程上，主要提升算法准确度的方法是分别在模型的前端（特征清洗和预处理，不同的采样模式）与后端（模型融合）上下功夫。因为他们比较标准可复制，效果比较稳定。而直接调参的工作不会很多，毕竟大量数据训练起来太慢了，而且效果难以保证。
7 上线运行
这一部分内容主要跟工程实现的相关性比较大。工程上是结果导向，模型在线上运行的效果直接决定模型的成败。 不单纯包括其准确程度、误差等情况，还包括其运行的速度(时间复杂度)、资源消耗程度（空间复杂度）、稳定性是否可接受。
这些工作流程主要是工程实践上总结出的一些经验。并不是每个项目都包含完整的一个流程。这里的部分只是一个指导性的说明，只有大家自己多实践，多积累项目经验，才会有自己更深刻的认识。
```

![](https://scikit-learn.org/stable/_static/scikit-learn-logo-small.png)

## scikit-learn库介绍

- Python语言的机器学习工具
- scikit-learn包括许多知名的机器学习算法的实现
- scikit-learn文档完善，容易上手，丰富的API，使其在学术界颇受欢迎。
- 目前稳定版本0.20

交叉验证：为了让被评估的模型更加准确可信
![image.png](attachment:image.png)

超参数搜索-网格搜索

通常情况下，有很多参数是需要手动指定的（如k-近邻算法中的K值），
这种叫超参数。但是手动过程繁杂，所以需要对模型预设几种超参数组
合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建
立模型。
![image.png](attachment:image.png)

![image.png](attachment:image.png)

sklearn.model_selection.GridSearchCV
![image.png](attachment:image.png)

```
sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)
对估计器的指定参数值进行详尽搜索

estimator：估计器对象
param_grid：估计器参数(dict){“n_neighbors”:[1,3,5]}
cv：指定几折交叉验证
fit：输入训练数据
score：准确率
结果分析：
best_score_:在交叉验证中验证的最好结果
best_estimator_：最好的参数模型
cv_results_:每次交叉验证后的测试集准确率结果和训练集准确率结果
```

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

## 线性回归

http://www.cnblogs.com/pinard/p/6004041.html

```
定义：线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合(线性回归的一种)

一元线性回归：涉及到的变量只有一个
多元线性回归：涉及到的变量两个或两个以上

通用公式：ℎ(𝑤)= 𝑤_0+〖𝑤_1 𝑥〗_1+𝑤_2 𝑥_2+…
		= 𝑤^𝑇 𝑥

𝑦_𝑖为第𝑖个训练样本的真实值

〖ℎ_𝑤 (𝑥〗_𝑖)为第𝑖个训练样本特征值组合预测函数

总损失定义：
𝐽(𝜃)= 〖〖(ℎ〗_𝑤 (𝑥〗_1) −𝑦_1 )^2+〖〖(ℎ〗_𝑤 (𝑥〗_2) −𝑦_2 )^2+…+〖〖(ℎ〗_𝑤 (𝑥〗_𝑚) −𝑦_𝑚 )^2

             = ∑_(𝑖=1)^𝑚▒〖(ℎ_𝑤 (𝑥_𝑖 )−𝑦_𝑖 〗 )^2

求解：𝑤=〖(𝑋〗^𝑇 〖𝑋)〗^(−1) 𝑋^𝑇 𝑦
𝑋为特征值矩阵，𝑦为目标值矩阵

对于线性回归的损失函数J(θ)=12(Xθ−Y)T(Xθ−Y)，我们常用的有两种方法来求损失函数最小化时候的θ参数：一种是梯度下降法，一种是最小二乘法。

如果采用梯度下降法，则θ的迭代公式是这样的：

　　　　θ=θ−αXT(Xθ−Y)
　　　　通过若干次迭代后，我们可以得到最终的θ的结果

　　　　如果采用最小二乘法，则θ的结果公式如下：

　　　　θ=(XTX)−1XTY
```

## Lasso和Ridge回归

```
为了防止模型的过拟合，我们在建立线性模型的时候经常需要加入正则化项。一般有L1正则化和L2正则化。


  线性回归的L1正则化通常称为Lasso回归，它和一般线性回归的区别是在损失函数上增加了一个L1正则化的项，L1正则化的项有一个常数系数α来调节损失函数的均方差项和正则化项的权重，具体Lasso回归的损失函数表达式如下：　　

　　　　J(θ)=12(Xθ−Y)T(Xθ−Y)+α||θ||1
  其中n为样本个数，α为常数系数，需要进行调优。||θ||1为L1范数。

  Lasso回归可以使得一些特征的系数变小，甚至还是一些绝对值较小的系数直接变为0。增强模型的泛化能力。

 　Lasso回归的求解办法一般有坐标轴下降法（coordinate descent）和最小角回归法（ Least Angle Regression），由于它们比较复杂，在我的这篇文章单独讲述： 线程回归的正则化-Lasso回归小结
 

  线性回归的L2正则化通常称为Ridge回归，它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项，和Lasso回归的区别是Ridge回归的正则化项是L2范数，而Lasso回归的正则化项是L1范数。具体Ridge回归的损失函数表达式如下：

　　　　J(θ)=12(Xθ−Y)T(Xθ−Y)+12α||θ||22
  其中α为常数系数，需要进行调优。||θ||2为L2范数。

  Ridge回归在不抛弃任何一个特征的情况下，缩小了回归系数，使得模型相对而言比较的稳定，但和Lasso回归比，这会使得模型的特征留的特别多，模型解释性差。

  Ridge回归的求解比较简单，一般用最小二乘法。这里给出用最小二乘法的矩阵推导形式，和普通线性回归类似。

  令J(θ)的导数为0，得到下式：

　　　　XT(Xθ−Y)+αθ=0
  整理即可得到最后的θ的结果：

　　　　θ=(XTX+αE)−1XTY
  其中E为单位矩阵。
```

## ElasticNet

```
  损失函数：

  ElasticNet可以看做Lasso和Ridge的中庸化的产物。它也是对普通的线性回归做了正则化，但是它的损失函数既不全是L1的正则化，也不全是L2的正则化，而是用一个权重参数ρ来平衡L1和L2正则化的比重，形成了一个全新的损失函数如下：　　

　　　　J(θ)=12m(Xθ−Y)T(Xθ−Y)+αρ||θ||1+α(1−ρ)2||θ||22
  其中α为正则化超参数，ρ为范数权重超参数。

  损失函数的优化方法：

  ElasticNet回归的损失函数优化方法常用的有两种，坐标轴下降法和最小角回归法。ElasticNet类采用的是坐标轴下降法。
```

## RANSAC回归

```
什么叫RANSAC？

直译过来随机采样一致性（random sample consensus）。具体什么意思，了解其算子过程和原理就很容易理解了。这里我想首先强调的一点就是，RANSAC是一种思想，一个求解已知模型的参数的框架。它不限定某一特定的问题，可以是计算机视觉的问题，同样也可以是统计数学，甚至可以是经济学领域的模型参数估计问题。

RANSAC的具体步骤？
谈算法的步骤之前，首先得说明这个算法的输入输出，然后才是是具体算法步骤。

输入：
1. 在RANSAC定义中，已经说过，它是一种求解已知模型的参数的框架。所以这个模型的形式，得给出。也就是说，你所求解的模型是一阶模型？二阶模型还是什么的…..你得给出来，这样模型需要求解的参数个数也就确定了。 
2. 一堆数据。这一堆数据中是允许出现错误数据的（野点或者外点），也许你会纳闷为啥要给有错误的数据。这是因为在实际的数据采集中，难免受到噪声的污染，数据的准确性也就难以保证，所以存在错误数据是非常合理的情况。这也是RANSAC流行的原因，相比于最小二乘（线性回归），他对数据的错误的鲁棒性更好。 
3. 迭代次数kk，内外点距离阈值t1t1，一致性集合大小阈值t2t2。这三个参数根据不同的问题，会有不同的值。现在也不介绍他们到底是什么意思，等算法步骤流程说完了再介绍他们，那样应该更加清晰明了。

算法流程

下面均已从一堆点中估计直线方程这个问题进行展开，其他比如单应性矩阵求解等问题可以类比。
从数据中随机选取模型参数估计的最少的数据（对于直线估计问题，两个点确定一条直线，当然就随机选取两个数据。），然后计算出直线方程。
然后计算数据集中其余点与已算出模型的距离dd，当d<t1d<t1时就判定该点为内点（inlier），当d>t1d>t1就判定为外点（outlier）。然后统计内点个数nn，当n>t2n>t2时就判定该模型为最优模型mbestmbest，并记录该模型下的统计误差errorminerrormin（即每个内点与模型的距离误差）。
然后重复上面的过程，当计算得到新的模型，比较其统计误差errorerror与errorminerrormin大小，如果errorerror更小，就可以更新mbestmbest和errorminerrormin。最后输出mbestmbest，所以不同的问题，主要区别就在第一步，利用最少的数据求解模型参数的方法上，这个涉及到不同问题的求解原理。

参数的选择

内外点距离阈值t1t1，这个阈值是用来判定数据点是内点还是外点，一般没有一个统一的方法，只能通过实验得到。
迭代次数kk一致性集合大小阈值t2t2，当我们估计模型参数时，用pp表示一些迭代过程中从数据集内随机选取出的点均为inlier的概率；用ww表示每次从数据集中选取一个inlier的概率，w=inlier的数目数据集的数目w=inlier的数目数据集的数目，通常情况下，我们事先并不知道ww的值，但是可以给出一些鲁棒的值。假设估计模型需要选定nn个点，wnwn是所有nn个点均为局内点的概率；1−wn1−wn是nn个点中至少有一个点为局外点的概率，此时表明我们从数据集中估计出了一个不好的模型。 (1−wn)k(1−wn)k表示算法永远都不会选择到nn个点均为局内点的概率，它和1−p1−p相同。因此，1−p=(1−wn)k1−p=(1−wn)k,通过此式就可以计算kk的最小值了，当然kk越大越可能得到准确的模型，但是需要考虑时间效率。RANSAC只有一定的概率得到可信的模型，概率与迭代次数成正比。
一致性集合大小阈值t2t2，这个是判定一个模型是否合理的阈值。
```

## 决策树

```
决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

CART（Classification and Regression Trees，分类回归树）是决策树算法的一种，这种树构建算法既可以用于分类也可以用于回归。

它采用一种递归二元分割（recursive binary splitting）的技术，分割方法采用基于最小距离的基尼指数（分类树中）或最小平方残差（回归树中）等方法来估计函数的不纯度，从而将当前的样本集分为两个子样本集，使得生成的的每个非叶子节点都有两个分支。因此，CART算法生成的决策树是结构简洁的二叉树。

因此，CART的目标是：选择输入变量和那些变量上的分割点，直到创建出适当的树。在这个过程中，使用贪婪算法（greedy algorithm）选择使用哪个输入变量和分割点，以使成本函数（cost function）最小化。

CART算法由一下两步组成：
（1）决策树的生成：基于训练数据集生成决策树，生成的决策树要尽量大；

（2）决策树的剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

CART生成

决策树的生成就是递归地构建二叉决策树的过程，对回归树用平方误差最小准则，对分类树用基尼指数最小化准则，进行特征选择，生成二叉树。

scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法，既可以做分类，又可以做回归。
```

## KNN（K最近邻）

```
  K近邻法(k-nearest neighbors,KNN)是一种很基本的机器学习方法了，在我们平常的生活中也会不自主的应用。比如，我们判断一个人的人品，只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就运用了KNN的思想。KNN方法既可以做分类，也可以做回归，这点和决策树算法相同。

  KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时，一般是选择多数表决法，即训练集里和预测的样本特征最近的K个样本，预测为里面有最多类别数的类别。而KNN做回归时，一般是选择平均法，即最近的K个样本的样本输出的平均值作为回归预测值。由于两者区别不大，虽然本文主要是讲解KNN的分类方法，但思想对KNN的回归方法也适用。
    
  KNN算法我们主要要考虑三个重要的要素，对于固定的训练集，只要这三点确定了，算法的预测方式也就决定了。这三个最终的要素是k值的选取，距离度量的方式和分类决策规则。

  对于分类决策规则，一般都是使用前面提到的多数表决法。所以我们重点是关注与k值的选择和距离的度量方式。 

  对于k值的选择，没有一个固定的经验，一般根据样本的分布，选择一个较小的值，可以通过交叉验证选择一个合适的k值。

  选择较小的k值，就相当于用较小的领域中的训练实例进行预测，训练误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是泛化误差会增大，换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；
  选择较大的k值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少泛化误差，但缺点是训练误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。
  一个极端是k等于样本数m，则完全没有分类，此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的类，模型过于简单。
```

## 支持向量机

```
支持向量机（support vector machines）是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。由简至繁的模型包括：
```

- 当训练样本线性可分时，通过硬间隔最大化，学习一个线性可分支持向量机；
- 当训练样本近似线性可分时，通过软间隔最大化，学习一个线性支持向量机；
- 当训练样本线性不可分时，通过核技巧和软间隔最大化，学习一个非线性支持向量机；

![image.png](attachment:image.png)

（边界上的点就是支持向量，这些点很关键，这也是”支持向量机“命名的由来）

SVM的目的：寻找到一个超平面使样本分成两类，并且间隔最大。而我们求得的w就代表着我们需要寻找的超平面的系数。

用数学语言描述：

![image.png](attachment:image.png)

这就是SVM的基本型。

SVM的基本型在运筹学里面属于二次规划问题，而且是凸二次规划问题（convex quadratic programming）。

## 随机森林

```
随机森林是一种集成算法（Ensemble Learning），它属于Bagging类型，通过组合多个弱分类器，最终结果通过投票或取均值，使得整体模型的结果具有较高的精确度和泛化性能。其可以取得不错成绩，主要归功于“随机”和“森林”，一个使它具有抗过拟合能力，一个使它更加精准。
```
![image.png](attachment:image.png)
Bagging结构

```
Bagging也叫自举汇聚法（bootstrap aggregating），是一种在原始数据集上通过有放回抽样重新选出k个新数据集来训练分类器的集成技术。它使用训练出来的分类器的集合来对新样本进行分类，然后用多数投票或者对输出求均值的方法统计所有分类器的分类结果，结果最高的类别即为最终标签。此类算法可以有效降低bias，并能够降低variance。

随机森林的方法由于有了bagging，也就是集成的思想在，实际上相当于对于样本和特征都进行了采样（如果把训练数据看成矩阵，就像实际中常见的那样，那么就是一个行和列都进行采样的过程），所以可以避免过拟合。
```


```
  首先，RF使用了CART决策树作为弱学习器。第二，在使用决策树的基础上，RF对决策树的建立做了改进，对于普通的决策树，我们会在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分，但是RF通过随机选择节点上的一部分样本特征，这个数字小于n，假设为nsub，然后在这些随机选择的nsub个样本特征中，选择一个最优的特征来做决策树的左右子树划分。这样进一步增强了模型的泛化能力。　　　　

  如果nsub=n，则此时RF的CART决策树和普通的CART决策树没有区别。nsub越小，则模型约健壮，当然此时对于训练集的拟合程度会变差。也就是说nsub越小，模型的方差会减小，但是偏倚会增大。在实际案例中，一般会通过交叉验证调参获取一个合适的nsub的值。

  除了上面两点，RF和普通的bagging算法没有什么不同，下面简单总结下RF的算法。

  输入为样本集D={(x,y1),(x2,y2),...(xm,ym)}，弱分类器迭代次数T。

  输出为最终的强分类器f(x)
　　　　1）对于t=1,2...,T:

　　　　　　a)对训练集进行第t次随机采样，共采集m次，得到包含m个样本的采样集Dt
　　　　　　b)用采样集Dt训练第t个决策树模型Gt(x)，在训练决策树模型的节点的时候， 在节点上所有的样本特征中选择一部分样本特征， 在这些随机选择的部分样本特征中选择一个最优的特征来做决策树的左右子树划分

　　　　2) 如果是分类算法预测，则T个弱学习器投出最多票数的类别或者类别之一为最终类别。如果是回归算法，T个弱学习器得到的回归结果进行算术平均得到的值为最终的模型输出。
```

## GBDT

```
Boosting算法基本思路

提升方法思路：对于一个复杂的问题，将多个专家的判断进行适当的综合所得出的判断，要比任何一个专家单独判断好。每一步产生一个弱预测模型(如决策树)，并加权累加到总模型中，可以用于回归和分类问题；如果每一步的弱预测模型生成都是依据损失函数的梯度方向，则称之为梯度提升(Gradient boosting)。

梯度提升算法首先给定一个目标损失函数，它的定义域是所有可行的弱函数集合(基函数)；提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部极小值。这种在函数域的梯度提升观点对机器学习的很多领域有深刻影响。

提升的理论意义：如果一个问题存在弱分类器,则可以通过提升的办法得到强分类器。


GBDT 的全称是 Gradient Boosting Decision Tree，梯度提升树，在传统机器学习算法中，GBDT算的上TOP3的算法。想要理解GBDT的真正意义，那就必须理解GBDT中的Gradient Boosting 和Decision Tree分别是什么？

1. Decision Tree：CART回归树

  没错，GBDT使用的决策树就是CART回归树，无论是处理回归问题还是二分类以及多分类，GBDT使用的决策树自始至终都是CART回归树。 
  
  对于回归树算法来说最主要的是寻找最佳的划分点，那么回归树中的可划分点包含了所有特征的所有可取的值。在分类树中最佳划分点的判别标准是熵或者基尼系数，都是用纯度来衡量的，但是在回归树中的样本标签也是连续数值，所以再使用熵之类的指标不再合适，取而代之的是平方误差，它能很好的评判数据分散程度。我们希望最佳划分节点能够使得划分得到的两组数据组内的标签值相近，如果每组的方差都很小，这就说明每组的组内相似度很高，确实应该被划分。 

2. Gradient Boosting： 负梯度——残差

  GBDT无疑也是Boosting家族的一员，而Adaboost在Boosting家族很出名，但是GBDT并没有采用Adaboost算法！！！那GBDT中的Boosting是怎么做的呢？ 
  
  先来个通俗理解：假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。
  
  再来 个公式表达：在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是ft−1(x)ft−1(x), 损失函数是L(y,ft−1(x))L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x)ht(x)，让本轮的损失损失L(y,ft(x)=L(y,ft−1(x)+ht(x))L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。 


GBDT是通过采用加法模型（即基函数的线性组合），以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。

GBDT的训练过程

  我们通过一张图片，图片来源来说明GBDT的训练过程: 
```

![image.png](attachment:image.png)

                      GBDT 的训练过程
```
  GBDT通过多轮迭代,每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单，并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提高最终分类器的精度，（此处是可以证明的）。

  弱分类器一般会选择为CART TREE（也就是分类回归树）。由于上述高偏差和简单的要求 每个分类回归树的深度不会很深。最终的总分类器 是将每轮训练得到的弱分类器加权求和得到的（也就是加法模型）。
```