### Table of Contents
-[1 Intro](#intro)
<br>
-[2 Algorithm](#algorithm)
<br>
-[3 Adaboost as a additive model](#additive)

<a id='intro'></a>
<br>
## 1 Intro
Adaboost与GBM, XGBoost是工业界十分强大的集成学习算法。
<br>
关于XGBoost可以查看__[pdf](https://brage.bibsys.no/xmlui/handle/11250/2433761)__。
<br>
Adaboost is short for "Adaptive Boosting", first introduceb by Freund and Schapire in 1996.
<br>
Adaboost旨在将一组弱分类器转化为一个强分类器，其一般形式为：
<br>
        $$F(x) = sign(\sum_{m=1}^{M}\theta_{m}f_{m}(x))$$
<br>
其中$f_{m}$表示第m个分类器，$\theta_{m}$表示该分类器相应的权重，因此它是一个弱分类器的组合。

<a id='algorithm'></a>
## 2 Algorithm
对于任意给定的数据集，其中：
<br>
$$x_{i}\in \mathbb{R}^d, y_{i} \in \{-1, 1\}.$$
<br>
初始化每个数据点的权重:
$$w(x_{i}, y_{i}) = \frac{1}{n}, i = 1,...,n.$$
<br>
**For iteration in range(1,M):**
<br>
(1)训练弱分类器，找到分类误差最大的那些数据点:
<br>
$$\epsilon_{m} = E_{w_{m}}[1_{y\neq f(x)}]$$
<br>
(2)计算第m个弱分类器的权重$\theta_{m}$(有的文章用$\alpha$):
<br>
$$\theta_{m} = \frac{1}{2}ln(\frac{1-\epsilon_{m}}{\epsilon_{m}})$$
<br>
注:对于任何弱分类器，其准确率低于50%，权重函数将大于0，被放大。若其准确率高于50%，权重函数将为负数，我们只需要将其分类结果反响，即可得到一个准确率低于50%的分类器。
<br>
(3)为所有数据更新权重:
<br>
$$w_{m+1}(x_{i}, y_{i}) = \frac{w_{m}(x_{i}, y_{i})exp[-\theta_{m}y_{i}f_{m}(x_{i})]}{Z_{m}}$$
<br>
以上公式中$Z_{m}$为一个标准化因子(normalization factor)，为了保证更新后所有数据的权重之和仍然为1.
<br>
以上公式中，对于错误分类的数据点,$y_{i}*f$的值恒为-1， 因此在exp函数的作用下，$w_{m+1}$将被放大。
<br>
经过M次迭代，我们可以得到最终的加权分类器。

<a id='additive'></a>
## 3 Adaboost as a additive model
关于Adaboost与additive logitic regression的关系可以查看这篇论文:[ Additive logistic regression: a statistical view of boosting](https://web.stanford.edu/~hastie/Papers/AdditiveLogisticRegression/alr.pdf).
<br>
2000年, Friedman et.al提出了解释adaboost算法的观点，他们指出，adboost实际上试图最小化指数损失函数：
<br>
$$L(y, F(x)) = \sum(e^{-y*F(x)})$$
<br>
损失函数最小即：
<br>
$$\frac{\partial E[e^{-y*F(x)}]}{\partial F(x)}=0$$
<br>
由于在Adaboost分类中，y的值只能为-1 or 1, 因此损失函数可以写成：
<br>
$$E[e^{-y*F(x)}] = e^{F(x)}*P(y=-1\mid x) + e^{-F(x)}*P(y=1\mid x)$$
<br>
继续求微，我们得到：
<br>
$$\frac{\partial E[e^{-y*F(x)}]}{\partial F(x)}= e^{F(x)}P(y=-1\mid x) - e^{-F(x)}*P(y=1\mid x) = 0$$
<br>
求解F(x),得到
$$F(x) = \frac{1}{2}log\frac{P(y=1\mid x)}{P(y=-1\mid x)}$$
我们可以进一步导出符合常规logistic模型的F(x)：
$$P(y=1\mid x) = \frac{e^{2F(x)}}{1 + e^{2F(x)}}$$

## Reference
-[blog](https://towardsdatascience.com/boosting-algorithm-adaboost-b6737a9ee60c)