Implementing AdaBoosting in Python

https://www.youtube.com/watch?v=7xHM93WXOu8


### 李航 “统计学习方法” 第八章 提升方法

#### 提升方法的基本思路

- 将弱可学习算法提升为强可学习算法；
- 其中提升方法是集成学习的一种；
- 集成学习的两个主要类别：
    - 序列方法
    - 并行方法

- XGBoost : 逐步减小偏差，串行计算，逐步减小偏差
- Bagging : 逐步减小方差，并行计算，最后投票

$$ \sigma^2 = \rho\sigma^2 + (1-\rho)\cfrac{\sigma^2}{n} $$

其中，$\rho$为相关系数，因为每次为随机抽取的数据，$\rho\rightarrow0$，所以方差为原来$\cfrac{1}{n}$

而对于串行算法，$\rho\rightarrow1$， 因此，对方差而言，没有显著的提升。

#### Adaboost算法
输入： 训练数据集$ T = \{(x_1,y_1),(x_2,y_2),\cdots, (x_N,y_N)\} $, 其中，$ x_i \in X\subseteq R^n, y_i \in Y = \{-1, 1\} $;弱学习算法。

输出：最终分类器$ G_\left(x\right) $

(1) 初始化训练数据的权值分布

$$ D_1 = (\omega_{11},\cdots, \omega_{1i}, \cdots, \omega_{1N}), \omega_{1i}=\cfrac{1}{N}, i=1,2,\cdots,N $$

(2) 对 $m=1,2,\cdots,M$

 (a) 使用具有权值分布$D_m$的训练数据集学习，得到基本分类器：

$$ G_m(x): X \rightarrow \{-1,1\} $$

 (b) 计算$G_m(x)$在训练数据集上的分类误差率：
 
$$ e_m = \sum_{i=1}^N{P(G_m(x_i)\neq y_i)} = \sum_{i=1}^N{\omega_i I(G_m(x_i)\neq y_i)} $$

 (c) 计算$G_m(x)$在训练数据集上的分类误差：

$$ \alpha_m = \cfrac{1}{2}log\cfrac{1-e_m}{e_m} $$

 (d) 更新训练数据集的权值分布：
 
$$ D_{m+1} = (\omega_{m+1,1}, \omega_{m+1,2},\cdots, \omega_{m+1,i},\cdots, \omega_{m+1,N}) $$

$$ \omega_{m+1,i} = \cfrac{\omega_{mi}}{Z_m} exp(-\alpha_m y_i G_m(x_i)) $$

可以写为
$$
\omega_{m+1,i} = 
\begin{cases}
\cfrac{\omega_{mi}}{Z_m}e^{-\alpha_m},&G_m(x_i)=y_i \\
\cfrac{\omega_{mi}}{Z_m}e^{\alpha_m},&G_m(x_i)\neq y_i \\
\end{cases}
$$
这里，$Z_m$是规范化因子，它使$D_{m+1}$成为一个概率分布：

$$ Z_m = \sum_{i=1}^N{\omega_{mi} exp(-\alpha_m y_i G_m(x_i))} $$

(3) 构建基本分类器的先行组合

$$ f(x) = \sum_{m=1}^M{\alpha_m G_m(x)} $$

得到最终分类器

$$ G(x) = sign(f(x)) 
        = sign(\sum_{m=1}^M{\alpha_m G_m(x)}) $$

#### 提升树（Boosting Tree）

基本分类器: 分类树或回归树

提升树模型：

$$ f_M(x) = \sum_{m=1}^M{T(x;\theta_m)} $$

前向分步算法：

$$ f_m(x) = f_{m-1}(x)+T(x;\theta_m) $$

$$ \hat\theta_m = argmin \sum_{i=1}^N{L(y_i,f_{m-1}(x_i)+T(x;\theta_m))} $$


$$ f_0(x) = 0 $$

$$ f_1(x) = f_0(x)+T(x;\theta_1) $$

$$ \cfrac{1}{N}\sum_{i=1}{N}{L(y_i,f_1(x_i))} $$

对于回归问题，一般为

$$ L(y_i,f_1(x_i)) = \cfrac{1}{2}(y-f(x))^2 $$








回归问题（平方误差损失）：
算法8.3 (回归问题的提升树方法）

输入： 训练数据集$ T = \{(x_1,y_1),(x_2,y_2),\cdots, (x_N,y_N)\} $, 其中，$ x_i \in X\subseteq R^n, y_i \in Y \subseteq R_i;$

输出： 提升树$f_M(x)$

(1) 初始化$f_0(x)=0$

(2)对 $ m=1,2,\cdots, M$

(a)计算残差 

$$ \gamma_{mi} = y_i - f_{m-1}(x_i), i=1,2,\cdots,N $$

(b)拟合残差$\gamma_{mi}$ 学习一个回归树$ T(x;\theta_m) $

(c) 更新$f_m(x) = f_{m-1}(x)+T(x;\theta_m) $

(3)得到回归问题提升树：

$$ f_M(x) = \sum_{m=1}^M{T(x;\theta_m)} $$

拟合残差的原因：

对于任意的样本点y和拟合值f(x)的损失：

$$ L[y,f(x)] = [y-f(x)]^2 $$

在前项分布算法中：

$$ f_m(x) = [y-f_{m-1}(x) - T(x;\theta_m)]^2 \\
          = [\gamma_{m-1} - T(x;\theta_m)]^2 \\
          = L(\gamma_{m-1},T(x;\theta_m)) $$


**回归问题梯度提升：**

算法8.4：（梯度提升算法）

输入：训练数据集$ T = \{(x_1,y_1),(x_2,y_2),\cdots, (x_N,y_N)\} $, 其中，$ x_i \in X\subseteq R^n, y_i \in Y \subseteq R; 损失函数L(y,f(x))$

输出：回归树$\hat f(x) $

(1)初始化

$$ f_0(x) = arg\;\underset{c}min \sum_{i=1}^N{L(x_i,c)} $$

(2) 对于$m=1,2,\cdots, M $

    (a)对$i=1,2,\cdots,N,$计算：

$$ \gamma_{mi} = -\left[\cfrac{\partial L(y_i,f(x_i))}{\partial f(x_i)}\right]_{f(x)=f_{m-1}(x)} $$

对于平方损失函数而言，导数就是残差。对一般损失函数而言，是残差的近似值。

(b) 对$\gamma_{mi}$拟合一个回归树，得到第m棵树的叶节点区域$R_{mj},j=1,2,\cdots, J $
    
(c) 对$ j=1,2,\cdots, J$,计算：
    
$$ c_{mj} = \mathit arg\; \rm\underset{c} min \sum_{x_i \in R_{mj}}{L(y_i,f_{m-1}(x_i) +c)} $$

(d)更新$ f_m(x) = f_{m-1}(x) + \sum_{j=1}^J{c_{mj}I(x\in R_{mj})} $

（3）得到回归树

$$ \hat f(x) = f_M(x) = \sum_{m=1}^M\sum_{j=1}^J{c_{mj}I(x\in R_{mj})}$$ 

### 总结

1. 提升算法采用了多个弱模型结合达到一个强模型的效果（减少偏差）。
2. AdaBoost每次训练的分类器将重点关注于之前仍然被错分的样本。
3. 以决策树为基函数的提升方法被称为提升树。




