# 提升方法

* boosting
* 在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能

## 提升方法AdaBoost算法

* 对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好
* “三个臭皮匠顶个诸葛亮”

### 强可学习（strongly learnable）、弱可学习（weakly learnable）

* 在概率近似正确（probably approximately correct，PAC）学习的框架中，
    * 一个概念（一个类），如果存在一个多项式的学习算法能够学习它，并且正确率很高，那么就称这个概念是强可学习的
    * 一个概念， 如果存在一个多项式的学习算法能够学习它，学习的正确率仅比随机猜测略好，那么就称这个概念是弱可学习的

### 等价

* 非常有趣的是Schapire后来证明强可学习与弱可学习是等价的
* 也就是说，在PAC学习的框架下，一个概念是强可学习的充分必要条件是这个概念是弱可学习的

### 提升（boost）

* 在学习中，如果已经发现了“弱学习算法”，那么能否将它提升（boost）为“强学习算法”
* 最具代表性的是AdaBoost算法（AdaBoost algorithm）

### 提升方法

* 提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器（又称为基本分类器），然后组合这些弱分类器，构成一个强分类器
* 大多数的提升方法都是改变训练数据的概率分布（训练数据的权值分布），针对不同的训练数据分布调用弱学习算法学习一系列弱分类器

### 有两个问题需要回答

* 一是在每一轮如何改变训练数据的权值或概率分布
* 二是如何将弱分类器组合成一个强分类器

### AdaBoost的做法

* 提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值
* 弱分类器的组合：加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用

  （加权多数表决）

## AdaBoost算法

* 训练数据的权值分布

  \begin{equation*}
  D_1=(w_{11},\dotsc,w_{1i},\dotsc,w_{1N})
  \end{equation*}
  
  $w_{1i}=\tfrac{1}{N}$（初始）


## 基本分类器

* 使用当前分布$D_m$加权的训练数据集，学习基本分类器$G_m(x)$

  \begin{equation*}
  G_m(x):\mathcal{X}\to \{-1,+1\}
  \end{equation*}
  
  



## 分类误差率

* $G_m(x)$在加权的训练数据集上的分类误差率是被$G_m(x)$误分类样本的权值之和

  \begin{equation*}
  e_m=P(G_m(x_i)\neq y_i)=\sum_{i=1}^Nw_{mi}I(G_m(x_i)\neq y_i)
  \end{equation*}
  
  

## 重要性

* $G_m(x)$在最终分类器中的重要性

  \begin{equation*}
  \alpha_m=\frac{1}{2}\log\frac{1-e_m}{e_m}
  \end{equation*}

* 分类误差率越小的基本分类器在最终分类器中的作用越大

  当$e_m\le\tfrac{1}{2}$时，$\alpha_m\ge 0$，并且$\alpha_m$随着$e_m$的减小而增大
  
* 考虑$e^{\alpha_m}=\sqrt{\tfrac{1-e_m}{e_m}}$

## 更新

* 更新训练数据的权值分布为下一轮作准备

  \begin{equation*}
  w_{m+1,i}=
  \begin{cases}
  \frac{w_{mi}}{Z_m}e^{-\alpha_m},\quad &G_m(x_i)=y_i\\
  \frac{w_{mi}}{Z_m}e^{\alpha_m},\quad &G_m(x_i)\neq y_i
  \end{cases}
  \end{equation*}

* 被基本分类器$G_m(x)$误分类样本的权值得以扩大，而被正确分类样本的权值却得以缩小

## 加权表决

* $M$个基本分类器的加权表决

  \begin{equation*}
  f(x)=\sum_{m=1}^M\alpha_m G_m(x)
  \end{equation*}

* 利用基本分类器的线性组合构建最终分类器

  \begin{equation*}
  G(x)=\mathrm{sign}(f(x))=\mathrm{sign}\biggl(\sum_{m=1}^M\alpha_mG_m(x)\biggr)
  \end{equation*}

## AdaBoost的例子

例8.1

## AdaBoost算法的训练误差分析

**AdaBoost的训练误差界**

\begin{equation*}
\frac{1}{N}\sum_{i=1}^N I(G(x_i)\neq y_i)\le \prod_m Z_m
\end{equation*}

* $G(x_i)\neq y_i$表明$y_i$和$f(x_i)$的符号不一致
* $I(\cdot)$为0或1，而$1\le e^{>0}$

\begin{equation*}
\frac{1}{N}\sum_i e^{-\sum_{i=1}^M\alpha_my_iG_m(x_i)}
\end{equation*}

* $\tfrac{1}{N}$恰好为数据权值的初始分布
* $e^{-\sum_{i=1}^M}=\prod_{i=1}^Me^-$
* $\sum_i w_{1i}\prod_{i=1}^Me^{-\alpha_my_iG_m(x_i)}$
* $e^{-\alpha_my_i}$可以从$\prod$中提取出来，形成对数据权值分布的更新

**二类分类问题AdaBoost的训练误差界**

直觉：$Z_m=(1-e_m)e^{-\alpha_m}+e_me^{\alpha_m}$

\begin{equation*}
Z_m=2\sqrt{e_m(1-e_m)}=\sqrt{1-4\gamma^2_m}
\end{equation*}

\begin{equation*}
\prod_{m=1}^M\sqrt{1-4\gamma^2_m}\le e^{-2\sum_{m=1}^M\gamma^2_m}
\end{equation*}

$1+x\le e^x$，对于实数$x$

（等式仅当$x=0$）

### 训练误差以指数数率下降

\begin{equation*}
\frac{1}{N}\sum_{i=1}^N I(G(x_i)\neq y_i)\le e^{-2M\gamma^2}
\end{equation*}

* AdaBoost具有适应性
* 能适应弱分类器各自的训练误差率
* Ada是Adaptive的简写