本文介绍Boosting算法及一些代表算法。准确来说，Boosting算法更多的是一种思想。例如一个分类任务，如果训练一个分类器可以做到60%的正确率。那么同时训练多个分类器，利用投票的方法来对数据集进行分类，经验上可以获得更高的正确率。这就是Boosting的思想。

## AdaBoost算法
给定一组训练数据集

\begin{equation}
T=\{(\textbf{x}^{(1)},y^{(1)}),(\textbf{x}^{(2)},y^{(2)}),\cdots, (\textbf{x}^{(N)}, y^{(N)})\}
\end{equation}

该数据集包含N个样本点。每个样本点的$\textbf{x}$加粗显示，表示这是一个向量，$\textbf{x}\in \mathbb{R}^{n}$，当然如果n=1，则$\textbf{x}$是一个标量。

在$\textbf{x}^{(i)}=(x^{(i)}_1,x^{(i)}_2,\cdots, x^{(i)}_n)$中的每一个维度，表示该样本点的一个特征，样本集中的每个样本点有n个维度或特征。

$y^{(i)}$表示第i个样本点的类别，$y\in\{+1, -1\}$，当$y^{(i)}=1$，则表示$\textbf{x}^{(i)}$是正例。当$y^{(i)}=-1$，则表示$\textbf{x}^{(i)}$是负例。

Adaboost算法从数据集中学习一系列弱分类器或基本分类器，并且线性组成一个强分类器。

### Adaboost算法的过程
1. 初始化训练数据的权值分布为等权
$$
D_1 = (w_1^{(1)}, w_1^{(2)}, \cdots, w_1^{(N)}), \quad w_1^{(i)} = \frac{1}{N}, i = 1,2,\cdots N
$$
其中$D$的下标表示第几次的权值分布
2. 对m=1,2,...,M进行循环

    * 使用权值分布为$D_m$的训练数据训练一个基本分类器$G_m(\textbf{x}): \mathcal{X} \rightarrow \{-1, +1\}$
    * 计算$G_m(\textbf{x})$在训练数据上的分类误差率
    $$
    e_m = P(G_m{\textbf{x}^{(i)}} \neq y^{(i)}) = \sum_{i=1}^N{w_m^{(i)}I(G_m(\textbf{x}^{(i)} \neq y^{(i)}))}
    $$
    * 计算$G_m(\textbf{x})$的系数
    $$
    \alpha_m = \frac{1}{2}\log{\frac{1-e_m}{e_m}}
    $$
    * 更新训练数据集的权值分布$D_{m+1} =  (w_{m+1}^{(1)}, w_{m+1}^{(2)}, \cdots, w_{m+1}^{(N)})$
    $$
    w_{m+1}^{(i)} = \frac{w_m^{(i)}}{Z_m}\exp{-\alpha_m y^{(i)}G_m(\textbf{x}^{(i)})}, \quad i=1,2,\cdots, N
    $$
    其中$Z_m$是规范化因子，为了使得$D_{m+1}$也是一个概率分布。
    $$
    Z_m = \sum_{i=1}^N{w_{m+1}^{(i)}\exp(-\alpha_m y^{(i)}G_m(x^{(i)}))}
    $$
3. 构建基本分类器的线性组合
    $$
    f(\textbf{x}) = \sum_{m=1}^M{\alpha_m G_m(\textbf{x})}
    $$