# Adaboost概述

Adaboost的全称是Adaptive Boosting，其含义为自适应提升算法。其中，自适应是指Adaboost会根据本轮样本的误差结果来分配下一轮模型训练时样本

在模型中的相对权重，即对错误的或偏差大的样本适度“重视”，对正确的或偏差小的样本适度“放松”，这里的“重视”和“放松”具体体现在了Adaboost的损失

函数设计以及样本权重的更新策略。本课我们将介绍Adaboost处理分类和回归任务的算法原理，包括SAMME算法、SAMME.R算法和Adaboost.R2算法。


2. 分类损失¶

对于K
分类问题而言，当样本标签$y=[y1,...,yK]T$的类别c为第k

类时，记
$yk=⎧⎩⎨1,−1k−1,if c=kif c≠k$

【练习】假设有一个3分类问题，标签类别为第2类，模型输出的类别标签为[-0.1,-0.3,0.4]，请计算对应的指数损失。

设模型的输出结果为$f=[f1,...,fK]T$

，则记损失函数为
$L(y,f)=exp(−yTfK)$

由于对任意的向量a1

有
$L(y,f+a1)=exp(−yTfK−ayT1K)=exp(−yTfK)=L(y,f)$

因此为了保证f

的可估性，我们需要作出约束假设，此处选择对称约束条件
$f1+f2+...+fK=0$

从概率角度而言，一个设计良好的分类问题损失函数应当保证模型在期望损失达到最小时的输出结果是使得后验概率$P(c|x)$
达到最大的类别，这个条件被称为贝叶斯最优决策条件。在本问题下，满足对称约束条件的损失函数期望损失$EY|xL(Y,f)$

达到最小时，由拉格朗日乘子法可解得模型输出为
$k∗=argmaxkf∗k(x)=argmaxk(K−1)[logP(c=k|x)−1K∑i=1KlogP(c=i|x)]=argmaxkP(c=k|x)$

因此，选择指数损失能够满足贝叶斯最优决策条件。

【练习】假设有一个3分类问题，标签类别为第2类，模型输出的类别标签为[-0.1,-0.3,0.4]，请计算对应的指数损失。

【练习】对公式进行化简，写出K=2时的SAMME算法流程，并与李航《统计学习方法》一书中所述的Adaboost二分类算法对比是否一致。

【练习】在sklearn源码中找出算法流程中每一行对应的处理代码。

【练习】算法2第12行中给出了f
输出的迭代方案，但在sklearn包的实现中使用了I{G∗(x)=S(y)}来代替b∗(m)(x)。请根据本文的实现，对sklearn包的源码进行修改并构造一个例子来比较它们的输出是否会不同。（提示：修改AdaboostClassifier类中的decision_function函数和staged_decision_function函数）

$h∗(m)k′=(K−1)[logPw(S(y)=k′|x)−1K∑k=1KlogP(S(y)=k|x)]$

【练习】验证h∗k′的求解结果。

【练习】算法3的第14行给出了wi的更新策略，请说明其合理性。

【练习】请结合加权中位数的定义解决以下问题：

    当满足什么条件时，Adaboost.R2的输出结果恰为每个基预测器输出值的中位数？

    Adaboost.R2模型对测试样本的预测输出值是否一定会属于M

个分类器中的一个输出结果？若是请说明理由，若不一定请给出反例。

设k∈{y1,...,yM}
，记k两侧（即大于或小于k）的样本集合对应的权重集合为W+和W−，证明使这两个集合元素之和差值最小的k就是Adaboost.R2输出的y

。

相对于普通中位数，加权中位数的输出结果鲁棒性更强，请结合公式说明理由。

 二分类问题下，Adaboost算法如何调节样本的权重？

AdaBoost，是英文"Adaptive Boosting"（自适应增强）的缩写，由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于：前一个基本分类器分错的样本会得到加强，加权后的全体样本再次被用来训练下一个基本分类器。同时，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。

具体说来，整个Adaboost 迭代算法就3步：

    初始化训练数据的权值分布。如果有N个样本，则每一个训练样本最开始时都被赋予相同的权值：1/N。
    
    训练弱分类器。具体训练过程中，如果某个样本点已经被准确地分类，那么在构造下一个训练集中，它的权值就被降低；相反，如果某个样本点没有被准确地分类，那么它的权值就得到提高。然后，权值更新过的样本集被用于训练下一个分类器，整个训练过程如此迭代地进行下去。
    
    将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，使其在最终的分类函数中起着较大的决定作用，而降低分类误差率大的弱分类器的权重，使其在最终的分类函数中起着较小的决定作用。换言之，误差率低的弱分类器在最终分类器中占的权重较大，否则较小。 

另外一种思路是：每次更新每个样本的权重，然后在下一个弱分类器的构造中所有样本参与训练，但是每个权值不一样，这可以通过将样本权值增加到神经网络的目标函数（均方误差MSE）中实现。

样本A在当轮分类错误，且样本B在当轮分类正确，请问在权重调整后，样本A的权重一定大于样本B吗？


In [None]:
在处理分类问题时，Adaboost的损失函数是什么？请叙述其设计的合理性。

In [None]:
Adaboost如何处理回归问题？


 用已经训练完毕的Adaboost分类模型和回归的模型来预测新样本的标签，请分别具体描述样本从输入到标签输出的流程。

In [1]:
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

class AdaboostClassifier:

    def __init__(self, base_estimator, n_estimators, algorithm):
        self.base_estimator = base_estimator
        self.n_estimators = n_estimators
        self.algorithm = algorithm

        self.boostors = []
        if self.algorithm == "SAMME":
            self.boostor_weights = []

        self.classes = None

    def fit(self, X, y, **kwargs):
        w = np.repeat(1/X.shape[0], X.shape[0])
        self.classes = np.unique(y.reshape(-1)).shape[0]
        output = 0
        for n in range(self.n_estimators):
            cur_boostor = self.base_estimator(**kwargs)
            cur_boostor.fit(X, y, w)
            if self.algorithm == "SAMME":
                y_pred = cur_boostor.predict(X)
                err = (w*(y != y_pred)).sum()
                alpha = np.log((1-err)/err) + np.log(self.classes-1)
                temp_output = np.full(
                    (X.shape[0], self.classes), -1/(self.classes-1))
                temp_output[np.arange(X.shape[0]), y_pred] = 1
                self.boostors.append(cur_boostor)
                self.boostor_weights.append(alpha)
                w *= np.exp(alpha * (y != y_pred))
                w /= w.sum()
                output += temp_output * alpha
            elif self.algorithm == "SAMME.R":
                y_pred = cur_boostor.predict_proba(X)
                log_proba = np.log(y_pred + 1e-6)
                temp_output = (
                    self.classes-1)*(log_proba-log_proba.mean(1).reshape(-1,1))
                temp_y = np.full(
                    (X.shape[0], self.classes), -1/(self.classes-1))
                temp_y[np.arange(X.shape[0]), y] = 1
                self.boostors.append(cur_boostor)
                w *= np.exp(
                    (1-self.classes)/self.classes * (temp_y*log_proba).sum(1))
                w /= w.sum()
                output += temp_output
            #acc = accuracy_score(y, np.argmax(output, axis=1))
            #print(acc)

    def predict(self, X):
        result = 0
        if self.algorithm == "SAMME":
            for n in range(self.n_estimators):
                cur_pred = self.boostors[n].predict(X)
                temp_output = np.full(
                    (X.shape[0], self.classes), -1/(self.classes-1))
                temp_output[np.arange(X.shape[0]), cur_pred] = 1
                result += self.boostor_weights[n] * temp_output
        elif self.algorithm == "SAMME.R":
            for n in range(self.n_estimators):
                y_pred = self.boostors[n].predict_proba(X)
                log_proba = np.log(y_pred + 1e-6)
                temp_output = (
                    self.classes-1)*(log_proba-log_proba.mean(1).reshape(-1,1))
                result += temp_output
        return np.argmax(result, axis=1)


if __name__ == "__main__":

    X, y = make_classification(
        n_samples=10000, n_features=10,
        n_informative=5, random_state=0, n_classes=2
    )

    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.3, random_state=0
    )

    from sklearn.ensemble import AdaBoostClassifier as ABC
    clf = ABC(
        DecisionTreeClassifier(max_depth=1),
        n_estimators=20, algorithm="SAMME"
    )
    clf.fit(X_train, y_train)
    result = clf.predict(X_test)
    print("sklearn中SAMME的验证集得分为: ", accuracy_score(y_test, result))

    clf = AdaboostClassifier(
        DecisionTreeClassifier,
        20, "SAMME"
    )
    clf.fit(X_train, y_train, max_depth=1)
    result = clf.predict(X_test)
    print("使用SAMME.R集成的验证集得分为: ", accuracy_score(y_test, result))

    clf = ABC(
        DecisionTreeClassifier(max_depth=1),
        n_estimators=20, algorithm="SAMME.R"
    )
    clf.fit(X_train, y_train)
    result = clf.predict(X_test)
    print("sklearn中SAMME.R的验证集得分为: ", accuracy_score(y_test, result))

    clf = AdaboostClassifier(
        DecisionTreeClassifier,
        20, "SAMME.R"
    )
    clf.fit(X_train, y_train, max_depth=1)
    result = clf.predict(X_test)
    print("使用SAMME.R集成的验证集得分为: ", accuracy_score(y_test, result))

    clf = DecisionTreeClassifier(max_depth=1)
    clf.fit(X_train, y_train)
    result = clf.predict(X_test)
    print("使用决策树桩的验证集得分为: ", accuracy_score(y_test, result))

sklearn中SAMME的验证集得分为:  0.8316666666666667
使用SAMME.R集成的验证集得分为:  0.8316666666666667
sklearn中SAMME.R的验证集得分为:  0.8503333333333334
使用SAMME.R集成的验证集得分为:  0.8503333333333334
使用决策树桩的验证集得分为:  0.7746666666666666
