## AdaBoost

Adaboost是一种boosting算法，与boosting算法相似的有bagging，两者同属于ensemble learning。

把准确率不高但在50%以上的分类器成为弱分类器，弱分类器可以是一些基础的ML算法比如单层决策树等。对于统一数据可能有多种弱分类器，`AdaBoost`就是将这些弱分类器结合起来，成为基分类器，从而有效提高整体的准确率。

但是要想获得好的结合或者集成，对基分类器的要求是“好而不同”，即有一定的准确率，而且弱分类器之间要有“多样性”，比如一个判断是否为男性的任务，弱分类器1侧重从鼻子、耳朵这些特征判断是否是男人，分类器2侧重脸和眼睛等等，把这些分类器结合起来就有了所有用来判断是否男性的特征，并且adaboost还可以给每个基分类器赋值不同的权重，比如从脸比鼻子更能判断是否为男性，就可以把分类器2的权重调高一些，这也是adaboost需要学习的内容。

## 数学推导

`AdaBoost`可以表示为基分类器的线性组合： $$ H(\boldsymbol{x})=\sum_{i=1}^{N} \alpha_{i} h_{i}(\boldsymbol{x}) $$ 其中$h_i(x),i=1,2,...$表示基分类器，$\alpha_i$是每个基分类器对应的权重，表示如下： $$ \alpha_{i}=\frac{1}{2} \ln \left(\frac{1-\epsilon_{i}}{\epsilon_{i}}\right) $$ 其中$\epsilon_{i}$是每个弱分类器的错误率。


In [None]:
'''
数据集：Mnist
训练集数量：60000(实际使用：10000)
测试集数量：10000（实际使用：1000)
层数：40
------------------------------
运行结果：
    正确率：97%
    运行时长：65m
'''

import time
import numpy as np

def loadData(fileName):
    '''
    加载文件
    : param fileName: 文件名
    : return: 数据矩阵和标签向量
    '''
    # 存放数据及标记
    dataArr = []; labelArr = []

    # 读取文件
    fr = open(fileName)

    # 逐行读取，处理数据
    for line in fr.readlines():
        #获取当前行，并按“，”切割成字段放入列表中
        #strip：去掉每行字符串首尾指定的字符（默认空格或换行符）
        #split：按照指定的字符将字符串切割成每个字段，返回列表形式
        curLine = line.strip().split(',')
        #将每行中除标记外的数据放入数据集中（curLine[0]为标记信息）
        #在放入的同时将原先字符串形式的数据转换为整型
        #此外将数据进行了二值化处理，大于128的转换成1，小于的转换成0，方便后续计算
        dataArr.append([int(int(num) > 128) for num in curLine[1:]])
        #将每行的标记信息放入标记集中
        #放入的同时将标记转换为整型

        #转换成二分类任务
        #标签0设置为1，反之为-1
        if int(curLine[0]) == 0:
            labelArr.append(1)
        else:
            labelArr.append(-1)
        
        # 返回数据集和标记
        return dataArr, labelArr
    
    def calc_e_Gx(trainDataArr, trainLabelArr, n, div, rule, D):
         '''
         计算分类错误率
            : param trainDataArr: 训练数据集
            : param trainLabelArr: 训练数据标签集
            : param n: 特征索引
            : param div: 划分值
            : param rule: 划分规则
            : param D: 样本权重分布
            : return: 分类错误率
         '''

         # 错误率初始化为0
         

