### Sklearn.ensemble.AdaboostClassifier介绍

class sklearn.ensemble.AdaBoostClassifier(base_estimator=None, *, n_estimators=50, learning_rate=1.0, algorithm='SAMME.R', random_state=None)

参数:
* base_estimator:默认为None，即选择CART决策树,也可以选择其他支持样本权重的分类模型
* random_state:随机数生成器参数

### Adaboost算法从零实现

AdaBoost算法的优缺点如下:
* 优点：泛化错误率低，易编码，可以应用在大部分分类器上，无参数调整
* 缺点：对离散点敏感

#### 基于单层决策树构建弱分类器

单层决策树是一种简单的决策树，它仅基于单个特征来做决策，只有一次分裂过程。通过使用多棵单层决策树，我们就可以构建出一个能过对该数据集完全正确分类的强分类器。

构建单层决策树的伪代码如下:
* 将最小错误率minError设为+$\infty$ 
    * 对数据集中的每一个特征（第一层循环 ):
        * 对每个步长（第二层循环 ):
            * 对每个不等号（第三层循环）:
                * 建立一棵单层决策树并利用加权数据集对它进行测试 
                * 如果错误率低于minError，则将当前单层决策树设为最佳单层决策树 
* 返回最佳单层决策树

In [1]:
import numpy as np
import pandas as pd

In [2]:
def stumpClassify(dataMat,dimen,threshVal,threshIneq):
    '''
    通过阈值对数据进行分类
    Args:
        dataMat(narray):输入数据,shape(m,n)
        dimen(int):分类依据的属性下标
        threshVal(float):阈值
        threshIneq(str):比较的方式,'lt'表示小于等于阈值判为负例
    Returns:
        retArray(narray):分类后的标记数据,shape(m,1)
    '''
    retArray=np.ones((dataMat.shape[0],1))
    if threshIneq == 'lt':
        retArray[dataMat[:,dimen]<=threshVal]=-1.0
    else:
        retArray[dataMat[:,dimen]>threshVal]=-1.0
    return retArray

In [3]:
def buildStump(dataMat,classLabels,D):
    '''
    基于数据的权重构建最佳的单层决策树
    Args:
        dataMat(narray):输入数据,shape(m,n)
        classLabels(narray):标签数据,shape(1,m)
        D(narray):权重向量,shape(m,1)
    Returns:
        bestStump:记录最佳决策树的相关参数
        minError:最佳决策树的分类误差率
        bestClassEst:最佳决策树的分类结果
    '''
    m,n=dataMat.shape
    labelMat=classLabels.reshape((m,1))
    numSteps=10.0    #步长
    bestStump={}   #通过字典记录最佳单层决策树的相关参数
    bestClassEst=np.zeros((m,1))   #记录最佳决策树的分类结果
    minError=np.inf
    for i in range(n):
        rangeMin=dataMat[:,i].min()
        rangeMax=dataMat[:,i].max()
        stepSize=(rangeMax-rangeMin)/numSteps
        for j in range(-1,int(numSteps)+1):
            threshVal=rangeMin+j*stepSize
            for inequal in ['lt','gt']: #遍历小于和大于阈值两种情况
                predictVals=stumpClassify(dataMat,i,threshVal,inequal)
                errArr=np.ones((m,1))
                errArr[labelMat==predictVals]=0
                #计算分类误差率
                weightError=np.dot(D.T,errArr)
                if weightError<minError:
                    minError=weightError
                    bestClassEst=predictVals.copy()
                    bestStump['dim']=i
                    bestStump['thresh']=threshVal
                    bestStump['ineq']=inequal

    return bestStump,minError,bestClassEst

In [4]:
#测试
dataMat=np.array([[1.0,2.1],[2.0,1.1],[1.3,1.0],[1.0,1.0],[2.0,1.0]])
classLabels=np.array([1.0,1.0,-1.0,-1.0,1.0])
D=np.ones((5,1))/5
buildStump(dataMat,classLabels,D)

({'dim': 0, 'thresh': 1.3, 'ineq': 'lt'},
 array([[0.2]]),
 array([[-1.],
        [ 1.],
        [-1.],
        [-1.],
        [ 1.]]))

上面得到就是一个弱学习器，接下来我们使用多个弱分类器来构建AdaBoost。

#### AdaBoost算法完整实现

AdaBoost实现的伪代码如下：
* 对每次迭代：
    * 利用buildStump()函数找到最佳的单层决策树 
    * 将最佳单层决策树加入到单层决策树数组
    * 计算alpha 
    * 计算新的权重向量D
    * 更新累计类别估计值 
    * 如果错误率等于0.0，则退出循环

In [5]:
def adaBoostTrainDS(dataArr,classLabels,numIt=40):
    '''
    adaBoost训练函数
    Args:
        dataArr(narray):输入数据,shape(m,n)
        classLabels(narray):输入数据,shape(1,m)
        numIt(int):最大迭代次数
    Returns:
        weakClassArr:弱决策器数组
    '''
    weakClassArr=[]  #弱决策器数组
    m=dataArr.shape[0]
    D=np.ones((m,1))/m  #初始化权重参数
    aggClassEst=np.zeros((m,1))
    for i in range(numIt):
        bestStump,error,classEst=buildStump(dataArr,classLabels,D)
        print("D:",D.T)
        alpha=0.5*np.log((1.0-error)/max(error,1e-16))
        bestStump['alpha']=alpha[0][0]
        #将当前若分类器添加进数组
        weakClassArr.append(bestStump)
        print("classEst:",classEst.T)
        #更新权重
        expon=-1*alpha*(classLabels.reshape(m,1))*classEst
        D=D*np.exp(expon)
        D=D/D.sum()
        #获取当前弱决策器预测结果在最终结果中所占比重
        aggClassEst+=alpha*classEst
        print("aggClassEst:",aggClassEst.T)
        #计算累加错误率
        #np.sign函数取数字符号的函数
        aggErrors=(np.sign(aggClassEst)!=(classLabels.reshape((m,1)))).astype(int)
        errorRate=aggErrors.sum()/m
        print("total error:",errorRate)
        if errorRate==0.0:
            #错误率等于0，退出循环
            break
    return weakClassArr

In [6]:
#测试
classifierArray=adaBoostTrainDS(dataMat,classLabels,9)

D: [[0.2 0.2 0.2 0.2 0.2]]
classEst: [[-1.  1. -1. -1.  1.]]
aggClassEst: [[-0.69314718  0.69314718 -0.69314718 -0.69314718  0.69314718]]
total error: 0.2
D: [[0.5   0.125 0.125 0.125 0.125]]
classEst: [[ 1.  1. -1. -1. -1.]]
aggClassEst: [[ 0.27980789  1.66610226 -1.66610226 -1.66610226 -0.27980789]]
total error: 0.2
D: [[0.28571429 0.07142857 0.07142857 0.07142857 0.5       ]]
classEst: [[1. 1. 1. 1. 1.]]
aggClassEst: [[ 1.17568763  2.56198199 -0.77022252 -0.77022252  0.61607184]]
total error: 0.0


In [7]:
classifierArray

[{'dim': 0, 'thresh': 1.3, 'ineq': 'lt', 'alpha': 0.6931471805599453},
 {'dim': 1, 'thresh': 1.0, 'ineq': 'lt', 'alpha': 0.9729550745276565},
 {'dim': 0, 'thresh': 0.9, 'ineq': 'lt', 'alpha': 0.8958797346140273}]

In [8]:
#基于AdaBoost的分类
def adaClassify(dataMat,classifierArray):
    '''
    基于AdaBoost的分类函数
    Args:
        dataMat(narray):预测数据,shape(m,n)
        classifierArray(narray):弱分类器数组
    Returns:
        sign(aggClassEst):分类结果,shape(m,1)
    '''
    m=dataMat.shape[0]
    aggClassEst=np.zeros((m,1))
    for i in range(len(classifierArray)):
        classEst=stumpClassify(dataMat,classifierArray[i]['dim'],
                              classifierArray[i]['thresh'],
                              classifierArray[i]['ineq'])
        aggClassEst+=classifierArray[i]['alpha']*classEst
        print("aggClassEst:",aggClassEst)
    return np.sign(aggClassEst)

In [9]:
#测试
adaClassify(np.array([[0,0]]),classifierArray)

aggClassEst: [[-0.69314718]]
aggClassEst: [[-1.66610226]]
aggClassEst: [[-2.56198199]]


array([[-1.]])