## 单层决策树生成函数

伪代码如下：<br />
将最小错误率minError设为正无穷大 <br />
对数据集中的每一个特征(第一层循环):<br />
&ensp; 对每个步长(第二层循环):<br />
&ensp; &ensp; 对每个不等号(第三层循环):<br />
&ensp; &ensp; &ensp;建立一棵单层决策树并利用加权数据集对它进行测试<br />
&ensp; &ensp; &ensp;如果错误率低于minError,则将当前单层决策树设为最佳单层决策树<br />
返回最佳单层决策树

In [3]:
from numpy import *

In [15]:
def loadSimpData():
    datMat = matrix([[1., 2.1],
                    [2., 1.1],
                    [1.3, 1.],
                    [1., 1.],
                    [2., 1.]])
    classLabels = [1.0, 1.0, -1.0, -1.0, 1.0]
    return datMat, classLabels

def stumpClassify(dataMatrix, dimen, threshVal, threshIneq):
    """
    通过阈值比较对数据进行分类
    所有在阈值一边的数据会分到类别-1，在另外一边的数据分到类别 +1,。
    该函数通过数组过滤实现，首先将返回数组的全部元素设置为1，然后将所有不满足不等式要求的元素设置为-1
    Args:
      dataMatrix
      dimen
      threshVal 
      threshIneq ,不等式取值：lt或者gt
      
    Returns:
    
    """
    retArray = ones((shape(dataMatrix)[0],1))
    if threshIneq == 'lt':
        retArray[dataMatrix[:, dimen] <= threshVal] = -1.0
    else:
        retArray[dataMatrix[:, dimen] > threshVal] = +1.0
    return retArray


def buildStump(dataArr, classLabels, D):
    """
    遍历stumpClassify()函数所有的可能输入值，并找到数据集上最佳的单层决策树。该函数是弱学习器
    Args:
      dataArr 数据集
      classLabels 类别标签
      D 权重向量D
    """
    dataMatrix = mat(dataArr)
    labelMat = mat(classLabels).T
    m,n = shape(dataMatrix)
    numSteps = 10.0  #用于在特征的所有可能值上进行遍历
    bestStump = {}  #构建一个空字典，用于存储给定权重向量D时所得到的最佳单层决策树的相关信息
    bestClassEst = mat(zeros((m, 1)))
    minError = inf  #初始化为正无穷大，用于寻找可能的最小错误率
    for i in range(n):  #在数据集的所有特征上遍历
        rangeMin = dataMatrix[:, i].min()  #计算最小值
        rangeMax = dataMatrix[:, i].max()  #计算最大值
        stepSize = (rangeMax - rangeMin)/numSteps  #步长
        for j in range(-1, int(numSteps)+1):
            for inequal in ['lt', 'gt']:  #在大于小于之间切换不等式
                threshVal = (rangeMin + float(j) * stepSize)
                predictedVals = stumpClassify(dataMatrix, i, threshVal, inequal)
                errArr = mat(ones((m, 1))) #构建列向量
                errArr[predictedVals == labelMat] = 0  #如果predictedVals中的值不等于labelMat中的真正类别标签值，那么errArr的相应位置为1
                weightedError = D.T*errArr #将错误向量和权重向量D的相应元素相乘并求和，得到weightedError,这是AdaBoost和分类器交互的地方
                print("split:dim %d, thresh %.2f, thresh inequal:%s, the weighted error is %.3f" % (i, threshVal,inequal, weightedError))
                if weightedError < minError:  #将当前错误率与已有的最小错误率进行对比
                    minError = weightedError  #如果当前值较小，则在词典bestStump中保存该单层决策树
                    bestClasEst = predictedVals.copy()
                    bestStump['dim'] = i
                    bestStump['thresh'] = threshVal
                    bestStump['ineq'] = inequal
    return bestStump, minError, bestClasEst  #返回字典、错误率、类别估计值


In [16]:
D = mat(ones((5,1))/5)
datMat, classLabels = loadSimpData()
buildStump(datMat, classLabels, D)

split:dim 0, thresh 0.90, thresh inequal:lt, the weighted error is 0.400
split:dim 0, thresh 0.90, thresh inequal:gt, the weighted error is 0.400
split:dim 0, thresh 1.00, thresh inequal:lt, the weighted error is 0.400
split:dim 0, thresh 1.00, thresh inequal:gt, the weighted error is 0.400
split:dim 0, thresh 1.10, thresh inequal:lt, the weighted error is 0.400
split:dim 0, thresh 1.10, thresh inequal:gt, the weighted error is 0.400
split:dim 0, thresh 1.20, thresh inequal:lt, the weighted error is 0.400
split:dim 0, thresh 1.20, thresh inequal:gt, the weighted error is 0.400
split:dim 0, thresh 1.30, thresh inequal:lt, the weighted error is 0.200
split:dim 0, thresh 1.30, thresh inequal:gt, the weighted error is 0.400
split:dim 0, thresh 1.40, thresh inequal:lt, the weighted error is 0.200
split:dim 0, thresh 1.40, thresh inequal:gt, the weighted error is 0.400
split:dim 0, thresh 1.50, thresh inequal:lt, the weighted error is 0.200
split:dim 0, thresh 1.50, thresh inequal:gt, the we

({'dim': 0, 'thresh': 1.3, 'ineq': 'lt'}, matrix([[0.2]]), array([[-1.],
        [ 1.],
        [-1.],
        [-1.],
        [ 1.]]))

## 完整AdaBoost算法的实现

整个实现的伪代码如下：<br />
对每次迭代： <br />
&ensp; 利用buildStump()函数找到最佳的单层决策树<br />
&ensp; 将最佳单层决策树加入到单层决策树组<br />
&ensp; 计算alpha<br />
&ensp; 计算新的权重向量D<br />
&ensp; 更新累计类别估计值<br />
&ensp; 如果错误率等于0.0，则退出循环<br />

In [26]:
def adaBoostTrainDS(dataArr, classLabels, numIt = 40):
    """
    向量D非常重要，它包含了每个数据点的权重。一开始，这些权重都赋予了相等的值。在后续的迭代中，AdaBoost算法会在
    增加错分数据的权重的同时，降低正确分类数据的权重。D是一个概率分布向量，因此其所有的元素之和为1.0。为了满足此需求，
    一开始的所有元素都会被初始化成1/m
    
    AdaBoost完整算法，函数尾部的DS代表单层决策树（decision stump）,是AdaBoost中最流行的弱分类器
    Args:
      dataArr 数据集
      classLabels 类别标签
      numIt 迭代次数，这个参数是整个AdaBoost算法中唯一需要用户指定的参数
      
    """
    weakClassArr = []  #建立一个新的列表
    m = shape(dataArr)[0]  #得到数据集中的数据点的数目m
    D = mat(ones((m,1))/m)  #建立一个列向量D 
    aggClassEst = mat(zeros((m,1)))  #记录每一个数据点的类别估计累计值
    #算法核心在于for循环，循环次数numIt或直到训练错误率为0为止。
    for i in range(numIt):
        #利用buildStump()函数建立一个单层决策树，
        #返回的是利用D而得到的具有最小错误率的单层决策树，同时返回的还有最小的错误率及估计的类别向量
        bestStump, error, classEst = buildStump(dataArr, classLabels, D)
        print("D:",D.T)
        # 计算alpha值，该值告诉总分类器本次单层决策树输出结果的权重
        # max(error, 1e-16) 用于确保在没有错误时不会发生除零溢出
        alpha = float(0.5*log((1.0- error)/max(error, 1e-16)))
        # alpha加入到字典中
        bestStump['alpha'] = alpha
        # 字典加入列表中，该字典包括分类所需要的所有信息
        weakClassArr.append(bestStump)
        print("classEst:", classEst.T)
        # 为下一次迭代计算新权重向量D
        expon = multiply(-1*alpha*mat(classLabels).T, classEst)
        D = multiply(D,exp(expon))
        D = D/D.sum()
        # 错误率累加计算
        aggClassEst += alpha*classEst
        print("aggClassEst:", aggClassEst.T)
        #aggClassEst是一个浮点数，为了得到二值分类结果还需要调用sign()函数
        aggErrors = multiply(sign(aggClassEst)!=mat(classLabels).T, ones((m,1)))
        errorRate = aggErrors.sum()/m
        print("total error:", errorRate, "\n")
        # 总错误率为0时，提前结束循环
        if errorRate == 0.0:
            break
    return weakClassArr


In [30]:
classifierArray = adaBoostTrainDS(datMat, classLabels, 30)
print("classifierArray:",classifierArray)

split:dim 0, thresh 0.90, thresh inequal:lt, the weighted error is 0.400
split:dim 0, thresh 0.90, thresh inequal:gt, the weighted error is 0.400
split:dim 0, thresh 1.00, thresh inequal:lt, the weighted error is 0.400
split:dim 0, thresh 1.00, thresh inequal:gt, the weighted error is 0.400
split:dim 0, thresh 1.10, thresh inequal:lt, the weighted error is 0.400
split:dim 0, thresh 1.10, thresh inequal:gt, the weighted error is 0.400
split:dim 0, thresh 1.20, thresh inequal:lt, the weighted error is 0.400
split:dim 0, thresh 1.20, thresh inequal:gt, the weighted error is 0.400
split:dim 0, thresh 1.30, thresh inequal:lt, the weighted error is 0.200
split:dim 0, thresh 1.30, thresh inequal:gt, the weighted error is 0.400
split:dim 0, thresh 1.40, thresh inequal:lt, the weighted error is 0.200
split:dim 0, thresh 1.40, thresh inequal:gt, the weighted error is 0.400
split:dim 0, thresh 1.50, thresh inequal:lt, the weighted error is 0.200
split:dim 0, thresh 1.50, thresh inequal:gt, the we

classifierArray 数组包含三部词典，其中包含了分类所需要的所有信息。此时，一个分类器已经构建成功，而且随时都可以将训练错误率降到0.

## 测试算法：基于AdaBoost 的分类
每个弱分类器的结果以其对应的alpha值作为权重。所有这些弱分类器的结果加权求和就得到了最后的结果。

In [33]:
def adaClassify(datToClass, classifierArr):
    """
    该函数利用训练处的多个弱分类器进行分类
    Args:
      datToClass 一个或者多个待分类样例
      classifierArr 多个弱分类器组成的数组
      
    Returns:
      aggClassEst的符号 +1或-1
    """

    dataMatrix = mat(datToClass)  #将datToClass转换成一个NumPy矩阵
    m = shape(dataMatrix)[0]  #得到datToClass中的待分类样例的个数m
    aggClassEst = mat(zeros((m,1)))  #构建一个0列向量
    #遍历classifierArr中的所有弱分类器
    for i in range(len(classifierArr)):
        #基于stumpClassify()对每个分类器得到一个类别估计值
        classEst = stumpClassify(dataMatrix, classifierArr[i]['dim'],classifierArr[i]['thresh'],classifierArr[i]['ineq'])
        #输出的类别估计值乘上该单层决策树的alpha权重然后累加到aggClassEst
        aggClassEst += classifierArr[i]['alpha']*classEst
        print(aggClassEst)
    #返回aggClassEst的符号，如果aggClassEst大于0则返回+1，小于0则返回-1
    return sign(aggClassEst)

In [35]:
adaClassify([[5,5],[0,0]],classifierArray)

[[ 0.69314718]
 [-0.69314718]]
[[ 1.66610226]
 [-1.66610226]]
[[ 2.56198199]
 [-2.56198199]]


matrix([[ 1.],
        [-1.]])

可以发现，随着迭代的进行，数据点[0,0]的分类结果越来越强

## 在一个难数据集上应用AdaBoost
1. 搜集数据：提供的文本文件
2. 准备数据：确保类别标签是+1、-1而非1、0
3. 分析数据：手工检查数据
4. 训练算法：在数据上，利用adaBoostTrainDS()函数训练出一系列的分类器
5. 测试算法：我们拥有两个数据集。在不采用随机抽样的方法下，我们就会对AdaBoost和Logistic回归的结果进行完全对等的比较
6. 使用算法：观察该例子上的错误