基础版
===

首先，我们要知道信息增益的概念，信息增益是经验熵和经验条件熵之差，这里有引出了经验熵和经验条件熵的概念，要想知道这些概念我们还要首先知道什么是熵。

在信息论中，熵是表示随机变量的不确定性的度量，随机变量X的熵定义为
$$H(X)=-\sum_{i=1}^np_ilogp_i$$
熵只依赖于X的分布，而与X的取值无关，所以也可将X的熵记作H(p)
$$H(p)=-\sum_{i=1}^np_ilogp_i$$
熵越大，随机变量的不确定性就越大。

设随机变量（X，Y），其联合概率分布为
$$P(X=x_i,Y=y_i)=p_{ij},i=1,2,..,n,j=1,2,...,m$$
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性，随机变量X给定的条件下随机变量Y的条件熵H（Y|X），
定义为X给定条件下Y的条件概率分布的熵对X的数学期望
$$H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)$$
这里， $p_i=P(X=x_i),i=1,2,...n$
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时，所对应的熵与条件熵分别称为经验熵和经验条件熵,此时,如果有0概率,令0log0=0.

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
特征A对训练数据集D的信息增益g(D,A)定义为：集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即
$$g(D,A)=H(D)-H(D|A)$$
信息增益也称为互信息，决策树中学习的信息增益等价于训练数据集中类与特征的互信息。

对公式的理解：经验熵H（D）表示对数据集D进行分类的不确定性，而条件经验熵H(D|A)表示在特征A给定的条件下对数据集D进行分类的不确定性。
那么他们的差，即信息增益，就表示由于特征A而使得数据集D的分类的不确定性减少的程度。信息增益依赖于特征，不同的特征往往有不同的信息增益，
信息增益大的特征具有更强的分类能力。

In [1]:
#定义简单鉴定的数据集函数  
def createDataSet():  
    dataSet = [[1,1,'yes'],  
       [1,1,'yes'],  
       [1,0,'no'],  
       [0,1,'no'],  
       [0,1,'no']]  
    labels = ['no surfacing','flippers']  
    return dataSet, labels  

In [2]:
mydat, labels =createDataSet()

In [3]:
#计算给定数据集的香农熵,熵定义为信息的期望值，它代表随即变量的不确定性  
from math import log  
import operator  
def calcShannonEnt(dataSet):  
    numEntries = len(dataSet)  
    labelCounts = {}  
    for featVec in dataSet:  
        currentLabel = featVec[-1]  
        if currentLabel not in labelCounts.keys():  
            labelCounts[currentLabel] = 0  
        labelCounts[currentLabel] += 1 #这样也可以，书上没有错行    
    shannonEnt = 0.0  
    print(labelCounts)
    for key in labelCounts:   
        prob = float(labelCounts[key])/numEntries  
        print(key,labelCounts[key],prob)   
        shannonEnt -= prob * log(prob,2)#首先计算熵，它的作用是要用它计算每个特征的信息增益  
    return shannonEnt  #熵越高混合的数据也越多  

这个函数的作用：我们需要计算每个特征划分数据集的结果计算一次信息熵，然后判断按照哪个特征划分数据集是做好的划分方式。（也就是信息增益大的那个数据集）

上面我们说了：信息增益是经验熵和经验条件熵之差，这个的划分数据集就是为了计算经验条件熵.

In [4]:
#得到熵之后，我们就可以按照获取最大信息增益的方法划分数据集，
#那么如何划分数据集以及如何度量信息增益
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    #print(retDataSet)
    return retDataSet

In [5]:
splitDataSet(mydat,0,1)

[[1, 'yes'], [1, 'yes'], [0, 'no']]

In [6]:
#选取特征，划分数据集，计算得出最好的划分数据集的特征  
def chooseBestFeatureToSplit(dataSet):  
    numFeatures = len(dataSet[0]) - 1  #剩下的是特征的个数  
    baseEntropy = calcShannonEnt(dataSet)#计算数据集的熵，放到baseEntropy中  
    bestInfoGain = 0.0;bestFeature = -1  
    for i in range(numFeatures):  
        featList = [example[i] for example in dataSet]  
        uniqueVals = set(featList)  
        newEntropy = 0.0  
        for value in uniqueVals:#下面是计算每种划分方式的信息熵,特征i个，每个特征value个值  
            subDataSet = splitDataSet(dataSet, i ,value)  
            prob = len(subDataSet)/float(len(dataSet))  
            newEntropy += prob * calcShannonEnt(subDataSet)  
        infoGain = baseEntropy - newEntropy  #计算i个特征的信息熵  
        print(infoGain)  
        if(infoGain > bestInfoGain):  
            bestInfoGain = infoGain  
            bestFeature = i  
    return bestFeature  

In [7]:
chooseBestFeatureToSplit(mydat)  

{'no': 3, 'yes': 2}
no 3 0.6
yes 2 0.4
{'no': 2}
no 2 1.0
{'no': 1, 'yes': 2}
no 1 0.3333333333333333
yes 2 0.6666666666666666
0.4199730940219749
{'no': 1}
no 1 1.0
{'no': 2, 'yes': 2}
no 2 0.5
yes 2 0.5
0.17095059445466854


0

In [8]:
#返回出现次数最多的分类名称  
def majorityCnt(classList):  
    classCount = {}  
    for vote in classList:  
        if vote not in classCount.keys():classCount[vote] = 0  
        classCount[vote] += 1  
    sortedClassCount  = sorted(classCount.iteritems(),key=operator.itemgetter(1), reverse=True)  
    return sortedClassCount[0][0]  

In [9]:
def createTree(dataSet,labels):  
    classList = [example[-1] for example in dataSet]#将最后一行的数据放到classList中  
    if classList.count(classList[0]) == len(classList):  
        return classList[0]  
    if len(dataSet[0]) == 1:#这里为什么是1呢？就是说特征数为1的时候  
        return majorityCnt(classList)#就返回这个特征就行了，因为就这一个特征  
    bestFeat = chooseBestFeatureToSplit(dataSet)  
    print(bestFeat)  
    bestFeatLabel = labels[bestFeat]#运行结果'no surfacing'  
    myTree = {bestFeatLabel:{}}#运行结果{'no surfacing': {}}  
    del(labels[bestFeat])  
    featValues = [example[bestFeat] for example in dataSet]#第0个特征值  
    uniqueVals = set(featValues)  
    for value in uniqueVals:  
        subLabels = labels[:]  
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet,bestFeat,value),subLabels)  
          
    return myTree  

In [10]:
createTree(mydat,labels)

{'no': 3, 'yes': 2}
no 3 0.6
yes 2 0.4
{'no': 2}
no 2 1.0
{'no': 1, 'yes': 2}
no 1 0.3333333333333333
yes 2 0.6666666666666666
0.4199730940219749
{'no': 1}
no 1 1.0
{'no': 2, 'yes': 2}
no 2 0.5
yes 2 0.5
0.17095059445466854
0
{'no': 1, 'yes': 2}
no 1 0.3333333333333333
yes 2 0.6666666666666666
{'no': 1}
no 1 1.0
{'yes': 2}
yes 2 1.0
0.9182958340544896
0


{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

In [11]:
#下面代码我们将在真实的数据上使用决策树分类算法
def classify(inputTree,featLabels,testVec):  
    firstStr = list(inputTree.keys())[0]
    secondDict = inputTree[firstStr]  
    featIndex = featLabels.index(firstStr)#firstStr的索引  
    for key in secondDict.keys():  
        if testVec[featIndex] == key:  
            if type(secondDict[key]).__name__ == 'dict':  
                classLabel = classify(secondDict[key],featLabels,testVec)  
            else:  
                classLabel = secondDict[key]  
    return classLabel   


In [17]:
mydat,labels=createDataSet()
myTree = createTree(mydat,labels)
mydat,labels=createDataSet()
classify(myTree,labels,[1,1])

{'no': 3, 'yes': 2}
no 3 0.6
yes 2 0.4
{'no': 2}
no 2 1.0
{'no': 1, 'yes': 2}
no 1 0.3333333333333333
yes 2 0.6666666666666666
0.4199730940219749
{'no': 1}
no 1 1.0
{'no': 2, 'yes': 2}
no 2 0.5
yes 2 0.5
0.17095059445466854
0
{'no': 1, 'yes': 2}
no 1 0.3333333333333333
yes 2 0.6666666666666666
{'no': 1}
no 1 1.0
{'yes': 2}
yes 2 1.0
0.9182958340544896
0


'yes'