In [1]:
from math import log                              #从math中导入log函数
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)                     #计算样本的数量
    labelCounts = {}                             #初始化一个字典，key是标签类别，value是标签出现的次数
    for featVec in dataSet:                     #遍历样本，featVec相当于代数，这里指样本（dataSet）中的一列
        currentLabel = featVec[-1]               #这一行的倒数第一个值赋值给currentLabel,最后一个值就是该样本的标签
        if currentLabel not in labelCounts.keys():#如果该标签不在字典中
            labelCounts[currentLabel]=0           #将该加入字典，次数赋值为0
        labelCounts[currentLabel] += 1            #新标签次数加一，或者，如果标签已经存在，次数加一
    shannonEnt = 0.0                              #信息熵初始化为0
    for key in labelCounts:                     #遍历标签
        prob = float(labelCounts[key])/numEntries#求该标签占总样本的概率
        shannonEnt -= prob * log(prob,2)       #计算信息熵 
    return shannonEnt                         #返回信息熵

In [2]:
def createDataSet():                                                     #创建样本                     
    dataSet = [[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]#样本列表
    labels = ['no surfacing','flippers']                                 #标签列表
    return dataSet,labels                                               #返回样本，标签

In [3]:
myDat,labels = createDataSet()                                 #将createDataSet函数值返回给myDat,lables
myDat

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [4]:
 calcShannonEnt(myDat)                                             #计算信息熵

0.9709505944546686

In [11]:
def splitDataSet(dataSet,axis,value):                  #定义划分数据集函数，3个参数分别是待划分的数据集，特征，特征的值
    retDataSet = []                                     #创建新列表，用来存放划分数据
    for featVec in dataSet:                             
        if featVec[axis] == value:                      #如果某特征等于某个值
            reducedFeatVec = featVec[:axis]             #reducedFeatVec等于该样本属性axis之前的切片序列
            reducedFeatVec.extend(featVec[axis+1:])      #在reduceFeatVec列表末尾扩展axis之后的切片序列，这两行就是为了剔除axis
            retDataSet.append(reducedFeatVec)           #在retDataSet列表里添加reduceFeatVec列表
    return retDataSet                                  #返回划分的数据集

In [12]:
splitDataSet(myDat,0,1)                  #输出myDat中。第一个特征，值为1的列表，（剔除第一个特征）

[[1, 'yes'], [1, 'yes'], [0, 'no']]

In [16]:
def chooseBestFeatureTosplit(dataSet):          #构建最优划分属性函数
    numFeatures = len(dataSet[0])-1              #求特征的个数，-1因为最后一个是标签
    baseEntropy = calcShannonEnt(dataSet)        #计算根节点的信息熵
    bestInfoGain = 0.0                            #初始化信息增益
    BestFeature = -1                              #初始化最优属性
    for i in range(numFeatures):                  #遍历属性
        featlist = [example[i] for example in dataSet]#取每一个样本的第i个特征放入featlist中
        uniquevals = set(featlist)                     #删除重复值
        newEntropy = 0.0                               #初始化分支节点信息熵
        for value in uniquevals:                    #循环遍历特征上的取值 
            subDataSet = splitDataSet(dataSet,i,value) #以第i个属性划分，得到属性值为value划分子集
            prob = len(subDataSet)/float(len(dataSet)) #计算划分子集占样本总数的比重
            newEntropy += prob * calcShannonEnt(subDataSet)#求分支节点的熵求和
        infoGain = baseEntropy - newEntropy          #信息增益
        if(infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature                    #返回最优划分特征

In [17]:
chooseBestFeatureTosplit(myDat)        #划分myDat数据集的最优属性是第0个特征（如下结果所示）

0

In [18]:
myDat

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [19]:
import operator                 #导入操作符运算模块

In [30]:
def majorityCnt(classList):           #构建函数：计算出现次数最多的标签（多数表决的方法，确定叶子结点）
    classCount={}                      #初始化字典
    for vote in classList:
        if vote not in classList.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse=True)#classCount.iteritems()将classCount字典分解为元组列表，operator.itemgetter(1)按照第二个元素的次序对元组进行排序，reverse=True是逆序，即按照从大到小的顺序排列
    return sortedClassCount[0][0]     #返回第0个元组的第0个参数