In [1]:
import math

In [2]:
#创建数据集
def createDataSet():
    #使用list存储数据
    '''
        年龄：0代表青年，1代表中年，2代表老年；
        有工作：0代表否，1代表是；
        有自己的房子：0代表否，1代表是；
        信贷情况：0代表一般，1代表好，2代表非常好；
        类别(是否给贷款)：no代表否，yes代表是。
    '''
    dataSet = [
            [0, 0, 0, 0, 'no'],         #数据集
            [0, 0, 0, 1, 'no'],
            [0, 1, 0, 1, 'yes'],
            [0, 1, 1, 0, 'yes'],
            [0, 0, 0, 0, 'no'],
            [1, 0, 0, 0, 'no'],
            [1, 0, 0, 1, 'no'],
            [1, 1, 1, 1, 'yes'],
            [1, 0, 1, 2, 'yes'],
            [1, 0, 1, 2, 'yes'],
            [2, 0, 1, 2, 'yes'],
            [2, 0, 1, 1, 'yes'],
            [2, 1, 0, 1, 'yes'],
            [2, 1, 0, 2, 'yes'],
            [2, 0, 0, 0, 'no']
    ]
    labels = ['年龄', '有工作', '有自己的房子', '信贷情况']        #分类属性
    return dataSet, labels                #返回数据集和分类属性

In [3]:
#计算香浓熵
def calcShannoEnt(dataSet):
    length = len(dataSet)
    lableMap = {}
    for dataItem in dataSet:
        #print(dataItem)
        if dataItem[-1] in lableMap.keys(): # map加不加keys（）都OK
            lableMap[dataItem[-1]] += 1
        else:
            lableMap[dataItem[-1]] = 1
    shannoEnt = 0.00
    for lableItem in lableMap.keys(): # map加不加keys（）都OK
        #print(lableItem)
        prob = lableMap[lableItem]/length
        l = -math.log(prob,2)
        shannoEnt += l*prob
    return shannoEnt

dataSet,label = createDataSet()
shannoEnt = calcShannoEnt(dataSet)
shannoEnt

0.9709505944546686

In [4]:
#划分数据集（把多维数据集某一维等于value的挑选出来）
'''
    axis：为要挑选的维度
    value：为需要该维度下的值
'''
def splitDataSet(dataSet,axis,value):
    returnList = []
    for dataItem in dataSet:
        if dataItem[axis] == value:
            itemList = dataItem[:axis]
            itemList.extend(dataItem[axis+1:]) #extend函数为加到list中原来类型的元素
            returnList.append(itemList) #append函数为加到list中的为一个list
    return returnList
returnList = splitDataSet(dataSet,0,1)
returnList

[[0, 0, 0, 'no'],
 [0, 0, 1, 'no'],
 [1, 1, 1, 'yes'],
 [0, 1, 2, 'yes'],
 [0, 1, 2, 'yes']]

In [5]:
#计算各个属性的信息增益，选取最佳属性值
#整体思路：分别获取各个属性列，计算每列包含几种情况，各种情况下的信息熵，然后与总信息熵做差求出每属性列的信息增益，保存在map中，然后选择最大的信息熵那个列，即为最佳的结点
def chooseBestFeatureToSplit(dataSet):
    numFeature = len(dataSet[0]) - 1 #得出除了lable以外属性的个数
    baseShannoEnt = calcShannoEnt(dataSet)
    bestFeature = -1
    gainMap ={}
    for i in range(numFeature): #分别遍历这几个纬度
        featureList = []
        newShannoEnt = 0.0
        for item in dataSet:
            featureList.append(item[i])
        featureSet = set(featureList)#获得了某维下的全部属性值
        for itemSet in featureSet:
            subDataSet = splitDataSet(dataSet,i,itemSet)
            prob = len(subDataSet)/len(dataSet)
            newShannoEnt += prob * calcShannoEnt(subDataSet)
        gain = baseShannoEnt - newShannoEnt
        gainMap[i] = gain  #把所有维度下的信息增益存到map中
    #print(gainMap)
    temp = 0.0
    for i in gainMap.keys():#遍历选择最大信息增益对应的维数
        if gainMap[i] > temp:
            temp = gainMap[i]
            bestFeature = i
    return bestFeature
bestFeature = chooseBestFeatureToSplit(dataSet)
bestFeature

2

In [6]:
import operator

In [7]:
#在递归生成决策树的时候，当所有的类标签完全相同的时候，如果最后仍然不能完全相同，则选择次数最多的标签作为返回结果
def majorityCnt(classList):
    classCounts = {}
    for lable in classList:
        if lable in classCounts:
            classCounts[lable] += 1
        else:
            classCounts[lable] = 1
    #当把所有的标签出现次数提取出来后，进行排序选择最大的,这里不适用上一个使用map的选择最大信息增益的方式，而使用迭代排序
    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse = True)#根据字典的值降序排序
    return sortedClassCount[0][0]

In [None]:
#创建决策树
def createTree(dataSet,lables):
    classList = [example[-1] for example in dataSet]#提取出数据中属性列最后
    #如果属性标签中属性完全相同
    if classList.counts(classList[0]) == len(classList):#list.count函数文档中写：Returns count of how many times obj occurs in list
        return classList[0]
    #如果其他属性列全部划分走，仅剩最后标签列
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    bestFeature = chooseBestFeatureToSplit(dataSet)
    bestFeatureLable = labels[bestFeature]
    myTree = {bestFeatureLable:{}}
    del(lables[bestFeature])
    featureList = [example[bestFeature] for example in dataSet]#把该属性lable下的所有属性值都提取出来，准备去重得到一共几项
    featureSet = set(featureList)
    for feature in featureSet:
        subLables = lables[:]
        #由于myTree为map中存储map，所以mytree下的两个[][]，第一个为根节点，第二个为在根节点下的map中找子节点
        myTree[bestFeatureLable][feature] = createTree()
    