In [1]:
from matplotlib.font_manager import FontProperties
import matplotlib.pyplot as plt
from math import log
import operator
import numpy as np
%matplotlib inline

In [85]:
def createDataSet():
    '''
    生成测试数据,
    年龄：青少年-0 中年-1，老年-2
    收入：低-0 中-1 高-2，
    是否单身：否-0 是 -1
    信用等级：一般- 0 良好- 1
    是否购买：否-0 是-1
    '''
    dataSet = np.array(
              [[0, 2, 0, 0, 0],         #数据集
               [0, 2, 0, 1, 0],
               [1, 2, 0, 0, 1],
               [2, 1, 0, 0, 1],
               [2, 0, 1, 0, 1],
               [2, 0, 1, 1, 0],
               [1, 0, 1, 1, 1],
               [0, 1, 0, 0, 0],
               [0, 0, 1, 0, 1],
               [2, 1, 1, 0, 1],
               [0, 1, 1, 1, 1],
               [1, 1, 0, 1, 1],
               [1, 2, 1, 0, 1],
               [2, 1, 0, 1, 0]])
    
    labels = np.array(['年龄', '收入层次', '是否单身', '信用等级'])           #特征
    return dataSet, labels                #返回数据集和特征

In [63]:
from collections import Counter
def calcAllInfoEnt(dataSet):
    '''
    计算整体的信息熵
    '''
    #数据集的数量
    dataNum = dataSet.shape[0] 
    #出现次数的字典
    labelCounts = Counter(dataSet[:,-1])
    allInfoEnt = 0.0      #整体信息熵                   
    for key in labelCounts:
        #标签概率                           
        prob = float(labelCounts[key]) / dataNum
        #公式计算 -p(xi)log2(p(xi))求和，xi为类别
        allInfoEnt -= prob * log(prob, 2)           
    return  allInfoEnt                               #返回整体信息熵

In [64]:
def splitDataSet(dataSet, axis, value):
    """
    按照给定特征划分数据集
    :params dataSet:待划分的数据集
            axis:划分数据集的特征
            value:需要返回的特征的值
    :return retDataSet:结果数据集
    """   
    resDataSet = dataSet[(dataSet[:,axis]==value)]
    return np.delete(resDataSet,axis,1) #去掉划分的特征

In [89]:
def chooseBestFeatureToSplit(dataSet):
    """
    选择最优特征
    :params dataSet:数据集
    :returns bestFeature:信息增益最大的(最优)特征的索引值
    """
    #特征数
    CharctNum =dataSet.shape[1] -  1             
    allInfoEnt = calcAllInfoEnt(dataSet)              
    bestInfoGain,bestFeature = 0.0, -1                            
    for i in range(CharctNum):                        
        unqFeatList = set([item[i] for item in dataSet]) #获取dataSet的第i个特征的不同的几种值
        charcConditionEnt = 0.0            #计算特征条件熵                            
        for value in unqFeatList:
            #取出第i个等于value的样本构成的子集                      
            subDataSet = splitDataSet(dataSet, i, value)         
            prob = subDataSet.shape[0] / float(dataSet.shape[0])           #计算子集的概率
            charcConditionEnt += prob * calcAllInfoEnt(subDataSet)     #根据公式计算经验条件熵
        #计算信息增益 
        infoGain = allInfoEnt - charcConditionEnt                   
        #print("第{}个特征的增益为{:.3f}".format(i, infoGain))            #打印每个特征的信息增益
        if infoGain > bestInfoGain:                             #计算信息增益
            bestInfoGain = infoGain                             #更新信息增益，找到最大的信息增益
            bestFeature = i                                     #记录信息增益最大的特征的索引值
    return bestFeature

In [88]:
"""
Parameters:
    classList - 类标签列表
Returns:
    sortedClassCount[0][0] - 出现次数最多的元素(类标签)
"""
def majorityCnt(classList):
    classCount = Counter(classList)
    key = operator.itemgetter(1)
    sortedClassCount = sorted(classCount.items(), key = key, reverse = True) #根据字典的值降序排序
    return sortedClassCount[0][0]                              #返回classList中出现次数最多的元素
"""
Parameters:
    dataSet - 训练数据集
    labels - 特征属性标签
    featLabels - 存储选择的最优特征标签
Returns:
    myTree - 决策树
"""
def createTree(dataSet, labels, featLabels):
    classList = dataSet[:,-1]           #取分类标签(是否购买:1 or 0)
    if len(set(classList)) == 1:            #如果类别完全相同则停止继续划分
        return classList[0]
    if dataSet.shape[1] == 1 or labels.shape[0] == 0:   #遍历完所有特征时返回出现次数最多的类标签
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)                #选择最优特征
    bestFeatLabel = labels[bestFeat]                            #最优特征的标签
    featLabels.append(bestFeatLabel)
    myTree = {bestFeatLabel:{}}                                 #根据最优特征的标签生成树
    uniqueVals = set([example[bestFeat] for example in dataSet])#获取dataSet的最优特征的属性取值空间
    for value in uniqueVals:                                   #遍历特征值，创建决策树。        
        subLabels = np.delete(labels,bestFeat,0)
        subDataSet = splitDataSet(dataSet, bestFeat, value)
        myTree[bestFeatLabel][value] = createTree(subDataSet, subLabels,featLabels)
    return myTree

In [90]:
if __name__ == '__main__':
    dataSet, labels = createDataSet()
    featLabels = []
    myTree = createTree(dataSet, labels, featLabels)
    print(myTree)

{'年龄': {0: {'是否单身': {0: 0, 1: 1}}, 1: 1, 2: {'信用等级': {0: 1, 1: 0}}}}
