# 第三章：决策树

# 3.1.1 信息增益

In [6]:
# 计算给定数据集的香农熵
# 输入：一个数据集
# 返回：这个数据集的香农熵

from math import log

def calcShannonEntropy(dataSet):
    numEntries = len(dataSet) # 获取数据集长度
    labelCounts = {} #用于存储 labels 个数的字典
    for featVec in dataSet:
        currentLabel = featVec[-1]
        # 如果当前的label不在labelCounts中， 则创建这个元素
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
        shannonEntropy = 0.0
        for key in labelCounts:
            prob = float ( labelCounts[key] )/numEntries # 计算这个label出现的概率
            shannonEntropy = shannonEntropy - prob * log(prob, 2) # 计算熵并叠加
    return shannonEntropy


In [7]:
# createDataSet: 创建一个数据集
# 返回：一个数据集和标签

def createDataSet():
    dataSet = [
        [1, 1, 'yes'],
        [1, 1, 'yes'],
        [1, 0, 'no'],
        [0, 1, 'no'],
        [0, 1, 'no']
    ]
    labels = [ 'no surfacing', 'flippers']
    return dataSet, labels


In [8]:
myDat, labels = createDataSet()
myDat

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [9]:
calcShannonEntropy(myDat)

0.9709505944546686

In [10]:
# 添加一个类别查看熵的变化
myDat[0][-1] = 'maybe'
myDat

[[1, 1, 'maybe'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [11]:
# 查看熵的变化， 可见：混合的数据越多， 熵越高
calcShannonEntropy(myDat)

1.3709505944546687

### 3.1.2 划分数据集

In [12]:
# 按照给定特征划分数据集， 将  dataSet 中的符合 axis 特征值等于 value 的这些样本抽取出来
# 输入：dataSet(待划分的数据集)，axis（用来划分数据集的特征），value（匹配的特征的值）
# 输出：符合 axis 特征值等于 value 的样本组成的一个新的数据集

def splitDataSet(dataSet, axis, value):
    returnDataSet = []
    
    # 对数据集中的每个样本进行遍历
    for featVec in dataSet:
        if featVec[axis] == value: # 如果符合条件的样本则加入到返回的returnDataSet中
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            returnDataSet.append(reducedFeatVec)
    return returnDataSet

In [13]:
# append 和 extend 在处理多个列表时处理结果是不同的

a = [1, 2, 3]
b = [4, 5, 6]
a.append(b)
a

[1, 2, 3, [4, 5, 6]]

In [14]:
a = [1, 2, 3]
b = [4, 5, 6]
a.extend(b)
a

[1, 2, 3, 4, 5, 6]

In [15]:
myDat

[[1, 1, 'maybe'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [16]:
splitDataSet(myDat, 0, 0)

[[1, 'no'], [1, 'no']]

In [17]:
dataSet = myDat

In [18]:
for i in range( len(dataSet[0]) -1  ):
    featList = [ example[i] for example in dataSet ] # 获取dataSet中所有样本的第 i 个特征值的所有出现的值, 用于后面计算熵
featList

[1, 1, 0, 1, 1]

In [19]:
uniqueVals = set(featList)
uniqueVals

{0, 1}

In [20]:
# 选择最好的数据集划分方式
# 输入：一个数据集
# 输出： 最好特征划分的索引值

def chooseBestFeatureToSplit(dataSet):
    numFeatures = len( dataSet[0] ) - 1 # 获取特征个数
    baseEntropy = calcShannonEntropy(dataSet) # 最初的数据集的熵
    bestInfoGain = 0.0; bestFeature = -1;
    for i in range(numFeatures): # 遍历数据集中的每个特征
        featList = [ example[i] for example in dataSet ] # 获取dataSet中所有样本的第 i 个特征值的所有出现的值, 用于后面计算熵
        uniqueVals = set(featList) # 将featList 中出现的值放入一个集合中， 不会重复放入
        newEntropy = 0.0
        # 计算用这个特征划分数据得到的新的 熵
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEntropy(subDataSet)
        infoGain = baseEntropy - newEntropy # 数据集变得更加有序是熵减的过程， 熵减得越多， 则用这个数据划分数据集会更好
        if( infoGain >  bestInfoGain): # 如果用当前这个特征划分数据后， 数据集比 之前最好的特征划分的数据集 更加有序， 则进行更新
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

In [21]:
myDat, labels = createDataSet()

In [22]:
chooseBestFeatureToSplit(myDat) # 结果表明第 0 个特征是最好的用于划分数据集的特征

0

### 3.1.3 递归构建决策树

In [23]:
# 该函数使用分类名称的列表， 并返回出现次数最多的分类名称
# 输入： 分类名称的列表
#输出： 出现次数最多的分类名称

import operator
def majorityCnt(classList):
    classCount = {}
    for vote in classLsit:
        if vote not in classCount.keys():
            classCount[vote] = 0
    classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key = operator.itemgetter(1), reverse = True)
    return  sortedClassCount[0][0]

In [24]:
myDat, labels = createDataSet()

In [25]:
dateSet = myDat

In [26]:
classList = [ example[-1] for example in dataSet ] #获取所有的 分类名称
classList

['maybe', 'yes', 'no', 'no', 'no']

In [27]:
bestFeature = chooseBestFeatureToSplit(dataSet) # 选择最好的数据集划分方式 的 特征
bestFeature

0

In [28]:
bestFeatureLabel = labels[bestFeature]
bestFeatureLabel

'no surfacing'

In [29]:
myTree = {bestFeatureLabel:{}}
myTree

{'no surfacing': {}}

In [30]:
labels

['no surfacing', 'flippers']

In [36]:
del(labels[bestFeature])

In [37]:
labels

['flippers']

In [38]:
featureValues = [ example[bestFeature] for example in dataSet ] # 获取数据集中所有样本该特征的值
featureValues

[1, 1, 1, 0, 0]

In [39]:
uniqueValues = set(featureValues) # 将featureValues 中出现的值放入一个集合中， 不会重复放入
uniqueValues

{0, 1}

In [40]:
# 运用递归创建决策树
# 输入： dataSet：数据集， Labels: 特征标签列表
# 返回：用字典的字典存储的决策树

def createTree(dataSet, Labels):
    classList = [ example[-1] for example in dataSet ] #获取所有的 分类名称
    
    if classList.count(classList[0]) == len(classList): #如果剩下的样本全部属于同一类， 则停止继续划分， 直接返回该类
        return classList[0]
    if len(dataSet[0]) == 1: # 如果此时只剩下一个特征， 则停止继续划分， 直接返回剩余样本中占比数最大的类别
        return majorityCnt(classList)
    
    # 得到最好的划分数据集的特征
    bestFeature = chooseBestFeatureToSplit(dataSet)
    bestFeatureLabel = labels[bestFeature] 
    
    myTree = {bestFeatureLabel:{}}
    del(labels[bestFeature]) # 删除labels中已经使用过的特征
    featureValues = [ example[bestFeature] for example in dataSet ] # 获取数据集中所有样本该特征的值
    uniqueValues = set(featureValues) # 将featureValues 中出现的值放入一个集合中， 不会重复放入
    
    # myTree是一个字典的字典，在使用　bestFeatureLabel　进行划分数据集时，将值为　value　的数据集找出来，　用subLabels　再次调用本身函数
    # 则能够返回一棵 tree ，那么这棵 trre 就是 myTree 在在使用　bestFeatureLabel　进行划分数据集时，值为value时 字典对应的值
    for value in uniqueValues:
        subLabels = labels[:] # 剩余的可以用于划分数据的特征
        myTree[bestFeatureLabel][value] = createTree( splitDataSet(dataSet, bestFeature, value),subLabels)
    
    return myTree
    

In [41]:
# 测试以上函数
myDat, labels = createDataSet()
myTree = createTree(myDat, labels)
myTree

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}