# 决策树的构造  
决策树的一般流程  
(1) 收集数据:可以使用任何方法。  
(2) 准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。  
(3) 分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期。  
(4) 训练算法:构造树的数据结构。  
(5) 测试算法:使用经验树计算错误率。  
(6) 使用算法:此步骤可以适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义。  
创建分支的伪代码函数 createBranch() 如下所示:  
检测数据集中的每个子项是否属于同一分类:  
&emsp;If so return 类标签;  
&emsp;Else  
&emsp;&emsp;寻找划分数据集的最好特征  
&emsp;&emsp;划分数据集  
&emsp;&emsp;创建分支节点  
&emsp;&emsp;for 每个划分的子集  
&emsp;&emsp;&emsp;调用函数 createBranch 并增加返回结果到分支节点中  
&emsp;&emsp;return 分支节点

 


## 信息增益  
&emsp;&emsp;划分数据集的大原则是:将无序的数据变得更加有序。  
&emsp;&emsp;在划分数据集之前之后信息发生的变化称为信息增益,知道如何计算信息增益,我们就可以计算每个特征值划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择。  
&emsp;&emsp;集合信息的度量方式称为香农熵或者简称为熵,熵定义为信息的期望值。  
如果待分类的事务可能划分在多个分类之中,则符号x i 的信息定义为  
$$l(x_i)=-log_2p(x_i)$$  
其中$p(x_i)$是选择该分类的概率。  
为了计算熵,我们需要计算所有类别所有可能值包含的信息期望值,通过下面的公式得到:  
$$H=-\sum_{i=1}^n p(x_i)log_2p(x_i)$$  
其中n是分类的数目。 

### 计算给定数据集的香农熵:  
&emsp;&emsp;首先,计算数据集中实例的总数。我们也可以在需要时再计算这个值,但是由于代码中多次用到这个值,为了提高代码效率,我们显式地声明一个变量保存实例总数。然后,创建一个数据字典,它的键值是最后一列的数值 。如果当前键值不存在,则扩展字典并将当前键值加入字典。每个键值都记录了当前类别出现的次数。最后,使用所有类标签的发生频率计算类别出现的概率。我们将用这个概率计算香农熵 ,统计所有类标签发生的次数。

In [1]:
# 计算给定数据集的香农熵
from math import log


def calcShannonEnt(dataSet):
    numEntries = len(dataSet)  # 计算数据集中实例的总数
    labelCounts = {}           # 创建一个数据字典,它的键值是最后一列的数值
    for featVec in dataSet:
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0  # 如果当前键值不存在,则扩展字典并将当前键值加入字典
        labelCounts[currentLabel] += 1  # 每个键值都记录了当前类别出现的次数
    shannonEnt = 0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries  # 使用所有类标签的发生频率计算类别出现的概率
        shannonEnt -= prob*log(prob, 2)  # 计算香农熵
    return shannonEnt

$$表3-1海洋生物数据$$  

| |不浮出水面是否可以生存 |是否有脚蹼 |属于鱼类|  
|:-:|:-:|:-:|:-:|  
|1 |是 |是 |是 |  
|2 |是 |是 |是 |  
|3 |是 |否 |否 | 
|4 |否 |是 |否 | 
|5 |否 |是 |否 |   


## 创建简单鱼鉴定数据集  
利用createDataSet()函数得到表3-1所示的简单鱼鉴定数据集

In [2]:
def creatDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacting', 'flippers']
    return dataSet, labels
myDat,labels = creatDataSet()
myDat

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [3]:
calcShannonEnt(myDat)

0.9709505944546686

In [4]:
dataSet = myDat
numEntries = len(dataSet)  # 计算数据集中实例的总数
labelCounts = {}           # 创建一个数据字典,它的键值是最后一列的数值
for featVec in dataSet:
    currentLabel = featVec[-1]
    if currentLabel not in labelCounts.keys():
        labelCounts[currentLabel] = 0  # 如果当前键值不存在,则扩展字典并将当前键值加入字典
    labelCounts[currentLabel] += 1  # 每个键值都记录了当前类别出现的次数
shannonEnt = 0
for key in labelCounts:
    prob = float(labelCounts[key])/numEntries  # 使用所有类标签的发生频率计算类别出现的概率
    shannonEnt -= prob*log(prob, 2)  # 计算香农熵

## 划分数据集

In [5]:
def splitDataSet(dataSet, axis, value):
    retDataSet = []  # 为了不修改原始数据集,创建一个新的列表对象
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

In [6]:
# append与extend区别
# 假定存在两个列表，a，b
a = [1,2,3]
b = [4,5,6]
a.append(b) #列表得到了第四个元素,而且第四个元素也是一个列表
print(a)
a = [1,2,3]
a.extend(b) #得到一个包含a和b所有元素的列表
print(a)

[1, 2, 3, [4, 5, 6]]
[1, 2, 3, 4, 5, 6]


In [7]:
#简单样本数据上测试函数 splitDataSet()
print(myDat)
print(splitDataSet(myDat,0,1))
print(splitDataSet(myDat,0,0))

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
[[1, 'yes'], [1, 'yes'], [0, 'no']]
[[1, 'no'], [1, 'no']]


In [8]:
# 选择最好的数据集划分方式
def chooseBestFeatureToSplit(dataSet):
    """
    在函数中调用的数据需要满足一定的要求:
    1、数据必须是一种由列表元素组成的列表,而且所有的列表元素都要具有相同的数据长度;
    2、数据的最后一列或者每个实例的最后一个元素是当前实例的类别标签。
    """
    numFeatures = len(dataSet[0])-1  # 判定当前数据集包含多少特征属性
    # 计算了整个数据集的原始香农熵,我们保存最初的无序度量值,用于与划分完之后的数据集计算的熵值进行比较。
    baseEntroy = calcShannonEnt(dataSet)
    bestInfGain = 0.0
    bestFeature = -1
    for i in range(numFeatures):  # 遍历数据集中的所有特征
        # 使用列表推导(List Comprehension)来创建新的列表,将数据集中所有第i个特征值或者所有可能存在的值写入这个新list中
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList) #从列表中创建集合是Python语言得到列表中唯一元素值的最快方法。
        newEntroy = 0.0
        for value in uniqueVals: #遍历当前特征中的所有唯一属性值,对每个特征划分一次数据集
            subDataSet = splitDataSet(dataSet,i,value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntroy += prob * calcShannonEnt(subDataSet)
        infoGain = baseEntroy - newEntroy
        if(infoGain > bestInfGain):
            bestInfGain = infoGain
            bestFeature = i
    return bestFeature

In [9]:
chooseBestFeatureToSplit(myDat)

0