# 决策树算法（Decision Tree）

## 概述
决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来作预测。
> **优点**：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不想管特征数据  
> **缺点**：可能会产生过拟合问题  
> **使用数据类型**：数值型和标称型  

相较于KNN，决策树的主要优势在于数据形式非常容易理解

## 算法流程
1. 收集数据：可以使用任何方法
2. 准备数据：树构造算法值适用于标称型数据，因此数值型数据必须离散化
3. 分析数据：可以使用任何方法，构造树完成之后，我们应该检查图形是否符合预期
4. 训练算法：构造树的数据结构
5. 测试算法：使用经验树计算错误率
6. 使用算法：此步骤可以适用于任何监督学习算法，而使用决策树可以更好的理解数据的内在含义

## 信息增益（information gain)
划分数据集的大原则是，将无序的数据变得更加有序。我们可以有多种方法划分数据集，但是每种方法都有各自的优缺点。  
在划分数据集之前之后信息发生的变化称为信息增益，获得信息增益最高的特征就是最好的选择。

## 熵（entropy）
集合信息的度量方式称为香农熵或简称熵，这个名字来源于信息论之父克劳德·香农。
熵定义为信息的期望值。如果待分类的事物可能划分在多个分类之中，则符号$x_i$的信息定义为
$$l(x_i)=-log_2p(x_i)$$
$p(x_i)$是选择该分类的概率。
为了计算熵，需要计算所有类别所有可能值包含的信息期望值，公式如下
$$H=-\sum_{i=1}^np(x_i)log_2p(x_i)$$
$n$是分类的数目

In [17]:
from math import log

def calcShannonEnt(dataSet):
    '''
    计算给定数据集的熵
    '''
    # 获取数据集示例数量
    numEntries = len(dataSet)
    # 构造分类标签字典
    labelCounts = {}
    
    # 遍历数据集，获取分类标签数量
    for featVec in dataSet:
        curLable = featVec[-1]
        if curLable not in labelCounts.keys():
            labelCounts[curLable] = 0
        labelCounts[curLable] += 1
    # 遍历分类标签，计算熵
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob, 2)
    
    return shannonEnt

海洋生物数据，如下

||不浮出水面是否可以生存|是否有脚蹼|属于鱼类|
|--|--|--|--|
|1|是|是|是|
|2|是|是|是|
|3|是|否|否|
|4|否|是|否|
|5|否|是|否|


根据海洋生物数据构造数据集

In [3]:
def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels

计算数据集的熵

In [47]:
dataSet, labels = createDataSet()
calcShannonEnt(dataSet)

0.9709505944546686

熵越大，则代表混合的数据越多。

In [19]:
dataSet[0][-1]='maybe' # 增加一个新的分类maybe
calcShannonEnt(dataSet)

1.3709505944546687

分类增加，导致熵变大。

## 划分数据集
分类算法除了需要测量数据集的无序程度，还需要划分数据集，度量划分数据集的无序程度，以便判断当前划分是否正确。

In [31]:
def splitDataSet(dataSet, axis, value):
    '''
    按照给定特征划分数据集
    param dataSet: 待划分的数据集
    param axis: 划分数据集的特征
    param value: 需要返回的特征的值
    '''
    retDataSet = []
    # 遍历数据集，返回给定特征等于特定值的示例集
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

例如我们要以特征“不浮出水面是否可以生存”进行划分，然后返回可以生存的示例

In [32]:
splitDataSet(dataSet, 0, 1)

[[1, 'maybe'], [1, 'yes'], [0, 'no']]

现在需要通过计算熵，找到最好的划分数据的方式

In [49]:
def chooseBestFeatureToSplit(dataSet):
    '''
    选择最好的数据划分方式
    '''
    # 特征值数量
    numFeatures = len(dataSet[0]) - 1
    # 数据集划分前的熵
    baseEntropy = calcShannonEnt(dataSet)
    # 最优的信息增益
    bestInfoGain = 0.0
    # 最优的数据划分特征
    bestFeature = -1
    
    # 遍历特征，对每个特征进行数据划分，找到最优信息增益的特征
    for i in range(numFeatures):
        # 创建唯一的特征值列表
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)
        # 数据划分后的熵
        newEntropy = 0.0
        
        # 按照指定特征进行数据划分，并计算数据划分后的熵
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
        
        # 找到最优信息增益所对应的特征值
        infoGain = baseEntropy - newEntropy
        if(infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    
    return bestFeature

用海洋生物数据进行测试，发现第一次最优的数据划分特征是“不浮出水面是否可以生存”

In [50]:
chooseBestFeatureToSplit(dataSet)

0

## 递归构造决策树
由于特征值可能不止一个，因此存在大于两个分支的数据集划分。划分一次后，数据将被向下传递到树分支节点，进行再次划分。因此可以采用递归的原则处理数据。  
伪代码如下：  

if 类别相同  
&emsp;&emsp;return 该类别  
elif　遍历完所有特征  
&emsp;&emsp;return 返回数量最多的类别  
elif  
&emsp;&emsp;寻找划分数据的最好特征  
&emsp;&emsp;划分数据集  
&emsp;&emsp;创建分支节点  
&emsp;&emsp;for 每个划分的子集  
&emsp;&emsp;&emsp;&emsp;调用函数createTree并增加返回结果到分支节点中  
&emsp;&emsp;return 分支节点  

In [61]:
import operator

def majorityCnt(classList):
    '''
    获取次数最多的分类名称
    '''
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    
    sortedClassCount = sorted(classCount.iteritems(),
                             key=operator.itemgetter(1),
                             reversed=True)
    return sortedClassCount[0][0]

def createTree(dataSet, labels):
    # 数据集的所有分类
    classList = [example[-1] for example in dataSet]
    # 类别完全相同则停止划分
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    # 遍历完所有特征时返回次数最多的类别
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    
    # 选择数据划分最优特征并构建树
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    
    # 划分数据集，创建分支节点，并递归分支节点
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(
            splitDataSet(dataSet, bestFeat, value), subLabels)
        
    return myTree

用海洋生物数据集进行测试。可以发现返回值是一个嵌套的字典类型。如果字典的值是数据字典，代表这是一个分支节点；如果字典的值是一个特定值，那么代表这是一个叶节点。

In [63]:
dataSet, labels = createDataSet()
createTree(dataSet, labels)

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}