# Decision Tree

决策树
> 优点：计算复杂度不高，输出结果易于理解，对中间值缺失不敏感，可以处理不相关特征数据。<br>
> 缺点：可能会产生过拟合问题。<br>
> 适用数据类型：数值型和标称型。

决策树的一般流程
> 1. 收集数据<br>
> 2. 准备数据：树构造算法只适用于标称型数据，所以数值型数据需要离散化。<br>
> 3. 分析数据：可以使用任何方法，构造树完成后，应该检查图形是否符合预期。<br>
> 4. 训练算法：构造树的数据结构。<br>
> 5. 测试算法：使用验证集计算错误率。<br>
> 6. 使用算法

## 1. 信息熵
信息熵：$$H=-\sum_{i=1}^{n}p(x_i)\log_2{p}(x_i)$$
计算信息熵

In [53]:
import numpy as np
from math import log
import matplotlib.pyplot as plt
import pandas as pd
import operator
import collections

In [30]:
def calcShannonEnt(dataSet):
    """Calculate Shannon entropy
    
    Returns
    -----------
    shannonEnt
    """
    
    # 将数据转化为numpy数组
    dataSet = np.array(dataSet)
    numEntries = dataSet.shape[0]
    
    # 使用unique方法获得不同的标签
    labelCounts = np.unique(dataSet[:, -1])
    
    shannonEnt = 0.0
    for key in labelCounts:
        # 计算dataSet中所有值为key的样本个数
        numKey = np.sum(dataSet[:, -1] == key)
        prob = numKey / numEntries
        shannonEnt -= prob * log(prob, 2)
        
    
#     # 计算数据集长度
#     numEntries = len(dataSet)
    
#     # 计算分类标签的出现次数
#     labelCounts = {}
#     for featVec in dataSet:
        
#         # 获取当前条目的标签
#         currentLabel = featVec[-1]
#         # 为所有可能的分类创建键值，如果当前键值不存在，则加入到字典。
#         # 每个键值记录了当前类别出现的次数
#         if currentLabel not in labelCounts.keys():
#             labelCounts[currentLabel] = 0
#         labelCounts[currentLabel] += 1
        
#         # 对于label的占比，求出当前label的信息熵
#         shannonEnt = 0.0
#         for key in labelCounts:
#             prob = float(labelCounts[key]) / numEntries
#             shannonEnt -= prob * log(prob, 2)
    return shannonEnt

测试信息熵计算函数

In [31]:
def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels

In [45]:
myDat, labels = createDataSet()
calcShannonEnt(myDat)

0.9709505944546686

## 2. 划分数据集

splitDataSet的功能是当我们按照某个特征划分数据集时，将所有符合要求的样本抽取出来。并且将特征从样本中剔除，从而可以进行下一步的特征提取。提取dataSet中所有值为value的第index个特征值。

In [43]:
def splitDataSet(dataSet, index, value):
    """Split DataSet with index.
    
    Parameters
    -----------
    dataSet : Data for split.
    index : Feature index of dataSet.
    value : Feature value.
    
    Returns
    -----------
    index
    
    """
    
#     dataSet = np.array(dataSet)
    
#     valueArr = dataSet[dataSet[:, index] == str(value)]
#     retDataSet = np.delete(valueArr, index, axis=1)
    
    retDataSet = []
    for featVec in dataSet:
        
        if featVec[index] == value:
            reducedFeatVec = featVec[:index]
            
            reducedFeatVec.extend(featVec[index+1:])
            retDataSet.append(reducedFeatVec)
            
    return retDataSet

In [44]:
splitDataSet(myDat, 0, 0)

[[1, 'no'], [1, 'no']]

下面将遍历整个数据集，循环计算信息熵和splitDataSet函数，找到最好的特征划分。

In [48]:
def chooseBestFeatureToSplit(dataSet):
    """
    Returns
    ---------
    bestFeature : The best feature of dataset spliting.
    
    """
    
    # 这里dataSet为二维数组，并不是numpy数组。
    numFeatures = len(dataSet[0]) - 1
    
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain, bestFeature = 0.0, -1
    
    # 遍历所有的特征。
    for i in range(numFeatures):
        # 获取每个输入的第i+1个特征
        featList = [example[i] for example in dataSet]
        # 这一步去除重复项后就得到了特征所有可能的值。
        uniqueVals = set(featList)
        
        newEntropy = 0.0
        
        for value in uniqueVals:
            # 获取第i个特征中值为value的子集
            subDataSet = splitDataSet(dataSet, i, value)
            
            prob = len(subDataSet) / float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
            
        infoGain = baseEntropy - newEntropy
        if (infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    
    return bestFeature

In [49]:
chooseBestFeatureToSplit(myDat)

0

## 3. 递归构建决策树
递归结束的条件：程序遍历完所有划分数据集的属性，或者分支下的所有实例都具有相同的分类，如果所有实例具有相同的分类则得到一个叶子结点。

In [54]:
def majorityCnt(classList):
    """
    Parameters
    -----------
    classList : label
    
    Returns
    -----------
    bestFeature : best feature list
    
    """
    
#     classCount = {}
#     for vote in classList:
#         if vote not in classCount.keys():
#             classCount[vote] = 0
#         classCount[vote] += 1
        
#     sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse=True)
#     return sortedClassCount[0][0]
    
    majorLabel = collections.Counter(classList).most_common(1)[0]
    return majorLabel

In [None]:
def createTree(dataSet, labels):
    classList = []