## 决策树

- 优点： 计算复杂度不高，输出结果易于理解，对中间值得缺失不敏感， 可以处理不相关特征数据。
- 缺点： 可能会产生过度匹配问题。
- 适用数据类型： 数值型和标称型。

### 决策树的一般流程
- 收集数据： 可以使用人和方法
- 准备数据： 树构造算法只适用于标称型数据，因此数值型数据必须离散化
- 分析数据： 可以使用人和方法，构造树完成之后，我们应该检查图形是否符合预期。
- 训练算法： 构造树得数据结构
- 测试算法： 是用经验树计算错误率
- 是用算法： 此步骤适用于任何监督学习算法， 而使用决策树可以更好得理解数据得内在含义。

PS：在我过往的概念里，决策树是二分法的代表，一路if-else出最后的结果（当然代码不能这么冗杂）

### 信息增益
香农熵或者信息熵。

信息得定义为 $I(x_i) = -log_2p(x_i)$,其中$p(x_i)$是该分类得概率

信息熵为所有类别所包含得信息得期望值，公式为 :  $H = -\sum_{i=1}^{n}p(x_i)log_2p(x_i)$

In [12]:
# 计算香农熵
from math import log

def calcShannoEnt(dataSet):
    numEntries = len(dataSet)  # 信息量
    labelCounts = {} # 分类字典
    for featVec in dataSet:
        currentLabel = featVec[-1] # 提取标签
        if currentLabel not in labelCounts.keys(): # 这个地方如果用in dict 而不是in dict.keys()会更快一点
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0 # 初始化 H
    for key in labelCounts:
        prob = float(labelCounts[key] / numEntries)
        shannonEnt -= prob * log(prob, 2) # 期望
        
    return shannonEnt

In [16]:
# 创造数据集
def creatDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels

In [17]:
myDat, labels = creatDataSet()

In [18]:
calcShannoEnt(myDat)

0.9709505944546686

In [19]:
myDat[0][-1] = 'maybe'
myDat

[[1, 1, 'maybe'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [20]:
calcShannoEnt(myDat)

1.3709505944546687

In [21]:
# 划分数据集
def splitDataSet(dataSet, axis, value):
    """paras:
    dataSet: 准备划分得数据集
    axis: 划分数据集得特征所在维度
    value: 特征的返回值
    """
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVac = featVec[:axis]
            reducedFeatVac.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVac)
    return retDataSet

In [22]:
splitDataSet(myDat, 1, 1)

[[1, 'maybe'], [1, 'yes'], [0, 'no'], [0, 'no']]

In [None]:
# 选择最好的划分方式
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1
    baseEntropy = calcShannoEnt(dataSet) # 基线信息熵
    bestInforGain = 0.0  # 初始化信息增益
    bestFeature = -1 # 初始化最好得划分特征
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet)) # 子数据集包含信息的百分比
            newEntropy += prob * calcShannoEnt(subDataSet) # 子数据集所包含得信息熵
        infoGain = baseEntropy - newEntropy # 计算信息增益
        if (infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

In [24]:
list1 = [1, 5, 6, 3, 7]

In [25]:
sorted(list1, reverse=True)

[7, 6, 5, 3, 1]

In [26]:
import operator

In [27]:
key = operator.itemgetter(1)

In [28]:
key

operator.itemgetter(1)

In [31]:
my_d['three'] = 3
my_d

{'one': 1, 'three': 3, 'tow': 2}

In [33]:
sorted(my_d.items(), key=operator.itemgetter(1), reverse=True)

[('three', 3), ('tow', 2), ('one', 1)]

In [34]:
import numpy as np

In [37]:
a = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [1, 2, 3]]])

In [38]:
a.shape

(2, 2, 3)

In [39]:
a

array([[[1, 2, 3],
        [4, 5, 6]],

       [[7, 8, 9],
        [1, 2, 3]]])