# <center>Decision Tree 决策树</center>
使用概率测量方法处理分类问题


分类系统：
* decision block 判断模块    长方形
* terminating block  终止模块  得出的结论  椭圆
* branch 分支  左右箭头
![1.png](1.png)
（专家系统）

决策树的原理： __通过推断分解，逐步缩小待猜测实物的范围。__

决策树的一个重要任务是为了理解数据中所蕴含的知识信息。
 
* 优势：计算复杂度不高，输出结果易于理解，对中间值得缺失不敏感，可以处理不相关特征数据
* 缺点：可能会产生过度匹配的问题
* 适用数据类型：数值型和标称型



##  3.1 决策树的构造

##   信息论划分数据集
### 问题1：当前数据集的哪些特征在划分数据类型起决定性作用？
     方法：评估每个特征
     

### 3.1.1 信息增益
__含义：在划分数据集之间之后信息发生的变化称为*信息增益*__

__The change in information before and after the split is known as the *information gain*.__

获得信息增益最高的特征就是最好的选择。

#### 计算信息增益
集合信息的度量方式称为__香农熵__ 或者简称为 __熵__  (信息论之父劳克德.香农)
* 熵 entrop 

  定义：信息的期望
  __信息__：

如果待分类的事务可能划分在多个分类之中，则符号$x_i$的信息定义为:
    $$ l(x_i) = -\log_{2}{p(x_i)} $$
其中$p(x_i)$是该选择分类的概率

所有类别所有可能值包含的信息期望值：$$p(x_i) =\frac{x_i}{n}$$

## 熵的计算公式：

$$ H = -\sum_{i=1}^{n}{p(x_i)\log_{2}{p(x_i)}}$$
n为分类的数目

### 计算香农熵代码：

In [8]:
import tree
import treePlotter

In [7]:
def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']
    #change to discrete values
    return dataSet, labels

myDat, labels1 = createDataSet()
print(myDat)

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]


In [9]:
tree.calcShannonEnt(myDat) #计算香农熵

0.9709505944546686

__信息熵越高，则混合的数据越多__

In [10]:
myDat[0][-1] = 'maybe' #二维数组嘛~~

In [11]:
myDat

[[1, 1, 'maybe'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [12]:
tree.calcShannonEnt(myDat)

1.3709505944546687

In [13]:
myDat[0][-1] = 'no'
myDat[1][-1] = 'no'

In [14]:
myDat

[[1, 1, 'no'], [1, 1, 'no'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [15]:
tree.calcShannonEnt(myDat)

0.0

__以上实验可以看出，当数据中不存在异类时，信息熵为0（即数据的混乱度无零）__

### 3.1.2 划分数据集

* 信息增益 information gain 熵的减少或者数据无序度的减少

### 数据划分思路：对每个特征划分数据集的结果计算一次信息熵，然后判断按照哪个特征划分数据是最好的划分方法。

#### 3-2 按照给定特征划分数据集

In [17]:
myDat,labeks = createDataSet()
myDat
import tree
tree.splitDataSet(myDat,0,1)

[[1, 'yes'], [1, 'yes'], [0, 'no']]

In [16]:
tree.splitDataSet(myDat,0,0)

[[1, 'no'], [1, 'no']]

#### 3-3 选择最好的数据划分方式
循环计算香农熵和splitDataSet()函数，找到最好的特征划分方式。

__熵计算__将会告诉我们如何划分__数据集是最好的数据组织方式__

In [18]:
mayDat,labels = createDataSet()

In [19]:
tree.chooseBestFeatureToSplit_ID3(myDat)

0

In [20]:
myDat

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [21]:
tree.chooseBestFeatureToSplit_C45(myDat)

0

In [34]:
myDat

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [22]:
tree.chooseBestFeature_CART(myDat)

0

In [35]:
myDat

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

0的含义是 数据集按照第一个特征属性进行划分。也就是说第一个特征是1的放在一组，第一个特征是0的放在一组。

### 3.1.3 递归构建决策树

工作原理：得到原始数据集，然后基于最好的属性划分进行数据分类。第一次划分完之后，数据将被向下传递到树的分支的下一个节点。在这个节点上，我们可以再次划分数据。采用递归的方法。

递归结束条件：程序遍历完所有划分数据的属性。或者每个分支下的所有势力都具有相同的分类。

如果属性都使用完了：但标签还不唯一，就采用__多数表决__的方法决定该叶子节点的分类。

#### 3-4 创建树的函数代码

In [23]:
myDat,labels = createDataSet()

In [24]:
myDat

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [25]:
labels

['no surfacing', 'flippers']

In [26]:
myDat,labels = createDataSet()
myTree = tree.createTree_ID3(myDat,labels)

此时最优索引为：no surfacing
此时最优索引为：flippers


In [27]:
myTree

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

In [28]:
treePlotter.createPlot(myTree)

In [29]:
myDat,labels = createDataSet()
myTree1 = tree.createTree_C45(myDat,labels)

此时最优索引为：no surfacing
此时最优索引为：flippers


In [30]:
myTree1

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

In [38]:
treePlotter.createPlot(myTree1)

In [32]:
myDat,labels = createDataSet()
myTree2 = tree.createTree_CART(myDat,labels)

此时最优索引为：no surfacing
此时最优索引为：flippers


In [33]:
myTree2

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

In [6]:
treePlotter.createPlot(myTree2)

NameError: name 'treePlotter' is not defined

In [7]:
import tree
import treePlotter
def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']
    #change to discrete values
    return dataSet, labels

In [8]:
testfile = 'testset.txt'
myDat,labels = createDataSet()
myTree3=tree.ID3_createTree(myDat,labels,testfile)
treePlotter.createPlot(myTree3)

此时最优索引为：no surfacing


ZeroDivisionError: division by zero

### 3.2.2 构造注解树
知道有多少叶节点，确定x轴的长度   getNumLeafs(myTree):

知道树有多少层，确定y轴的高度    getTreeDepth(myTree):

In [None]:
x = treePlotter.getNumLeafs(myTree)

In [None]:
x

In [None]:
y = treePlotter.getTreeDepth(myTree)

In [None]:
y

In [None]:
treePlotter.createPlot(myTree)

## 3.3测试和储存分类器

## 3.4示例：使用决策树预测隐形眼镜的类型