# 决策树的例子

https://www.cnblogs.com/yonghao/p/5061873.html

银行希望能够通过一个人的信息（包括职业、年龄、收入、学历）去判断他是否有贷款的意向，从而更有针对性地完成工作。下表是银行现在能够掌握的信息，我们的目标是通过对下面的数据进行分析建立一个预测用户贷款一下的模型。

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

# 同数据不同的决策树
(摘自《机器学习导论》)

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)


![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

<font color='purple' size=6> 哪一种决策树解释性更好？ </font>

<font color='red' size=6> 个头小的树。 </font>

<font color='purple' size=6> 个头大，有很多判断的树会怎么样？ </font>

# 从信息论得到的帮助，二值化情形
用信息量来帮助生成好的决策树。

## 信息量
一条信息的信息量：
$$ I_+ = - log_2 p_+ = log_2 \frac{1}{p_+}$$ 
信息量以比特为单位（bit）。

设$T$为训练集，其平均信息量（熵）为：
$$ H(T) = - p_+ log_2 p_+ - p_- log_2 p_-  $$
这里的概率$p_+$好$p_-$用正负样本数算出来，即$\frac{N_+}{N}$和$\frac{N_-}{N}$。

## 属性子集的信息量
用$a$表示的属性。训练集$T$被$a$划分为${T_i}$的子集。

根据子集里的正负样本数，可以算出其平均信息量为
$$ H(T_i) = - p_{i+} log_2 p_{i+} - p_{i-} log_2 p_{i-}  $$

令$|A|$表示集合$A$的样本数，则抽取的样本在$T_i$中的概率为：
$$ P_i = \frac{|T_i|}{|T|}$$
子集划分的平均信息量为：
$$ H(T, a) = \sum_i P_i \cdot H(T_i) $$

引入属性$a$分类前后，平均信息量之差为
$$ I(T, a) = H(T) - H(T, a) $$

计算引入不同的属性$a$，挑选出$ I(T, a)$最大的那个作为决策树的划分属性
$$ max\{I(T,a)\}$$
递归使用此法，进一步得打下一级的划分。

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

# 剪枝应对测试集的噪声
https://blog.csdn.net/am290333566/article/details/81187562

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

## 剪枝前
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

## 某种剪枝后
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

## 剪枝带来的误差
https://blog.csdn.net/u012328159/article/details/79285214

未剪枝
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)


![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

## 剪枝的控制

理想的决策树：
* 叶子节点数少
* 叶子节点深度小

剪枝参数
* 节点中数据点的最小数目
* 错误率
* 树的最大深度
* 叶节点的最大数目

# 连续数据情形

设$x$是连续属性，取一个的$\theta$，根据是否满足$x<\theta$把数据分为True（正）、False（反）二值。

$\theta$怎么取才合适？按信息量来取！

把样本数据拿来，得到一系列$x$的值，把它们从小到大排列为$x_i$，定义
$$\theta_i = \frac{x_i + x_{i+1}}{2}$$
对于每个$\theta_i$去计算信息量，取信息量最大的那个$\theta_i$。

当$\theta_i$的个数太多时，计算量大。有一个数学的结果表明可以只计算少量的值就可以了，其规则是：最佳阈值只能在分类类别交错时产生。例子如下：

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

# 例子

《python机器学习基础教程》

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

# 练习题


## 画出买房的决策树
数据为

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)
把年龄分为20-29，30-39，40+三个挡，把收入分为10-19，20-39，40+三个级别。

用信息量的方法画出其是否买房的决策树。

## 编程实现上题中的决策树