# 决策树

* 决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程
* if-then规则的集合
* 定义在特征空间与类空间上的条件概率分布

决策树学习通常包括3个步骤：

1. 特征选择
1. 决策树的生成
1. 决策树的修剪

## 决策树模型与学习

### 决策树模型

内部结点表示一个特征或属性，叶结点表示一个类

### 决策树与if-then规则

1. 由决策树的根结点到叶结点的每一条路径构建一条规则
1. 路径上内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论

### 决策树与条件概率分布

* 将特征空间划分为互不相交的单元（cell）或区域（region），并在每个单元定义一个类的概率分布就构成了一个条件概率分布
* 决策树的一条路径对应于划分中的一个单元
* 决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成

### 决策树与条件概率分布

* 各叶结点（单元）上的条件概率往往偏向某一个类，即属于某一类的概率较大
* 决策树分类时将该结点的实例强行分到条件概率大的那一类去
* 当某个单元$c$的条件概率满足$P(Y = +1|X = c)>0.5$时，则认为这个单元属于正类，即落在这个单元的实例都被视为正例

### 决策树学习

1. 开始，构建根结点，将所有训练数据都放在根结点
2. 选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类
    * 如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去
    * 如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点
3. 如此递归地进行下去，直至所有训练数据子集被基本正确分类，或者没有合适的特征为止

最后每个子集都被分到叶结点上，即都有了明确的类

### 决策树学习

* 需要对已生成的树自下而上进行剪枝，将树变得更简单，从而使它具有更好的泛化能力
* 决策树学习算法包含特征选择、决策树的生成与决策树的剪枝过程

## 特征选择

### 特征选择问题

* 如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的
* 教材例5.1

##### 教材例5.1

* 希望通过所给的训练数据学习一个贷款申请的决策树，用以对未来的贷款申请进行分类
* 当新的客户提出贷款申请时，根据申请人的特征利用决策树决定是否批准贷款申请

##### 教材例5.1

直观上，如果一个特征具有更好的分类能力，或者说，按照这一特征将训练数据集分割成子集，使得各个子集在当前条件下有最好的分类，那么就更应该选择这个特征

### 信息增益

* 熵（entropy）是表示随机变量不确定性的度量
* $X$是一个取有限个值的离散随机变量
* $P(X=x_i)=p_i$
* 随机变量$X$的熵定义为

  \begin{equation*}
  H(X)=-\sum_{i=1}^n p_i\log p_i
  \end{equation*}
  
课堂提问：$0\log 0$

提示：$\lim_{x\to 0}x\log x$

### 信息增益

* 熵只依赖于$X$的分布，而与$X$的取值无关
* 所以也可将$X$的熵记作$H(p)$
* 熵越大，随机变量的不确定性就越大

  \begin{equation*}
  0\le H(p)\le \log n
  \end{equation*}
  
课堂提问：（直觉上）为什么$0\le H(p)\le \log n$

####  Jensen’s inequality

* $f$ convex
* $0\le \theta\le 1$
* $f(\theta x+(1-\theta)y)\le \theta f(x)+(1-\theta)f(y)$
*  
<center><img src="img/convex.png" width="50%"></center>

课堂提问：不等式和图之间的联系

####  Jensen’s inequality

* $\theta_1,\dotsc,\theta_k\ge 0$, $\theta_1+\dotsb+\theta_k=1$
* 
  \begin{equation*}
  f(\theta_1x_1+\dotsb+\theta_kx_k)\le \theta_1f(x_1)+\dotsb+\theta_kf(x_k)
  \end{equation*}
  
* 
  \begin{equation*}
  \sqrt{ab}\le \frac{a+b}{2}
  \end{equation*}

* 
  \begin{equation*}
  -\log\Bigl(\frac{a+b}{2}\Bigr)\le \frac{-\log a-\log b}{2}
  \end{equation*}
  
课堂提问：如何从$k=2$扩展到$k=3$，提示

$$
f(\theta_1x_1+\theta_2x_2+\theta_3x_3)=f\Bigl((1-\theta_3)\frac{1}{1-\theta_3}(\theta_1x_1+\theta_2x_2)+\theta_3x_3\Bigr)
$$
  
课堂提问：后两个不等式
  
课堂提问：（数学上）为什么$0\le H(p)\le \log n$

课堂提问：当随机变量只取两个值

### 信息增益

* 联合概率分布$P(X=x_i,Y=y_j)=p_{ij}$
* 条件熵$H(Y|X)$表示在已知随机变量$X$的条件下随机变量$Y$的不确定性
* 
  \begin{equation*}
  H(Y|X)=\sum_{i=1}^n p_iH(Y|X=x_i)
  \end{equation*}

### 信息增益

* 信息增益（information gain）表示得知特征$X$的信息而使得类$Y$的信息的不确定性减少的程度
* 
  \begin{equation*}
  g(D,A)=H(D)-H(D|A)
  \end{equation*}

* 一般地，熵$H(Y)$与条件熵$H(Y|X)$之差称为互信息（mutual information）

### 信息增益

* $H(Y)-H(Y|X)\ge 0$
* 
  \begin{align}
  H(Y)-H(Y|X)&=-\sum_y p(y)\log p(y)+\sum_{x,y}p(x)p(y|x)\log p(y|x)\\
  &=-\sum_{x,y}p(x,y)\log p(y)+\sum_{x,y}p(x,y)\log p(y|x)\\
  &=\sum_{x,y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)}\\
  &=D_\mathrm{KL}(P(X,Y)\|P(X)P(Y))
  \end{align}
  
* 
  \begin{align}
  \sum_i p_i\log\frac{q_i}{p_i}&\le\log\sum_i p_i\frac{q_i}{p_i}\\
  &=\log\sum_i q_i=\log 1=0
  \end{align}

### 信息增益

* 对于数据集$D$而言，信息增益依赖于特征，不同的特征往往具有不同的信息增益
* 信息增益大的特征具有更强的分类能力
* 根据信息增益准则的特征选择方法是：对训练数据集（或子集）$D$,计算其每个特征的信息增益，并比较它们的大小，选择信息增益最大的特征

### 信息增益

* 设有$K$个类$C_k$
* $\sum_{k=1}^K|C_k|=|D|$
* 设特征$A$有$n$个不同的取值$\{a_1,a_2,\dotsc,a_n\}$
* 根据特征$A$的取值将$D$分为$n$个子集$D_1,D_2,\dotsc,D_n$
* 记子集$D_i$中属于类$C_k$的样本的集合为$D_{ik}$

#### 信息增益的算法

1. 计算数据集$D$的经验熵$H(D)$

   \begin{equation*}
   H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}\log\frac{|C_k|}{|D|}
   \end{equation*}

1. 计算特征$A$对数据集$D$的经验条件熵$H(D|A)$

   \begin{equation*}
   H(D|A)=\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}\log\frac{|D_{ik}|}{|D_i|}
   \end{equation*}
   
1. 计算信息增益

   \begin{equation*}
   g(D,A)=H(D)-H(D|A)
   \end{equation*}
   
课堂提问：公式中各个项的含义

#### 信息增益的算法

教材例5.2

课堂提问：板书计算表达式（示范之后）

### 信息增益比

* 在分类问题困难时，也就是说在训练数据集的经验熵大的时候，信息增益值会偏大
* 反之，信息增益值会偏小
* 信息增益比（information gain ratio）

  \begin{equation*}
  g_R(D,A)=\frac{g(D,A)}{H(D)}
  \end{equation*}

## 决策树的生成

### ID3算法

1. 从根结点（root node）开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点
1. 再对子结点递归地调用以上方法，构建决策树
1. 直到所有特征的信息增益均很小或没有特征可以选择为止
1. 最后得到一个决策树

#### ID3算法

1. 若$D$中所有实例属于同一类$C_k$，则$T$为单结点树，返回$T$
1. 若$A=\emptyset$，则$T$为单结点树，并将$D$中实例数最大的类$C_k$作为该结点的类标记，返回$T$
1. 否则，计算$A$中各特征对$D$的信息增益，选择信息增益最大的特征$A_g$
    * 如果$A_g$的信息增益小于阈值$\epsilon$，则$T$为单结点树，并将$D$中实例数最大的类$C_k$作为该结点的类标记，返回$T$
    * 否则，依$A_g=a_i$将$D$分割为若干非空子集$D_i$，递归地构建子树（训练集：$D_i$，特征集：$A-\{A_g\}$）
    
教材例5.3

#### C4.5生成算法

C4.5在生成的过程中，用信息增益比来选择特征

## 决策树的剪枝

* 过拟合的原因在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树
* 解决这个问题的办法是考虑决策树的复杂度，对已生成的决策树进行简化


## 决策树的剪枝

* 设树$T$的叶结点个数为$|T|$，$t$是树$T$的叶结点，该叶结点有$N_t$个样本点，其中$k$类的样本点有$N_{ik}$个，$H_t(T)$为叶结点$t$上的经验熵，$\alpha\ge 0$为参数
* 决策树学习的损失函数可以定义为

  \begin{align*}
  C_\alpha(T)&=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha |T|\\
  H_t(T)&=-\sum_k\frac{N_{tk}}{N_t}\log\frac{N_{tk}}{N_t}
  \end{align*}

## 决策树的剪枝

* 
  \begin{equation*}
  C(T)=\sum_{t=1}^{|T|}N_tH_t(T)
  \end{equation*}

* 
  \begin{equation*}
  C_\alpha(T)=C(T)+\alpha|T|
  \end{equation*}
  
* $C(T)$表示模型对训练数据的预测误差，即模型与训练数据的拟合程度
* $|T|$表示模型复杂度
* 参数$\alpha\ge 0$控制两者之间的影响：
    * 较大的$\alpha$促使选择较简单的模型（树）
    * 较小的$\alpha$促使选择较复杂的模型（树）

## 决策树的剪枝

* 决策树生成只考虑了通过提高信息增益（或信息增益比）对训练数据进行更好的拟合
* 而决策树剪枝通过优化损失函数还考虑了减小模型复杂度
* 决策树生成学习局部的模型，而决策树剪枝学习整体的模型

## 决策树的剪枝

设一组叶结点回缩到其父结点之前与之后的整体树分别为$T_B$与$T_A$，其对应的损失函数值分别是$C_\alpha(T_B)$与$C_\alpha(T_A)$，如果
$$
C_\alpha(T_A)\le C_\alpha(T_B)
$$
则进行剪枝，即将父结点变为新的叶结点

