# Decision Tree

## 决策树模型

&emsp; 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。

&emsp; 用决策树分类，从根节点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；这时，每一个子结点对应着该特征的一个取值，如此递归地对实例进行测试并分配，直到达到叶结点，最后将实例分到叶结点的类中。

&emsp; 决策树还表示给定特征条件下类的条件概率分布，这一条件概率分布定义在特征空间的一个划分上，将特征空间划分为互不相交的单元或区域，并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应于划分中的一个单元，决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。

&emsp; 决策树学习的目标是根据给定的训练数据集构建一个决策树模型，使其能够对实例进行正确的分类。决策树的学习本质上使从训练数据集中归纳出一组分类规则，构建一个与训练数据矛盾较小的决策树，同时具备很好的泛化能力。

&emsp; 决策树学习的策略使将损失函数最小化。学习问题是从所有的可能的决策树选择出最优决策树，这是一个NP-complete问题，在现实中决策树学习算法通常采取启发式算法，近似求解。

&emsp; 决策树学习常用的算法有ID3、C4.5与CART。

## 信息增益

&emsp; 熵表示随机变量不确定性的度量，设X是一个取有限个值的离散随机变量，则随机变量X的熵定义为：

$H(X)=-\sum_{i=1}^{n}p_ilogp_i$

&emsp; 熵越大，随机变量的不确定性就越大。

&emsp; 条件熵$H(Y|X)$表示在已知随机变量X的条件下随机变量Y的不确定性，定义为X给定条件下Y的条件概率分布的熵对X的数学期望：

$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)$

&emsp; 这里，$p_i=P(X=x_i), i=1,2, \cdots, n$

&emsp; 信息增益表示特征X的信息而使得类Y的信息不确定性减少的程度。特征A对训练数据集D的信息增益$g(D, A)$，定义为：

$g(D, A)=H(D)-H(D|A)$

## 计算信息增益

&emsp; 设训练数据集为D，|D|表示其样本容量，设有K个类$C_k, k=1,2, \cdots, K$，$|C_k|$为属于类$C_k$的样本个数，设特征A有n个不同的取值，根据特征A把D划分为n个子集，$|D_i|$为$D_i$的样本个数，记子集$D_i$中属于$C_k$的样本集合为$D_{ik}$，计算信息增益：

$H(D)=-\sum_{k=1}^{K}\frac{|C_k|}{|D|}log\frac{|C_k|}{|D|}$

$H(D|A)=-\sum_{i=1}^{n}\frac{|D_i|}{|D|}H(D_i)=\sum_{i=1}^{n}\frac{|D_i|}{|D|}\sum_{k=1}^{K}\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|}$

$g(D, A)=H(D)-H(D|A)$

## 信息增益比

&emsp; 特征A对训练数据集D的信息增益比$g_R(D, A)$定义为其信息增益与训练数据集D关于特征A的熵$H_A(D)$之比，即：

$g_R(D, A)=\frac{g(D, A)}{H_A(D)}$

其中，$H_A(D)=-\sum_{i=1}^{n}\frac{|D_i|}{|D|}log\frac{|D_i|}{|D|}$。

## ID3算法

1. 若D中所有实例属于同一类$C_k$，则T为单节点树，并将类$C_k$作为该结点的类标记，返回T

2. 若$A=\emptyset$，则T为单结点树，并将D中实例数最大的类$C_k$作为该结点的类标记，返回T

3. 否则，计算A中各特征对D的信息增益，选择信息增益最大的特征$A_g$

4. 若$A_g$的信息增益小于阈值$\varepsilon$，则置T为单节点树，并将D中的实例数最大的类$C_k$作为该结点的类标记，返回T

5. 否则，对$A_g$的每一可能值$a_i$，根据$A_g=a_i$将D分割为若干个非空子集$D_i$，将$D_i$中实例最大的类进行标记，构建子结点，由结点及其子结点构成树T，返回T

6. 对第i个子结点，以$D_i$为训练集，以$A-{A_g}$为特征集，递归地调用前五步，得到子树$T_i$

## C4.5生成算法

&emsp; 与ID3算法大致相同，在生成过程中用信息增益比来选择特征。

## 决策树的剪枝

&emsp; 决策树生成算法产生的树往往对训练数据的分类很准确，但会出现过拟合现象，解决这个问题的方法是考虑决策树的复杂度，对已生成的决策树进行简化，该过程被称为剪枝。

&emsp; 剪枝往往通过极小化决策树整体的损失函数来实现，设树T的叶结点个数为|T|，t是树T的叶结点，该叶结点有$N_t$个样本点，其中k类的样本点有$N_{tk}$个，$H_t(T)$为叶结点t上的经验熵，$\alpha >= 0$为参数，则决策树学习的损失函数定义为：

$C_{\alpha}(T)=-\sum_{i=1}^{|T|}N_tH_t(T)+\alpha|T|=-\sum_{i=1}^{|T|}\sum_{k}N_{tk}log\frac{N_{tk}}{N_t}+\alpha|T|$

&emsp; 剪枝算法：

1. 计算每个结点的经验熵

2. 递归地从树的叶结点向上回缩，设一组叶结点回缩到其父结点之前与之后的整体树分别为$T_B$与$T_A$，若$C_{\alpha}(T_A)<=C_{\alpha}(T_B)$，则父结点变为新的叶结点。重复直到不能继续。

## CART算法

&emsp; 分类树与回归树(classification and regression tree, CART)模型为在给定的输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法，其假设决策树是二叉树，内部节点特征的取值为“是”和“否”。

### CART生成
#### 回归树的生成
&emsp; 一个回归树模型对应输入空间的一个划分以及在划分的单元上的输出值，可表示为

$f(x)=\sum_{m=1}^{M}c_mI(x\in R_m)$

&emsp; 当输入空间划分确定时，可以用平方误差$\sum_{x_i\in R_m}(y_i-f(x_i))^2$表示训练数据的预测误差，$c_m$的最优值即$\hat{c_m}=ave(y_i|x_i\in R_m)$

&emsp; 最小二乘回归树生成算法

* 选择最优切分变量j与切分点s，求解

$min_{j,s}[min_{c1}\sum_{x_i\in R_1(j,s)}{(y_i-c_1)^2}+min_{c2}\sum_{x_i\in R_2(j,s)}{(y_i-c_2)^2}]$

&emsp; 遍历变量j，对固定的切分变量j扫描切分点s，解上述最小化问题

* 用选定的对(j, s)划分区域并决定相应的输出值：

$R_1(j,s)={x|x^(j)<=s}, \, R_2(j,s)={x|x^(j)>s}$

$\hat{c}_m=\frac{1}{N_m}\sum_{x_i\in R_m(j,s)}y_i, \, m=1,2$

* 生成决策树：

$f(x)=\sum_{m=1}^{M}c_mI(x\in R_m)$

#### 分类树的生成
&emsp; 分类问题中，假设有K个类，则概率分布的基尼系数代表集合D的不确定性，定义为

$Gini(p)=1-\sum_{k=1}^Kp_k^2, Gini(D)=1-\sum_{k=1}^K\frac{|C_k}{|D|}^2$

&emsp; 若样本集合D根据特征A是否取某一科能值a被分割成两个部分，则在特征A的条件下，集合D的基尼指数定义为

$Gini(D, A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$

&emsp; 分类树生成算法

1. 设结点的训练数据集为D，计算现有特征对该数据集的基尼指数，此时，对每一个特征A，对其所有可能取的每个值a，根据样本点对A=a的测试为“是”或“否”将D分为两个部分

2. 在所有可能的特征A以及他们所有可能的切分点a中，选择基尼系数最小的特征及其对应的切分点作为最优特征与最优切分点，从现结点生成两个子结点，将训练数据分配到两个子结点中，重复这两步直至满足停止条件

### CART剪枝

1. 设$k=0, T=T_0, \alpha=+\infty$

2. 自下而上地对各内部结点t计算$g(t)=\frac{C(t)-C(T_t)}{|T_t|-1},\,\alpha=min(\alpha,\,g(t))$

3. 对$g(t)=\alpha$的内部结点t进行剪枝，并对叶结点t以多数表决法决定其类，得到树T

4. 设$k=k+1,\,\alpha_k=\alpha,\,T_k=T$，若$T_k$不是由根节点及两个叶结点构成的树，则返回步骤2

5. 采用较差验证法在子树序列$T_0,\,T_1,\,T_2,\cdots,T_n$中选出最优子树

In [1]:
import numpy as np

In [2]:
class Node():
    def __init__(self, value, H_t, children=None, index=None, is_leaf=False):
        self.H_t = H_t
        self.children = children
        self.index = index
        self.value = value
        self.is_leaf = is_leaf

class DT():
    def __init__(self):
        self.tree = None
    
    def fit(self, X, y, method='ID3'):
        '''
        Input:
        - X: of shape (N, D)
        - y: of shape(N, )
        '''
        A = list(range(X.shape[1]))
        self.tree = self._tree_construct(X, y, A, method)
        
    def _tree_construct(self, X, y, A, method='ID3'):
        if np.unique(y).shape[0]==1:
            leaf = Node(y[0], 0, is_leaf=True)
            return leaf
        
        H_t = y.shape[0] * self._entropy(y)
        value = np.argmax(np.bincount(y))
        if not A:
            leaf = Node(value, H_t, is_leaf=True)
            return leaf
        
        if method == 'ID3':
            f = self.information_gain
        elif method == 'C4.5':
            f = self.information_gain_ratio
        else:
            print('"wrong method')
            return
        
        index = A[0]
        max_gain = f(X, y, index)
        for i in range(1, len(A)):
            j = A[i]
            gain = f(X, y, j)
            if gain > max_gain:
                max_gain = gain
                index = j
        
        # recursion
        A = A.copy()
        A.remove(index)
        keys = np.unique(X[:, index])
        x = X[:, index]
        children = dict()
        node = Node(value, H_t, children, index)
        for key in keys:
            mask = x == key
            children[key] = self._tree_construct(X[mask], y[mask], A, method)
        
        return node
        
    def information_gain(self, X, y, index):
        H_D = self._entropy(y)
        x = X[:, index]
        N = x.shape[0]
        keys = np.unique(x)
        H_DA = 0
        for key in keys:
            mask = x == key
            H_DA += self._entropy(y[mask]) * np.sum(mask) / N
        return H_D - H_DA
    
    def information_gain_ratio(self, X, y, index):
        inf_gain = self.information_gain(X, y, index)
        x = X[:, index]
        H_AD = self._entropy(x)
        return inf_gain / H_AD
    
    def _entropy(self, y):
        p = np.bincount(y) / y.shape[0]
        p[p==0] = 1
        H_D = -np.sum(p * np.log2(p))
        return H_D
    
    def predict(self, X):
        if not self.tree:
            print("no training")
            return
        
        N = X.shape[0]
        y_hat = np.zeros((N, ))
        for i in range(N):
            x = X[i]
            node = self.tree
            while not node.is_leaf:
                if x[node.index] in node.children:
                    node = node.children[x[node.index]]
                else:
                    break
            y_hat[i] = node.value
        
        return y_hat
    
    def score(self, X, y):
        y_hat = self.predict(X)
        return np.sum(y == y_hat) / y.shape[0]
    
    def prune(self, alpha=0):
        if not self.tree:
            return
        self.cut(self.tree, alpha)
    
    def cut(self, node, alpha):
        if node.is_leaf:
            return 1, node.H_t
        else:
            H_t_sum = 0
            n_sum = 0
            for child in node.children.values():
                n, H_t = self.cut(child, alpha)
                H_t_sum += H_t
                n_sum += n
            if node.H_t - H_t_sum - alpha * (n_sum - 1) <= 0:
                # prune
                node.children = None
                node.is_leaf = True
                return 1, node.H_t
            else:
                return n_sum, H_t_sum

In [3]:
datasets = np.array([['青年', '否', '否', '一般', '否'],
               ['青年', '否', '否', '好', '否'],
               ['青年', '是', '否', '好', '是'],
               ['青年', '是', '是', '一般', '是'],
               ['青年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '好', '否'],
               ['中年', '是', '是', '好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '好', '是'],
               ['老年', '是', '否', '好', '是'],
               ['老年', '是', '否', '非常好', '是'],
               ['老年', '否', '否', '一般', '否'],
               ])

In [4]:
inf = datasets[:, :4]
label = datasets[:, 4]
y = np.zeros((label.shape[0],), dtype=np.int64)
y[label=="是"] = 1
X = np.zeros(inf.shape, dtype=np.int64)
X[inf=='是'] = 1
X[inf=='中年'] = 1
X[inf=='好'] = 1
X[inf=='老年'] = 2
X[inf=='非常好'] = 2
model = DT()
model.fit(X, y, 'C4.5')
model.prune(0.5)
title = ["年龄", "有工作", "房子", "信贷"]

In [5]:
def result_print(node, inf, title, space):
    if node.is_leaf:
        return
    print(space, title[node.index])
    for i, child in node.children.items():
        print(space+"  ", inf[node.index][int(i)])
        result_print(child, inf, title, space+'   ')

inform = [['青年', '中年', '老年'], ['否', '是'], ['否', '是'], ['一般', '好', '非常好']]
result_print(model.tree, inform, title, '')

 房子
   否
    有工作
      否
      是
   是


In [6]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

In [7]:
X, y = load_iris(return_X_y=True)
print(X.shape, y.shape)

(150, 4) (150,)


In [8]:
X_train, y_train = X[:120], y[:120]
X_test, y_test = X[120:], y[120:]
clf = DecisionTreeClassifier()
model_ID3 = DT()
model_C4_5 = DT()

clf.fit(X_train, y_train)
model_ID3.fit(X_train, y_train)
model_ID3.prune(0.5)
model_C4_5.fit(X_train, y_train)
model_C4_5.prune(0.5)

print(clf.score(X_test, y_test), model_ID3.score(X_test, y_test), model_C4_5.score(X_test, y_test))

0.8 0.5666666666666667 0.5666666666666667
