### 决策树

在这里我们尝试实现一个决策树。顾名思义，在 input->process->output 范式的process部分是以树的方式实现的。下面非正式地给出决策树的决策过程：

假设我们已经有了一颗决策树，那么将待决策的点放入根节点，根节点指向子节点的边是带有一定的约束条件的。比如说，根节点指向子节点A的边需要待决策点的第一个维度的值满足不大于1，如果待决策点满足这个条件，那么待决策点就通过这条边放入子节点A。反复重复以上过程，直到待决策点被放入叶子节点。每个叶子节点都代表了一个分类（可重复），待决策点的分类结果就是叶子节点对应的类。

<br>

那么我们如何根据训练集构建一颗决策树呢？下面非正式地给出构造过程：

- 构建根节点，将训练集所有数据放入根节点。
- 选取特征集(A)中的最优特征(B)，生成两个子节点，根据数据特征将训练集数据分别放入两个子节点
- 将第二步中的子节点重复该过程，直到满足停止条件(C)

在这个过程中，有ABC三个问题需要进行解释

- A：特征集：人为规定的数据特征，一般来说可以是每一个维度
- B：最优特征：指的是分类效果最好的特征。评判指标有information gain(IG)或者gini指数
- C：停止条件：如决策树到达深度限制，没有最优特征，目前已经可以达到正确分类等等

直观上来看，决策树的构造过程实际上就是根据训练数据的特征集对训练数据进行划分。随着决策树深度的增加，划分结果也就越细



#### 决策树构建的形式算法

输入：训练数据集$D$，特征集$A$，阈值 $\epsilon$，最大深度 $d$

输出：决策树 $T$ 

1. 若数据集中的数据同属于一类，那么决策树为单节点树，返回。

2. 若特征集为空，那么直接返回数据集中数量最多的类别作为该节点的类别，返回。

3. 否则，按照信息规则计算（如IG，Gini），并选择收益最大的特征

4. 如果收益小于阈值或者深度已经达到限制，那么直接返回数量最多的类别作为该节点的类别

5. 否则，分化数据集为几个非空子集，放入相应的子节点中，并在特征集中删除对应的特征。再递归地调用这个算法。

#### 信息规则

##### information gain(IG)

信息增益原则是根据熵来确定的。一个节点的熵可以被如下定义：$H(D)=-\sum_{i}p_i\log_2p_i$，其中 $p_i$ 被定义为在这个节点中随机取一个实例，取到i类的概率。注意到如果这个节点缺少某一个类k，根据极限可知 $\lim_{p_k \to 0} p_k\log_2 p_k=0$ 并不会影响熵计算的结果。

分裂一个节点的信息增益可以表示为 $IG=H(D_1+D_2)-(\frac{|D_1|}{|D_1+D_2|}H(D_1)+\frac{|D_2|}{|D_1+D_2|}H(D_2))$

很容易看出，分裂后如果有空集，那么对于信息增益并没有贡献。


##### Gini指数
