# 决策树原理（上）  -  ID3、C4.5：基本框架

-  目录
    - 简介
    - 模型
    - 模型生成
        - 特征选择
            - 特征选择的原因
            - 最优特征评价指标
        - 树的生成
            - 终止条件
            - 算法流程
        - 树的剪枝
            - 原因
            - 原理
            - 剪枝算法
    - ID3、C4.5算法优缺点总结
    - 连续值缺失值处理

## 一、简介
- 决策树是一种基本的用于分类与回归非监督学习方法，与其他分类决策方法（如logistic回归、朴素贝叶斯、SVM等）使用全部特征共同作出决策不同，决策分类树本质上是基于特征对实例进行预测的多级树形决策结构，一般可以转换成一个if-then规则的集合，或者定义为特征空间和类空间上的条件概率。
- 常见决策树算法
![image.png](attachment:image.png)

- 决策树在医学上的应用举例：基于决策树的盆腔炎性疾病后遗症影响因素分析 - 陈志霞 - 广东省中医院
![image.png](attachment:image.png)

## 二、模型

![image.png](attachment:image.png)

- 组成元素：
    - 结点：
        - 内部结点（图示椭圆）表示一个特征或者属性。
        - 叶子结点（图示方框）表示一个分类标签。
    - 有向边代（图示线条）表了一个划分规则。
- 模型应用
    - 决策树从根结点到子结点的的有向边代表了一条路径。决策树的路径是互斥并且是完备的。
    - 在沿着决策树从上到下的遍历过程中，在每个结点都有一个测试，对每个结点上问题的不同测试输出导致不同的分枝，最后会达到一个叶子结点，这一过程就是利用决策树进行分类的过程，最后将样本分配为叶结点所属的类。
    - 例如：现有一病人M（无手术史、湿热质、非肥甘厚腻），则可根据简介中图得知此人健康的概率为0.7275
- 模型生成
    - 上面讲解的是模型的应用，但对于研究者来说，重要的是决策树的构建，也就是决策树的生成或学习，根据决策树的决策规则及基本组成元素，我们可以知道构建决策树的基本过程（**重点，下面详细讲解**）：
        - 构建根结点：将所有训练数据放在根结点。
        - 选择一个（**最优**）特征，根据这个特征将训练数据分割成子集（**使得各个子集有一个在当前条件下最好的分类**）。
            - 若这些子集已，则将该子集构成叶结点。
            - 若某个子集不能满足终止条件，则对该子集选择新的（**最优**）的特征，继续对该子集进行分割，构建相应的结点。
            - 如此递归下去，直至所有训练数据子集都被基本正确分类，或到达终止条件为止。    

## 三、模型生成

- 一个目的：决策树学习旨在构建一个性能良好的模型（与训练数据拟合较好，并且复杂度小的决策树）
- 三个过程：
    - 特征选择：启发法
    - 树的生成：局部最优，模型生成
    - 树的剪枝：全局最优，防过拟合
- 终止条件+确定标签

### 1.特征选择

（1）为什么进行最优特征选择？
- 因为训练一棵最优的决策树是一个完全NP问题，很难求解，所以实际应用时决策树的训练采用启发式搜索算法如：贪心算法来达到局部最优，即在每一个结点处选择一个最优分裂特征，使得各个子集在**当前条件下**有最好的分类，这样，决策树每一步生成的过程总是考虑当前结点的结果，这样的算法虽然没办法得到全局最优的决策树，但完全可解，所以现在要解决的问题就是怎样才算是最优分裂特征？最理想的情况当然是能找到一个属性刚好能够将不同类别分开，但是大多数情况下分裂很难一步到位，所以我们希望找到一个评价分裂特征的分裂效果评价指标。
![image.png](attachment:image.png)

（2）最优特征评价指标-**一般采用使评价指标最大的特征作为当前分裂结点**
- 错分类率减少 --- 不常用
- 信息增益(互信息)  ---  ID3算法使用
    - 特征 A 对训练数据集 D 的信息增益 G(D,A) 定义为：集合 D 的经验熵 H(D) 与关于特征 A 经验条件熵 H(D|A) 之差。即： G(D,A) = H(D) - H(D|A)。 
        - 经验熵 H(D) 刻画了对数据集 D 进行分类的不确定性。
        - 经验条件熵 H(D|A) 刻画了在特征 A 给定条件下，对数据集 D 分类的不确定性。
        - 信息增益 G(D|A) 刻画了由于特征 A 的确定，从而使得对数据集 D 的分类的不确定性减少的程度。
    - 不同的特征往往具有不同的信息增益。
        - 信息增益大的特征具有更强的分类能力，如果一个特征的信息增益为0，则表示该特征没有什么分类能力。
- 信息增益比  ---  C4.5算法使用
    - 特征 A 对训练集 D 的信息增益比 Gr(D|A) 定义为：信息增益 G(D|A) 与关于特征 A 的熵 H(A) 之比:Gr(D|A)=G(D,A)/H(A)
        - H(A) 表征了特征 A 对训练集 D 的拆分能力。
        - 因为 H(A) 只考虑样本在特征 A 上的取值，而不考虑样本的标记 y ，所以这种拆分并不是对样本的分类。
    - 信息增益比本质上是对信息增益乘以一个加权系数：
        - 当特征   的取值集合较大时，加权系数较小，表示抑制该特征。
        - 当特征  的取值集合较小时，加权系数较大，表示鼓励该特征。
- 基尼系数 --- CART算法
    - 见下篇

### 2.树的生成

（1）算法终止条件
- 决策树不可能不限制地生长，总有停止分裂的时候，最极端的情况是当节点分裂到只剩下一个数据点时自动结束分裂，但这种情况下树过于复杂，而且预测的经度不高。一般情况下为了降低决策树复杂度和提高预测的经度，会适当提前终止节点的分裂。



以下是决策树节点停止分裂的一般性条件
- 节点处全为同类
- 节点处无特征可分
- 达到给定限制条件
    - 最小节点数：一是数据量较少时，再做分裂容易强化噪声数据的作用；二是降低树生长的复杂性，提前结束分裂一定程度上有利于降低过拟合的影响。
    - 指定树深度
    - 评价指标阈值：信息增益、信息增益比等评价指标的大小表示数据的复杂程度，当其值过小时，表示数据的纯度比较大，可提前停止训练。

（2）算法流程（以ID3为例，C4.5与之相似，只是最优分裂特征选择指标不同。）![image.png](attachment:image.png)

### 3.树的剪枝
（1）原因：剪技(pruning)是决策树学习算法对付“过拟合”的主要手段在决策树学习中
- 为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多，这时就可能因训练样本学得“太好”了，以致于把训练集自身的一些特点当作所有数据都具有的-一般性质而导致过拟合.因此,可通过主动去掉-些分支来降低过拟合的风险.
- 决策树生成算法是学习局部的模型，决策树剪枝是学习整体的模型。即：生成算法仅考虑局部最优，而剪枝算法考虑全局最优。

（2）**原理**：参见李航《统计学习方法》决策树剪枝方法，我这里只解释重点部分：
   - 剪枝是一种针对全局的优化问题，决策树剪枝的依据是：极小化决策树的整体损失函数或者代价函数（对于优化问题，一般都要寻求其损失函数）所以要通过剪枝优化生成的决策树模型，首先要求得决策树的损失函数，如何获得损失函数，就要从生成决策树模型的要求说起，对于生成决策树，我们希望生成一个性能良好的模型，即要求训练误差小和模型复杂度低。
       - 对于训练误差：可以通过求其模型最后的错误率而得到，只是在决策树里面，用熵代替了错误率，用信息增益代替了错误减少，所以损失函数第一项就是评价模型的训练误差。损失函数中H(t)表示每个叶节点的熵，求和时进行加权求和，其系数Nt/N表示每个叶节点中的样本数占总样本的比例，只是这里N是定值，所以权重直接用Nt代替。
       - 对于模型复杂度：用叶节点数目表示模型复杂度
           - 模型复杂度是否可以代表泛化误差？：泛化误差包括偏差与方差，都是与模型拟合程度有关的指标，偏差高欠拟合，方差高过拟合，而拟合程度与模型复杂度密切相关，模型越复杂，越容易过拟合，模型越简单，越容易欠拟合，所以损失函数第二项作为模型泛化性能的评价
       - 然而训练误差和泛化误差具有一定的矛盾，所以在求总的损失时，要增加a作为两者的调节因子。
    ![image.png](attachment:image.png)
   - 决策树剪枝的准则是：考虑当 a 确定时，Ca(T) 最小化。这等价于正则化的极大似然估计。
        - 较大的 a 会选择较简单的模型 。
        - 较小的 a 会选择较复杂的模型。
        - 叶结点个数越多，表示决策树越复杂，则损失函数越大。
        - 叶结点经验熵越大，表示叶结点的样本类别分布很分散，则损失函数越大。
        - a=0 只考虑对训练集的拟合，不考虑模型复杂度。       

（3）剪枝算法
![image.png](attachment:image.png)

## 四、 ID3、C4.5算法优缺点总结

![image.png](attachment:image.png)

## 五、连续值缺失值处理

#### 1.C4.5算法 - 连续值处理。
- 将m个样本的连续特征A，从小到大排列为a1,a2,...,am,则C4.5取相邻两样本值的平均数，一共取得m-1个划分点，对于这m-1个点，分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的增益最大的点为at，则小于 at 的值为类别1，大于at 的值为类别2，这样我们就做到了连续特征的离散化
    ![image.png](attachment:image.png)
- 注意：与离散属性不同的是，如果当前节点为连续属性，则该属性后面还可以参与子节点的产生选择过程，而且划分点可以不同。

#### 2.C4.5算法 - 缺失值处理
需要解决两个问题
- 1、在样本某些特征缺失的情况下如何选择划分的属性
   - 解决方法：计算某一属性下的信息增益比时，根据属性A是否缺失划分数据，一部分是有特征值A的数据D1，另一部分是没有特征A的数据D2，然后对于没有缺失特征A的数据集D1来计算信息增益比，最后乘上一个系数，这个系数是无特征A缺失的样本所占总样本的比例。
![image.png](attachment:image.png)
- 2、选定了划分属性，对于在该属性上缺失特征的样本的处理
   - 因为这些样本在此属性上没有数据，所以到底将其划分为哪个子结点就是个问题。
   - 解决方法：按权重分配：比如缺失特征A的样本a之前权重为1，特征A有3个特征值A1, A2, A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1, A2, A3。对应权重调节为2/9,3/9, 4/9。

############################################################################################################################################################################################################################################################################################

# 决策树原理（下）  -  CART与小结

CART是决策树框架下的一种较优的模型，可以看做是C4.5算法的进一步优化，其基本过程与决策树框架基本符合，仍然是特征选择、树的生成、树的剪枝，只是其中的细节不同，学习时可以参照ID3算法、C4.5算法

- 目录
    - 简介
    - 分类树
        - 特征选择
        - 树的生成
    - 回归树
        - 特征选择
        - 树的生成
    - 树的剪枝   
    - 决策树算法小结

## 一、简介

- CART（classfification and regression tree：分类回归树）是决策树框架下的一种典型的二叉决策树，即可以做分类又可以做回归，可以看做是对一般决策树的优化模型。
    - 如果待预测结果是离散型数据，则CART生成分类决策树
    - 如果待预测结果是连续型数据，则CART生成回归决策树
    - 数据对象的属性特征为离散型或连续型，并不是区别分类树与回归树的标准
- 下面给出了CART与ID3算法和C4.5算法的比较

## 二、分类树

### 1.特征选择 - 基尼系数最小化准则
- 假设有 K 个分类，样本属于第 k 类的概率为 pk 。则概率分布的基尼指数为：
![image.png](attachment:image.png)

- 对于给定的样本集合 D，设属于类 k 的样本子集为 Dk，则样本集的基尼指数为：![image.png](attachment:image.png)

- 若样本集 D 根据特征 A 是否小于 a 而被分为两个子集: D1 和 D2,则在特征 A 的条件下，集合 D 的基尼指数为：![image.png](attachment:image.png)

- 基尼指数表示样本集合中，随机有放回抽取两个样本，这两个样本不属于同一类的概率，当然我们要求生成决策树时节点处纯度要高，即节点处尽量属于同一类，所以要求基尼系数要小，即不属于同一类的概率小，属于同一类的概率要高。

### 2. 树的生成 
- 注意：CART是二叉树
- 划分选择：
    - 特征为连续值时，CART 分类树遍历所有可能的维度 j 和该维度所有可能的取值 s ，取使得基尼系数最小的那个维度 j 和切分点 s 。![image.png](attachment:image.png)也可以进行离散化后再当做离散值处理
    - 特征为离散值时：切分点为 R1= {xj = s} , R2= {xj != s}，二分法，对于没有将特征取值完全分开的情况，在后面的结点仍然会使用此特征作为划分特征。如有离散特征A（A1，A2，A3）第一次分割为（A1）（A2，A3），那么（A2，A3）,仍然有可能在后面的划分结点中作为划分属性。

- 树的生成(以特征为连续值为例)：![image.png](attachment:image.png)

## 三、回归树

### 1.特征选择 - 均方误差最小化准则
- 怎么衡量回归树的纯度？ --- 加权均方误差:回归树各叶节点处样本的集中程度的加权和（对于训练数据，误差只包括方差，不包括偏差），其本质上是回归树的损失函数，对于叶节点，要求数据越集中越好，即损失函数越小越好。
![image.png](attachment:image.png)
其中V表示叶节点处的方差，m表示叶节点的数目

- 特征选择：寻求最优切分变量 j 和最优切分点 s ,选取切分后损失函数最小的特征及切分特征及切分点。即求解
![image.png](attachment:image.png)

- 其意义为：
    - 首先对于每一个属性，遍历所有切分点，求每一个属性下使方括号里的部分取得最优的解si,
    - 然后遍历所有的属性，对每个属性找到最优切分点si下，使得损失函数最小的那个属性j。

### 2.树的生成

![image.png](attachment:image.png)

当然可以从空间划分的角度去理解CART，具体参考李航《统计学习方法》

## 四、树的剪枝

## 五、决策树算法小结

### 1.决策树的进化
![image.png](attachment:image.png)
### 2.决策树优缺点
- 优点：

1）简单直观，可视化效果好。

2）基本不需要预处理，不需要提前归一化，处理缺失值。

3）使用决策树预测的代价是O(log2m)。 m为样本数。

4）既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。

5）可以处理多维度输出的分类问题。

6）相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以得到很好的解释

7）可以交叉验证的剪枝来选择模型，从而提高泛化能力。

8） 对于异常点的容错能力好，健壮性高。

- 缺点:

1）决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。

2）决策树会因为样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。

3）寻找最优的决策树是一个NP难的问题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善。

4）有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。

5）如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善

# 决策树sklearn实现

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

In [2]:
iris = load_iris()
df = pd.DataFrame(iris.data, columns=["sl","sw","pl","pw"])
df["l"] = iris["target"]
x = df.iloc[0:150,:4]
y = df.iloc[0:150,-1]
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)

In [3]:
clf = DecisionTreeClassifier( splitter='random')
clf.fit(x_train,y_train)
clf.score(x_test, y_test)

0.9555555555555556

In [4]:
print(DecisionTreeClassifier())

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')


- 参数解释
- class_weight：    指定样本各类别的的权重，如果使用“balanced”，则算法会自己计算权重，样本量少的类别所对应的样本权重会高。
- criterion：       gini或者entropy,前者是基尼系数，后者是信息熵。
- max_depth：       int or None, optional (default=None) 决策树的最大深度，深度越大，越容易过拟合，推荐树的深度为：5-20之间。
- max_features：    在划分数据集时考虑的最多的特征值数量：None（所有），log2，sqrt，int，float（百分比），特征小于50的时候一般使用所有的
- max_leaf_nodes：  最大叶子节点数，可以防止过拟合，默认是"None”，即不限制最大的叶子节点数。
- min_impurity_decrease:结点最小不纯度。默认值为0.0,限制决策树增长，若某节点不纯度（基尼系数，均方差）小于这个阈值，则不再生成子节点
- min_impurity_split：  结点划分最小不纯度。限制决策树的增长，如果划分后不纯度变化小于这个阈值则该节点不再生成子节点。即为叶子节点 。    
- min_samples_split：   设置结点的最小样本数量，当样本数量可能小于此值时，结点将不会在划分。
- min_samples_leaf：    这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。
- min_weight_fraction_leaf： 这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝默认是0，就是不考虑权重问题。
- splitter： best or random  best是在所有特征中找最好的切分点 random是在部分特征中，默认的”best”适合样本量不大的时候，样本量大用random 

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)