# 决策树之CART算法

scikit-learn使用优化版的CART算法作为其决策树算法的实现

## 基尼系数

ID3和C4.5算法中熵计算涉及大量对数运算，使用基尼系数替代信息增益比作为选择特征的标准，将大大减小计算量。**基尼系数代表模型的不纯度，基尼系数越小，不纯度越低，特征越好**。

基尼系数表达式：
$$ Gini(p) = \sum_{k=1}^K p_k(1-p_k) = 1 - \sum_{k=1}^K p_k^2 $$

给定样本集$D$，共有$K$个类别，第$k$个类别的数量为$C_k$，则样本$D$的基尼系数为：
$$ Gini(D) = 1 - \sum_{k=1}^K{(\frac{\mid C_k \mid}{\mid D \mid})}^2 $$

如果根据特征$A$对样本集合$D$进行划分，分成$D_1$和$D_2$两部分，则在特征$A$的条件下，$D$的基尼系数为：
$$ Gini(D, A) = \frac{\mid D_1 \mid}{\mid D \mid} Gini(D_1) + \frac{\mid D_2 \mid}{\mid D \mid} Gini(D_2) $$

实际上，基尼系数非常接近熵之半，可采用基尼系数近似。

## CART分类树对特征处理

1. 连续特征处理。思路同C4.5算法相似

2. 离散特征处理。二分类处理离散特征，如特征A有三种取值a、b、c，二分类有三种情况：{a}和{b、c}、{a、b}和{c}、{a、c}和{b}，分别计算三种情况的基尼系数，选择最小的组合，建立二叉树。


CART分类树是二叉树，ID3和C4.5算法是多叉树

## CART分类树算法流程

输入：训练集$D$，基尼系数阈值，样本个数阈值
输出：决策树$T$

算法从根节点开始，用训练集递归建立CART树

1. 对于当前节点的数据集为$D$，如果样本个数小于阈值或者没有特征，则返回决策子树，当前节点停止递归。

2. 计算样本集$D$的基尼系数，如果基尼系数小于阈值，则返回决策树子树，当前节点停止递归。

3. 计算当前节点现有的各个特征的各个特征值对数据集$D$的基尼系数，对于离散值和连续值的处理方法和基尼系数的计算见上节。

4. 在计算出来的各个特征的各个特征值对数据集$D$的基尼系数中，选择基尼系数最小的特征$A$和对应的特征值a。根据这个最优特征和最优特征值，把数据集划分成两部分$D_1$和$D_2$，同时建立当前节点的左右节点，做节点的数据集$D$为$D_1$，右节点的数据集$D$为$D_2$。

5. 对左右的子节点递归的调用1-4步，生成决策树。


**对于生成的决策树做预测的时候，假如测试集里的样本A落到了某个叶子节点，而节点里有多个训练样本。则对于A的类别预测采用的是这个叶子节点里概率最大的类别**

## CART回归树算法流程

CART回归树算法和分类树算法类似。若样本输出是离散值，则为分类树；若为连续值，则为回归树。

CART回归树与分类树不同点为：

1. 特征处理方式不同。连续特征需要统计划分点，利用划分点对特征值进行二分类。

2. 特征节点选择方式不同。回归树利用均方差和作为分类依据，分类树则利用基尼系数作为分类依据。