# 决策树(中):CART,一颗是回归树,另一颗是分类树
***
|天气|温度|湿度|刮风|是否打篮球|
|----|:--:|:--:|:--:|--------|
|晴   |高  |中  |否  |否      |
|晴   |高  |中  |是  |否      |
|阴   |高  |高  |否  |是      |
|小雨 |高  |高  |否  |是      |
|小雨 |低  |高  |否  |否      |
|晴天 |中  |中  |是  |是      |
|阴天 |中  |高  |是  |否      |

## 相关概念阐述
### 什么是分类树,什么是回归树
&ensp;&ensp;&ensp;&ensp;以上面的表格数据为例

&ensp;&ensp;&ensp;&ensp;如果我构造了一颗决策树,想要基于数据判断这个人的职业身份,这个就属于分类树

&ensp;&ensp;&ensp;&ensp;如果我构造一颗决策树,给定数据,想要预测这个人的年龄,那就属于回归树

### 基尼系数
&ensp;&ensp;&ensp;&ensp;基尼系数在经济学中用来衡量一个国家收入差距的常用指标.当基尼指数大于0.4的时候,说明财富差异悬殊.基尼系数在0.2-0.4之间说明分配合理,财富差距不大.扩展阅读下[基尼系数](https://zh.wikipedia.org/wiki/%E5%9F%BA%E5%B0%BC%E7%B3%BB%E6%95%B0)

&ensp;&ensp;&ensp;&ensp;基尼系数本身反应了样本的不确定度.当基尼系数越小的时候,说明样本之间的差异性小,不确定程度低.

&ensp;&ensp;&ensp;&ensp;CART算法在构造分类树的时候,会选择基尼系数最小的属性作为属性的划分.

&ensp;&ensp;&ensp;&ensp;基尼系数的计算公式如下:

```
Gini = 1 – Σ (Pi)2 for i=1 to number of classes
```

## 举例说明
&ensp;&ensp;&ensp;&ensp;这里结合下面3个链接进行说明,在参考链接3中有个非常好的举例说明,如果看我的这个还不是太清楚的话,可以去看链接中,这个不用图说明,没有他的形象

### 根节点的选择
&ensp;&ensp;&ensp;&ensp;在上面的列表中有四个属性:天气,温度,湿度,刮风.需要先计算出这四个属性的基尼系数

#### 天气的基尼系数计算
&ensp;&ensp;&ensp;&ensp;其数据表格如下:

|天气状态|打篮球数量|不打篮球数量|总数|
|-------|:------:|:---------:|---|
|晴     |1        |2         |3  |
|阴     |1        |1         |2  |
|小雨   |1        |1         |2  |

- Gini(天气=晴)=1 - (1/3)^2 - (2/3)^2 = 1 - 1/9 - 4/9 = 4/9
- Gini(天气=阴)=1 - (1/2)^2 - (1/2)^2 = 1 - 1/4 - 1/4 = 0.5
- Gini(天气=小雨)=1 - (1/2)^2 - (1/2)^2 = 1 - 1/4 - 1/4 = 0.5

&ensp;&ensp;&ensp;&ensp;CART是个二叉树,需要对属性进行再次的划分,其有下面三种组合

- Gini(天气=晴阴)=(3/5) * 4/9 + (2/5)*0.5 = 4/15 + 1/5 = 7/15 ~ 0.46666666666
- Gini(天气=晴小雨)=(3/5) * 4/9 + (2/5)*0.5 = 7/15 ~ 0.4666666
- Gini(天气=阴小雨)=(2/4)*0.5 + (2/4)*0.5 = 0.500000000

#### 温度的基尼系数计算
&ensp;&ensp;&ensp;&ensp;其数据表格如下:

|温度状态|打篮球数量|不打篮球数量|总数|
|-------|:------:|:---------:|---|
|高     |2        |2         |4  |
|中     |1        |1         |2  |
|低     |0        |1         |1  |

- Gini(温度=高)=1 - (2/4)^2 - (2/4)^2 = 1 - 1/4 - 1/4 = 0.5
- Gini(温度=中)=1 - (1/2)^2 - (1/2)^2 = 1 - 1/4 - 1/4 = 0.5
- Gini(温度=低)=1 - (0/1)^2 - (1/1)^2 = 1 - 0 - 1 = 0

&ensp;&ensp;&ensp;&ensp;CART是个二叉树,需要对属性进行再次的划分,其有下面三种组合

- Gini(温度=高中)=(4/6)*0.5 + (2/6)*0.5 = 1/2 ~ 0.50000000
- Gini(温度=高低)=(4/5)*0.5 + (1/5)*0 = 2/5 ~ 0.40000000
- Gini(温度=中低)=(2/3)*0.5 + (1/3)*0 = 1/3 ~ 0.33333333

#### 湿度的基尼系数计算
&ensp;&ensp;&ensp;&ensp;其数据表格如下:

|湿度状态|打篮球数量|不打篮球数量|总数|
|-------|:------:|:---------:|---|
|高     |2        |2         |4  |
|中     |2        |1         |3  |

- Gini(湿度=高)=1 - (2/4)^2 - (2/4)^2 = 1 - 1/4 - 1/4 = 0.5
- Gini(湿度=中)=1 - (2/3)^2 - (1/3)^2 = 1 - 4/9 - 1/9 = 4/9
- Gini(湿度)=(4/7) * 0.5 + (3/7) * 4/9 = 2/7 + 4/21 = 10/21 ~ 0.47619

#### 刮风的基尼系数计算
&ensp;&ensp;&ensp;&ensp;其数据表格如下:

|刮风状态|打篮球数量|不打篮球数量|总数|
|-------|:------:|:---------:|---|
|是     |1        |2         |3  |
|否     |2        |2         |4  |

- Gini(刮风=是)=1 - (2/3)^2 - (1/3)^2 = 1 - 4/9 - 1/9 = 4/9
- Gini(刮风=否)=1 - (2/4)^2 - (2/4)^2 = 1 - 1/4 - 1/4 = 0.5
- Gini(刮风)=(4/7) * 0.5 + (3/7) * 4/9 = 2/7 + 4/21 = 10/21 ~ 0.47619

#### 根节点的选择
&ensp;&ensp;&ensp;&ensp;如下汇总所有接口,可以看出温度=中低的基尼系数最低,则选择其为根节点

- Gini(天气=晴阴)=(3/5) * 4/9 + (2/5)*0.5 = 4/15 + 1/5 = 7/15 ~ 0.46666666666
- Gini(天气=晴小雨)=(3/5) * 4/9 + (2/5)*0.5 = 7/15 ~ 0.4666666
- Gini(天气=阴小雨)=(2/4)*0.5 + (2/4)*0.5 = 0.500000000
- Gini(温度=高中)=(4/6)*0.5 + (2/6)*0.5 = 1/2 ~ 0.50000000
- Gini(温度=高低)=(4/5)*0.5 + (1/5)*0 = 2/5 ~ 0.40000000
- Gini(温度=中低)=(2/3)*0.5 + (1/3)*0 = 1/3 ~ 0.33333333
- Gini(湿度)=(4/7) * 0.5 + (3/7) * 4/9 = 2/7 + 4/21 = 10/21 ~ 0.47619
- Gini(刮风)=(4/7) * 0.5 + (3/7) * 4/9 = 2/7 + 4/21 = 10/21 ~ 0.47619

&ensp;&ensp;&ensp;&ensp;确定跟节点以后,大致的树结构如下:

- 根节点:温度=中低
    - 子节点:温度=中(需要进行再次的划分)
    - 叶节点:文档=低=不打篮球(能直接确定为不打篮球)
    
### 子节点:温度=中 的选择
&ensp;&ensp;&ensp;&ensp;其剩下的数据集如下:

|天气|温度|湿度|刮风|是否打篮球|
|----|:--:|:--:|:--:|--------|
|晴   |高  |中  |否  |否      |
|晴   |高  |中  |是  |否      |
|阴   |高  |高  |否  |是      |
|小雨 |高  |高  |否  |是      |
|晴天 |中  |中  |是  |是      |
|阴天 |中  |高  |是  |否      |

#### 天气的基尼系数计算
&ensp;&ensp;&ensp;&ensp;其数据表格如下:

|天气状态|打篮球数量|不打篮球数量|总数|
|-------|:------:|:---------:|---|
|晴     |1        |2         |3  |
|阴     |1        |1         |2  |
|小雨   |1        |0         |1  |

- Gini(天气=晴)=1 - (1/3)^2 - (2/3)^2 = 1 - 1/9 - 4/9 = 4/9
- Gini(天气=阴)=1 - (1/2)^2 - (1/2)^2 = 1 - 1/4 - 1/4 = 0.5
- Gini(天气=小雨)=1 - (1/1)^2 - (0/1)^2 = 1 - 1 - 0 = 0

&ensp;&ensp;&ensp;&ensp;CART是个二叉树,需要对属性进行再次的划分,其有下面三种组合

- Gini(天气=晴阴)=(3/5) * 4/9 + (2/5)*0.5 = 4/15 + 1/5 = 7/15 ~ 0.46666666666
- Gini(天气=晴小雨)=(3/4) * 4/9 + (1/4)*0 = 1/3 ~ 0.333333333
- Gini(天气=阴小雨)=(2/3)*0.5 + (1/3)*0 = 1/3 ~ 0.33333333333

#### 温度的基尼系数计算
&ensp;&ensp;&ensp;&ensp;其数据表格如下:

|温度状态|打篮球数量|不打篮球数量|总数|
|-------|:------:|:---------:|---|
|高     |2        |2         |4  |
|中     |1        |1         |2  |

- Gini(温度=高)=1 - (2/4)^2 - (2/4)^2 = 1 - 1/4 - 1/4 = 0.5
- Gini(温度=中)=1 - (1/2)^2 - (1/2)^2 = 1 - 1/4 - 1/4 = 0.5
- Gini(温度=高中)=(4/6) * 0.5 + (2/6) * 0.5 = 0.50000000000

#### 湿度的基尼系数计算
&ensp;&ensp;&ensp;&ensp;其数据表格如下:

|湿度状态|打篮球数量|不打篮球数量|总数|
|-------|:------:|:---------:|---|
|高     |2        |1         |3  |
|中     |2        |1         |3  |

- Gini(湿度=高)=1 - (2/3)^2 - (1/3)^2 = 1 - 1/9 - 4/9 = 4/9
- Gini(湿度=中)=1 - (2/3)^2 - (1/3)^2 = 1 - 4/9 - 1/9 = 4/9
- Gini(湿度)=(3/6) * 4/9 + (3/6) * 4/9 = 4/9 ~ 0.444444444444

#### 刮风的基尼系数计算
&ensp;&ensp;&ensp;&ensp;其数据表格如下:

|刮风状态|打篮球数量|不打篮球数量|总数|
|-------|:------:|:---------:|---|
|是     |1        |2         |3  |
|否     |2        |1         |3  |

- Gini(刮风=是)=1 - (2/3)^2 - (1/3)^2 = 1 - 4/9 - 1/9 = 4/9
- Gini(刮风=否)=1 - (2/3)^2 - (1/3)^2 = 1 - 4/9 - 1/9 = 4/9
- Gini(刮风)=(3/6) * 4/9 + (3/6) * 4/9 = 4/9 ~ 0.444444444444

#### 子节点:温度=中 的选择
&ensp;&ensp;&ensp;&ensp;如下汇总所有接口,可以看出温度=中低的基尼系数最低,则选择其为根节点

- Gini(天气=晴阴)=(3/5) * 4/9 + (2/5)*0.5 = 4/15 + 1/5 = 7/15 ~ 0.46666666666
- Gini(天气=晴小雨)=(3/5) * 4/9 + (2/5)*0.5 = 7/15 ~ 0.4666666
- Gini(天气=阴小雨)=(2/4)*0.5 + (2/4)*0.5 = 0.500000000
- Gini(温度=高中)=(4/6)*0.5 + (2/6)*0.5 = 1/2 ~ 0.50000000
- Gini(温度=高低)=(4/5)*0.5 + (1/5)*0 = 2/5 ~ 0.40000000
- Gini(温度=中低)=(2/3)*0.5 + (1/3)*0 = 1/3 ~ 0.33333333
- Gini(湿度)=(4/7) * 0.5 + (3/7) * 4/9 = 2/7 + 4/21 = 10/21 ~ 0.47619
- Gini(刮风)=(4/7) * 0.5 + (3/7) * 4/9 = 2/7 + 4/21 = 10/21 ~ 0.47619

&ensp;&ensp;&ensp;&ensp;确定跟节点以后,大致的树结构如下:

- 根节点:温度=中低
    - 子节点:温度=中(需要进行再次的划分)
    - 叶节点:文档=低=不打篮球(能直接确定为不打篮球)
    
## 参考链接
- 1.[决策树之CART算法](https://blog.csdn.net/acdreamers/article/details/44664481)
- 2.[Classification And Regression Trees for Machine Learning](https://machinelearningmastery.com/classification-and-regression-trees-for-machine-learning/)
- 3.[强力推荐这个,例子解释的很好:A Step by Step CART Decision Tree Example](https://sefiks.com/2018/08/27/a-step-by-step-cart-decision-tree-example/)
