# 决策树——CART算法

分类与回归树(classification and regressiontree,CART)是应用广泛的决策树学习方法，同样由特征选择、树的生成以及剪枝组成。

** CART算法由以下两步组成:**

(1)决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大；

(2)决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，用损失函数最小作为剪枝的标准。

## CART生成

决策树的生成就是递归地构建二叉树的过程。

对***回归树用平方误差最小化准则***

对***分类树用基尼指数最小化准则***

### 分类树的生成

#### 1.基尼指数
在分类问题中，假设有K个类，样本点属于第k类的概率为$p_k$,则概率分布的基尼指数定义为：

$Gini(p)=\sum_{k=1}^{K}p_k(1-p_k)=1-\sum_{k=1}^{K}p_k^2$

因此，对于给定的集合D，其基尼指数为

$Gini(D)=1-\sum_{k=1}^{k}(\frac{|C_k|}{|D|})^2，其中C_k是D中属于第k类的样本子集，K是类的个数。$

如果样本集合D在特征A的条件下可以划分为两个子集$D_1和D_2$，则在特征A的条件下，集合D的基尼指数定义为：

$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)\quad$,**该式与条件熵的计算非常类似！**

基尼指数Gini(D)表示集合D的不确定性，Gini(D,A)表示在特征A的条件下的（或经过特征A分割后的）集合D的不确定性。基尼指数越大，样本集合的不确定性就越大，这与熵类似。

#### 2.生成算法

CART分类树生成算法与ID3（或C4.5）算法类似，因此相同之处不再赘述(若需要详细信息，请查看[ID3/C4.5算法](www.wait_to_insert.com))，此处仅对不同之处进行描述。

输入：训练数据集D，停止条件$\varepsilon$

输出：CART决策树

(1)设结点的训练数据集D，计算现有的特征对训练集的基尼指数，并对每一个特征A，对其可能的每个取值a，根据样本点对A=a的条件的“是”或“否”将D分割为两部分，再利用定义计算A=a时的基尼指数Gini(D,A)。

(2)在所有可能的特征A以及它们所有可能的切分点a中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点。依最优特征与最优切分点，从现结点生成两个子结点，将训练集依特征分配到两个子结点中去。**该步骤与ID3算法的不同之处在于：ID3算法在这里利用信息增益最大准则来选择最优特征，并在特征A的条件下对数据集D进行分割；而CART算法会计算特征A以及在A取不同值下的基尼指数，具体理解在例子中会描述。**

(3)对两个子结点递归地调用(1)(2)，直至满足停止条件。

(4)生成CART决策树

**例1** 根据表1中的所给的训练数据集，应用CART算法生成决策树

|ID|年龄|有工作|有自己的房子|信贷情况|类别|
|:-:|:-:|:-:|:-:|:-:|:-:|
|1|青年 |否|否|一般|否|
|2|青年 |否|否|好  |否|
|3|青年 |是|否|好  |是|
|4|青年 |是|是|一般|是|
|5|青年 |否|否|一般|否|
|6|中年 |否|否|一般|否|
|7|中年 |否|否|好  |否|
|8|中年 |是|是|好  |是|
|9|中年 |否|是|非常好|是|
|10|中年|否|是|非常好|是|
|11|老年|否|是|非常好|是|
|12|老年|否|是|好|是|
|13|老年|是|否|好|是|
|14|老年|是|否|非常好|是|
|15|老年|否|否|一般|否|

**解** 首先计算各特征的基尼指数，选择最优特征以及最优切分点。分别以$A_1,A_2,A_3,A_4$表示年龄、有工作、有自己的房子和信贷情况4个特征。

求特征$A_1$的基尼指数，以1，2，3表示年龄的值为青年，中年和老年：

$Gini(D,A_1=1)=\frac{5}{15}Gini(D_1)+ \frac{10}{15}Gini(D_2)=\frac{5}{15}(2\times \frac{2}{5}\times \frac{3}{5})+\frac{10}{15}(2\times \frac{7}{10}\times \frac{3}{10})=0.44$

$Gini(D,A_1=2)=\frac{5}{15}Gini(D_1)+ \frac{10}{15}Gini(D_2)=\frac{5}{15}(2\times \frac{2}{5}\times \frac{3}{5})+\frac{10}{15}(2\times \frac{6}{10}\times \frac{4}{10})=0.48$

$Gini(D,A_1=3)=\frac{5}{15}Gini(D_1)+ \frac{10}{15}Gini(D_2)=\frac{5}{15}(2\times \frac{4}{5}\times \frac{1}{5})+\frac{10}{15}(2\times \frac{5}{10}\times \frac{5}{10})=0.44$

因为$Gini(D,A_1=1)=Gini(D,A_1=3)$最小，所以对于特征$A_1$可以选择青年或者老年作为最优切分点。

求特征$A_2$的基尼指数，以1表示有工作，0表示没有工作：

$Gini(D,A_2=1)=\frac{5}{15}Gini(D_1)+ \frac{10}{15}Gini(D_2)=\frac{5}{15}(2\times \frac{5}{5}\times 0)+\frac{10}{15}(2\times \frac{4}{10}\times \frac{6}{10})=0.32$

求特征$A_3$的基尼指数，以1表示有自己的房子，0表示无：

$Gini(D,A_3=1)=\frac{6}{15}Gini(D_1)+ \frac{9}{15}Gini(D_2)=\frac{6}{15}(2\times \frac{6}{6}\times 0)+\frac{9}{15}(2\times \frac{3}{9}\times \frac{6}{9})=0.27$

求特征$A_4$的基尼指数，以1，2，3分别表示信贷情况非常好，好，一般：

$Gini(D,A_4=1)=\frac{4}{15}Gini(D_1)+ \frac{11}{15}Gini(D_2)=\frac{4}{15}(2\times \frac{4}{4}\times 0)+\frac{11}{15}(2\times \frac{6}{11}\times \frac{5}{11})=0.36$

$Gini(D,A_4=2)=\frac{6}{15}Gini(D_1)+ \frac{9}{15}Gini(D_2)=\frac{6}{15}(2\times \frac{4}{6}\times \frac{2}{6})+\frac{9}{15}(2\times \frac{5}{9}\times \frac{4}{9})=0.47$

$Gini(D,A_4=3)=\frac{5}{15}Gini(D_1)+ \frac{10}{15}Gini(D_2)=\frac{5}{15}(2\times \frac{1}{5}\times \frac{4}{5})+\frac{10}{15}(2\times \frac{8}{10}\times \frac{2}{10})=0.32$

因为$Gini(D,A_4)=1$最小，所以信贷情况取值非常好可以作为特征$A_4$的最优切分点。

在$A_1,A_2,A_3,A_4$四个特征中，$Gini(D,A_3=1)=0.27$最小，因此特征$A_3$可以作为最优特征，$A_3=1$为其最优切分点。于是根结点生成两个子结点，一个为叶结点，对另一个结点继续使用上述方法在特征$A_1,A_2,A_4$中选择最优特征和最优切分点。

**python实现CART分类树**

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
def loan_data():
    data = np.array([['青年','否','否','一般','否'],
                     ['青年','否','否','好','否'],
                     ['青年','是','否','好','是'],
                     ['青年','是','是','一般','是'],
                     ['青年','否','否','一般','否'],
                     ['中年','否','否','一般','否'],
                     ['中年','否','否','好','否'],
                     ['中年','是','是','好','是'],
                     ['中年','否','是','非常好','是'],
                     ['中年','否','是','非常好','是'],
                     ['老年','否','是','非常好','是'],
                     ['老年','否','是','好','是'],
                     ['老年','是','否','好','是'],
                     ['老年','是','否','非常好','是'],
                     ['老年','否','否','一般','否']])
    labels = np.array([u'年龄',u'有工作',u'有自己的房子',u'信贷情况',u'类别'])
    return data,labels
X,y = loan_data()
train_data = pd.DataFrame(X,columns=y)
train_data

Unnamed: 0,年龄,有工作,有自己的房子,信贷情况,类别
0,青年,否,否,一般,否
1,青年,否,否,好,否
2,青年,是,否,好,是
3,青年,是,是,一般,是
4,青年,否,否,一般,否
5,中年,否,否,一般,否
6,中年,否,否,好,否
7,中年,是,是,好,是
8,中年,否,是,非常好,是
9,中年,否,是,非常好,是


In [8]:
def calc_gini(data):
    nums = len(data)
    labels_set = {}
    for current_instance in data:
        label = current_instance[-1]
        labels_set[label] = labels_set.get(label,0)+1
    Gini=0
    for i in labels_set.keys():
        Gini += labels_set[i]/nums * (1 - labels_set[i]/nums)
    return Gini

In [9]:
calc_gini(np.array(train_data))

0.48

In [16]:
def calc_gini_feat(data,feature,feature_values):
    nums = len(data)
    D1,D2 = [],[]
    for current in data:
        if current[feature]==feature_values:
            D1.append(current)
        else:
            D2.append(current)
    return len(D1)/nums*calc_gini(D1)+len(D2)/nums*calc_gini(D2)

In [19]:
#A3的基尼指数
calc_gini_feat(np.array(train_data),2,'是')

0.26666666666666666

In [20]:
#A2的基尼指数
calc_gini_feat(np.array(train_data),1,'是')

0.31999999999999995

In [58]:
def choose_best_split(data):
    """
    data is DataFrame(pandas)
    """
    best_feature = None;best_feat = np.inf;best_split = None,feature_id = None
    features = data.columns[:-1]
    for axis in range(len(features)):
        feature_labels = {}
        for i in set(data.iloc[:,axis]):
            print("特征{},取值{}的基尼指数为{}".format(features[axis],i,calc_gini_feat(np.array(data),axis,i)))
            if calc_gini_feat(np.array(data),axis,i)<=best_feat:
                best_feat = calc_gini_feat(np.array(data),axis,i)
                best_split = i
                best_feature = features[axis]
                feature_id = axis
    return best_feature,best_split,best_feat,feature_id

In [59]:
choose_best_split(train_data)

特征年龄,取值青年的基尼指数为0.44
特征年龄,取值中年的基尼指数为0.4799999999999999
特征年龄,取值老年的基尼指数为0.43999999999999995
特征有工作,取值否的基尼指数为0.31999999999999995
特征有工作,取值是的基尼指数为0.31999999999999995
特征有自己的房子,取值否的基尼指数为0.26666666666666666
特征有自己的房子,取值是的基尼指数为0.26666666666666666
特征信贷情况,取值非常好的基尼指数为0.36363636363636365
特征信贷情况,取值好的基尼指数为0.4740740740740741
特征信贷情况,取值一般的基尼指数为0.31999999999999995


('有自己的房子', '是', 0.26666666666666666)

In [27]:
#构建结点
class Node:
    def __init__(self,root=True,label=None,feature_name=None,feature=None):
        self.root = root #是否叶结点
        self.label = label #叶结点类标签（叶结点才有）
        self.feature_name = feature_name #子结点的特征（即对应条件熵最大的特征）
        self.feature = feature #特征的索引
        self.tree = {}
        self.result = {'label':self.label,'feature':self.feature,'tree':self.tree}
    def __repr__(self):
        return '{}'.format(self.result)
    def add_node(self,val,node):
        self.tree[val]=node
    def predict(self,features):
        if self.root is True:
            return self.label
        return self.tree[features[self.feature]].predict(features)
#构建决策树
class Dicision_tree:
    def __init__(self,epsilon=0.1):
        self.epsilon = epsilon
        self._tree = {}
    #计算基尼指数
    def calc_gini(self,data):
        nums = len(data)
        labels_set = {}
        for current_instance in data:
            label = current_instance[-1]
            labels_set[label] = labels_set.get(label,0)+1
        Gini=0
        for i in labels_set.keys():
            Gini += labels_set[i]/nums * (1 - labels_set[i]/nums)
        return Gini
    #计算条件基尼指数
    def calc_gini_feat(self,data,feature,feature_values):
        nums = len(data)
        D1,D2 = [],[]
        for current in data:
            if current[feature]==feature_values:
                D1.append(current)
            else:
                D2.append(current)
        return len(D1)/nums*self.calc_gini(D1)+len(D2)/nums*self.calc_gini(D2)
    def choose_best_split(self,data):
        """
        data is DataFrame(pandas)
        """
        best_feature = None;best_feat = np.inf;best_split = None;feature_index = None;
        features = data.columns[:-1]
        for axis in range(len(features)):
            feature_labels = {}
            for i in data.iloc[:,axis].value_counts().index:
                print("特征{},取值{}的基尼指数为{}".format(features[axis],i,self.calc_gini_feat(np.array(data),axis,i)))
                if self.calc_gini_feat(np.array(data),axis,i) <= best_feat:
                    best_feat = self.calc_gini_feat(np.array(data),axis,i)
                    best_split = i
                    best_feature = features[axis]
                    feature_index = axis
        return best_feature,best_split,best_feat,feature_index
    def train(self,train_data):
        """
        输入：train_data D(DataFrame(pandas)),特征集A,阈值epsilon
        输出：决策树T
        """
        y_train = train_data.iloc[:,-1]
        #1,若D中所有实例属于同一类，则T为单结点树，并将该类作为结点的类标记
        if (len(y_train.value_counts().index)==1):
            return Node(root=True,label = y_train.value_counts().index[0])
        #2.若A为空,则T为单结点树，并将D中实例数最大的类Ck作为该结点的类标记
        if (len(y_train.value_counts().index)==0):
            return Node(root=True,label = y_train.value_counts().sort_values(ascending=False).index[0])
        #3.否则，计算A中各特征对D的基尼指数，选择基尼指数最小的 特征Ag
        gini_feature_name,gini_split,gini_feat,feature_index = self.choose_best_split(train_data)
        
        #4.如果Ag的gini小于阈值epsilon，则置T为单结点树，并将D中实例数最大的类Ck作为该结点的类标记，返回T
        
        #注意！！！在特征‘有自己的房子’的条件下，‘有工作’的基尼指数等于0，如果加入下面if的停止条件，会导致子树无法生成
        
        #if gini_feat < self.epsilon:
        #    return Node(root=True,label = y_train.value_counts().sort_values(ascending=False).index[0])
        
        #5.否则，对Ag的每一可能值ai，依Ag=a将D分割为两个非空子集D1和D2，将Di中实例数最大的类作为类标记，构建子结点，
        ## 由结点及其子结点构成树T并返回T
        node_tree = Node(root=False,feature_name=gini_feature_name,feature = feature_index)
        #feature_list = train_data[gini_feature_name].value_counts().index
        #6.递归生成树 子集D1
        sub_train_data = train_data.loc[train_data[gini_feature_name]==gini_split].drop([gini_feature_name],axis=1)
        print('***D1 is ',sub_train_data)
        sub_tree = self.train(sub_train_data)
        node_tree.add_node(gini_split,sub_tree)
        #6.递归生成树 子集D2
        sub_train_data1 = train_data.loc[train_data[gini_feature_name]!=gini_split].drop([gini_feature_name],axis=1)
        print('***D2 is',sub_train_data1)
        sub_tree1 = self.train(sub_train_data1)
        node_tree.add_node('not'+gini_split,sub_tree1)
        
        return node_tree
    def fit(self,train_data):
        self._tree = self.train(train_data)
        return self._tree
    def predict(self,X_test):
        return self._tree.predict(X_test)

In [28]:
dt = Dicision_tree()
dt.fit(train_data)

特征年龄,取值青年的基尼指数为0.44
特征年龄,取值中年的基尼指数为0.4799999999999999
特征年龄,取值老年的基尼指数为0.43999999999999995
特征有工作,取值否的基尼指数为0.31999999999999995
特征有工作,取值是的基尼指数为0.31999999999999995
特征有自己的房子,取值否的基尼指数为0.26666666666666666
特征有自己的房子,取值是的基尼指数为0.26666666666666666
特征信贷情况,取值好的基尼指数为0.4740740740740741
特征信贷情况,取值一般的基尼指数为0.31999999999999995
特征信贷情况,取值非常好的基尼指数为0.36363636363636365
***D1 is      年龄 有工作 信贷情况 类别
3   青年   是   一般  是
7   中年   是    好  是
8   中年   否  非常好  是
9   中年   否  非常好  是
10  老年   否  非常好  是
11  老年   否    好  是
***D2 is     年龄 有工作 信贷情况 类别
0   青年   否   一般  否
1   青年   否    好  否
2   青年   是    好  是
4   青年   否   一般  否
5   中年   否   一般  否
6   中年   否    好  否
12  老年   是    好  是
13  老年   是  非常好  是
14  老年   否   一般  否
特征年龄,取值青年的基尼指数为0.43333333333333335
特征年龄,取值老年的基尼指数为0.3333333333333333
特征年龄,取值中年的基尼指数为0.38095238095238093
特征有工作,取值否的基尼指数为0.0
特征有工作,取值是的基尼指数为0.0
特征信贷情况,取值好的基尼指数为0.4
特征信贷情况,取值一般的基尼指数为0.26666666666666666
特征信贷情况,取值非常好的基尼指数为0.3333333333333333
***D1 is      年龄 信贷情况 类别
2   青年    好  是
12  老年    好  是
13  老年  非常好  是
***D2 i

{'label': None, 'feature': 2, 'tree': {'是': {'label': '是', 'feature': None, 'tree': {}}, 'not是': {'label': None, 'feature': 1, 'tree': {'是': {'label': '是', 'feature': None, 'tree': {}}, 'not是': {'label': '否', 'feature': None, 'tree': {}}}}}}