# 决策树

#### (1)熵:$描述了数据的混乱程度，熵越大，混乱程度越高，也就是纯度越低；反之，熵越小，混乱程度越低，纯度越高$
#### entropy：$H(x) = -\sum_{i=1}^{n}p_i\log{p_i}$
#### conditional entropy: $H(X|Y)=\sum{P(X|Y)}\log{P(X|Y)}$

#### (2)信息增益:$用信息增益表示分裂前后,根的数据复杂度和分裂节点数据复杂度的变化值,信息增益越大，分裂后的复杂度减小得越多，分类的效果越明显$
#### information gain : $g(D, A)=H(D)-H(D|A)$

#### (3)信息增益率:$信息增益率是在信息增益的基础上除以分裂节点数据量的信息增益,是为了解决信息增益的一个不可避免的缺点：倾向选择分支比较多的属性进行分裂$
#### information gain ratio: $g_R(D, A) = \frac{g(D,A)}{H(A)}$

#### (4)基尼值：$基尼值与熵同样都是表示数据的混乱程度的，基尼值越大，数据越不纯，混乱程度越高$
#### gini index:$Gini(D)=\sum_{k=1}^{K}p_k\log{p_k}=1-\sum_{k=1}^{K}p_k^2$

### 决策树的构建算法主要有ID3、C4.5、CART三种，其中ID3和C4.5是分类树，CART是分类回归树
- ID3（基于信息增益）
- C4.5（基于信息增益比）
- CART（基于gini指数）

### 决策树的构建：
- 步骤1：将所有的数据看成是一个节点，进入步骤2；
- 步骤2：从所有的数据特征中挑选一个数据特征对节点进行分割，进入步骤3；
- 步骤3：生成若干孩子节点，对每一个孩子节点进行判断，如果满足停止分裂的条件，进入步骤4；否则，进入步骤2；
- 步骤4：设置该节点是子节点，其输出的结果为该节点数量占比最大的类别。

### 决策生成过程中需注意的问题：
- 数据如何分割
- 如何选择分裂的属性
- 什么时候停止分裂

#### 数据如何分割
分裂属性的数据类型分为离散型和连续性两种情况，对于离散型的数据，按照属性值进行分裂，每个属性值对应一个分裂节点；对于连续性属性，一般性的做法是对数据按照该属性进行排序，再将数据分成若干区间

#### 选择分裂的属性
决策树采用贪婪思想进行分裂，即选择可以得到最优分裂结果的属性进行分裂.采用信息增益和信息增益率来进行分裂属性的选择

#### 什么时候停止分裂
- (1)最小节点数
- (2)熵或者基尼值小于阀值
- (3)决策树的深度达到指定的条件
- (4)所有特征已经使用完毕，不能继续进行分裂

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from collections import Counter
import math
from math import log

import pprint

In [2]:
# define the dataset
def create_data():
    datasets = [['青年', '否', '否', '一般', '否'],
               ['青年', '否', '否', '好', '否'],
               ['青年', '是', '否', '好', '是'],
               ['青年', '是', '是', '一般', '是'],
               ['青年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '好', '否'],
               ['中年', '是', '是', '好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '好', '是'],
               ['老年', '是', '否', '好', '是'],
               ['老年', '是', '否', '非常好', '是'],
               ['老年', '否', '否', '一般', '否'],
               ]
    labels = ['年龄', '有工作', '有自己的房子', '信贷情况', '类别']
    return datasets, labels

In [3]:
dataset, label = create_data()
train_data = pd.DataFrame(dataset, columns = label)
train_data

Unnamed: 0,年龄,有工作,有自己的房子,信贷情况,类别
0,青年,否,否,一般,否
1,青年,否,否,好,否
2,青年,是,否,好,是
3,青年,是,是,一般,是
4,青年,否,否,一般,否
5,中年,否,否,一般,否
6,中年,否,否,好,否
7,中年,是,是,好,是
8,中年,否,是,非常好,是
9,中年,否,是,非常好,是


In [4]:
# entropy
def cal_ent(dataset):
    data_length = len(dataset)
    label_count = {}
    for i in range (data_length):
        label = dataset[i][-1]
        if label not in label_count:
            label_count[label] = 0
        label_count[label] += 1
    ent = -sum([(p/data_length) * log(p/data_length, 2) for p in label_count.values()])
    return ent    

# conditional entropy
def cond_ent(dataset, axis=0):
    data_length = len(dataset)
    feature_sets = {}
    for i in range(data_length):
        feature = dataset[i][axis]
        if feature not in feature_sets:
            feature_sets[feature] = []
        feature_sets[feature].append(dataset[i])
    cond_ent = sum([(len(p)/data_length) * cal_ent(p) for p in feature_sets.values()])
    return cond_ent

# information gain
def info_gain(ent, cond_ent):
    return ent - cond_ent

def info_gain_train(dataset):
    entropy = cal_ent(dataset)
    count = len(dataset[0]) - 1
    best_feature = []
    
    for c in range(count):
        cond_entropy = cond_ent(dataset, axis=c)
        c_info_gain = info_gain(entropy, cond_entropy)
        best_feature.append((c, c_info_gain))
        print('特征（{}）- 信息增益-{:.3f} - 熵({}) - 条件熵({})'.format(label[c], c_info_gain, entropy, cond_entropy))
    
    # compare the value of features
    best = max(best_feature, key=lambda x:x[-1])
    return '特征({})的信息增益最大，选择为根节点特征'.format(label[best[0]])

In [5]:
info_gain_train(np.array(dataset))

特征（年龄）- 信息增益-0.083 - 熵(0.9709505944546686) - 条件熵(0.8879430945988998)
特征（有工作）- 信息增益-0.324 - 熵(0.9709505944546686) - 条件熵(0.6473003963031123)
特征（有自己的房子）- 信息增益-0.420 - 熵(0.9709505944546686) - 条件熵(0.5509775004326937)
特征（信贷情况）- 信息增益-0.363 - 熵(0.9709505944546686) - 条件熵(0.6079610319175832)


'特征(有自己的房子)的信息增益最大，选择为根节点特征'

### 用ID3算法构造决策树 

In [None]:
# define binary tree and node class
class Node:
    def __ init __(self, root=True,, label=None, feature_name=None, feature=None):
        self.root = root
        self.label = label
        self.feature = feature_name
        self.feature = feature
        self.tree = {}
        self.result = {'label:': self.label, 'feature': self.feature, 'tree': self.tree}
    
    def __repr__(self):
        return '{}'.format(self.result)

    def add_node(self, val, node):
        self.tree[val] = node

    def predict(self, features):
        if self.root is True:
            return self.label
        return self.tree[features[self.feature]].predict(features)


# decision tree
class DTree:
    def __init__(self, epsilon=0.1):
        self.epsilon = epsilon
        self._tree = {}

    # entropy
    @staticmethod
    def calc_ent(datasets):
        data_length = len(datasets)
        label_count = {}
        for i in range(data_length):
            label = datasets[i][-1]
            if label not in label_count:
                label_count[label] = 0
            label_count[label] += 1
        ent = -sum([(p/data_length)*log(p/data_length, 2) for p in label_count.values()])
        return ent

    # conditional entropy
    def cond_ent(self, datasets, axis=0):
        data_length = len(datasets)
        feature_sets = {}
        for i in range(data_length):
            feature = datasets[i][axis]
            if feature not in feature_sets:
                feature_sets[feature] = []
            feature_sets[feature].append(datasets[i])
        cond_ent = sum([(len(p)/data_length)*self.calc_ent(p) for p in feature_sets.values()])
        return cond_ent

    # info_gain
    @staticmethod
    def info_gain(ent, cond_ent):
        return ent - cond_ent

    def info_gain_train(self, datasets):
        count = len(datasets[0]) - 1
        ent = self.calc_ent(datasets)
        best_feature = []
        for c in range(count):
            c_info_gain = self.info_gain(ent, self.cond_ent(datasets, axis=c))
            best_feature.append((c, c_info_gain))
        
        best_ = max(best_feature, key=lambda x: x[-1])
        return best_
    
    def train(self, train_data):
       '''
        input: dataset D which is DataFrame format, feature sets A,threshold value eta
        output: decision tree
       '''
        _,  y_train, features = train_data.iloc[:, :-1], train_data.iloc[:, -1], train_data.columns[:-1]
        
        # 1.if the instances of D are the same class, the D shall be single node tree and the class Ck is node
        if len(y_train.value_counts()) == 1:
            return Node(root = True, label = y_train.iloc[0])
        
        # 2.if the feature of D is null, the D shall be single node tree, and return the max instance as node
        if len(features) == 0:
            return (root = True, label = y_train.value_counts().sort_values(ascending=False).index[0])
        
        # 3.calculate the max information gain
        
        
        # 4.if the max information gian is smaller than threshold value eta, the D shall be single node tree
        
        
    
    
    

In [6]:
 _, y_train, features = train_data.iloc[:, :-1], train_data.iloc[:, -1], train_data.columns[:-1]

In [15]:
y_train.value_counts()

是    9
否    6
Name: 类别, dtype: int64

In [11]:
features

Index(['年龄', '有工作', '有自己的房子', '信贷情况'], dtype='object')