#### 学习内容
##### 总结决策树模型结构
##### 理解决策树递归思想
##### 学习信息增益
##### 学习信息增益率
##### 学习ID3算法优缺点
##### 学习C4.5算法优缺点
##### 理解C4.5算法在ID3算法上有什么提升
##### 学习C4.5算法在连续值上的处理
##### 学习决策树如何生成
##### 编写代码实现给定数据集的决策树：划分数据集代码、选择最好的数据集划分方式代码、创建树的函数代码

#### 总结决策树模型结构及递归思想
   分类决策树是一种描述对实例进行分类的树形结构，类似于数据结构里的二叉树模型，由结点和有向边组成。内部结点表示一个特征或属性， 叶结点表示一个类。
    
   用决策树分类， 从根结点开始， 对实例的某一特征进行测试， 根据测试结果， 将实例分配到其子结点；这时，每一个子结点对应着该特征的一个取值。 如此递归地对实例进行测试并分配， 直至达到叶结点。 最后将实例分到叶结点的类中。

### 决策树的递归思想
   决策树学习的算法通常是一个递归地选择最优特征， 并根据该特征对训练数据进行分割， 使得对各个子数据集有一个最好的分类的过程。 这一过程对应着对特征空间的划分，也对应着决策树的构建。 
   
1）构建根结点， 将所有训练数据都放在根结点。选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好
的分类。 

2）如果这些子集已经能够被基本正确分类， 那么构建叶结点， 并将这些子集分到所对应的叶结点中去； 

3）如果还有子集不能被基本正确分类， 那么就对这些子集选择新的最优特征， 继续对其进行分割，构建相应的结点。

4）如此递归地进行下去， 直至所有训练数据子集被基本正确分类， 或者没有合适的特征为止。 

5）最后每个子集都被分到叶结点上， 即都有了明确的类。 这就生成了一棵决策树。

### 信息增益和信息增益率
信息增益（information gain）表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差， 即

$$ g(D,A)=H(D)-H(D|A)$$

根据信息增益准则的特征选择方法是：对训练数据集（或子集）D， 计算其每个特征的信息增益， 并比较它们的大小， 选择信息增益最大的特征。

#### 信息增益算法
1) 计算数据集D的经验熵H(D)

2) 计算特征A对数据集D的经验条件熵H(D|A)

3) 计算信息增益

信息增益率：特征A对训练数据集D的信息增益比gR(D,A)定义为其信息增益g(D,A)与训练数据集D的经验熵H(D)之比：$g_R(D,A)=\frac{g(D,A)}{H(D)}$

### 决策树的生成

#### 1. ID3算法

ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征， 递归地构建决策树。

算法实现步骤：

1) 若D中所有实例属于同一类Ck，则T为单结点树，并将类Ck作为该结点的类标记，返回T；

2) 若A＝Ø，则T为单结点树，并将D中实例数最大的类Ck作为该结点的类标记，返回T；

3) 否则，计算A中各特征对D的信息增益，选择信息增益最大的特征Ag；

4) 如果Ag的信息增益小于阈值, 则置T为单结点树,并将D中实例数最大的类Ck作为该结点的类标记,返回T；

5) 否则， 对Ag的每一可能值ai， 依Ag＝ai将D分割为若干非空子集Di,将Di中实例数最大的类作为标记， 构建子结点， 由结点及其子结点构成树T， 返回T；

6) 对第i个子结点， 以Di为训练集， 以A-{Ag}为特征集， 递归地调用步(1)~(5)得到子树Ti，返回Ti。

优缺点：算法简单易懂，但是容易产生过拟合

#### 2. C4.5的生成算法

C4.5算法与ID3算法相似，C4.5算法对ID3算法进行了改进。C4.5在生成的过程中， 用信息增益比来选择特征。

C4.5算法优点：产生的分类规则易于理解，准确率较高。

C4.5算法缺点：

1) 在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效.

2) C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

#### 3. C4.5算法在ID3算法上的提升
1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；

2) 在树构造过程中进行剪枝

3) 能够完成对连续属性的离散化处理；

4) 能够对不完整数据进行处理。

### 代码实现

In [1]:
import pandas as pd
import numpy as np
data=pd.read_csv('watermelon_3a.csv')
data

Unnamed: 0,Idx,color,root,knocks,texture,navel,touch,density,sugar_ratio,label
0,1,dark_green,curl_up,little_heavily,distinct,sinking,hard_smooth,0.697,0.46,1
1,2,black,curl_up,heavily,distinct,sinking,hard_smooth,0.774,0.376,1
2,3,black,curl_up,little_heavily,distinct,sinking,hard_smooth,0.634,0.264,1
3,4,dark_green,curl_up,heavily,distinct,sinking,hard_smooth,0.608,0.318,1
4,5,light_white,curl_up,little_heavily,distinct,sinking,hard_smooth,0.556,0.215,1
5,6,dark_green,little_curl_up,little_heavily,distinct,little_sinking,soft_stick,0.403,0.237,1
6,7,black,little_curl_up,little_heavily,little_blur,little_sinking,soft_stick,0.481,0.149,1
7,8,black,little_curl_up,little_heavily,distinct,little_sinking,hard_smooth,0.437,0.211,1
8,9,black,little_curl_up,heavily,little_blur,little_sinking,hard_smooth,0.666,0.091,0
9,10,dark_green,stiff,clear,distinct,even,soft_stick,0.243,0.267,0


In [2]:
def calc_entropy(dataSet):
    m=len(dataSet)
    labelcounts={}
    for i in range(m):
        label=dataSet[i][-1]
        labelcounts[label]=labelcounts.get(label,0)+1
    entropy=0.0
    for counts in labelcounts.values():
        prob=counts/m
        entropy-=prob*np.log2(prob)
    return entropy

In [3]:
def splitDataSet(dataSet, axis, value):
    retdataSet=[]
    for data in dataSet:
        if data[axis]==value:
            subFeatures=data[:axis]
            subFeatures.extend(data[axis+1:])
            retdataSet.append(subFeatures)
    return retdataSet

In [4]:
def chooseBestFeatureToSplit(dataSet):
    feature_nums=len(dataSet[0])-1
    baseEntropy=calc_entropy(dataSet)
    best_infor_gain=0.0
    best_feature=-1
    for i in range(feature_nums):
        feature_list=[example[i] for example in dataSet]
        unique_value=set(feature_list)
        new_entropy=0.0
        for value in unique_value:
            subDataSet=splitDataSet(dataSet,i,value)
            prob=len(subDataSet)/len(dataSet)
            new_entropy+=prob*calc_entropy(subDataSet)
        infor_gain=baseEntropy-new_entropy
        if infor_gain>best_infor_gain:
            best_infor_gain=infor_gain
            best_feature=i
    return best_feature

In [5]:
def majorityCnt(classList):
    m=len(classList)
    class_nums={}
    for i in range(m):
        label=classList[i]
        class_nums[label]=class_nums.get(label,0)+1
    sorted_class_nums=sorted(class_nums.items(),key=lambda x:x[1],reverse=True)
    return sorted_class_nums[0][0]

In [7]:
#==ID3 algorithm===================
def createTree(dataSet,labels):
    label_list=[example[-1] for example in dataSet]
    if label_list.count(label_list[0])==len(label_list):
        return label_list[0]
    if len(dataSet[0])==1:
        return majorityCnt(label_list)
    best_feature=chooseBestFeatureToSplit(dataSet)
    best_label=labels[best_feature]
    my_tree={best_label:{}}
    feature_value=[example[best_feature] for example in dataSet]
    unique_value=set(feature_value)
    for value in unique_value:
        sublabels=labels[0:best_feature]
        sublabels.extend(labels[best_feature+1:])
        my_tree[best_label][value]=createTree(splitDataSet(dataSet, \
               best_feature, value),sublabels)
    return my_tree

In [38]:
labels=[]
for label in data.columns[1:][:-1]:
    labels.append(label)
data['density']=data['density'].apply(str)
data['sugar_ratio']=data['sugar_ratio'].apply(str)
retdata=data.iloc[:,1:]
dataSet=retdata.values.tolist()

In [39]:
dataSet

[['dark_green',
  'curl_up',
  'little_heavily',
  'distinct',
  'sinking',
  'hard_smooth',
  '0.6970000000000001',
  '0.46',
  1],
 ['black',
  'curl_up',
  'heavily',
  'distinct',
  'sinking',
  'hard_smooth',
  '0.774',
  '0.376',
  1],
 ['black',
  'curl_up',
  'little_heavily',
  'distinct',
  'sinking',
  'hard_smooth',
  '0.634',
  '0.264',
  1],
 ['dark_green',
  'curl_up',
  'heavily',
  'distinct',
  'sinking',
  'hard_smooth',
  '0.608',
  '0.318',
  1],
 ['light_white',
  'curl_up',
  'little_heavily',
  'distinct',
  'sinking',
  'hard_smooth',
  '0.556',
  '0.215',
  1],
 ['dark_green',
  'little_curl_up',
  'little_heavily',
  'distinct',
  'little_sinking',
  'soft_stick',
  '0.40299999999999997',
  '0.237',
  1],
 ['black',
  'little_curl_up',
  'little_heavily',
  'little_blur',
  'little_sinking',
  'soft_stick',
  '0.48100000000000004',
  '0.149',
  1],
 ['black',
  'little_curl_up',
  'little_heavily',
  'distinct',
  'little_sinking',
  'hard_smooth',
  '0.43700

In [40]:
entropy=calc_entropy(dataSet)
entropy

0.9975025463691153

In [41]:
best_feature=chooseBestFeatureToSplit(dataSet)
best_feature

6

In [44]:
my_tree=createTree(dataSet,labels)
my_tree

{'density': {'0.608': 1,
  '0.639': 0,
  '0.774': 1,
  '0.43700000000000006': 1,
  '0.245': 0,
  '0.634': 1,
  '0.593': 0,
  '0.657': 0,
  '0.7190000000000001': 0,
  '0.36': 0,
  '0.6970000000000001': 1,
  '0.243': 0,
  '0.34299999999999997': 0,
  '0.6659999999999999': 0,
  '0.40299999999999997': 1,
  '0.48100000000000004': 1,
  '0.556': 1}}