## 概念补充
### 信息增益
信息熵（entropy）是度量样本集合“纯度”最常用的一种指标，假定当前样本集合$D$中$k$类样本所占比例为$p_k$,      
则D的信息熵定义为$Ent(D)=-\sum\limits_{k=1}^{|y|}p_klog_2 {p_k}$      
> 计算时规定$p=0$时，$Ent(D)=0$     
$Ent(D)$最小值为0，最大值为$log_2|y|$       

信息增益直接以信息熵为基础，计算当前划分对信息熵所造成的变化

## 决策树基本概念
![image](images/jcs.png)      

**树的含义**     
- 每个内部结点对应于某个属性上的测试
- 每个分支对应于测试的一种可能性
- 每个叶结点对应一种预测结果   

**学习过程：**对训练样本分析来“划分属性”（即内部结点对应的属性）     
**预测过程：**将测试示例从根结点开始，沿着划分属性所构成的“判定测试序列”下行，直到叶结点   

## 决策树简史  
- **第一个决策树算法: CLS(Concept Learning System)**   
[E B. Hunt, J. Marin, and P. T. Stone's book "Experiments in
Induction published by Academic Press in 1966 
- **主流算法：ID3**    
J.R. Quinlan's paper in a book "Expert Systems in the micro
Electronic Age edited by D. Michie, published by edinburgh
University press in 1979   
- **最常用：C4.5**    
J.R. Quinlan's book"C4.5: Programs
for Machine Learning" published by
Morgan Kaufmann in 1993      
- **可以用于回归任务的决策树算法:CART( Classification and
Regression tree)**    
[L Breiman, J H. Friedman, R A Olshen, and C J. Stone's book
Classification and Regression Trees published by Wadsworth
in1984
- **基于决策树的最强大算法:RF( Random forest)**       
[L. Breiman's MLJ'01 paper Random Forest"]

## 基本流程

策略:“分而治之”( divide-and-conquer)
自根至叶的递归过程
在每个中间结点寻找一个“划分”( split or test)属性

**3种停止条件:**
- (1)当前结点包含的样本全属于同一类别,无需划分;
- (2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;
- (3)当前结点包含的样本集合为空,不能划分.


## 不同决策树算法的基本原理
### ID3算法
离散属性$a$的取值为$\{a_1,a_2.\cdots,a_V\}$      
$D_v:D$中在$a$上取值$=a_v$的样本集合      
以属性$a$对数据集$D$进行划分所获得的信息增益为     
$Gain(D,a)=Ent(D)-\sum\limits_{v=1}^V\frac{|D_v|}{|D|}Ent(D_v)$      
其中前一项是划分前的信息熵，后一项是划分后的信息熵，$\frac{|D_v|}{|D|}$代表了第$v$个分支的权重，样本越多越重要

**从文件中导入数据**    

- 文件的第一行为属性，剩余行为各属性值
- 文件类型为csv

In [19]:
import numpy as np

"""
@description:载入数据
@params:input_file-文件名；delimiter-分隔符
@return:dataSet-二维数组，每一行代表一个样本，每一列代表一个属性；attr-所有属性值
"""
def loadDataSet(input_file,delimiter):
    dataSet = []
    attr = []
    with open(input_file,"r",encoding='utf-8') as f:
        head = f.readline().strip()
        attr = head.split(delimiter)
        for line in f:
            values = line.strip().split(delimiter)
            dataSet.append(values)
    return np.array(dataSet),np.array(attr)


# 测试代码
input_file = "files/xigua_data3.0.csv"
dataSet,labels = loadDataSet(input_file,",")
print(labels)
print(dataSet)


['编号' '色泽' '根蒂' '敲声' '纹理' '脐部' '触感' '密度' '含糖率' '好瓜']
[['1' '青绿' '蜷缩' '浊响' '清晰' '凹陷' '硬滑' '0.697' '0.46' '是']
 ['2' '乌黑' '蜷缩' '沉闷' '清晰' '凹陷' '硬滑' '0.774' '0.376' '是']
 ['3' '乌黑' '蜷缩' '浊响' '清晰' '凹陷' '硬滑' '0.634' '0.264' '是']
 ['4' '青绿' '蜷缩' '沉闷' '清晰' '凹陷' '硬滑' '0.608' '0.318' '是']
 ['5' '浅白' '蜷缩' '浊响' '清晰' '凹陷' '硬滑' '0.556' '0.215' '是']
 ['6' '青绿' '稍蜷' '浊响' '清晰' '稍凹' '软粘' '0.403' '0.237' '是']
 ['7' '乌黑' '稍蜷' '浊响' '稍糊' '稍凹' '软粘' '0.481' '0.149' '是']
 ['8' '乌黑' '稍蜷' '浊响' '清晰' '稍凹' '硬滑' '0.437' '0.211' '是']
 ['9' '乌黑' '稍蜷' '沉闷' '稍糊' '稍凹' '硬滑' '0.666' '0.091' '否']
 ['10' '青绿' '硬挺' '清脆' '清晰' '平坦' '软粘' '0.243' '0.267' '否']
 ['11' '浅白' '硬挺' '清脆' '模糊' '平坦' '硬滑' '0.245' '0.057' '否']
 ['12' '浅白' '蜷缩' '浊响' '模糊' '平坦' '软粘' '0.343' '0.099' '否']
 ['13' '青绿' '稍蜷' '浊响' '稍糊' '凹陷' '硬滑' '0.639' '0.161' '否']
 ['14' '浅白' '稍蜷' '沉闷' '稍糊' '凹陷' '硬滑' '0.657' '0.198' '否']
 ['15' '乌黑' '稍蜷' '浊响' '清晰' '稍凹' '软粘' '0.36' '0.37' '否']
 ['16' '浅白' '蜷缩' '浊响' '模糊' '平坦' '硬滑' '0.593' '0.042' '否']
 ['17' '青绿' '蜷缩' '沉闷' '稍糊' '稍凹'

In [20]:
import numpy as np
# 计算数据集D中有几种类
def count_type(D):
    type_list = D[:,-1]
    return len(set(type_list))

# 测试代码
D = np.array([[1,2,3],[1,2,4],[2,3,4]])
print(count_type(D))

2


In [None]:
import numpy as np
# 计算数据集D中数据在A中所有属性上取值的最大值
def count_attr(D,A):
    pass

In [36]:
import numpy as np
def more_typeNum(D):
    dictory = {}
    type_list = D[:,-1]
    for i in type_list:
        if i not in dictory.keys():
            dictory[i] = 0
        dictory[i] += 1
        
    max_num = -1
    max_type = ""
    for item in dictory.items():
        if item[1] > max_num:
            max_num = item[1]
            max_type = item[0]
    return max_type

D = np.array([['青绿','蜷缩','浊响','是']
 ,['乌黑','蜷缩','沉闷','是']
 ,['乌黑','蜷缩','浊响','否']])
more_typeNum(D)

'是'

In [43]:
import numpy as np
import math
"""
计算给定数据集的信息熵（香农熵）
@ param dataSet:数据集
@ return shannonEnt:香农熵
"""
def calcShannonEnt(dataSet,attr):
    # 根据attr的取值将dataSet分类
    label_list = dataSet[:,attr]
    label_set = list(set(label_list))
    count = {}
    cnt = 0
    for row in dataSet:
        if row[attr] not in count.keys():
            count[row[attr]] = 0
        count[row[attr]] += 1
        cnt += 1
    
    sumNum = 0
    for key in count.keys():
        pk = count[key]/cnt
        sumNum -= pk*math.log(pk)
    print(sumNum)
        
# 测试
D = np.array([['青绿','蜷缩','浊响','是']
 ,['乌黑','蜷缩','沉闷','是']
 ,['乌黑','蜷缩','浊响','否']])
attr = len(D[0])-1
calcShannonEnt(D,attr)

0.6365141682948128


In [None]:
import numpy as np
# 从属性A中找到最优属性
def findBest(D,A):
    pass

In [None]:
import numpy as np
# 将单属性a的值为value的数据提取出来
def extract_by_attr(D,a,value):
    extract_D = []
    for row in D:
        if D[row,a]==value:
            extract_D.append(row)
    return extract_D

In [26]:
import numpy as np
# 计算D数据集中a*的取值范围
def uniqueValues(D,a_star):
    return np.array(set(D[:,a_star]))

# 测试
D = np.array([['乌黑','稍蜷','浊响'],
    ['浅白','稍蜷','浊响'],
    ['乌黑','蜷缩','浊响']])
print(uniqueValues(D,1))

{'稍蜷', '蜷缩'}


**树的结构**用一个**字典**来表示   
如：   
root = {"色泽":{"青绿":根蒂,"乌黑":根蒂,"浅白":"好瓜"}}     
根蒂 = {"根蒂":{"蜷缩":蜷缩,"硬挺":"好瓜"}}，即根蒂为一个子树    

**算法的三个终止条件**    
- (1)当前结点包含的样本全属于同一类别,无需划分;
- (2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;
- (3)当前结点包含的样本集合为空,不能划分.

In [None]:
# D:Training Set，二维数组；A:Attribute，一维数组；label:原始属性对应关系
def treeGenerate(D,A,label):
    # （1）若D中样本全属于同一类别C,将新节点标记为C
    if count_type(D) == 1:
        return D[0,-1]

    # （2）若A为空集 OR D中样本在A上取值相同
    elif len(A)==0 or count_attr(D,A)==1:
        # 将类别标记为D中样本数量最多的点
        return  more_typeNum(D)
    
    # （3）否则，选取最优属性进行划分
    else:
        # 从A中选取最优属性a*
        a_star = findBest(D,A)
        
        aValues = uniqueValues(D,a_star) # D数据集中a*的取值范围
        for value in  aValues:
            tree = {label[a_star]:{}} # 生成一个新的分支
            Dv = extract_by_attr(D,a_star,value)
            if not Dv:
                tree[label[a_star]] = more_typeNum(D)
            else:
                A.del(a_star)
                tree[label[a_star]] = treeGenerate(Dv,A,label)
    return tree

In [None]:
# tree:决策树;labels:属性
def predict(tree,labels):
    

In [None]:
import numpy as np
def main():
    # 读取Training Set和Attribute
    input_file = "files/xigua_data3.0.csv"
    trainingSet,attribute = loadDataSet(input_file,",")
    
    # 将字符串类型的attribute转换成数字
    A = np.arange(len(attribute)) 
    # 生成决策树
    decision_tree = treeGenerate(trainingSet,A)
    # 原始信息增益
    EntD = calcShannonEnt(trainingSet)
    
    # 根据决策树进行预测
    # (1) 用户输入瓜的属性信息
    print("please input the ",attribute)
    
    # (2) 预测
    