# 上机实验8：决策树

## 任务1：分支节点的选择方法

现有一个数据集 weekend.txt，目标是根据一个人的特征来预测其周末是否出行。

所有特征均为二元特征，取值为 0 或 1，其中“status”（目标特征也是类别）表示用户的周末是否出行，1 表示出行，0 表示不出行，“marriageStatus”表示申请人是否已婚、“hasChild”表示申请人是否有小孩、“hasAppointment”表示申请人是否有约、“weather”表示天气是否晴朗。

已知信息熵和信息增益的公式为：

$$\text{Entropy}(D)=-\sum_{k=1}^{C}p_k \cdot log_2(p_k)$$

$$\text{InfoGain}(D, a)=\text{Entropy}(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|} \cdot\text{Entropy}(D^v)$$

请完成以下三个内容：

- 请自定义函数 cal_entropy(data, feature_name)计算数据集data关于feature_name的信息熵。输入参数 data 为 DataFrame，feature_name 为目标特征(或类别)的名称；

- 请调用 cal_entropy() 函数计算决策树分支之前的信息熵，保存为 data_entropy；

- 请自定义函数 cal_infoGain(data, base_entropy) 计算 weekend.txt 中各个特征的信息增益，保存为列表 infogains，并选择信息增益最大的分支节点 best_feature。


> 补全代码

In [2]:
import numpy as np
import pandas as pd

# 读取数据
weekend_data = pd.read_table('weekend.txt', sep=' ')
#print(weekend_data)
#print(weekend_data.shape)
#hasChild = weekend_data['hasChild'].value_counts()
#print(hasChild)
#print(len(hasChild)) #2
'''for index in range(len(hasChild)):
        
        ## 获取具体的取值频数freq
        fre = hasChild[index]
        numb = weekend_data.shape[0]
        ## 通过频数计算类别概率prob，计算entropy
        ## 请在下方补全代码
        pro = fre/numb
        entro = np.sum(pro*np.log2(pro)*(-1))
print(round(entro, 3)) 计算hasChild的entropy'''

#print(weekend_data.value_counts())
#print(weekend_data.ndim)
#print(list(weekend_data.columns.values)) #获取列名
## 自定义计算entropy的函数
def cal_entropy(data, feature_name):
    '''
    data : 数据集变量，DataFrame类型
    featue_name : 目标特征名称
    '''
    
    ## 声明数据集的熵
    entropy = 0
    
    ## 获取data的样本数num
    num = data.shape[0]
    
    ## 使用value_counts()函数获取目标特征`feature_name`取值的频数统计信息freq_stats
    freq_stats = data[feature_name].value_counts()
    
    ## 遍历目标特征的不同取值频数,计算entropy
    for index in range(len(freq_stats)):
        
        ## 获取具体的取值频数freq
        freq = freq_stats[index]
        
        ## 通过频数计算类别概率prob，计算entropy
        ## 请在下方补全代码
        prob = freq / num
        #entropy = np.sum(prob*np.log2(prob)*(-1))
        entropy = entropy - prob * np.log2(prob)
        


    ## 返回结果
    return round(entropy, 3)

## 调用cal_entropy函数，计算weekend_data关于周末是否出门的信息熵
data_entropy = cal_entropy(weekend_data,'status')
#print(data_entropy)
## 自定义计算信息增益的函数cal_infoGain
## data: 数据集变量，DataFrame类型
## base_entropy: 数据集的熵
def cal_infoGain(data, base_entropy):
    
    ## 声明数据集特征的信息增益列表
    infogain_list = []
    
    ## 获取数据集的样本数nums, 维度dims
    nums = data.shape[0]
    dims = data.ndim #为什么要计算维度
    
    ## 获取数据集的特征名称，类型为list
    feature_list = list(data.columns.values)
    ## 移除目标特征名称
    feature_list.remove('status')
    #print(feature_list)
    ## 遍历每个特征
    for feature in feature_list:
        
        ## 保存feature不同取值的加权熵
        sub_entropy = 0
        
        ## 切片数据集，获取特征feature的数据记录feature_data 
        feature_data = data[feature]
        
        ## 使用value_count()函数获取特征feature取值的统计信息freq_stats
        freq_stats = feature_data.value_counts()
        #print(freq_stats)
         
        ## 计算信息增益
        ## 请在下方补全代码
        for i in range(len(freq_stats)):
            #计算该特征每个取值的频数
            prob_stats_sub = freq_stats[i]/nums 
            #计算第i个该特征的熵
            feature_data_sub = data[feature_data==i]
            feature_data_entropy = cal_entropy(feature_data_sub,'status')
            #计算该特征不同取值的加权熵
            sub_entropy = sub_entropy+prob_stats_sub*feature_data_entropy
    
        #print(prob_stats)
        #print(cal_entropy(data, feature))
        infogain = data_entropy - sub_entropy
        


        ## infogain取值保留小数点后4位，保存到infogain_list中
        infogain_list.append(round(infogain, 4))
    
    ## 获取infogain_list的最大值所在的位置索引max_index
    ## 根据max_index在feature_list中找到特征的名称best_feature
    ## 请在下方补全代码
    max_value = max(infogain_list)
    max_index = infogain_list.index(max_value)
    best_feature = feature_list[max_index]


    
    ## 返回结果
    return infogain_list, best_feature

## 调用cal_infogain()计算各个特征的信息增益infogains，并获取最优的分支节点名称best_feature
infogains, best_feature = cal_infoGain(weekend_data, data_entropy)

## 打印
print (u'信息增益列表：', infogains)
print ('')
print (u'最优的分支节点名称：', best_feature)

信息增益列表： [0.0076, 0.0076, 0.0322, 0.0868]

最优的分支节点名称： weather


> 期望输出：

![](https://ai-studio-static-online.cdn.bcebos.com/3d80a48b1b80443eae424c908401e885ea91d3cb4d3a45d698f55e4df46d84fc)


## 任务2：常见的决策树算法

现在有一份有关商品销量的数据集product.csv，数据集的离散型特征信息如下：

|特征名称|	取值说明|
| -------- | -------- |
| 天气	| 1：天气好；0：天气坏| 
| 是否周末	| 1：是；0：不是| 
| 是否有促销| 	1：有促销；0：没有促销| 
| 销量| 	1：销量高；0：销量低| 

请完成以下三个内容：
- 请根据提供的商品销量数据集 data，使用 sklearn 中的 DecisionTreeClassifier()函数构建决策树模型，模型选择分支结点的特征以Gini指数为判定准则；
- 训练模型，并对测试集test_X进行预测，将预测结果存为 pred_y，进行模型评估；
- 将构建的决策树模型进行可视化。

> 补全代码

In [3]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

data = pd.read_csv('product.csv')
#print(data)
## 对数据集切片，获取除目标特征以外的其他特征的数据记录X
X = data.drop('销量',axis=1)#小括号 指明是列，默认是行
#print(X)

## 对数据集切片，获取目标特征`销量`的数据记录y
y = data.loc[:,'销量'] #注意写法
#print(y)
## 使用train_test_split函数划分训练集train_X, train_y和测试集test_X, test_y
## 测试集所占比例为0.1,random_state为0
train_X, test_X, train_y, test_y = train_test_split(X, y, test_size = .1, random_state = 0)

## 构建分支节点选择方法为基尼指数的决策树模型tree_model，进行模型训练、测试与性能评估
## 请在下方补全代码
tree_model = DecisionTreeClassifier(criterion='gini',random_state=0)
tree_model = tree_model.fit(train_X, train_y)
pred = tree_model.predict(test_X)
print(classification_report(test_y,pred))

## 决策树可视化
from sklearn.tree import export_graphviz 
#import graphviz 改了一下，不然报错
dot_data = export_graphviz(tree_model
                                ,out_file=None
                                ,feature_names= ["天气","周末","促销"]
                                ,class_names=["销量低","销量高"]
                                ,filled=True
                                ,rounded=True
                               )
graph = graphviz.Source(dot_data)
graph

  return f(*args, **kwds)
  return f(*args, **kwds)
  return f(*args, **kwds)
  return f(*args, **kwds)


              precision    recall  f1-score   support

           0       1.00      0.50      0.67         2
           1       0.67      1.00      0.80         2

    accuracy                           0.75         4
   macro avg       0.83      0.75      0.73         4
weighted avg       0.83      0.75      0.73         4



  return f(*args, **kwds)
  return f(*args, **kwds)


NameError: name 'graphviz' is not defined

> 期望输出：

![](https://ai-studio-static-online.cdn.bcebos.com/f7c9f4d97660416b9ac354a1bcd6c87efcb7a0958cfa4579bf70a83d01ee64f7)
![](https://ai-studio-static-online.cdn.bcebos.com/eb46fe19bf43414290f904042a511f25140e1908a2eb4c2e81c52450f1de68bd)

