In [12]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 计算信息熵

In [60]:
def calEnt(dataSet):
    n = dataSet.shape[0]
    iset = dataSet.iloc[:,-1].value_counts()
    p = iset/n
    ent = (-p*np.log2(p)).sum()
    return ent

### 创建数据

In [61]:
def createDataSet():
    row_data = {'no surfacing': [1, 1, 1, 0, 0],
                'flippers': [1, 1, 0, 1, 1],
                'fish':['yes', 'yes', 'no', 'no', 'no']}
    dataSet=pd.DataFrame(row_data)
    return dataSet

In [62]:
dataSet= createDataSet()
dataSet

Unnamed: 0,no surfacing,flippers,fish
0,1,1,yes
1,1,1,yes
2,1,0,no
3,0,1,no
4,0,1,no


In [63]:
calEnt(dataSet)

0.9709505944546686

### 根据信息增益选择出最佳数据集切分的列

In [74]:
def bestSplit(dataSet):
    baseEnt = calEnt(dataSet)  #计算原始熵
    bestGain = 0               # 初始化信息增益
    axis = -1                  #初始化最佳切分列，标签列
    for i in range(dataSet.shape[1]-1):  #对特征的每一列进行循环
        levels = dataSet.iloc[:,i].value_counts().index # 提取出当前列的所有取值
        ents = 0                                      # 初始化子节点的信息熵                       
        for j in levels:                             # 对当前列的的每一个取值进行循环
            childSet = dataSet[dataSet.iloc[:,i] == j]  # 某一个子节点的dataFramje
            ent = calEnt(childSet)                     # 计算某一个子节点的信息熵
            ents += (childSet.shape[0] / dataSet.shape[0]) * ent # 计算当前列的信息熵
        print(f'第{i}列的信息熵为{ents}')
        infoGain = baseEnt - ents      #计算当前列的信息增益
        print(f'第{i}列的信息增益为{infoGain}')
        if (infoGain > bestGain):       #选择最大的信息增益
            bestGain = infoGain        
            axis = i                   #最大增益所在的列
    return axis

In [75]:
bestSplit(dataSet)

第0列的信息熵为0.5509775004326937
第0列的信息增益为0.4199730940219749
第1列的信息熵为0.8
第1列的信息增益为0.17095059445466854


0

### 按照给定列切分数据集

In [76]:
def mySplit(dataSet, axis, value):
    col = dataSet.columns[axis]
    redataSet = dataSet.loc[dataSet[col] == value, :].drop(col, axis = 1) #把用过的删除
    return redataSet

### 递归构建决策树

In [104]:
def createTree(dataSet):
    featlist = list(dataSet.columns) #获取所有列 放在list里
    classlist = dataSet.iloc[:, -1].value_counts() #获取最后一列标签的统计
    # 递归出口 当没有特征列可用或者所有标签都是一类 就结束
    if classlist[0] == dataSet.shape[0] or dataSet.shape[1] == 1:
        return classlist.index[0]              #返回类标签
    axis = bestSplit(dataSet)                  #确定出当前最佳切分列的索引
    bestfeat = featlist[axis]                  #获取该索引对应的特征
    myTree = {bestfeat:{}}                     #采用字典嵌套的方式存储树信息
    del featlist[axis]                         #删除当前特征
    valuelist = set(dataSet.iloc[:, axis])     #提取最佳切分列所有属性值(set去重)
    for value in valuelist:                    #对每一个属性值递归建树
        myTree[bestfeat][value] = createTree(mySplit(dataSet, axis, value))
    return myTree

In [105]:
myTree = createTree(dataSet)
myTree

第0列的信息熵为0.5509775004326937
第0列的信息增益为0.4199730940219749
第1列的信息熵为0.8
第1列的信息增益为0.17095059445466854
第0列的信息熵为0.0
第0列的信息增益为0.9182958340544896


{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

In [None]:
# np.save('myTree.npy', myTree)
# read_myTree = np.load('myTree.npy').item()
# read_myTree