决策树中基于信息熵的划分

In [3]:
%%html
<img src='./img/11.jpg', width=600, height = 400>

代码实现

In [7]:
import numpy as np
import matplotlib.pyplot as plt

In [28]:
# x, y 数据的样本， d指向的哪一列（对于哪个特征进行划分呢）， v是基于哪个值来进行划分（哪个候选点来进行划分）
def split(x, y, d, v):
    index_l = (x[:, d] <= v)
    index_r = (x[:, d] > v)
    # 使用fancy indexing来进行取值
    return x[index_l], x[index_r], y[index_l], y[index_r]

In [29]:
# 定义我们的信息熵
from collections import Counter
from math import log
def Ent(y):
    result = 0;
    counter = Counter(y)  # 计算每个y取值对应的概率
    for num in counter.values():
        p = num / len(y) # 用出现的次数/总的长度
        result += -p * log(p) # 进行求和的操作
        return result

In [30]:
def try_split(x, y):
    best_ent = float('inf')  # 定义我们最好的值是无穷大
    best_d, best_v = -1, -1  # 看我们最终要基于哪一列进行划分，且它对应信息熵最小的划分value是多少
    for d in range(x.shape[1]):  # 基于我们的列数进行探索
        sorted_index = np.argsort(x[:, d]) # 对我们的第d列进行下标的排序
        for i in range(len(x) -1): # 对第d列的每行数据进行处理
            v = (x[sorted_index[i], d] + x[sorted_index[i+1], d]) / 2 # 取平均值
            x_l, x_r, y_l, y_r = split(x, y, d, v)
            ent = Ent(y_l) + Ent(y_r)
            if ent < best_ent: # 进行迭代处理
                best_ent, best_d, best_v = ent, d, v
    return best_ent, best_d, best_v

In [41]:
# 西瓜书中密度和含糖数据的准备
x = [
        [0.697, 0.460],
        [0.774, 0.376],
        [0.634, 0.264],
        [0.608, 0.318],
        [0.556, 0.215],
        [0.403, 0.237],
        [0.481, 0.149],
        [0.437, 0.211],
        [0.666, 0.091],
        [0.243, 0.267],
        [0.245, 0.057],
        [0.343, 0.099],
        [0.639, 0.161],
        [0.657, 0.198],
        [0.360, 0.370],
        [0.593, 0.042],
        [0.719, 0.103]
     ]
x = np.array(x)

In [24]:
y = [1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0]
y = np.array(y)

In [33]:
best_ent, best_d, best_v = try_split(x, y)
print("best_ent = " , best_ent)
print("best_d = " , best_d)
print("best_v = " , best_v)

best_ent =  0.2703100720721096
best_d =  1
best_v =  0.126


说明我们是先是按第一列来进行划分，这与西瓜书中的划分是一样，西瓜书中含糖率信息增益是大于密度的

In [34]:
x_l, x_r, y_l, y_r = split(x, y, best_d, best_v)
Ent(y_l)

0.0

In [37]:
Ent(y_r)  # 说明我们的信息熵在y_r部分还能进行数据的划分呢

0.2703100720721096

进行第二次划分

In [40]:
best_ent, best_d, best_v = try_split(x_r, y_r)
print("best_ent = " , best_ent)
print("best_d = " , best_d)
print("best_v = " , best_v)

best_ent =  0.17851484105136778
best_d =  0
best_v =  0.3815


依次进行下去