In [None]:
''' 
决策树是一个工程问题(代码要涉及递归)
1 对于每个特征 选择最重要的特征作为分割方式(ID3,C4.5,CART)
2 循环 或 达到最大深度
'''

In [None]:
''' 
分割方式
ID3 = 信息增益IG
C4.5 = 信息增益率IGR
CART = 基尼系数gini_gain

'''

In [None]:
''' 
x (m,n) m=样本数量 n=特征维度
xi = (1,n) 单一特征
y (m,) 标签


——————————信息熵——————————
ID3
IG = IG(xi,y)
每个特征选最大的

C4.5
IGR = IGR(xi,y)
每个特征选最大的

——————————基尼系数——————————
CART
gini_gain = gini_gain(xi,y)
每个特征选最大的
'''

In [None]:
import numpy as np
from collections import Counter

# ————————————————信息熵—————————————————
# tool 计算信息熵
''' 
一组分类的信息熵 entropy
输入 x = [0,1,1,0,1]
p = {0: 0.4, 1: 0.6}
n = sum(p * log(1/p))
输出 n
'''
def entropy(self, x):
    c = Counter(x) # {0: 2, 1: 3}
    lenx = len(x) # 5 
    
    n = 0 # 初始化熵
    for i in c.values():
        p = i / lenx
        n +=  p * np.log2(1/p)
    return n

# ————————————————信息熵-IG——————————————————

# tool 计算信息增益
''' 
一个特征带来的信息增益
输入 
x = [0, 0, 1, 1, 2, 2]
y = [1, 0, 1, 1, 0, 1]

n_y = 信息熵(y) = 0.918

type_x = [0, 1, 2]

遍历type_x
i = 0
xi = [t,t,f,f,f,f]
yi = [1,0]
p = len(yi) / len(y)
n += p * 信息熵(yi)

IG = n_y - n
输出 IG
'''
def IG(self, x, y):
    n_y = self.entropy(y) # 原始信息熵

    type_x = np.unique(x) # x的分类 [0,1,2]
    n = 0 # 初始化加权熵
    
    # 遍历type_x
    for i in type_x:
        # 获取当前分类对应的y
        xi = np.array(x) == i # [t,t,f,f,f,f]
        yi = y[xi] # [1,0]
        p = len(yi) / len(y) # 熵权重
        n += p * self.entropy(yi)
    
    IG = n_y - n # 信息增益
    return IG


# ————————————————信息熵-IGR——————————————————

# tool 计算信息增益率(C4.5)
''' 
C4.5使用信息增益率避免ID3偏向选择取值较多的特征
输入 
x = [0, 0, 1, 1, 2, 2] 
y = [1, 0, 1, 1, 0, 1]

IG = IG(x,y)
n = entropy(x)

IGR = IG / n
输出 IGR
'''
def IGR(self, x, y):
    ig = self.IG(x, y) # 信息增益
    si = self.entropy(x) # 分割信息

    IGR = ig / si # 信息增益率
    
    return IGR

In [None]:
# ————————————————gini——————————————————
# tool 计算基尼系数
''' 
一组分类的gini系数
输入 x = [0,1,1,0,1]
p = {0: 0.4, 1: 0.6}
gini = 1 - sum(p * p)
输出 gini
'''
def gini(self, x):
    c = Counter(x) # {0: 2, 1: 3}
    lenx = len(x) # 5 

    gini = 1 # 初始化基尼系数
    for i in c.values():
        p = i / lenx
        gini -= p * p
    return gini

# ————————————————gini-gain——————————————————
# tool 计算基尼增益

# tool 计算基尼增益(CART)
''' 
一个特征带来的基尼增益
输入 
x = [0, 0, 1, 1, 2, 2] 
y = [1, 0, 1, 1, 0, 1]

gini_y = gini(y) = 0.5 

遍历type_x
i = 0
xi = [t,t,f,f,f,f]
yi = [1,0]
p = len(yi) / len(y)
g += p * gini(yi)

gini_gain = gini_y - g
输出 gini_gain
'''
def gini_gain(self, x, y):
    gini_y = self.gini(y) # 原始基尼系数

    type_x = np.unique(x) # x的分类 [0,1,2]
    g = 0 # 初始化加权gini
    
    # 遍历type_x
    for i in type_x:
        # 获取当前分类对应的y
        xi = np.array(x) == i # [t,t,f,f,f,f]
        yi = y[xi] # [1,0]
        p = len(yi) / len(y) # gini权重
        g += p * self.gini(yi)

    gini_gain = gini_y - g # 基尼增益
    return gini_gain 
