## numpy实现cart算法

**基于numpy实现决策树的问题**  

单个numpy数组只能存储同种数据类型。而X的特征可能有不同的数据类型（离散型、连续型），离散型和连续型使用的分裂方法不同。仅仅使用numpy由于不能在X中存储不同数据类型会导致无法在算法中判断是连续/离散，故无法采用不同的处理方式

**因此，本算法处理的X其特征值要么全是离散型，要不全是连续型，不能处理同时包含连续型特征和离散型特征的样本数据集合**

In [173]:
import numpy as np

### 计算基尼指数

![image.png](attachment:image.png)

In [8]:
def gini(y):
    """
    计算当前节点的gini_index
    :param y:当前节点的样本中对应的分类
    
    """
    p_k = np.array([np.sum([y==k])/len(y) for k in np.unique(y)])
    gini_index = np.sum([p * (1-p) for p in p_k])
    return gini_index

In [9]:
b = np.array([0,0,1,1,0,0,0,1,1,1,1,1,1,1,0]).reshape(-1,1)
gini(b)

0.48

### 计算条件gini_index-特征A的基尼指数

在给定特征A=a的条件下，样本集合D的基尼指数Gini(D,a)
-- 表示经A=a分割后集合D的不确定性。gini_index越大，不确定性越大

D_v代表通过特征A的不同取值将样本集合D切分成的不同子集

对于当前节点集合（X，y）计算特征i的基尼增益:

确定特征i的所有可能取值，根据特征i是连续型/离散型特征对这些可能取值进行处理从而得到特征i的所有候选分割点；

尝试依次使用候选分割点对当前集合（X，y）进行二分分割，并计算对应的gini_gain
找到具有最大的gini_gain的分割点作为特征i的最佳分割点，用最佳分割点的gini_index作为特征i的gini_gain

由于二分分割时需要x来分成left和right，计算gini需要left_y和right_y,所以分割时直接返回indices表明分割的部分或者先将X,y合并（sample）再参与分割
所以计算特征i的基尼增益需要用到的参数
    
    :param X: 样本∈（m,n）——在对集合进行二分分割时需要使用特征值
    :param y: 标签∈（m,1）——计算gini_gain时需要
    :param feature_i: 当前计算的第i个特征，X[:,i]即对应的特征值
    :return 当前特征的最佳切分点及其对应的gini_gain
    
**离散型/连续型所取的候选分割点和分割时使用的方法均不同**

In [10]:
# 理解下述代码
##连续型特征的二分法
# np.unique用于找出数组中的唯一值并返回已排序的结果
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
b = np.unique(ints)# 已排序
b

# 求各种取值的中点
midpoints = (b[:-1] + b[1:]) / 2
midpoints

# 判断numpy超类——判断连续/离散型特征
a = np.array([1,0])
np.issubdtype(a[1].dtype, np.integer)

a = np.array([1,1,1,2,7,8,2])
np.issubdtype(a.dtype, np.floating)



False

将上述代码模块化

使用sample的版本:由于二分分割时需要x来分成left和right，计算gini需要left_y和right_y,所以分割时直接返回indices表明分割的部分或者先将X,y合并（sample）再参与分割

先将X,y合并（sample）再参与分割即sample版本，这样处理有一个问题：<span class="mark">因为numpy只存储同种数据类型。x可能由于离散数据导致合并后y的dtype改变,需要转换类型。</span>

上述代码运行不对，使用node_indices的版本:
基于上述代码进行改造，将需要x和y的部分改为node_indices

之后的代码传入的X,y代表所有的样本和标签，另外传入的node_indices才代表当前节点（本次欲处理的）的样本和标签

In [11]:
def create_split_points(X, feature_i):
    
    """
    根据特征i是连续型/离散型特征得到特征i的所有候选分割点,并返回对应的分割函数
    :param X: 当前集合的样本
    :param feature_i : 给定的特征索引
    :return 特征i的所有候选分割点、分割函数
    
    """
    
    # 1、确定特征i的所有可能取值
    feature_values = np.unique(X[:, feature_i])# 已排序的 
    
    # 2、根据特征i是连续型/离散型特征对这些可能取值进行处理从而得到特征i的所有候选分割点；    
    split_points = None
    split_func = None
   
    if np.issubdtype(feature_values.dtype, np.integer) or np.issubdtype(feature_values.dtype, np.floating):
        split_points = (feature_values[1:] + feature_values[:-1]) / 2 # 特征是连续型特征则使用二分法找到所有的切分点
        split_func = lambda x,split_point : x[feature_i] >= split_point
        
    else:
        split_points = feature_values# 离散型特征直接使用特征的各个取值作为切分点
        split_func = lambda x,split_point : x[feature_i] == split_point
    return split_points, split_func

In [12]:
# 测试
a = np.array([['青年','否','否','一般'],
               ['青年','否','否','好'],
               ['青年','是','否','好'],
               ['青年','是','是','一般'],
               ['青年','否','否','一般'],
               ['中年','否','否','一般'],
               ['中年','否','否','好'],
               ['中年','是','是','好'],
               ['中年','否','是','非常好'],
               ['中年','否','是','非常好'],
               ['老年','否','是','非常好'],
               ['老年','否','是','好'],
               ['老年','是','否','好'],
               ['老年','是','否','非常好'],
               ['老年','否','否','一般'],])
create_split_points(a,0)

(array(['中年', '老年', '青年'], dtype='<U3'),
 <function __main__.create_split_points.<locals>.<lambda>(x, split_point)>)

In [13]:
def get_best_split_point(X,y,node_indices, feature_i):
    
    """
    对于当前节点集合（X，y）-node_indices计算特征i的基尼增益
    :param X: 所有样本
    :param y: 所有标签
    :param node_indices : 当前样本集合对应的索引
    :param : 给定的特征索引
    :return : 返回特征i的基尼增益以及分割的左右子树
    
    """
    # 当前特征i的所有候选分割点
    split_points, split_func = create_split_points(X[node_indices], feature_i)
    # 初始化
    best_gini_gain = -1# 存储本特征的最佳切分点对应的gini_gain
    best_sets = None# 存储最佳切分点切分的左右分支
    # 依次使用候选分割点对当前集合（X，y）进行二分分割
    for point in split_points:
        # 使用每个候选分割点进行二分分割
        left_indices = np.array([i for i in node_indices if split_func(X[i],point)])
        right_indices = np.array([ i for i in node_indices if not split_func(X[i],point)])
        # 分好左右分支后计算gini_gain
        w_left, w_right = len(left_indices) / len(node_indices), len(right_indices) / len(node_indices)
        cur_gini_gain = gini(y[node_indices]) - (w_left * gini(y[left_indices]) + w_right * gini(y[right_indices]))
        # 选择最佳的split point
        if cur_gini_gain >= best_gini_gain:
            best_gini_gain = cur_gini_gain
            best_sets = {
                "best_split_point":point,
                "left_indices": left_indices,
                "right_indices": right_indices,
            }
    return best_gini_gain, best_sets

In [14]:
# 测试
a = np.array([['青年','否','否','一般'],
               ['青年','否','否','好'],
               ['青年','是','否','好'],
               ['青年','是','是','一般'],
               ['青年','否','否','一般'],
               ['中年','否','否','一般'],
               ['中年','否','否','好'],
               ['中年','是','是','好'],
               ['中年','否','是','非常好'],
               ['中年','否','是','非常好'],
               ['老年','否','是','非常好'],
               ['老年','否','是','好'],
               ['老年','是','否','好'],
               ['老年','是','否','非常好'],
               ['老年','否','否','一般'],])
b = np.array([0,0,1,1,0,0,0,1,1,1,1,1,1,1,0]).reshape(-1,1)
get_best_split_point(a,b,np.arange(len(a)), 0)

(0.040000000000000036,
 {'best_split_point': '老年',
  'left_indices': array([10, 11, 12, 13, 14]),
  'right_indices': array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])})

有了上述寻找最佳切分点的模块后，就可以针对求所有特征的gini_gain了

In [15]:
def get_best_split_feature(X,y,node_indices):
    """
    对于当前节点集合（X，y）-node_indices,找到最佳特征：求所有特征的gini_gain
    :param X: 所有样本
    :param y: 所有标签
    :param node_indices : 当前样本集合对应的索引
    
    """
    
    # 获取样本数和特征数
    n_samples, n_features = len(node_indices), X.shape[1]
    
    best_gini_gain = -1
    best_feature = None
    best_sets = None
    # 依次求所有特征的gini_gain
    for feature_i in range(n_features):
        # 特征在所有样本中取值唯一时无需找split_point和参与特征划分
        if len(np.unique(X[node_indices][:,feature_i])) == 1:
            continue
        # 特征i的基尼增益以及分割的左右子树
        cur_gini_gain,cur_branch_sets = get_best_split_point(X,y,node_indices, feature_i)
        # 寻找最佳特征
        if cur_gini_gain >= best_gini_gain:
            best_gini_gain = cur_gini_gain
            best_feature = feature_i
            best_sets = cur_branch_sets
            
    # 找到了当前节点所用的最佳特征（也找到了该特征的最佳分割点）

    return best_feature, best_sets  

In [16]:
# 测试
a = np.array([['青年','否','否','一般'],
               ['青年','否','否','好'],
               ['青年','是','否','好'],
               ['青年','是','是','一般'],
               ['青年','否','否','一般'],
               ['中年','否','否','一般'],
               ['中年','否','否','好'],
               ['中年','是','是','好'],
               ['中年','否','是','非常好'],
               ['中年','否','是','非常好'],
               ['老年','否','是','非常好'],
               ['老年','否','是','好'],
               ['老年','是','否','好'],
               ['老年','是','否','非常好'],
               ['老年','否','否','一般'],])
b = np.array([0,0,1,1,0,0,0,1,1,1,1,1,1,1,0]).reshape(-1,1)
get_best_split_feature(a,b,np.arange(len(a)))

(2,
 {'best_split_point': '是',
  'left_indices': array([ 3,  7,  8,  9, 10, 11]),
  'right_indices': array([ 0,  1,  2,  4,  5,  6, 12, 13, 14])})

有了上述模块后，就可以进行递归建树了

递归建立决策树的思路：

**初始化**

建立根节点root_node
传入数据集（X，y）＆根节点：
build_tree(X, y, self.root_node, weight)

**build_tree递归过程**

    **递归基**
    1、样本基本属于同一类
    2、没有更多特征
    
    **处理当前节点（自身）**
    1、遍历找到最佳特征和特征的最佳分割点
    2、基于最佳特征和最佳分割点分成左右子树left,right，建立左右节点left_node,right_node
    3、让buildtree()帮忙划分左右子树：
    build_tree(right_x, right_y, node.right_child_node, right_weight)
    build_tree(left_x, left_y, node.left_child_node, left_weight)

上述代码是逻辑实现，要记录划分的树结构，需要添加记录机制——Node类,将这个状态记录沿着递归树传递下去

In [17]:
class Node(object):
    """通过树结点的各属性记录生成的树结构"""
    def __init__(self,
                 best_feature_i=None, 
                 best_split_point=None,
                 left_node=None, 
                 right_node=None,
                 leaf_class = None):
        """
        每个当前结点Node都记录了当前的划分状况
        :param left_child_node : 结点的左侧子结点
        :param right_child_node : 结点的右侧子结点
        :param best_feature_i : 当前结点的最佳划分特征
        :param split_point : 当前结点的最佳特征对应的最佳分割点
        :param leaf_class : 如果当前结点是叶子，则记录其所属的类别
        
        """
        self.best_feature_i = best_feature_i
        self.best_split_point = best_split_point
        self.left_node = left_node
        self.right_node = right_node
        self.leaf_class = leaf_class

为什么不记录left_indice和right_indices?

对于构建的决策树，训练过程的数据集划分不重要，重要的是当前结点按照哪个特征和分割点进行分割。

这样当有训练集以外的样本要预测时就可以一路遍历决策树直到到达叶子节点找到对应的分类

In [18]:
def build_tree_recussive(X,y, node_indices,node:Node):
    """
    对于当前节点集合（X，y）-node_indices,递归建立决策树
    :param X: 所有样本
    :param y: 所有标签
    :param node_indices : 当前样本集合对应的索引
    :param node : 当前结点的状态记录
    
    """
    """
    对于当前节点集合（X，y）-node_indices,递归建立决策树
    :param X: 所有样本
    :param y: 所有标签
    :param node_indices : 当前样本集合对应的索引
    
    """
    n_samples = len(node_indices)
    n_features = X.shape[1]
    
    ## 递归基
    # 节点包含数据属于同一个类别，此时无需划分
    if len(np.unique(y[node_indices])) <= 1:
        # 记录叶子结点所属的分类
        node.leaf_class = y[node_indices][0]
        return
    # 没有更多特征(当前节点所含样本所有特征都只有一个取值)
    if np.sum(len(np.unique(X[node_indices][:,i])) for i in range(n_features)) == n_features:
        return
    ## 处理当前节点自身
    # 找到最佳特征和特征的最佳分割点
    best_feature_i, best_sets = get_best_split_feature(X, y, node_indices)
    # 基于最佳特征和最佳分割点分成左右子树left,right
    left_indices = best_sets["left_indices"]
    right_indices = best_sets["right_indices"]
    # 记录本节点的状态
    node.best_feature_i = best_feature_i
    node.best_split_point = best_sets["best_split_point"]
    node.left_node = Node()
    node.right_node = Node()
    # --leaf_value在递归基时才记录
    
    # 让buildtree()帮忙划分左右子树
    build_tree_recussive(X,y,left_indices,node.left_node)
    build_tree_recussive(X,y,right_indices,node.right_node)
    
    

In [19]:
# 测试
a = np.array([['青年','否','否','一般'],
               ['青年','否','否','好'],
               ['青年','是','否','好'],
               ['青年','是','是','一般'],
               ['青年','否','否','一般'],
               ['中年','否','否','一般'],
               ['中年','否','否','好'],
               ['中年','是','是','好'],
               ['中年','否','是','非常好'],
               ['中年','否','是','非常好'],
               ['老年','否','是','非常好'],
               ['老年','否','是','好'],
               ['老年','是','否','好'],
               ['老年','是','否','非常好'],
               ['老年','否','否','一般'],])
b = np.array([0,0,1,1,0,0,0,1,1,1,1,1,1,1,0])
root_node = Node()
build_tree_recussive(a,b, np.arange(len(a)), root_node)


  if np.sum(len(np.unique(X[node_indices][:,i])) for i in range(n_features)) == n_features:


上述代码构建好了决策树，如何进行预测？——二叉搜索树

从根结点开始遍历已经构建好的决策树：

走到当前结点的x,根据当前节点的最佳特征及最佳切分点决定是继续往左边走还是往右边走：
离散型特征==时/连续型特征>=时往左边走，否则往右边

让二叉搜索树帮忙继续搜索

递归基：遍历到叶子节点则返回

通过返回的叶子节点判断所属分类

In [20]:
def predict(X):
    """
    :param X: 待预测的m个样本
    
    """
    # 每一个样本都通过二叉搜索决策树树查找所属类别,决策树由其根节点作为代表
    y_pred = [search_class(x, root_node) for x in X]
    return y_pred

def search_class(x, node:Node):
    """
    : param x: 待预测所属分类的样本
    : param node : 当前所在节点
    
    """
    ## 递归基
    if node.leaf_class is not None:
        return node.leaf_class
    
    ## 当前节点的工作
    # 根据当前节点的最佳特征及最佳切分点决定x是继续往左边走还是往右边走
    # 与训练时不同，这里在预测单个样本时取的feature_value是单个值,转成array才能在后面用dtype
    feature_value = x[node.best_feature_i]
    # 离散型/连续型特征处理不同
    
    if np.issubdtype(np.array(feature_value).dtype, np.integer) or np.issubdtype(np.array(feature_value).dtype, np.floating):
        # 连续型
        if feature_value >= node.best_split_point:
            # 往左边
            return search_class(x,node.left_node)
        else:
            return search_class(x, node.right_node)
    else:
        if feature_value == node.best_split_point:
            # 往左边
            return search_class(x, node.left_node)
        else:
            return search_class(x, node.right_node)
        

上述代码出口太多了，修改一下格式（逻辑不变）

In [36]:
def search_class(x, node:Node):
    """
    : param x: 待预测所属分类的样本
    : param node : 当前所在节点
    
    """
    
    
    # 递归基
    if node.leaf_class is not None:# 已经走到叶子
        return node.leaf_class
    ## 当前节点的工作
    # 本样本最终要往哪个分支走
    goto = None
    # 根据当前节点的最佳特征及最佳切分点决定x是继续往左边走还是往右边走
    feature_value = x[node.best_feature_i]
    # 离散型/连续型特征处理不同
    if isinstance(feature_value, int) or isinstance(feature_value, float):
        if feature_value >= node.best_split_point:
            goto = node.left_node# 往左边
        else:
            goto = node.right_node#往右边
    else:
        if feature_value == node.best_split_point:
            goto = node.left_node# 往左边
        else:
            goto = node.right_node
    return search_class(x, goto)
        

In [21]:
X = np.array([['青年','否','否','一般'],
               ['青年','否','否','好'],
               ['青年','是','否','好'],
               ['青年','是','是','一般'],
               ['青年','否','否','一般'],
               ['中年','否','否','一般'],
               ['中年','否','否','好'],
               ['中年','是','是','好'],
               ['中年','否','是','非常好'],
               ['中年','否','是','非常好'],
               ['老年','否','是','非常好'],
               ['老年','否','是','好'],
               ['老年','是','否','好'],
               ['老年','是','否','非常好'],
               ['老年','否','否','一般'],])

y_pred = predict(X)


In [22]:
print(y_pred)

[0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0]


In [23]:
from sklearn.datasets import load_iris
data = load_iris()
X,y = data.data, data.target
root_node = Node()
build_tree_recussive(X,y, np.arange(len(X)), root_node)

  if np.sum(len(np.unique(X[node_indices][:,i])) for i in range(n_features)) == n_features:


In [24]:
y_pred = predict(X)
print(y_pred)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]


In [25]:
print(y)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [26]:
a = np.array([1,2,3,2])
b = np.array([1,1,3,4])
np.sum(a==b)

2

In [27]:
def accuracy(y_pred, y_true):
    return np.sum(y_pred == y_true) / len(y_pred)

In [28]:
accuracy(y_pred, y) # 过拟合

1.0

封装上述代码

In [110]:

class Node(object):
    """通过树结点的各属性记录生成的树结构"""
    def __init__(self,
                 best_feature_i=None, 
                 best_split_point=None,
                 left_node=None, 
                 right_node=None,
                 leaf_class = None):
        """
        每个当前结点Node都记录了当前的划分状况
        :param left_child_node : 结点的左侧子结点
        :param right_child_node : 结点的右侧子结点
        :param best_feature_i : 当前结点的最佳划分特征
        :param split_point : 当前结点的最佳特征对应的最佳分割点
        :param leaf_class : 如果当前结点是叶子，则记录其所属的类别
        
        """
        self.best_feature_i = best_feature_i
        self.best_split_point = best_split_point
        self.left_node = left_node
        self.right_node = right_node
        self.leaf_class = leaf_class
        
        
class CartDecisionTree():
    """使用cart算法构建决策树"""
    
    def __init__(self):
        # 代表决策树的决策树根节点
        self.root_node = None 
        
    def fit(self, X,y):
        """
        决策树拟合
        :param X : 训练数据集∈（m,n）
        :param y : 训练标签∈（n,1）
        
        """
        # 创建决策树根结点
        self.root_node = Node()
        # 递归构建决策树
        self._build_tree_recussive(X,y,np.arange(len(X)),self.root_node)
        
    def _build_tree_recussive(self, X,y, node_indices,node:Node):
        """
        对于当前节点集合（X，y）-node_indices,递归建立决策树
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引
        :param node : 当前结点的状态记录

        """
        """
        对于当前节点集合（X，y）-node_indices,递归建立决策树
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引

        """
        n_samples = len(node_indices)
        n_features = X.shape[1]

        ## 递归基
        # 节点包含数据属于同一个类别，此时无需划分
        if len(np.unique(y[node_indices])) <= 1:
            # 记录叶子结点所属的分类
            node.leaf_class = y[node_indices][0]
            return
        # 没有更多特征(当前节点所含样本所有特征都只有一个取值)
        if np.sum([len(np.unique(X[node_indices][:,i])) for i in range(n_features)]) == n_features:
            return

        ## 处理当前节点自身
        # 找到最佳特征和特征的最佳分割点
        best_feature_i, best_sets = self._get_best_split_feature(X, y, node_indices)
        # 基于最佳特征和最佳分割点分成左右子树left,right
        left_indices = best_sets["left_indices"]
        right_indices = best_sets["right_indices"]
        # 记录本节点的状态
        node.best_feature_i = best_feature_i
        node.best_split_point = best_sets["best_split_point"]
        node.left_node = Node()
        node.right_node = Node()
        # --leaf_class在递归基时才记录

        # 让buildtree()帮忙划分左右子树
        self._build_tree_recussive(X,y,left_indices,node.left_node)
        self._build_tree_recussive(X,y,right_indices,node.right_node)
    
    
    def _get_best_split_feature(self,X,y,node_indices):
        """
        对于当前节点集合（X，y）-node_indices,找到最佳特征：求所有特征的gini_gain
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引

        """

        # 获取样本数和特征数
        n_samples, n_features = len(node_indices), X.shape[1]

        best_gini_gain = -1
        best_feature = None
        best_sets = None
        # 依次求所有特征的gini_gain
        for feature_i in range(n_features):
            # 特征在所有样本中取值唯一时无需找split_point和参与特征划分
            if len(np.unique(X[node_indices][:,feature_i])) == 1:
                continue
            # 特征i的基尼增益以及分割的左右子树
            cur_gini_gain,cur_branch_sets = self._get_best_split_point(X,y,node_indices, feature_i)
            # 寻找最佳特征
            if cur_gini_gain >= best_gini_gain:
                best_gini_gain = cur_gini_gain
                best_feature = feature_i
                best_sets = cur_branch_sets

        # 找到了当前节点所用的最佳特征（也找到了该特征的最佳分割点）

        return best_feature, best_sets
    
    def _get_best_split_point(self,X,y,node_indices, feature_i):
    
        """
        对于当前节点集合（X，y）-node_indices计算特征i的基尼增益
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引
        :param : 给定的特征索引
        :return : 返回特征i的基尼增益以及分割的左右子树

        """
        # 当前特征i的所有候选分割点
        split_points, split_func = self._create_split_points(X[node_indices], feature_i)
        # 初始化
        best_gini_gain = -1# 存储本特征的最佳切分点对应的gini_gain
        best_sets = None# 存储最佳切分点切分的左右分支
        # 依次使用候选分割点对当前集合（X，y）进行二分分割
        for point in split_points:
            # 使用每个候选分割点进行二分分割
            left_indices = np.array([i for i in node_indices if split_func(X[i],point)])
            right_indices = np.array([ i for i in node_indices if not split_func(X[i],point)])
            # 分好左右分支后计算gini_gain
            w_left, w_right = len(left_indices) / len(node_indices), len(right_indices) / len(node_indices)
            cur_gini_gain = self._gini(y[node_indices]) - (w_left * self._gini(y[left_indices]) + w_right * self._gini(y[right_indices]))
            # 选择最佳的split point
            if cur_gini_gain >= best_gini_gain:
                best_gini_gain = cur_gini_gain
                best_sets = {
                    "best_split_point":point,
                    "left_indices": left_indices,
                    "right_indices": right_indices,
                }
        return best_gini_gain, best_sets
    
    def _create_split_points(self,X, feature_i):
    
        """
        根据特征i是连续型/离散型特征得到特征i的所有候选分割点,并返回对应的分割函数
        :param X: 当前集合的样本
        :param feature_i : 给定的特征索引
        :return 特征i的所有候选分割点、分割函数

        """

        # 1、确定特征i的所有可能取值
        feature_values = np.unique(X[:, feature_i])# 已排序的 

        # 2、根据特征i是连续型/离散型特征对这些可能取值进行处理从而得到特征i的所有候选分割点；    
        split_points = None
        split_func = None

        if np.issubdtype(feature_values.dtype, np.integer) or np.issubdtype(feature_values.dtype, np.floating):
            split_points = (feature_values[1:] + feature_values[:-1]) / 2 # 特征是连续型特征则使用二分法找到所有的切分点
            split_func = lambda x,split_point : x[feature_i] >= split_point

        else:
            split_points = feature_values# 离散型特征直接使用特征的各个取值作为切分点
            split_func = lambda x,split_point : x[feature_i] == split_point
        return split_points, split_func
    
    def _gini(self,y):
        """
        计算当前节点的gini_index
        :param y:当前节点的样本中对应的分类

        """
        p_k = np.array([np.sum([y==k])/len(y) for k in np.unique(y)])
        gini_index = np.sum([p * (1-p) for p in p_k])
        return gini_index
    
    def predict(self,X):
        """
        :param X: 待预测的m个样本

        """
        # 每一个样本都通过二叉搜索决策树树查找所属类别,决策树由其根节点作为代表
        y_pred = [self._search_class(x, self.root_node) for x in X]
        return y_pred

    def _search_class(self, x, node:Node):
        """
        : param x: 待预测所属分类的样本
        : param node : 当前所在节点

        """


        # 递归基
        if node.leaf_class is not None:# 已经走到叶子
            return node.leaf_class
        ## 当前节点的工作
        # 本样本最终要往哪个分支走
        goto = None
        # 根据当前节点的最佳特征及最佳切分点决定x是继续往左边走还是往右边走
        feature_value = x[node.best_feature_i]
        # 离散型/连续型特征处理不同
        if isinstance(feature_value, int) or isinstance(feature_value, float):
            if feature_value >= node.best_split_point:
                goto = node.left_node# 往左边
            else:
                goto = node.right_node#往右边
        else:
            if feature_value == node.best_split_point:
                goto = node.left_node# 往左边
            else:
                goto = node.right_node
        return self._search_class(x, goto)

        




    
        
        

测试

In [62]:
from sklearn.datasets import load_iris
from sklearn
data = load_iris()
X,y = data.data, data.target
model = CartDecisionTree()
model.fit(X,y)


In [64]:
y_pred = model.predict(X)
print(y_pred)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]


In [65]:
print(y)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


将全部数据放进去训练和预测是为了看代码有没有问题

In [66]:
accuracy(y_pred, y)

1.0

接下来分为训练集和测试集

In [111]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
data = load_iris()
X,y = data.data, data.target
X_train,test_X,y_train,test_y = train_test_split(X,y,test_size=0.3)


In [112]:
model = CartDecisionTree()
model.fit(X_train,y_train)
y_pred = model.predict(test_X)
accuracy(y_pred,test_y)

0.9333333333333333

## cart-决策树剪枝

预剪枝＋后剪枝

预剪枝:
在构造决策树划分节点时，前面建树停止是下述两个递归基
![image.png](attachment:image.png)
现在增加递归基对树的大小进行一定的限制：

-限制树的最大深度

-限制节点的最小样本量

-基尼系数增益的最小值（gini_gain太小时不划分）

后剪枝：
自底向上处理已经构建的决策树的非叶子结点：

对于当前处理的非叶结点：

    -让递归函数帮忙处理左右子树
    
    -已经处理后自己左右子树的结点处理自身：
        -比较剪枝前的loss与剪枝后的loss，若剪枝后loss更小则剪枝（收回左右结点）


### 预剪枝

限制树的最大深度:当前节点划分前先判断当前深度是否超过预设的最大深度，所以增加深度记录

限制节点的最小样本量同理



限制树的深度后——叶子节点所含的便签不一定只有一种了，需要根据多数原则定叶子节点所属的分类

In [71]:
def majority_vote(y):
    """
    根据多数原则定叶子节点所属的分类
    :param y: 当前叶子节点的所有标签
    :return most_common_class叶子节点所属的分类
    """
    most_common_class = None
    max_count = 0
    for label in np.unique(y):
        count = np.sum(y==label)
        if count >= max_count:
            most_common_class = label
            max_count = count
    return most_common_class
    

In [73]:
a = np.array([1,2,3,5,5])
majority_vote(a)
b = np.array(["青年","青年","老年"])
majority_vote(b)

'青年'

In [114]:
class Node(object):
    """通过树结点的各属性记录生成的树结构"""
    def __init__(self,
                 best_feature_i=None, 
                 best_split_point=None,
                 left_node=None, 
                 right_node=None,
                 leaf_class = None):
        """
        每个当前结点Node都记录了当前的划分状况
        :param left_child_node : 结点的左侧子结点
        :param right_child_node : 结点的右侧子结点
        :param best_feature_i : 当前结点的最佳划分特征
        :param split_point : 当前结点的最佳特征对应的最佳分割点
        :param leaf_class : 如果当前结点是叶子，则记录其所属的类别
        
        """
        self.best_feature_i = best_feature_i
        self.best_split_point = best_split_point
        self.left_node = left_node
        self.right_node = right_node
        self.leaf_class = leaf_class
        
class CartDecisionTree():
    """使用cart算法构建决策树"""
    
    def __init__(self, max_depth = float("inf"),min_sample_split=2, min_gini_decrease=None):
        # 代表决策树的决策树根节点
        self.root_node = None 
        # 预设的决策树最大深度
        self.max_depth = max_depth
        # 预设的决策树叶子节点最小样本数
        self.min_sample_split = min_sample_split
        # 预设的基尼系数增益的最小值（gini_gain太小时不划分）
        self.min_gini_decrease = min_gini_decrease
        
    def fit(self, X,y):
        """
        决策树拟合
        :param X : 训练数据集∈（m,n）
        :param y : 训练标签∈（n,1）
        
        """
        # 创建决策树根结点
        self.root_node = Node()
        # 默认根节点的深度为1
        cur_depth = 1
        # 递归构建决策树
        self._build_tree_recussive(X,y,np.arange(len(X)),self.root_node, cur_depth)
        
    def _build_tree_recussive(self, X,y, node_indices,node:Node, cur_depth):
        """
        对于当前节点集合（X，y）-node_indices,递归建立决策树
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引
        :param node : 当前结点的状态记录

        """
        """
        对于当前节点集合（X，y）-node_indices,递归建立决策树
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引

        """
        n_samples = len(node_indices)
        n_features = X.shape[1]

        ## 递归基
        # 节点包含数据属于同一个类别，此时无需划分
        if len(np.unique(y[node_indices])) <= 1:
            # 记录叶子结点所属的分类
            node.leaf_class = y[node_indices][0]
            return
        # 没有更多特征(当前节点所含样本所有特征都只有一个取值)
        if np.sum([len(np.unique(X[node_indices][:,i])) for i in range(n_features)]) == n_features:
            node.leaf_class = self._majority_vote(y[node_indices])
            return
        # 限制构建子树的深度
        if cur_depth >= self.max_depth:
            node.leaf_class = self._majority_vote(y[node_indices])
            return
        # 限制节点的最小样本量
        if n_samples < self.min_sample_split:
            node.leaf_class = self._majority_vote(y[node_indices])
            return

        ## 处理当前节点自身
        # 找到最佳特征和特征的最佳分割点
        best_feature_i,best_gini_gain, best_sets = self._get_best_split_feature(X, y, node_indices)
        
        # 基尼系数增益的最小值（gini_gain太小时不划分）
        if self.min_gini_decrease is not None and  best_gini_gain < self.min_gini_decrease:
            node.leaf_class = self._majority_vote(y[node_indices])
            return
        
        # 基于最佳特征和最佳分割点分成左右子树left,right
        left_indices = best_sets["left_indices"]
        right_indices = best_sets["right_indices"]
        # 记录本节点的状态
        node.best_feature_i = best_feature_i
        node.best_split_point = best_sets["best_split_point"]
        node.left_node = Node()
        node.right_node = Node()
        # --leaf_class在递归基时才记录

        # 让buildtree()帮忙划分左右子树
        self._build_tree_recussive(X,y,left_indices,node.left_node, cur_depth+1)
        self._build_tree_recussive(X,y,right_indices,node.right_node, cur_depth+1)
    
    
    def _get_best_split_feature(self,X,y,node_indices):
        """
        对于当前节点集合（X，y）-node_indices,找到最佳特征：求所有特征的gini_gain
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引

        """

        # 获取样本数和特征数
        n_samples, n_features = len(node_indices), X.shape[1]

        best_gini_gain = -1
        best_feature = None
        best_sets = None
        # 依次求所有特征的gini_gain
        for feature_i in range(n_features):
            # 特征在所有样本中取值唯一时无需找split_point和参与特征划分
            if len(np.unique(X[node_indices][:,feature_i])) == 1:
                continue
            # 特征i的基尼增益以及分割的左右子树
            cur_gini_gain,cur_branch_sets = self._get_best_split_point(X,y,node_indices, feature_i)
            # 寻找最佳特征
            if cur_gini_gain >= best_gini_gain:
                best_gini_gain = cur_gini_gain
                best_feature = feature_i
                best_sets = cur_branch_sets

        # 找到了当前节点所用的最佳特征（也找到了该特征的最佳分割点）

        return best_feature,best_gini_gain, best_sets
    
    def _get_best_split_point(self,X,y,node_indices, feature_i):
    
        """
        对于当前节点集合（X，y）-node_indices计算特征i的基尼增益
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引
        :param : 给定的特征索引
        :return : 返回特征i的基尼增益以及分割的左右子树

        """
        # 当前特征i的所有候选分割点
        split_points, split_func = self._create_split_points(X[node_indices], feature_i)
        # 初始化
        best_gini_gain = -1# 存储本特征的最佳切分点对应的gini_gain
        best_sets = None# 存储最佳切分点切分的左右分支
        # 依次使用候选分割点对当前集合（X，y）进行二分分割
        for point in split_points:
            # 使用每个候选分割点进行二分分割
            left_indices = np.array([i for i in node_indices if split_func(X[i],point)])
            right_indices = np.array([ i for i in node_indices if not split_func(X[i],point)])
            # 分好左右分支后计算gini_gain
            w_left, w_right = len(left_indices) / len(node_indices), len(right_indices) / len(node_indices)
            cur_gini_gain = self._gini(y[node_indices]) - (w_left * self._gini(y[left_indices]) + w_right * self._gini(y[right_indices]))
            # 选择最佳的split point
            if cur_gini_gain >= best_gini_gain:
                best_gini_gain = cur_gini_gain
                best_sets = {
                    "best_split_point":point,
                    "left_indices": left_indices,
                    "right_indices": right_indices,
                }
        return best_gini_gain, best_sets
    
    def _create_split_points(self,X, feature_i):
    
        """
        根据特征i是连续型/离散型特征得到特征i的所有候选分割点,并返回对应的分割函数
        :param X: 当前集合的样本
        :param feature_i : 给定的特征索引
        :return 特征i的所有候选分割点、分割函数

        """

        # 1、确定特征i的所有可能取值
        feature_values = np.unique(X[:, feature_i])# 已排序的 

        # 2、根据特征i是连续型/离散型特征对这些可能取值进行处理从而得到特征i的所有候选分割点；    
        split_points = None
        split_func = None

        if np.issubdtype(feature_values.dtype, np.integer) or np.issubdtype(feature_values.dtype, np.floating):
            split_points = (feature_values[1:] + feature_values[:-1]) / 2 # 特征是连续型特征则使用二分法找到所有的切分点
            split_func = lambda x,split_point : x[feature_i] >= split_point

        else:
            split_points = feature_values# 离散型特征直接使用特征的各个取值作为切分点
            split_func = lambda x,split_point : x[feature_i] == split_point
        return split_points, split_func
    
    def _gini(self,y):
        """
        计算当前节点的gini_index
        :param y:当前节点的样本中对应的分类

        """
        p_k = np.array([np.sum([y==k])/len(y) for k in np.unique(y)])
        gini_index = np.sum([p * (1-p) for p in p_k])
        return gini_index
    
    def _majority_vote(self, y):
        """
        根据多数原则定叶子节点所属的分类
        :param y: 当前叶子节点的所有标签
        :return most_common_class叶子节点所属的分类
        """
        most_common_class = None
        max_count = 0
        for label in np.unique(y):
            count = np.sum(y==label)
            if count >= max_count:
                most_common_class = label
                max_count = count
        return most_common_class
    
    def predict(self,X):
        """
        :param X: 待预测的m个样本

        """
        # 每一个样本都通过二叉搜索决策树树查找所属类别,决策树由其根节点作为代表
        y_pred = [self._search_class(x, self.root_node) for x in X]
        return y_pred

    def _search_class(self, x, node:Node):
        """
        : param x: 待预测所属分类的样本
        : param node : 当前所在节点

        """


        # 递归基
        if node.leaf_class is not None:# 已经走到叶子
            return node.leaf_class
        ## 当前节点的工作
        # 本样本最终要往哪个分支走
        goto = None
        # 根据当前节点的最佳特征及最佳切分点决定x是继续往左边走还是往右边走
        feature_value = x[node.best_feature_i]
        # 离散型/连续型特征处理不同
        if isinstance(feature_value, int) or isinstance(feature_value, float):
            if feature_value >= node.best_split_point:
                goto = node.left_node# 往左边
            else:
                goto = node.right_node#往右边
        else:
            if feature_value == node.best_split_point:
                goto = node.left_node# 往左边
            else:
                goto = node.right_node
        return self._search_class(x, goto)


In [5]:
def accuracy(y_pred, y_true):
    return np.sum(y_pred == y_true) / len(y_pred)

注意使用同一个划分的数据集


In [198]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
data = load_iris()
X,y = data.data, data.target
X_train,test_X,y_train,test_y = train_test_split(X,y,test_size=0.3)

In [199]:
# 不输入参数——不进行预剪枝
model = CartDecisionTree()
model.fit(X_train, y_train)
y_pred = model.predict(test_X)
accuracy(y_pred, test_y)

0.9111111111111111

In [201]:
# 输入参数——预剪枝
model = CartDecisionTree(max_depth=7, min_sample_split=6, min_gini_decrease=0.2)
model.fit(X_train,y_train)
y_pred = model.predict(test_X)
accuracy(y_pred,test_y)

0.8888888888888888

预剪枝后准确率不一定提高

### 后剪枝

后剪枝：
自底向上处理已经构建的决策树的非叶子结点：

对于当前处理的非叶结点：

    -让递归函数帮忙处理左右子树
    
    -已经处理后自己左右子树的结点处理自身：
        -比较剪枝前的loss与剪枝后的loss，若剪枝后loss更小则剪枝（收回左右结点）
**loss的定义公式**

![image.png](attachment:image.png)

由于cart是二叉树，所以没有进行预剪枝时有两个叶子节点，|T|==2,剪枝后只有本节点，|T|=1

递归基:叶子节点直接返回

处理当前节点时由于loss需要gini——Node中添加记录gini的属性方便查找

![image-3.png](attachment:image-3.png)
![image-2.png](attachment:image-2.png)


另外，由于剪枝后原本的非叶节点变成叶节点，叶节点需要根据多数原则判断所属的类别。而多数原则是利用训练时的y,此时节点中未保存。所以需要修改记录机制：训练的时候每个节点都要根据多数原则判断一下所属分类，再添加一个记录当前节点是否叶节点的标志

In [210]:
def pruning_node(node,alpha):
    """
    :param node : 当前处理的节点
    :param alpha: loss的参数，alpha≥0
    
    """
    ## 递归基:当前节点是叶子节点则直接返回
    if is_leaf:
        return 
    ## 让递归函数帮忙处理左右子树
    pruning_node(node.left_node, alpha)
    pruning_node(node.right_node, alpha)
    
    ## 处理当前节点
    # 剪枝后
    post_loss = node.gini + alpha * 1 
    # 剪枝前
    pre_loss = node.left_node.gini + node.right_node.gini + alpha * 2
    # 比较剪枝前的loss与剪枝后的loss
    if post_loss < pre_loss: # 剪枝后loss更小则剪枝（收回左右结点）
        node.left_node = None
        node.right_node = None
        node.best_feature_i = None
        node.best_split_point = None
        node.is_leaf = True
        
        

后剪枝调用时只用提高超参数，不应该提供node结点，进一步封装修改后的代码

In [None]:
def prun(alpha):
    """对决策树进行后剪枝"""
    return pruning_node(root_node, alpha)

修改后的代码

In [2]:
class Node(object):
    """通过树结点的各属性记录生成的树结构"""
    def __init__(self,
                 best_feature_i=None, 
                 best_split_point=None,
                 left_node=None, 
                 right_node=None,
                 leaf_class = None,
                 is_leaf=False,
                 gini=None):
        """
        每个当前结点Node都记录了当前的划分状况
        :param left_child_node : 结点的左侧子结点
        :param right_child_node : 结点的右侧子结点
        :param best_feature_i : 当前结点的最佳划分特征
        :param split_point : 当前结点的最佳特征对应的最佳分割点
        :param leaf_class : 记录当前节点所属的类别
        :param is_leaf : 只有在is_leaf==True时，leaf_class才生效
        :param gini : 当前节点的gini_index
        
        """
        self.best_feature_i = best_feature_i
        self.best_split_point = best_split_point
        self.left_node = left_node
        self.right_node = right_node
        self.leaf_class = leaf_class
        self.is_leaf = is_leaf
        self.gini = gini
        
        
class CartDecisionTree():
    """使用cart算法构建决策树"""
    
    def __init__(self, max_depth = float("inf"),min_sample_split=2, min_gini_decrease=None):
        # 代表决策树的决策树根节点
        self.root_node = None 
        # 预设的决策树最大深度
        self.max_depth = max_depth
        # 预设的决策树叶子节点最小样本数
        self.min_sample_split = min_sample_split
        # 预设的基尼系数增益的最小值（gini_gain太小时不划分）
        self.min_gini_decrease = min_gini_decrease
        
    def fit(self, X,y):
        """
        决策树拟合
        :param X : 训练数据集∈（m,n）
        :param y : 训练标签∈（n,1）
        
        """
        # 创建决策树根结点
        self.root_node = Node()
        # 默认根节点的深度为1
        cur_depth = 1
        # 递归构建决策树
        self._build_tree_recussive(X,y,np.arange(len(X)),self.root_node, cur_depth)
        
    def _build_tree_recussive(self, X,y, node_indices,node:Node, cur_depth):
        """
        对于当前节点集合（X，y）-node_indices,递归建立决策树
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引
        :param node : 当前结点的状态记录

        """
        """
        对于当前节点集合（X，y）-node_indices,递归建立决策树
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引

        """
        n_samples = len(node_indices)
        n_features = X.shape[1]
        # 记录本节点的状态
        node.gini = self._gini(y[node_indices])
        node.leaf_class = self._majority_vote(y[node_indices])

        ## 递归基
        # 节点包含数据属于同一个类别，此时无需划分
        if len(np.unique(y[node_indices])) <= 1:
            # 记录叶子结点所属的分类
            node.is_leaf = True
            return
        # 没有更多特征(当前节点所含样本所有特征都只有一个取值)
        if np.sum([len(np.unique(X[node_indices][:,i])) for i in range(n_features)]) == n_features:
            node.is_leaf = True
            return
        # 限制构建子树的深度
        if cur_depth >= self.max_depth:
            node.is_leaf = True
            return
        # 限制节点的最小样本量
        if n_samples < self.min_sample_split:
            node.is_leaf = True
            return

        ## 处理当前节点自身
        # 找到最佳特征和特征的最佳分割点
        best_feature_i,best_gini_gain, best_sets = self._get_best_split_feature(X, y, node_indices)
        
        # 基尼系数增益的最小值（gini_gain太小时不划分）
        if self.min_gini_decrease is not None and  best_gini_gain < self.min_gini_decrease:
            node.is_leaf = True
            return
        
        # 基于最佳特征和最佳分割点分成左右子树left,right
        left_indices = best_sets["left_indices"]
        right_indices = best_sets["right_indices"]
        # 记录本节点的状态
        node.best_feature_i = best_feature_i
        node.best_split_point = best_sets["best_split_point"]
        node.left_node = Node()
        node.right_node = Node()
        # --leaf_class和gini在递归基时记录

        # 让buildtree()帮忙划分左右子树
        self._build_tree_recussive(X,y,left_indices,node.left_node, cur_depth+1)
        self._build_tree_recussive(X,y,right_indices,node.right_node, cur_depth+1)
    
    
    def _get_best_split_feature(self,X,y,node_indices):
        """
        对于当前节点集合（X，y）-node_indices,找到最佳特征：求所有特征的gini_gain
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引

        """

        # 获取样本数和特征数
        n_samples, n_features = len(node_indices), X.shape[1]

        best_gini_gain = -1
        best_feature = None
        best_sets = None
        # 依次求所有特征的gini_gain
        for feature_i in range(n_features):
            # 特征在所有样本中取值唯一时无需找split_point和参与特征划分
            if len(np.unique(X[node_indices][:,feature_i])) == 1:
                continue
            # 特征i的基尼增益以及分割的左右子树
            cur_gini_gain,cur_branch_sets = self._get_best_split_point(X,y,node_indices, feature_i)
            # 寻找最佳特征
            if cur_gini_gain >= best_gini_gain:
                best_gini_gain = cur_gini_gain
                best_feature = feature_i
                best_sets = cur_branch_sets

        # 找到了当前节点所用的最佳特征（也找到了该特征的最佳分割点）

        return best_feature,best_gini_gain, best_sets
    
    def _get_best_split_point(self,X,y,node_indices, feature_i):
    
        """
        对于当前节点集合（X，y）-node_indices计算特征i的基尼增益
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引
        :param : 给定的特征索引
        :return : 返回特征i的基尼增益以及分割的左右子树

        """
        # 当前特征i的所有候选分割点
        split_points, split_func = self._create_split_points(X[node_indices], feature_i)
        # 初始化
        best_gini_gain = -1# 存储本特征的最佳切分点对应的gini_gain
        best_sets = None# 存储最佳切分点切分的左右分支
        # 依次使用候选分割点对当前集合（X，y）进行二分分割
        for point in split_points:
            # 使用每个候选分割点进行二分分割
            left_indices = np.array([i for i in node_indices if split_func(X[i],point)])
            right_indices = np.array([ i for i in node_indices if not split_func(X[i],point)])
            # 分好左右分支后计算gini_gain
            w_left, w_right = len(left_indices) / len(node_indices), len(right_indices) / len(node_indices)
            cur_gini_gain = self._gini(y[node_indices]) - (w_left * self._gini(y[left_indices]) + w_right * self._gini(y[right_indices]))
            # 选择最佳的split point
            if cur_gini_gain >= best_gini_gain:
                best_gini_gain = cur_gini_gain
                best_sets = {
                    "best_split_point":point,
                    "left_indices": left_indices,
                    "right_indices": right_indices,
                }
        return best_gini_gain, best_sets
    
    def _create_split_points(self,X, feature_i):
    
        """
        根据特征i是连续型/离散型特征得到特征i的所有候选分割点,并返回对应的分割函数
        :param X: 当前集合的样本
        :param feature_i : 给定的特征索引
        :return 特征i的所有候选分割点、分割函数

        """

        # 1、确定特征i的所有可能取值
        feature_values = np.unique(X[:, feature_i])# 已排序的 

        # 2、根据特征i是连续型/离散型特征对这些可能取值进行处理从而得到特征i的所有候选分割点；    
        split_points = None
        split_func = None

        if np.issubdtype(feature_values.dtype, np.integer) or np.issubdtype(feature_values.dtype, np.floating):
            split_points = (feature_values[1:] + feature_values[:-1]) / 2 # 特征是连续型特征则使用二分法找到所有的切分点
            split_func = lambda x,split_point : x[feature_i] >= split_point

        else:
            split_points = feature_values# 离散型特征直接使用特征的各个取值作为切分点
            split_func = lambda x,split_point : x[feature_i] == split_point
        return split_points, split_func
    
    def _gini(self,y):
        """
        计算当前节点的gini_index
        :param y:当前节点的样本中对应的分类

        """
        p_k = np.array([np.sum([y==k])/len(y) for k in np.unique(y)])
        gini_index = np.sum([p * (1-p) for p in p_k])
        return gini_index
    
    def _majority_vote(self, y):
        """
        根据多数原则定叶子节点所属的分类
        :param y: 当前叶子节点的所有标签
        :return most_common_class叶子节点所属的分类
        """
        most_common_class = None
        max_count = 0
        for label in np.unique(y):
            count = np.sum(y==label)
            if count >= max_count:
                most_common_class = label
                max_count = count
        return most_common_class
    
    def prune(self, alpha=0):
        """对决策树进行后剪枝"""
        return self._pruning_node(self.root_node, alpha)
        
    def _pruning_node(self, node,alpha):
        """
        :param node : 当前处理的节点
        :param alpha: loss的参数，alpha≥0

        """
        ## 递归基:当前节点是叶子节点则直接返回
        if node.is_leaf:
            return 
        ## 让递归函数帮忙处理左右子树
        self._pruning_node(node.left_node, alpha)
        self._pruning_node(node.right_node, alpha)

        ## 处理当前节点
        # 剪枝后
        post_loss = node.gini + alpha * 1 
        # 剪枝前
        pre_loss = node.left_node.gini + node.right_node.gini + alpha * 2
        # 比较剪枝前的loss与剪枝后的loss
        if post_loss < pre_loss: # 剪枝后loss更小则剪枝（收回左右结点）
            node.left_node = None
            node.right_node = None
            node.best_feature_i = None
            node.best_split_point = None
            node.is_leaf = True
    
    def predict(self,X):
        """
        :param X: 待预测的m个样本

        """
        # 每一个样本都通过二叉搜索决策树树查找所属类别,决策树由其根节点作为代表
        y_pred = [self._search_class(x, self.root_node) for x in X]
        return y_pred

    def _search_class(self, x, node:Node):
        """
        : param x: 待预测所属分类的样本
        : param node : 当前所在节点

        """


        # 递归基
        if node.is_leaf:# 已经走到叶子
            return node.leaf_class
        ## 当前节点的工作
        # 本样本最终要往哪个分支走
        goto = None
        # 根据当前节点的最佳特征及最佳切分点决定x是继续往左边走还是往右边走
        feature_value = x[node.best_feature_i]
        # 离散型/连续型特征处理不同
        if isinstance(feature_value, int) or isinstance(feature_value, float):
            if feature_value >= node.best_split_point:
                goto = node.left_node# 往左边
            else:
                goto = node.right_node#往右边
        else:
            if feature_value == node.best_split_point:
                goto = node.left_node# 往左边
            else:
                goto = node.right_node
        return self._search_class(x, goto)
        
    

先构建决策树

In [15]:
def accuracy(y_pred, y_true):
    return np.sum(y_pred == y_true) / len(y_pred)

In [16]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
data = load_iris()
X,y = data.data, data.target
X_train,test_X,y_train,test_y = train_test_split(X,y,test_size=0.3)

In [17]:
# 不输入参数——不进行预剪枝
model = CartDecisionTree()
model.fit(X_train, y_train)
y_pred = model.predict(test_X)

accuracy(y_pred, test_y)

0.9333333333333333

预剪枝

In [18]:
# 输入参数——预剪枝
model = CartDecisionTree(max_depth=7, min_sample_split=6, min_gini_decrease=0.2)
model.fit(X_train,y_train)
y_pred = model.predict(test_X)
accuracy(y_pred,test_y)

0.9555555555555556

后剪枝-构建决策树后剪枝

In [19]:
model.prune(1e-10)
y_pred = model.predict(test_X)
accuracy(y_pred,test_y)

0.9555555555555556

## 鲁棒性-缺失数据处理

缺失某属性的数据不直接剔除（浪费数据），但是由于缺失又无法进行直接计算。

**best_split_point的计算：**

只使用无缺失的样本参与计算和划分选择，依次求未划分样本、划分后左右子集的gini_index,并得到gini_gain

使用这个无缺失样本的gini_gain乘上权重w（无缺失/总）记为最终的gini_gain(选出最佳best_point代表该特征)

**选择best_feature后划分**

基于上述划分找到best_feature后，根据best_feature和对应的best_split_point进行实际划分时，如果某些样本在此特征上缺失，则将这些缺失样本划分到所有（左右两个）分支中，但是需要赋予不同的权重。

未缺失的样本在其所属分支中的权重都是1，而缺失样本在各分支的权重是w',无缺失样本的best_split_point计算时  **无缺失样本子集/无缺失总样本**

**因此之后的划分中不同的样本具有不同的权重，都需要单独计算每个样本的权重**

因此，best_split_point的计算时的w和w'都不能再直接用样本数/总样本数了，因为不同的样本权重已经不同了

**上述所有计算都是按照权重进行了**

数据集

In [2]:
data_x = np.array([[np.nan, '蜷缩', '浊响', '清晰', '凹陷', '硬滑'],
       ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', np.nan],
       ['乌黑', '蜷缩', np.nan, '清晰', '凹陷', '硬滑'],
       ['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑'],
       [np.nan, '蜷缩', '浊响', '清晰', '凹陷', '硬滑'],
       ['青绿', '稍蜷', '浊响', '清晰', np.nan, '软沾'],
       ['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软沾'],
       ['乌黑', '稍蜷', '浊响', np.nan, '稍凹', '硬滑'],
       ['乌黑', np.nan, '沉闷', '稍糊', '稍凹', '硬滑'],
       ['青绿', '硬挺', '清脆', np.nan, '平坦', '软沾'],
       ['浅白', '硬挺', '清脆', '模糊', '平坦', np.nan],
       ['浅白', '蜷缩', np.nan, '模糊', '平坦', '软沾'],
       [np.nan, '稍蜷', '浊响', '稍糊', '凹陷', '硬滑'],
       ['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑'],
       ['乌黑', '稍蜷', '浊响', '清晰', np.nan, '软沾'],
       ['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑'],
       ['青绿', np.nan, '沉闷', '稍糊', '稍凹', '硬滑']])
data_y = np.array(['是','是','是','是','是','是','是','是','否','否','否','否','否','否','否','否','否'])

In [86]:
y = np.where(data_y=="是",1,0)
y

array([1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0])

样本数值化

In [81]:
X = np.array([
       [np.nan, 1, 1, 1, 1, 1],
       [1, 1, 2, 1, 1, np.nan],
       [1, 1, np.nan, 1, 1, 1],
       [2, 1, 2, 1, 1, 1],
       [np.nan, 1, 1, 1, 1, 1],
       [2, 2, 1, 1, np.nan, 2],
       [1, 2, 1, 2, 2, 2],
       [1, 2, 1, np.nan, 2, 1],
       [1, np.nan, 2, 2, 2, 1],
       [2, 3, 3, np.nan, 3, 2],
       [3, 3, 3, 3, 3, np.nan],
       [3, 1, np.nan, 3, 3, 2],
       [np.nan, 2, 1, 2, 1, 1],
       [3, 2, 2, 2, 1, 1],
       [1, 2, 1, 1, np.nan, 2],
       [3, 1, 1, 3, 3, 1],
       [2, np.nan, 2, 2, 2, 1]])

子集划分

浮点数可以用下述方法找nan,但是非浮点数不行

In [5]:
np.nan != np.nan

True

In [6]:
np.inf != np.inf

False

In [40]:
# 存在np.nan(浮点数),整个数组的类型都是浮点数计算
a = np.array([np.nan, np.nan, 5,0,3])
~(a != a)

array([False, False,  True,  True,  True])

In [42]:
a.dtype

dtype('float64')

In [41]:
a = np.array([np.nan, np.nan, 5,0,3])
~np.isnan(a)

array([False, False,  True,  True,  True])

In [43]:
# 错误划分
a = np.array([np.nan, np.nan, "青绿", "浅白"])# 存在非浮点数.此时数组的类型不是浮点数
~(a != a),a.dtype

(array([ True,  True,  True,  True]), dtype('<U32'))

要判断nan-不能使用字符串表示的X,只能使用浮点数类型.

所以前面的样本特征类型判断也需要改变

In [104]:
X = np.array([
       [np.nan, 1, 1, 1, 1, 1],
       [1, 1, 2, 1, 1, np.nan],
       [1, 1, np.nan, 1, 1, 1],
       [2, 1, 2, 1, 1, 1],
       [np.nan, 1, 1, 1, 1, 1],
       [2, 2, 1, 1, np.nan, 2],
       [1, 2, 1, 2, 2, 2],
       [1, 2, 1, np.nan, 2, 1],
       [1, np.nan, 2, 2, 2, 1],
       [2, 3, 3, np.nan, 3, 2],
       [3, 3, 3, 3, 3, np.nan],
       [3, 1, np.nan, 3, 3, 2],
       [np.nan, 2, 1, 2, 1, 1],
       [3, 2, 2, 2, 1, 1],
       [1, 2, 1, 1, np.nan, 2],
       [3, 1, 1, 3, 3, 1],
       [2, np.nan, 2, 2, 2, 1]])
y = np.array([1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0])
# 样本的初始权重:都为1
weight = np.ones((len(X))) # 全局的weight:初始化为全1 
node_indices = np.arange(len(X))

In [46]:
X[:,0].dtype

dtype('float64')

In [49]:
X[:,0]

array([nan,  1.,  1.,  2., nan,  2.,  1.,  1.,  1.,  2.,  3.,  3., nan,
        3.,  1.,  3.,  2.])

In [48]:
# 找第0个特征的无缺失索引
indices = ~np.isnan(X[:,0])
print(indices)
# 根据索引取出第0个特征无缺失的样本
X[indices]

[False  True  True  True False  True  True  True  True  True  True  True
 False  True  True  True  True]


array([[ 1.,  1.,  2.,  1.,  1., nan],
       [ 1.,  1., nan,  1.,  1.,  1.],
       [ 2.,  1.,  2.,  1.,  1.,  1.],
       [ 2.,  2.,  1.,  1., nan,  2.],
       [ 1.,  2.,  1.,  2.,  2.,  2.],
       [ 1.,  2.,  1., nan,  2.,  1.],
       [ 1., nan,  2.,  2.,  2.,  1.],
       [ 2.,  3.,  3., nan,  3.,  2.],
       [ 3.,  3.,  3.,  3.,  3., nan],
       [ 3.,  1., nan,  3.,  3.,  2.],
       [ 3.,  2.,  2.,  2.,  1.,  1.],
       [ 1.,  2.,  1.,  1., nan,  2.],
       [ 3.,  1.,  1.,  3.,  3.,  1.],
       [ 2., nan,  2.,  2.,  2.,  1.]])

In [74]:
# 当前样样本的weight
weight

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

随着特征的划分--每个样本的权重都改变了

In [53]:
# 当前考虑划分的的样本索引
node_indices

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16])

In [79]:
## 假设当前的最佳划分特征:特征==色泽？
# 1.找（特征==色泽？）的无缺失索引
nonan_indices = [i for i in node_indices if ~np.isnan(X[i,0])]
nonan_indices

[1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 13, 14, 15, 16]

In [80]:
# 2.找（特征==色泽？）的缺失索引
nan_indices = [i for i in node_indices if np.isnan(X[i,0])]
nan_indices

[0, 4, 12]

In [81]:
# 无缺失值总样本数-未使用权重时使用的是频数
n_samples = len(nonan_indices)
n_samples

14

计算无缺失样本所占的比例

In [84]:
# 对每一个样本赋予了权重后,利用权重计算无缺失样本所占的比例
lou = np.sum(weight[nonan_indices]) / np.sum(weight)
lou

0.8235294117647058

In [96]:
y

array([1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [91]:
y[y==1]

array([1, 1, 1, 1, 1, 1, 1, 1])

In [69]:
type(weight)

list

In [93]:
np.where(y==1)

(array([0, 1, 2, 3, 4, 5, 6, 7], dtype=int64),)

In [92]:
y[y==0]

array([0, 0, 0, 0, 0, 0, 0, 0, 0])

In [95]:
np.where(y==0)

(array([ 8,  9, 10, 11, 12, 13, 14, 15, 16], dtype=int64),)

由于对样本的处理全部数值化了,这里额外传了一个特征的类型

In [None]:
# 当前样本X,y,weight,node_indices
"""
:param X : 所有样本
:param y : 所有样本对应的标签
:param weight : 所有样本对应的权重
:param node_indices : 当前样本对应的索引
:param is_linear : 所有特征的属性是连续型还是离散型

"""
n_samples, n_features = len(node_indices), X.shape[1]

## 寻找最佳特征
# 初始化
best_featur_gini_gain = -1
best_feature = None
best_feature_sets = None
for feature_i in range(n_features):
    
    ## 找出未缺失的样本
    nonan_indices = [i if ~np.isnan(X[i, feature_i]) for i in node_indices]
    # 找出缺失样本
    nan_indices = [i if np.isnan(X[i, feature_i]) for i in node_indices]
    # 未划分前的gini:使用该属性上无缺失的样本来计算
    cur_gini = gini(y[nonan_indices], weight[nonan_indices])
    # 无缺失值样本所占的比例:对每一个样本赋予了权重后,利用权重计算无缺失样本所占的比例
    lou = np.sum(weight[nonan_indices]) / np.sum(weight[node_indices])
    
    ## 基于无缺失的样本来寻找特征的最佳切分点
    # 当前特征i的所有候选分割点
    split_points, split_func = create_split_points(X[nonan_indices], feature_i, is_linear=False)
    
    ## 产生最佳切分点
    # 初始化
    best_gini_gain = -1# 存储本特征的最佳切分点对应的gini_gain
    best_sets = None# 存储最佳切分点切分的左右分支
    # 依次使用候选分割点对当前集合（X，y）进行二分分割
    for point in split_points:
        # 使用每个候选分割点进行二分分割
        left_indices = [i for i in nonan_indices if split_func(X[i], point)]
        right_indices = [i for i in nonan_indices if not split_func(X[i], point)]
        # 分好左右分支后计算划分后的gini_gain
        # 左右分支的权重计算不再使用频数
        w_left, w_right = np.sum(weight[left_indices])/np.sum(weight), np.sum(weight[right_indices])/np.sum(weight)
        cur_gini_gain = cur_gini - (w_left*gini(y[left_indices],weight[left_indices]) + w_right*gini(y[right_indices], weight[right_indices]))
        # 选择最佳的split point
        if cur_gini_gain >= best_gini_gain:
            best_gini_gain = cur_gini_gain
            best_sets = {
                "best_split_point":point,
                "left_indices": left_indices,
                "right_indices": right_indices,
            }
    
    ## 基于上述方法计算所有特征的加权gini_gain,找到最佳特征
    # 找到特征i的最佳gini_point后,使用权重计算最终的gini_gain
    cur_feature_gini_gain = lou * best_gini_gain
    
    if cur_feature_gini_gain >= best_featur_gini_gain:
    best_featur_gini_gain = cur_feature_gini_gain
    best_feature = feature_i
    best_feature_sets = best_sets
    # 找到最佳特征
    

模块化

In [27]:
 def create_split_points(X, feature_i, is_linear=False):
    
        """
        根据特征i是连续型/离散型特征得到特征i的所有候选分割点,并返回对应的分割函数
        :param X: 当前集合的样本（无缺失值）
        :param feature_i : 给定的特征索引
        :return 特征i的所有候选分割点、分割函数

        """

        # 1、确定特征i的所有可能取值
        feature_values = np.unique(X[:, feature_i])# 已排序的 

        # 2、根据特征i是连续型/离散型特征对这些可能取值进行处理从而得到特征i的所有候选分割点；    
        split_points = None
        split_func = None

        if is_linear:
            split_points = (feature_values[1:] + feature_values[:-1]) / 2 # 特征是连续型特征则使用二分法找到所有的切分点
            split_func = lambda x,split_point : x[feature_i] >= split_point

        else:
            split_points = feature_values# 离散型特征直接使用特征的各个取值作为切分点
            split_func = lambda x,split_point : x[feature_i] == split_point
        return split_points, split_func

In [129]:
# 测试
X = np.array([
       [np.nan, 1, 1, 1, 1, 1],
       [1, 1, 2, 1, 1, np.nan],
       [1, 1, np.nan, 1, 1, 1],
       [2, 1, 2, 1, 1, 1],
       [np.nan, 1, 1, 1, 1, 1],
       [2, 2, 1, 1, np.nan, 2],
       [1, 2, 1, 2, 2, 2],
       [1, 2, 1, np.nan, 2, 1],
       [1, np.nan, 2, 2, 2, 1],
       [2, 3, 3, np.nan, 3, 2],
       [3, 3, 3, 3, 3, np.nan],
       [3, 1, np.nan, 3, 3, 2],
       [np.nan, 2, 1, 2, 1, 1],
       [3, 2, 2, 2, 1, 1],
       [1, 2, 1, 1, np.nan, 2],
       [3, 1, 1, 3, 3, 1],
       [2, np.nan, 2, 2, 2, 1]])
y = np.array([1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0])
# 样本的初始权重:都为1
weight = np.ones((len(X))) # 全局的weight:初始化为全1 
node_indices = np.arange(len(X))

## 假设当前的最佳划分特征:特征==纹理？
# 1.找（特征==色泽？）的无缺失索引
nonan_indices = [i for i in node_indices if ~np.isnan(X[i,3])]
# 2.找（特征==色泽？）的缺失索引
nan_indices = [i for i in node_indices if np.isnan(X[i,3])]
create_split_points(X[nonan_indices], 3, is_linear=False)


(array([1., 2., 3.]),
 <function __main__.create_split_points.<locals>.<lambda>(x, split_point)>)

In [84]:
# 测试
a = np.array([[1,0,0,1],
              [1,0,0,2],
              [1,1,0,2],
              [1,1,1,1],
              [1,0,0,1],
              [2,0,0,1],
              [2,0,0,2],
              [2,1,1,2],
              [2,0,1,3],
              [2,0,1,3],
              [3,0,1,3],
              [3,0,1,2],
              [3,1,0,2],
              [3,1,0,3],
              [3,0,0,1]])
create_split_points(a,0,False)

(array([1, 2, 3]),
 <function __main__.create_split_points.<locals>.<lambda>(x, split_point)>)


gini的计算：gini计算—维护一个全局的weight， 考虑每个样本的权重

p_k的计算不再使用频数而是各个样本的权重
![image-2.png](attachment:image-2.png)

In [136]:
def gini(y, weight):
    """
    计算当前样本集合的gini指数
    :param y : 当前集合对应的标签
    :param weight : 当前样本集合对应的权重
    
    """
    # 找出y中包含的所有类别
    unique_y = np.unique(y)
    weight_sum = np.sum(weight)
    # 1.计算p_k:计算无缺失样本中第k类所占的比例
    p_k = [np.sum(weight[y==k])/ weight_sum for k in unique_y ]
    # 2.计算gini
    gini = np.sum([p * (1-p) for p in p_k])
    return gini

In [132]:
gini(y[nonan_indices], weight[nonan_indices])

0.9967916319816366

In [87]:
b = np.array([0,0,1,1,0,0,0,1,1,1,1,1,1,1,0]).reshape(-1,1)
gini(b,np.ones_like(b))

0.48

In [57]:
def get_best_split_point(X,y,node_indices, weight, feature_i, is_linear=False):

    """
    对于当前节点集合（X，y）-node_indices计算特征i的基尼增益
    :param X: 所有样本
    :param y: 所有标签
    :param node_indices : 当前样本集合对应的索引(无缺失值)
    :param weight: 所有样本的权重
    :param is_linear : 特征的类型
    :return : 返回特征i的基尼增益以及分割的左右子树

    """
    ## 基于无缺失的样本来寻找特征的最佳切分点
    # 当前特征i的所有候选分割点
    split_points, split_func = create_split_points(X[node_indices], feature_i, is_linear)
    
    ## 产生最佳切分点
    # 初始化
    best_gini_gain = -1# 存储本特征的最佳切分点对应的gini_gain
    best_sets = None# 存储最佳切分点切分的左右分支
    # 依次使用候选分割点对当前集合（X，y）进行二分分割
    for point in split_points:
        # 使用每个候选分割点进行二分分割
        left_indices = [i for i in node_indices if split_func(X[i],point)]
        right_indices = [i for i in node_indices if not split_func(X[i], point)]
        # 分好左右分支后计算划分后的gini_gain
        # 左右分支的权重计算不再使用频数
        w_left, w_right = np.sum(weight[left_indices])/np.sum(weight), np.sum(weight[right_indices])/np.sum(weight)
        
        # 未划分前的gini:使用该属性上无缺失的样本来计算
        cur_gini = gini(y[node_indices], weight[node_indices])
        # 未划分前-划分后==gini_gain
        cur_gini_gain = cur_gini - (w_left*gini(y[left_indices],weight[left_indices]) + w_right*gini(y[right_indices], weight[right_indices]))
        
        # 选择最佳的split point
        if cur_gini_gain >= best_gini_gain:
            best_gini_gain = cur_gini_gain
            # 划分时传给左右子集的weight、indices均不同weigh
            # weight在之后再重置
            best_sets = {
                "best_split_point":point,
                "left_indices": left_indices,
                "right_indices": right_indices,
            }
    return best_gini_gain, best_sets

In [134]:
# 测试
# 基于split_points产生对应的划分
print(nonan_indices)
get_best_split_point(X,y, nonan_indices, weight,3,False)

[0, 1, 2, 3, 4, 5, 6, 8, 10, 11, 12, 13, 14, 15, 16]


(0.49736663223616223,
 {'best_split_point': 1.0,
  'left_indices': [0, 1, 2, 3, 4, 5, 14],
  'right_indices': [6, 8, 10, 11, 12, 13, 15, 16]})

In [137]:
# 测试
a = np.array([[1,0,0,1],
              [1,0,0,2],
              [1,1,0,2],
              [1,1,1,1],
              [1,0,0,1],
              [2,0,0,1],
              [2,0,0,2],
              [2,1,1,2],
              [2,0,1,3],
              [2,0,1,3],
              [3,0,1,3],
              [3,0,1,2],
              [3,1,0,2],
              [3,1,0,3],
              [3,0,0,1]])
b = np.array([0,0,1,1,0,0,0,1,1,1,1,1,1,1,0]).reshape(-1,1)
get_best_split_point(a,b, range(len(a)), np.ones_like(b),0,False)

(0.040000000000000036,
 {'best_split_point': 3,
  'left_indices': [10, 11, 12, 13, 14],
  'right_indices': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]})

In [95]:
def get_best_split_feature(X,y,node_indices,weight, is_linear):
        """
        对于当前节点集合（X，y）-node_indices,找到最佳特征：求所有特征的gini_gain
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引
        :param is_linear : 特征的类型

        """

        # 获取样本数和特征数
        n_samples, n_features = len(node_indices), X.shape[1]
        
        # 初始化
        best_gini_gain = -1
        best_feature = None
        best_sets = None
        
        # 依次求所有特征的gini_gain
        for feature_i in range(n_features):
            # 特征在所有样本中取值唯一时无需找split_point和参与特征划分
            if len(np.unique(X[node_indices][:,feature_i])) == 1:
                continue
                
            ## 找出未缺失的样本
            nonan_indices = [i  for i in node_indices if ~np.isnan(X[i, feature_i])]
            # 找出缺失样本
            nan_indices = [i  for i in node_indices if np.isnan(X[i, feature_i])]
            # 无缺失值样本所占的比例:对每一个样本赋予了权重后,利用权重计算无缺失样本所占的比例
            lou = np.sum(weight[nonan_indices]) / np.sum(weight[node_indices])
            
            # 特征i的基尼增益以及分割的左右子树
            cur_gini_gain,cur_branch_sets = get_best_split_point(X,y,nonan_indices, weight,feature_i, is_linear)
            # 找到特征i的最佳gini_point后,使用权重计算最终的gini_gain
            cur_gini_gain = lou * cur_gini_gain
            
            # 寻找最佳特征
            if cur_gini_gain >= best_gini_gain:
                best_gini_gain = cur_gini_gain
                best_feature = feature_i
                best_sets = cur_branch_sets
                # 修改权重
                left_weight, right_weight = np.zeros_like(weight),np.zeros_like(weight)
                left_indices, right_indices = best_sets["left_indices"],best_sets["right_indices"]
                left_weight[left_indices], right_weight[right_indices] = weight[left_indices], weight[right_indices]
                left_weight[nan_indices], right_weight[nan_indices] = np.sum(weight[left_indices]) / np.sum(weight[nonan_indices]),np.sum(weight[right_indices]) / np.sum(weight[nonan_indices])

                # 将缺失样本按不同的比重放到左右两个子集中
                left_indices.extend(nan_indices)
                right_indices.extend(nan_indices)
                best_sets["left_indices"] = left_indices
                best_sets["right_indices"] = right_indices
                best_sets["left_weight"] = left_weight
                best_sets["right_weight"] = right_weight

        # 找到了当前节点所用的最佳特征（也找到了该特征的最佳分割点）
        
        return best_feature,best_gini_gain, best_sets

In [139]:
res = get_best_split_feature(X,y,node_indices,weight, False)
print(res)

IndexError: index 15 is out of bounds for axis 0 with size 15

In [None]:
# 测试
a = np.array([[1,0,0,1],
              [1,0,0,2],
              [1,1,0,2],
              [1,1,1,1],
              [1,0,0,1],
              [2,0,0,1],
              [2,0,0,2],
              [2,1,1,2],
              [2,0,1,3],
              [2,0,1,3],
              [3,0,1,3],
              [3,0,1,2],
              [3,1,0,2],
              [3,1,0,3],
              [3,0,0,1]])
b = np.array([0,0,1,1,0,0,0,1,1,1,1,1,1,1,0])
weight = np.ones(len(b))
res=get_best_split_feature(a,b,range(len(a)),weight, False)
print(res)

由于赋予了权重，最后的根据多数原则确定叶子分类时也是按权重最大

In [184]:
class Node(object):
    """通过树结点的各属性记录生成的树结构"""
    def __init__(self,
                 best_feature_i=None, 
                 best_split_point=None,
                 left_node=None, 
                 right_node=None,
                 leaf_class = None,
                 is_leaf=False,
                 gini=None):
        """
        每个当前结点Node都记录了当前的划分状况
        :param left_child_node : 结点的左侧子结点
        :param right_child_node : 结点的右侧子结点
        :param best_feature_i : 当前结点的最佳划分特征
        :param split_point : 当前结点的最佳特征对应的最佳分割点
        :param leaf_class : 记录当前节点所属的类别
        :param is_leaf : 只有在is_leaf==True时，leaf_class才生效
        :param gini : 当前节点的gini_index
        
        """
        self.best_feature_i = best_feature_i
        self.best_split_point = best_split_point
        self.left_node = left_node
        self.right_node = right_node
        self.leaf_class = leaf_class
        self.is_leaf = is_leaf
        self.gini = gini
class CartDecisionTree():
    """使用cart算法构建决策树"""
    
    def __init__(self, max_depth = float("inf"),min_sample_split=2, min_gini_decrease=None):
        # 代表决策树的决策树根节点
        self.root_node = None 
        # 预设的决策树最大深度
        self.max_depth = max_depth
        # 预设的决策树叶子节点最小样本数
        self.min_sample_split = min_sample_split
        # 预设的基尼系数增益的最小值（gini_gain太小时不划分）
        self.min_gini_decrease = min_gini_decrease
    def fit(self, X,y,is_linear=False):
        """
        决策树拟合
        :param X : 训练数据集∈（m,n）
        :param y : 训练标签∈（n,1）
        :param is_linear : 特征是否为连续型
        
        """
        # 创建决策树根结点
        self.root_node = Node()
        # 默认根节点的深度为1
        cur_depth = 1
        # 根节点的初始化权重
        # 样本的初始权重:都为1
        weight = np.ones((len(X))) # 全局的weight:初始化为全1 
        # 递归构建决策树
        self._build_tree_recussive(X,y,np.arange(len(X)),weight,self.root_node, cur_depth, is_linear)
    
    def _build_tree_recussive(self, X,y, node_indices,weight,node:Node, cur_depth, is_linear):
        """
        对于当前节点集合（X，y）-node_indices,递归建立决策树
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引
        :param weight : 所有样本对应的权重
        :param node : 当前结点的状态记录

        """
        n_samples = len(node_indices)
        n_features = X.shape[1]
        # 记录本节点的状态
        node.gini = self._gini(y[node_indices], weight[node_indices])
        node.leaf_class = self._majority_vote(y[node_indices], weight[node_indices])

        ## 递归基
        # 节点包含数据属于同一个类别，此时无需划分
        if len(np.unique(y[node_indices])) <= 1:
            # 记录叶子结点所属的分类
            node.is_leaf = True
            return
        # 没有更多特征(当前节点所含样本所有特征都只有一个取值)
        if np.sum([len(np.unique(X[node_indices][:,i])) for i in range(n_features)]) == n_features:
            node.is_leaf = True
            return
        # 限制构建子树的深度
        if cur_depth >= self.max_depth:
            node.is_leaf = True
            return
        # 限制节点的最小样本量
        if n_samples < self.min_sample_split:
            node.is_leaf = True
            return

        ## 处理当前节点自身
        # 找到最佳特征和特征的最佳分割点
        best_feature_i,best_gini_gain, best_sets = self._get_best_split_feature(X, y, node_indices, weight, is_linear)
        
        # 基尼系数增益的最小值（gini_gain太小时不划分）
        if self.min_gini_decrease is not None and  best_gini_gain < self.min_gini_decrease:
            node.is_leaf = True
            return
        
        # 基于最佳特征和最佳分割点分成左右子树left,right
        left_indices = best_sets["left_indices"]
        right_indices = best_sets["right_indices"]
        left_weight = best_sets["left_weight"]
        right_weight = best_sets["right_weight"]
        # 记录本节点的状态
        node.best_feature_i = best_feature_i
        node.best_split_point = best_sets["best_split_point"]
        node.left_node = Node()
        node.right_node = Node()
        # --leaf_class和gini在递归基时记录

        # 让buildtree()帮忙划分左右子树
        self._build_tree_recussive(X,y,left_indices,left_weight, node.left_node, cur_depth+1, is_linear)
        self._build_tree_recussive(X,y,right_indices,right_weight, node.right_node, cur_depth+1, is_linear)
                                   
    def _get_best_split_feature(self,X,y,node_indices,weight, is_linear):
        """
        对于当前节点集合（X，y）-node_indices,找到最佳特征：求所有特征的gini_gain
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引
        :param weight : 所有样本对应的权重
        :param is_linear : 特征的类型

        """

        # 获取样本数和特征数
        n_samples, n_features = len(node_indices), X.shape[1]
        
        # 初始化
        best_gini_gain = -1
        best_feature = None
        best_sets = None
        
        # 依次求所有特征的gini_gain
        for feature_i in range(n_features):
            # 特征在所有样本中取值唯一时无需找split_point和参与特征划分
            if len(np.unique(X[node_indices][:,feature_i])) == 1:
                continue
                
            ## 找出未缺失的样本
            nonan_indices = [i  for i in node_indices if ~np.isnan(X[i, feature_i])]
            # 找出缺失样本
            nan_indices = [i  for i in node_indices if np.isnan(X[i, feature_i])]
            # 无缺失值样本所占的比例:对每一个样本赋予了权重后,利用权重计算无缺失样本所占的比例
            lou = np.sum(weight[nonan_indices]) / np.sum(weight[node_indices])
            
            # 特征i的基尼增益以及分割的左右子树
            cur_gini_gain,cur_branch_sets = self._get_best_split_point(X,y,nonan_indices, weight,feature_i, is_linear)
            # 找到特征i的最佳gini_point后,使用权重计算最终的gini_gain
            cur_gini_gain = lou * cur_gini_gain
            
            # 寻找最佳特征
            if cur_gini_gain >= best_gini_gain:
                best_gini_gain = cur_gini_gain
                best_feature = feature_i
                best_sets = cur_branch_sets
                # 修改权重
                left_weight, right_weight = np.zeros_like(weight),np.zeros_like(weight)
                left_indices, right_indices = best_sets["left_indices"], best_sets["right_indices"]
                left_weight[left_indices], right_weight[right_indices] = weight[left_indices], weight[right_indices]
                left_weight[nan_indices], right_weight[nan_indices] = np.sum(weight[left_indices]) / np.sum(weight[nonan_indices]),np.sum(weight[right_indices]) / np.sum(weight[nonan_indices])

                # 将缺失样本按不同的比重放到左右两个子集中
                left_indices.extend(nan_indices)
                right_indices.extend(nan_indices)
                best_sets["left_indices"] = left_indices
                best_sets["right_indices"] = right_indices
                best_sets["left_weight"] = left_weight
                best_sets["right_weight"] = right_weight

        # 找到了当前节点所用的最佳特征（也找到了该特征的最佳分割点）
        
        return best_feature,best_gini_gain, best_sets
    
    def _get_best_split_point(self,X,y,node_indices, weight, feature_i, is_linear=False):

        """
        对于当前节点集合（X，y）-node_indices计算特征i的基尼增益
        :param X: 所有样本
        :param y: 所有标签
        :param node_indices : 当前样本集合对应的索引(无缺失值)
        :param weight: 所有样本的权重
        :param is_linear : 特征的类型
        :return : 返回特征i的基尼增益以及分割的左右子树

        """
        ## 基于无缺失的样本来寻找特征的最佳切分点
        # 当前特征i的所有候选分割点
        split_points, split_func = self._create_split_points(X[node_indices], feature_i, is_linear)

        ## 产生最佳切分点
        # 初始化
        best_gini_gain = -1# 存储本特征的最佳切分点对应的gini_gain
        best_sets = None# 存储最佳切分点切分的左右分支
        # 依次使用候选分割点对当前集合（X，y）进行二分分割
        for point in split_points:
            # 使用每个候选分割点进行二分分割
            left_indices = [i for i in node_indices if split_func(X[i],point)]
            right_indices = [i for i in node_indices if not split_func(X[i], point)]
            # 分好左右分支后计算划分后的gini_gain
            # 左右分支的权重计算不再使用频数
            w_left, w_right = np.sum(weight[left_indices])/np.sum(weight), np.sum(weight[right_indices])/np.sum(weight)

            # 未划分前的gini:使用该属性上无缺失的样本来计算
            cur_gini = self._gini(y[node_indices], weight[node_indices])
            # 未划分前-划分后==gini_gain
            cur_gini_gain = cur_gini - (w_left*self._gini(y[left_indices],weight[left_indices]) + w_right*self._gini(y[right_indices], weight[right_indices]))

            # 选择最佳的split point
            if cur_gini_gain >= best_gini_gain:
                best_gini_gain = cur_gini_gain
                # 划分时传给左右子集的weight、indices均不同weigh
                # weight在之后再重置
                best_sets = {
                    "best_split_point":point,
                    "left_indices": left_indices,
                    "right_indices": right_indices,
                }
        return best_gini_gain, best_sets
    
    def _create_split_points(self, X, feature_i, is_linear=False):
    
        """
        根据特征i是连续型/离散型特征得到特征i的所有候选分割点,并返回对应的分割函数
        :param X: 当前集合的样本（无缺失值）
        :param feature_i : 给定的特征索引
        :return 特征i的所有候选分割点、分割函数

        """

        # 1、确定特征i的所有可能取值
        feature_values = np.unique(X[:, feature_i])# 已排序的 

        # 2、根据特征i是连续型/离散型特征对这些可能取值进行处理从而得到特征i的所有候选分割点；    
        split_points = None
        split_func = None

        if is_linear:
            split_points = (feature_values[1:] + feature_values[:-1]) / 2 # 特征是连续型特征则使用二分法找到所有的切分点
            split_func = lambda x,split_point : x[feature_i] >= split_point

        else:
            split_points = feature_values# 离散型特征直接使用特征的各个取值作为切分点
            split_func = lambda x,split_point : x[feature_i] == split_point
        return split_points, split_func
    
     
    
    def _gini(self,y, weight):
        
        """
        计算当前样本集合的gini指数
        :param y : 当前集合对应的标签
        :param weight : 当前样本集合对应的权重

        """
        # 找出y中包含的所有类别
        unique_y = np.unique(y)
        weight_sum = np.sum(weight)
        # 1.计算p_k:计算无缺失样本中第k类所占的比例
        p_k = [np.sum(weight[y==k])/ weight_sum for k in unique_y ]
        # 2.计算gini
        gini = np.sum([p * (1-p) for p in p_k])
        return gini
    
    def _majority_vote(self, y,weight):
        """
        根据多数原则定叶子节点所属的分类
        :param y : 当前集合对应的标签
        :param weight : 前集合对应的权重
        :return most_common_class叶子节点所属的分类
        """
        most_common_class = None
        max_distribution = 0
        for k in np.unique(y): 
            distribution = np.sum(weight[y==k])
            if distribution >= max_distribution:
                max_distribution = distribution
                most_common_class = k
        return most_common_class
    
    def prune(self, alpha=0):
        """对决策树进行后剪枝"""
        return self._pruning_node(self.root_node, alpha)
        
    def _pruning_node(self, node,alpha):
        """
        :param node : 当前处理的节点
        :param alpha: loss的参数，alpha≥0

        """
        ## 递归基:当前节点是叶子节点则直接返回
        if node.is_leaf:
            return 
        ## 让递归函数帮忙处理左右子树
        self._pruning_node(node.left_node, alpha)
        self._pruning_node(node.right_node, alpha)

        ## 处理当前节点
        # 剪枝后
        post_loss = node.gini + alpha * 1 
        # 剪枝前
        pre_loss = node.left_node.gini + node.right_node.gini + alpha * 2
        # 比较剪枝前的loss与剪枝后的loss
        if post_loss < pre_loss: # 剪枝后loss更小则剪枝（收回左右结点）
            node.left_node = None
            node.right_node = None
            node.best_feature_i = None
            node.best_split_point = None
            node.is_leaf = True
    
    def predict(self,X,is_linear=False):
        """
        :param X: 待预测的m个样本

        """
        # 每一个样本都通过二叉搜索决策树树查找所属类别,决策树由其根节点作为代表
        y_pred = [self._search_class(x, self.root_node, is_linear) for x in X]
        return y_pred

    def _search_class(self, x, node:Node, is_linear=False):
        """
        : param x: 待预测所属分类的样本
        : param node : 当前所在节点

        """
        # 递归基
        if node.is_leaf:# 已经走到叶子
            return node.leaf_class
        ## 当前节点的工作
        # 本样本最终要往哪个分支走
        goto = None
        # 根据当前节点的最佳特征及最佳切分点决定x是继续往左边走还是往右边走
        feature_value = x[node.best_feature_i]
        # 离散型/连续型特征处理不同
        if is_linear:
            if feature_value >= node.best_split_point:
                goto = node.left_node# 往左边
            else:
                goto = node.right_node#往右边
        else:
            if feature_value == node.best_split_point:
                goto = node.left_node# 往左边
            else:
                goto = node.right_node
        return self._search_class(x, goto, is_linear)
        
    


In [185]:
def accuracy(y_pred, y_true):
    return np.sum(y_pred == y_true) / len(y_pred)

In [186]:
X = np.array([
       [np.nan, 1, 1, 1, 1, 1],
       [1, 1, 2, 1, 1, np.nan],
       [1, 1, np.nan, 1, 1, 1],
       [2, 1, 2, 1, 1, 1],
       [np.nan, 1, 1, 1, 1, 1],
       [2, 2, 1, 1, np.nan, 2],
       [1, 2, 1, 2, 2, 2],
       [1, 2, 1, np.nan, 2, 1],
       [1, np.nan, 2, 2, 2, 1],
       [2, 3, 3, np.nan, 3, 2],
       [3, 3, 3, 3, 3, np.nan],
       [3, 1, np.nan, 3, 3, 2],
       [np.nan, 2, 1, 2, 1, 1],
       [3, 2, 2, 2, 1, 1],
       [1, 2, 1, 1, np.nan, 2],
       [3, 1, 1, 3, 3, 1],
       [2, np.nan, 2, 2, 2, 1]])
y = np.array([1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0])
model = CartDecisionTree()
model.fit(X,y)
y_pred = model.predict(X)
accuracy(y_pred, y)

1.0

In [187]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
data = load_iris()
X,y = data.data, data.target
X_train,test_X,y_train,test_y = train_test_split(X,y,test_size=0.3)


In [195]:
# 不输入参数——不进行预剪枝
model = CartDecisionTree()
model.fit(X_train, y_train, is_linear=True)
y_pred = model.predict(test_X, is_linear=True)

accuracy(y_pred, test_y)

0.9333333333333333

In [189]:
# 输入参数——预剪枝
model = CartDecisionTree(max_depth=3, min_sample_split=3, min_gini_decrease=0.1)
model.fit(X_train,y_train, is_linear=True)
y_pred = model.predict(test_X, is_linear=True)
accuracy(y_pred,test_y)

0.9333333333333333

In [196]:
model.prune(1e-1)
y_pred = model.predict(test_X)
accuracy(y_pred,test_y)

0.28888888888888886