**<font color = black size=6>实验五:随机森林</font>**

本次实验为编写集成学习中的随机森林算法。在上一次实验中，我们已经学会了如何构建一棵ID3决策树。在本次实验，我们将以上一次决策树代码的基础上，结合集成学习中的并行化生成分类模型的思想，构建多棵决策树，组成随机森林。

In [1]:
from collections import Counter
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import math

**<font color = blue size=4>第一部分:函数介绍</font>**

介绍一些在数据采样和属性集采样的过程中可以用到的随机函数。

In [2]:
# np.random.choice函数从一个一维数组中随机采样
x = np.array([1,2,3,4])
y = np.random.choice(x, replace=True, size=10)
print(y)

# np.random.shuffle函数对一个数组/矩阵按照第一维进行洗牌
x = np.array([[0,1,2],[3,4,5],[6,7,8],[9,10,11],[12,13,14]])
np.random.shuffle(x)
# print(x)

# DataFrame对象的sample函数可以随机采样n个数据或者采样比例为frac的数据
x = np.array([[0,0,0],[1,1,1],[2,2,2],[3,3,3],[4,4,4]])
frame = pd.DataFrame(x)
print(frame.sample(n=1))
# print(frame.sample(frac=0.3))

[4 2 1 2 3 1 3 4 2 3]
   0  1  2
3  3  3  3


**<font color = blue size=4>第二部分:实验任务</font>**

本次实验承接上次实验，实现随机森林。

<span style="color:purple">1) 采用自助采样法对训练数据集'train_titanic.csv'进行采样，生成$n$个训练数据集($n$自行设定)。自助采样法是指，每次从原本数据集中【有放回】地随机采样一个数据，重复进行$m$次，就生成一个有$m$个数据的训练数据集($m$是原本数据集的数据个数)。</span>

In [3]:
train_frame = pd.read_csv('train_titanic.csv')
train=np.array(train_frame)
# Bootstrap 采样
np.random.shuffle(train)

#生成一个具有m个数据的训练数据集
def m_data(train):
    a = np.arange(0, len(train), 1)
    b = np.random.choice(a, replace=True, size=len(train))
    data: list = []
    for i in b:
        p: list = []
        p = train[i, :]
        data.append(p)
    m_data = np.array(data)
    return m_data

new_train=[]
i=0
while i<10:
    new_train.append(m_data(train))
    i+=1
new_train=np.array(new_train)
# print(new_train)

<span style="color:purple">2) 对上次实验的best_split函数进行修改，改成先从属性集$A$中先随机选取$k$个属性构成属性集$A'$，再从$A'$中选取最佳划分的属性。($k$是一个整数，一般取$max(round(log_2 d),1)$, 其中$d$是$A$的元素的个数)</span>

In [4]:
#计算信息熵
def entropy(label):
    all = np.unique(label[:])
    counter = Counter(label[:])
    ent = 0
    for a in all:
        pk = counter[a] / len(label)
        ent -= pk * math.log((pk), 2)
    return ent

#将属性集合按照某一维度进行划分
def split(feature, label, dimension):
    dim = feature[:, dimension]    #取出属性集中被划分的维度
    differ = np.unique(dim)        # differ为被划分属性上某一维度的非重复值数组
    split_feature = []             #创建一个列表存储被划分的数据集
    split_label = []               #创建一个列表存储被划分后的标签集
    #遍历dimension维度上的非重复值
    for x in differ:
        small_feature = []
        small_label = []
        for i in range(len(dim)):
            if (x == dim[i]):
                q: list = feature[i, :]
                w: list = label[i]
                small_feature.append(q)
                small_label.append(w)
        split_feature.append(small_feature)
        split_label.append(small_label)
    return split_feature, split_label


def best_split_1(D, A):
    label:list=D[:,len(D[0,:])-1]
    best_entropy = -1
    best_dimension = 0
    for col in A:
        d= entropy(label)
        sp_feature, sp_label = split(D, label, col)
        d_v=0
        i=0
        for arr in sp_label:
            d_v -= len(arr) / len(label) * entropy(sp_label[i])
            i+=1
        if d_v + d > best_entropy:
            best_entropy = d_v + d
            best_dimension = col
    return best_dimension

#在集合A中随机选取几个元素组成新的集合再按照新的集合调用benst_split_1函数，得到最佳划分维度
def best_split(D, A):
    Aa= np.random.choice(A, replace=True, size=max(round(math.log(len(A))),1))
    return best_split_1(D,Aa)


<span style="color:purple">3) 对上次实验完成的决策树类进行如下修改：①predict函数不需要计算预测准确率，要返回数据集D的预测标签；②每个属性的可能取值possible_value不从采样的数据集中取，而是从原本数据集'train_titanic.csv'中取，以防止在预测过程中出现决策树在训练过程中未见过的属性取值。</span>

In [5]:
# 记下所有属性可能的取值
D = np.array(train_frame)
A = set(range(D.shape[1] - 1))
possible_value = {}
for every in A:
    possible_value[every] = np.unique(D[:, every])

In [6]:
# 树结点类
class Node:
    def __init__(self, isLeaf=False, label=-1, index=-1):
        self.isLeaf = isLeaf # isLeaf表示该结点是否是叶结点
        self.label = label # label表示该叶结点的label（当结点为叶结点时有用）
        self.index = index # index表示该分支结点的划分属性的序号（当结点为分支结点时有用）
        self.children = {} # children表示该结点的所有孩子结点，dict类型，方便进行决策树的搜索
        
    def addNode(self, val, node):
        self.children[val] = node #为当前结点增加一个划分属性的值为val的孩子结点

<span style="color:purple">4) 生成$n$棵决策树实例，每棵决策树对上面生成的$n$个训练数据集中的一个数据集进行训练。</span>

In [7]:
# 决策树类
class DTree:
    def __init__(self):
        self.tree_root = None #决策树的根结点
        self.possible_value = possible_value # 用于存储每个属性可能的取值
    
        
    '''
    TreeGenerate函数用于递归构建决策树，伪代码参照课件中的“Algorithm 1 决策树学习基本算法”
    '''
    def TreeGenerate(self, D1, A):
        D=np.array(D1)
        # 生成结点 node
        node = Node()
        #取出最后一列作为标签集合
        label:list = D[:,len(D[0, :]) - 1]
        label_arr = np.array(label)

        # if D中样本全属于同一类别C then
        #     将node标记为C类叶结点并返回
        # end if
        if (1 == len(np.unique(label_arr[:]))):
            node.label = np.unique(label_arr)[0]
            node.isLeaf=True
            return node
        # if A = Ø OR D中样本在A上取值相同 then
        #     将node标记叶结点，其类别标记为D中样本数最多的类并返回
        # end if
        label_mark = -1    #D中样本数量最多的标签类
        Flag = True #当按照A中所存的维度进行索引属性值的时候，所有索引出来的属性值相同时flag的值为true
        for i in A:
            col=D[:,i]
            col_differ=np.unique(col)
            if len(col_differ)>1:
                Flag=False
        MAX = -1
        differ_label = np.unique(label[:])
        counter = Counter(label[:])
        for l in differ_label:
            num = counter[l]
            if (num > MAX):
                MAX = num
                label_mark = l
        if (len(A) == 0 or Flag):
            node.label = label_mark
            node.isLeaf=True
            return node

        # 从A中选择最优划分属性a_star
        # （选择信息增益最大的属性，用到上面实现的best_split函数）
        # a_star = best_split(D, A)
        a_star = best_split(D, A)
        node.index=a_star
        # for a_star 的每一个值a_star_v do
        #     为node 生成每一个分支；令D_v表示D中在a_star上取值为a_star_v的样本子集
        #     if D_v 为空 then
        #         将分支结点标记为叶结点，其类别标记为D中样本最多的类
        #     else
        #         以TreeGenerate(D_v,A-{a_star}) 为分支结点
        #     end if
        # end for
        # print("a_star=",a_star)
        a_dimension = D[:, a_star]
        # a_strat_differ = np.unique(a_dimension[:])
        a_strat_differ=self.possible_value[a_star]
        for d in a_strat_differ:
            lis: list = []
            for i in range(len(D[:, 0])):
                if (a_dimension[i] == d):
                    tem:list=D[i,:]
                    lis.append(tem)
            if len(lis)==0:
                new_nd=Node()
                new_nd.isLeaf=True
                new_nd.label=label_mark
                node.addNode(d,new_nd)
            else:
                B: list = []
                for x in A:
                    if x == a_star:
                        continue
                    else:
                        B.append(x)
                new_node: Node = self.TreeGenerate(lis,B)
                node.addNode(d, new_node)
        return node

    
    
    
    
    '''
    train函数可以做一些数据预处理（比如Dataframe到numpy矩阵的转换，提取属性集等），并调用TreeGenerate函数来递归地生成决策树
    '''
    def train(self, D):
        D = np.array(D)  # 将Dataframe对象转换为numpy矩阵（也可以不转，自行决定做法）
        # A = set(range(D.shape[1] - 1)) # 属性集A
        A: list = list(range(len(D[0, :]) - 1))
        # 记下每个属性可能的取值
        # A = np.array(A)
        self.tree_root = self.TreeGenerate(D, A)  # 递归地生成决策树，并将决策树的根结点赋值给self.tree_root

        pass
    
    
    
    
    '''
    predict函数对测试集D进行预测，输出预测标签
    '''
    def search(self, node: Node, arr):
        if node.isLeaf:
            return node.label
        else:
            x = arr[node.index]
            next1 = node.children[x]
            return self.search(next1, arr)
    
    
    def predict(self, D):
        D=np.array(D)
        label:list=[]
        for i in range(len(D[:,0])):
            label.append(self.search(self.tree_root,D[i,:]))
        return label
#         D = np.array(D) # 将Dataframe对象转换为numpy矩阵（也可以不转，自行决定做法）
        
#         #对于D中的每一行数据d，从当前结点x=self.tree_root开始，当当前结点x为分支结点时，
#         #则搜索x的划分属性为该行数据相应的属性值的孩子结点（即x=x.children[d[x.index]]），不断重复，
#         #直至搜索到叶结点，该叶结点的label就是数据d的预测label
        pass

In [8]:
# ----- Your code here -------

#创建一个senl列表，存储训练好的10个决策树模型
senl:list=[]
#引入test测试集
test_frame=pd.read_csv('test_titanic.csv')
test=np.array(test_frame)

#在循环中生成决策树，并将训练好的模型放到列表senl中去
j=0
while j<100:
    my_data=m_data(train)   #随机抽取与train个数相同的数据组成新的数据集
    dt=DTree()
    dt.train(my_data)    #使用随机生成的数据集来训练决策树
    senl.append(dt)      #将训练好的决策树放到列表中
    j+=1

#用列表yuce来存储每一个决策树预测出来的结果
yuce:list=[]
#遍历每一个决策树，将每次预测的结果作为一个一维数组，最终所有决策树结果构成一个二维数组
for dt in senl:
    lis:list=dt.predict(test)
    yuce.append(lis)

<span style="color:purple">5) 用训练完成的$n$棵决策树分别对测试数据集'test_titanic.csv'进行预测。采用相对多数投票法$H(x)=C_{\mathop{\arg\max}_{j} \sum_{i=1}^T h_i^j(x)}$来对各棵决策树的预测结果进行结合。输出结合的预测结果的准确率。</span>

In [9]:
test_frame = pd.read_csv('test_titanic.csv')

# ----- Your code here -------
pre=[]
num=0
yuce=np.array(yuce)
#遍历二维数组的每一列，将每一列中出现次数最多的类别作为这一列的最终结果，并计算预测正确率
for i in range(len(yuce[0,:])):
    col=yuce[:,i]
    differ=np.unique(col[:])
    counter=Counter(col[:])
    max1=0
    label=0
    for x in differ:
        if counter[x] >max1:
            max1=counter[x]
            label=x
    pre.append(label)
    if label==test[i,4]:
        num+=1
print("随机森林最终的预测结果为:\n",pre)
print("预测正确率为：",num/len(test[:,0]))


随机森林最终的预测结果为:
 [0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
预测正确率为： 0.8366336633663366


**<font color = blue size=4>第三部分:作业提交</font>**

一、实验课下课前提交完成代码，如果下课前未完成，请将已经完成的部分进行提交，未完成的部分于之后的实验报告中进行补充  
要求:  
1)文件格式为：学号-姓名.ipynb  
2)【不要】提交文件夹、压缩包、数据集等无关文件，只需提交单个ipynb文件即可，如果交错请到讲台前联系助教，删掉之前的错误版本后再进行提交

二、因为下周放假冲了一次理论课，本次实验做两周，实验报告下下周（4月15号前）交  
要求：  
1)文件格式为：学号-姓名.pdf  
2)【不要】提交文件夹、压缩包、代码文件、数据集等任何与实验报告无关的文件，只需要提交单个pdf文件即可  
3)文件命名时不需要额外添加“实验几”等额外信息，按照格式提交  
4)每周的实验报告提交地址会变化，且有时间限制，提交时间为下周的实验课开始时，请注意及时提交。

实验五(随机森林)的实验报告上交地址:https://workspace.jianguoyun.com/inbox/collect/3c4acbb1e9a044c48fec14e2fdb97b56/submit

三、课堂课件获取地址:https://www.jianguoyun.com/p/DQlpUFYQp5WhChiS_q0E  
实验内容获取地址:https://www.jianguoyun.com/p/DbKbP-AQp5WhChi1sa0E