# 分类算法三：决策树以及随机森林

## <mark style=background-color:pink>一、决策树<mark>
    

### 1.认识决策树

- 决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法

例：比如母亲给女儿介绍男朋友取相亲，女儿要母亲先简单描述一下这个人看看是不是自己感兴趣的类型，其实相当于将这个相亲对象分为感兴趣的类型和不感兴趣的类型

|第一层判断：年龄<30|第二层判断：样貌出众|第三层判断：收入高中低|第四层判断：是公务员|最终：类型|
|-------|-------|-----|-------|----|
|  否    |   -  |  -  |   -   |不感兴趣|    
|  是    |   否  |  -  |   -   |不感兴趣|
|  是    |   是  |  低  |   -   |不感兴趣|
|  是    |   是  |  中  |   否   |不感兴趣|
|  是    |   是  |  中  |   是   |感兴趣|
|  是    |   是  |  高  |   -   |感兴趣|


- 上述可以画成**树状图**
- 有判断的顺序，也就是从第一层到第四层，可以看出女儿心中对各个方面看中的顺序是：年龄>样貌>收入>公务员

### 2.信息论基础

例：银行贷款数据如下，如何去判断是否能得到贷款？

|ID|年龄|有工作|有自己的房子|信贷情况|类别|
|--|----|-----|-----------|-------|----|
|1|青年|0|0|一般|否|
|2|青年|0|0|好|否|
|3|青年|1|0|好|是|
|4|青年|1|1|一般|是|
|5|青年|0|0|一般|否|
|6|中年|0|0|一般|否|
|7|中年|0|0|好|否|
|8|中年|1|1|好|是|
|9|中年|0|1|非常好|是|
|10|中年|0|1|非常好|是|
|11|老年|0|1|非常好|是|
|12|老年|0|1|好|是|
|13|老年|1|1|好|是|
|14|老年|1|0|非常好|是|
|15|老年|0|0|一般|否|






例：假如有32支要进行比赛的球队，**如果不知道任何一个队伍的信息**，要猜哪一支球队获胜，该怎么猜？
- ①1-16：将32支球队一分为2，猜获胜队伍在编号1-16的队伍中
- ②9-16：又将1-16这16支队伍一分为2，猜获胜队伍在编号9-16的队伍中
- ③13-16
- ④13、14
- ⑤13
- 在二分法下，最多需要5次(因为2的五次方为32)，就可以选择出一支队伍(13)作为猜测的队伍


#### 信息的度量和作用

- 信息的度量单位：比特bit
- 如在球队例题中，log_2(32)=5 bit
- 香农发现：5 = - (1/32*log_2(1/32)+1/32*log_2(1/32)+...+1/32*log_2(1/32))
- 香农指出：' 获胜队伍 '的信息**代价**应该比5bit少，比如对这些球队不再是一无所知(**此时相当于没有信息**)
- **在告知一些球队的信息后**
- 它的准确信息量(**代价**)应该是**H=-(P1\*log_2(P1)+P2\*log_2(P2)+P3\*log_2(P3)+....+P32\*log_2(P32))**
- 比如开放信息：德国队获胜的概率为1/6，巴西队获胜的概率为1/6，中国队获胜的概率1/10...
- H = - (1/6*log_2(1/6)+1/6*log_2(1/6)+1/10*log_2(1/10)...) < 5

#### 信息熵
- H的专业术语称之为**信息熵**，单位为比特bit
- 公式：$H(X)=-\sum_{x∈X}P(x)log_2 P(x)$
- 如在球队例题中，当对球队一无所知时，相当于他们获胜的概率相同，对应的**信息熵**就应该为5bit
- 当你对这些球队有一定了解时的**信息熵**就应当比5bit小
- **信息和消除不确定性是相互联系的：信息熵越大，不确定性越大**

#### 决策树的划分依据之一：信息增益
- 训练数据集D的信息熵：H(D)
- 特征$A_i$给定条件下数据集D的信息条件熵：H(D|$A_i$)
- 特征$A_i$对训练数据集D的**信息增益：g(D,$A_i$) = H(D) - H(D|$A_i$)**
- 注：**信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度**，也就是得知一个特征条件后，减少的信息熵的大小

#### 信息熵H(D)以及条件熵H(D|$A_i$)的计算

信息熵H(D)的计算：
- $H(D)=-\sum_{K=1}^{K} \frac{|C_{k}|}{|D|}log \frac{|C_{k}|}{|D|}$
- $|C_{k}|$表示属于某个类别的样本数

条件熵H(D)的计算：
- $H(D|A_i)=\sum_{i=1}^{n} \frac{|D_{i}|}{|D|} H(D_{i})$


#### 以银行贷款的数据为例计算信息熵和信息增益

|ID|年龄|有工作|有自己的房子|信贷情况|类别|
|--|----|-----|-----------|-------|----|
|1|青年|0|0|一般|否|
|2|青年|0|0|好|否|
|3|青年|1|0|好|是|
|4|青年|1|1|一般|是|
|5|青年|0|0|一般|否|
|6|中年|0|0|一般|否|
|7|中年|0|0|好|否|
|8|中年|1|1|好|是|
|9|中年|0|1|非常好|是|
|10|中年|0|1|非常好|是|
|11|老年|0|1|非常好|是|
|12|老年|0|1|好|是|
|13|老年|1|1|好|是|
|14|老年|1|0|非常好|是|
|15|老年|0|0|一般|否|

D中有9个'是'(发放贷款)，6个'否'(不发放贷款)
- **H(D) = -(9/15*log_2(9/15)+6/15*log_2(6/15)) = 0.971**

特征'年龄'的信息增益：**g(D,'年龄') = H(D) - H(D|'年龄')**
- '年龄'：有三个类别：青年、中年、老年
- **H(D|'年龄') = -(5/15*H('青年')+5/15*H('中年')+5/15*H('老年'))**

五个'青年'中有2个'是'(发放贷款)，3个'否'(不发放贷款)
- **H('青年') = -(2/5*log_2(2/5)+3/5*log_2(3/5))**

五个'中年'中有有2个'是'(发放贷款)，3个'否'(不发放贷款)
- **H('中年') = -(2/5*log_2(2/5)+3/5*log_2(3/5))**

五个'老年'中有有4个'是'(发放贷款)，1个'否'(不发放贷款)
- **H('老年') = -(4/5*log_2(4/5)+1/5*log_2(1/5))**

最后就可以计算出特征'年龄'的信息增益
- 同样也可以计算出其他特征'工作'、'房子'、'信贷'等特征的信息增益
- 比较四个特征之间的信息增益大小，**信息增益最大的，最有特征**

### 3.决策树的生成

#### 常用决策树使用的算法
ID3
- 信息增益 最大的准则

C4.5
- 信息增益比 最大的准则

CART
- 回归树：平方误差 最小
- 分类树：**基尼系数** 最小的准则 在sklearn中可以选择划分的默认原则
- 基尼系数：划分更加仔细

#### sklearn中的决策树

- 类：**sklearn.tree.DecisionTreeClassifier**
- 实例化方法：**sklearn.tree.DecisionTreeClassifier(criterion='gini',max_depth=,random_state=)**
- criterion：默认是'gini'系数，也可以选择信息增益的熵'entropy'
- max_depth：树的深度大小
- random_state：随机种子
- decision_path：返回决策树的路径

### 4.泰坦尼克号乘客生存分类

泰坦尼克号数据集
- 数据地址：http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt
- 数据集中是票的类别，存活，乘坐班pclass，年龄，登陆，home.dest，房间，票，船，性别
- 乘坐班是指乘客班(1,2,3)，是社会经济阶层的代表
- 其中年龄数据存在缺失

泰坦尼克号生存分类模型
- ①pd读取数据
- ②选择有影响的特征，处理缺失值
- ③进行特征工程，pd转换字典，特征抽取X_train.to_dict(orient='records')
- ④决策树估计器流程
- ⑤决策树的结构、本地保存


#### ①pd读取数据

In [19]:
import pandas as pd

#读取泰坦尼克号数据集
titanic = pd.read_csv(r"E:\jupyterlab\ML\titanic.csv")

print(titanic.head())

   row.names pclass  survived  \
0          1    1st         1   
1          2    1st         0   
2          3    1st         0   
3          4    1st         0   
4          5    1st         1   

                                              name      age     embarked  \
0                     Allen, Miss Elisabeth Walton  29.0000  Southampton   
1                      Allison, Miss Helen Loraine   2.0000  Southampton   
2              Allison, Mr Hudson Joshua Creighton  30.0000  Southampton   
3  Allison, Mrs Hudson J.C. (Bessie Waldo Daniels)  25.0000  Southampton   
4                    Allison, Master Hudson Trevor   0.9167  Southampton   

                         home.dest room      ticket   boat     sex  
0                     St Louis, MO  B-5  24160 L221      2  female  
1  Montreal, PQ / Chesterville, ON  C26         NaN    NaN  female  
2  Montreal, PQ / Chesterville, ON  C26         NaN  (135)    male  
3  Montreal, PQ / Chesterville, ON  C26         NaN    NaN  female  

#### ②选择有影响的特征，处理缺失值

In [20]:
#处理数据，找出特征值和目标值

#选择特征'pclass'、'age'、'sex'，其中特征'age'对应的特征值有缺失
X = titanic.loc[:,['pclass','age','sex']]

#目标值：
Y = titanic.loc[:,['survived']]

print(X.head())
print(Y.head())

  pclass      age     sex
0    1st  29.0000  female
1    1st   2.0000  female
2    1st  30.0000    male
3    1st  25.0000  female
4    1st   0.9167    male
   survived
0         1
1         0
2         0
3         0
4         1


In [21]:
#查看数据可以发现'age'一列有缺失值
X.info()

#查看'age'中特征值的缺失率
print('age中特征值的缺失率为：',X['age'].isnull().mean())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1313 entries, 0 to 1312
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   pclass  1313 non-null   object 
 1   age     633 non-null    float64
 2   sex     1313 non-null   object 
dtypes: float64(1), object(2)
memory usage: 30.9+ KB
age中特征值的缺失率为： 0.5178979436405179


In [22]:
#age中特征值的缺失率为： 51%，未达到70%，则保留特征，并对缺失值用平均值填补
X['age'].fillna(X['age'].mean(),inplace=True)

In [23]:
#划分数据集为训练集和测试集
from sklearn.model_selection import train_test_split

X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_size=0.25,random_state=2021)

#### ③进行特征工程
-pd转换字典，特征抽取X_train.to_dict(orient='records')

In [24]:
#导入字典数据特征工程的类
from sklearn.feature_extraction import DictVectorizer

#实例化字典数据特征工程的类
dict = DictVectorizer(sparse=False)

In [25]:
#将训练集和测试集的特征值转换为字典
X_train = X_train.to_dict(orient='records')
X_test = X_test.to_dict(orient='records')

#再对字典数据进行特征工程之特征抽取
X_train = dict.fit_transform(X_train)
X_test = dict.fit_transform(X_test)

#### ④决策树估计器流程

In [42]:
#导入决策树的类
from sklearn.tree import DecisionTreeClassifier

#实例化决策树的类
treedec = DecisionTreeClassifier()

In [43]:
#带入训练集的数据得到决策树算法的模型
treedec.fit(X_train,Y_train)

#评估模型
print('预测的准确率为：',treedec.score(X_test,Y_test))

预测的准确率为： 0.7993920972644377


In [45]:
dict.get_feature_names()

['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female', 'sex=male']

#### ⑤决策树的结构、本地保存
- sklearn.tree.export_graphviz()该函数能够导出DOT格式
- sklearn.tree.export_graphviz(treedec,out_file=r"E:\jupyterlab\ML\tree.dot",feature_names=dict.get_feature_names())
- 工具：安装graphviz，将dot文件转换为pdf、png

In [48]:
#导入导出决策树类中的方法
from sklearn.tree import export_graphviz

#导出决策树的结构
export_graphviz(treedec,out_file=r"E:\jupyterlab\ML\tree.dot",feature_names=dict.get_feature_names())

### 5.决策树的优缺点

优点：
- 简单的理解和解释，树可视
- 需要很少的数据准备，其他算法通常需要数据归一化

缺点：
- 由训练集很容易生成过于复杂的树，在测试集中表现不好，这种现象称为**过拟合**

改进：
- **减枝cart算法**(决策树API当中已经实现，随机森林参数调优有相关介绍)
- **随机森林**

注：
- 企业重要决策，由于决策树很好的分析能力，在决策过程应用较多

## <mark style=background-color:pink>二、集成学习方法-随机森林<mark>
    
**集成学习方法**：
- 集成学习通过建立几个模型组合来解决单一预测问题。它的工作原理是**生成多个分类器/模型，各自独立的学习和作出预测，这些预测最后结合成单预测**，因此优于任何一个单分类器做出的预测

### 1.什么是随机森林

**定义**：
- 在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定
- 例如，训练了五个树，其中4个树的结果是True，1个数的结果是False，那么最终结果会是True

### 2.随机森林的过程、优势

数据集：N个样本，M个特征

**随机森林建立多个决策树的过程**：
- 1.随机在N个样本当中选择一个样本，重复N次，因为相当于**有放回地随机抽样N次**，所以最后抽到的N个数据中，可能会有重复的数据
- 2.随机在M个特征当中选出m(<M)个特征
- 3.重复多次，建立多个决策树，每个决策树的构成数据都是N个样本m个特征，数据之间各有不同

**为什么要随机抽样训练集？**：
- 如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的

**为什么要有放回地抽样？**：
- 如果不是有放回的地抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是'有偏的'，都是'片面的'，也就是说每棵树训练出来都是有很大的差异的：二随机森林最后分类取决于多棵树(弱分类器)的投票表决

### 3.sklearn中的随机森林
- 类：**sklearn.ensemble.RandomForestClassifier**
- 实例化语法：**sklearn.ensemble.RandomForestClassifier(n_estimators=,criterion='gini',max_depth=None,bootstrap=True,random_state=)**
- n_estimators：integer,optional(default=10) 森林里的数目数量{120,200,300,500,800,1200}
- criterion：string，可选，树的分类依据默认基尼系数
- **max_depth**：integer or None，默认为无，树的深度{5,8,15,25,30}
- **max_features**：每个决策树的最大特征量{'auto','sqrt','log2','None'}
- bootstrap：boolean,optional(default=True) 是否在构建树时有放回地抽样
- 随机森林的超参数：森林中树的数量，每棵树的深度

### 4.随机森林：泰坦尼克号乘客生存分类分析及调优

In [None]:
#导入随机森林的类
from sklearn.ensemble import RandomForestClassifier

#实例化随机森林的类
rf = RandomForestClassifier()

#需要调优的参数
param = {'n_estimators':[120,200,300,500,800,1200],'max_depth':[5,8,15,25,30]}

#网格搜索与交叉验证(超参数调优)
gc = GridSearchCV(rf,param_grid=param,cv=2)

#传入数据
gc.fit(X_train,Y_train)

#查看最优参数
print('最优参数为：',gc.best_params_)

#查看最后模型
print('最好的模型为：',gc.best_estimator_)

#查看准确率
print('准确率为：',gc.score(X_test,Y_test))

### 5.随机森林的优点
- 在当前所有算法中，具有极好的准确率
- 能够有效地运行在大数据集上
- 能够处理具有高位特征的输入样本，而且不需要降维
- 能够评估每个特征在分类问题上的重要性