## 决策树的几个重要概念

##### 1.构造和减枝

构造过程就是选择什么属性作为节点的过程，节点包括根节点、内部节点、叶节点

剪枝包括预剪枝和后剪枝：预剪枝是决策树构造时就进行剪枝，在构造过程中对节点进行评估，对节点进行划分；后剪枝就是在生成决策树之后再进行剪枝,从叶节点开始，逐层向上对每个节点进行评估

##### 2.过拟合，欠拟合，泛化能力

过拟合：模型的训练结果“太好了”，以至于在实际应用的过程中，会存在“死板”的情况，导致分类错误

欠拟合：训练的结果不够好，也无法准确分类应用

泛化能力；指分类器是通过训练集抽象出来的分类能力，也就是举一反三的能力

##### 3.纯度，信息熵

纯度就是目的让目标变量的分歧越来越小

信息熵表示了信息的不确定度，信息熵越大，纯度越低，信息熵可以通过数学公式直接计算
![image.png](attachment:image.png)

##### 4.分类树和回归树

分类树可以处理离散数据，也就是数据种类有限的数据，它输出的是样本的类别

回归树可以对连续型的数值进行预测，也就是数据在某个区间内都有取值的可能，它输出的是一个数值

##### 5.基尼系数

基尼系数本身反应了样本的不确定度。当基尼系数越小的时候，说明样本之间的差异性小，不确定程度低。

##### 6.K折交叉验证 

交叉验证是一种常用的验证分类准确率的方法，原理是拿出大部分样本进行训练，少量的用于分类器的验证。K 折交叉验证，就是做 K 次交叉验证，每次选取 K 分之一的数据作为验证，其余作为训练

## ID3算法

ID3 算法计算的是信息增益，信息增益指的就是划分可以带来纯度的提高，信息熵的下降；公式是父亲节点的信息熵减去所有子节点的信息熵
![image.png](attachment:image.png)

ID3算法的缺陷就是有些属性可能对分类任务没有太大作用，但是他们仍然可能会被选为最优属性

## C4.5算法

在ID3上的四个方面改进

1.增益率，信息增益率 = 信息增益 / 属性熵，当属性有很多值时，相当于被划分成了许多份，虽然信息增益变大了，但属性熵也会变大，所以整体的信息增益率并不大

2.悲观剪枝，比较剪枝前后这个节点的分类错误率来决定是否对其进行剪枝，不再需要一个单独的测试数据集

3.离散化处理连续属性，选择具有最高信息增益的划分所对应的阈值

4.可以处理缺失值

缺点：C4.5 需要对数据集进行多次扫描，算法效率相对较低

## CART算法

#### 1. 分类树

CART 算法在构造分类树的时候，会选择基尼系数最小的属性作为属性的划分。
![image.png](attachment:image.png)

归一化基尼系数代表的是每个子节点的基尼系数乘以该节点占整体父亲节点 D 中的比例

![image.png](attachment:image.png)

CART 分类树实际上是基于基尼系数来做属性划分的

#### CART 为iris数据集构造分类决策树

In [8]:
# encoding=utf-8
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
# 准备数据集
iris=load_iris()
# 获取特征集和分类标识
features = iris.data
labels = iris.target
# 随机抽取33%的数据作为测试集，其余为训练集
train_features, test_features, train_labels, test_labels = train_test_split(features, labels, test_size=0.33, random_state=0)
# 创建CART分类树
clf = DecisionTreeClassifier(criterion='gini')
# 拟合构造CART分类树
clf = clf.fit(train_features, train_labels)
# 用CART分类树做预测
test_predict = clf.predict(test_features)
# 预测结果与测试集结果作比对
score = accuracy_score(test_labels, test_predict)
print("CART分类树准确率 %.4lf" % score)

CART分类树准确率 0.9600


#### 2. 回归树

在 CART 回归树中，我们要根据样本的混乱程度，也就是样本的离散程度来评价“不纯度”。样本的离散程度具体的计算方式是，先计算所有样本的均值，然后计算每个样本值到均值的差值。

我们通过最小绝对偏差（LAD），或者使用最小二乘偏差（LSD）来找到节点划分的方法，一般情况下使用LSD

#### CART 回归树预测波士顿房价

In [9]:
# encoding=utf-8
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
from sklearn.metrics import r2_score,mean_absolute_error,mean_squared_error
from sklearn.tree import DecisionTreeRegressor
# 准备数据集
boston=load_boston()
# 探索数据
print(boston.feature_names)
# 获取特征集和房价
features = boston.data
prices = boston.target
# 随机抽取33%的数据作为测试集，其余为训练集
train_features, test_features, train_price, test_price = train_test_split(features, prices, test_size=0.33)
# 创建CART回归树
dtr=DecisionTreeRegressor()
# 拟合构造CART回归树
dtr.fit(train_features, train_price)
# 预测测试集中的房价
predict_price = dtr.predict(test_features)
# 测试集的结果评价
print('回归树二乘偏差均值:', mean_squared_error(test_price, predict_price))
print('回归树绝对值偏差均值:', mean_absolute_error(test_price, predict_price)) 

['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']
回归树二乘偏差均值: 35.15808383233533
回归树绝对值偏差均值: 3.4958083832335327


#### 3.CART的剪枝 

采用CCP 方法，是一种后剪枝的方法，即 cost-complexity prune，代价复杂度。这种剪枝方式用到一个指标叫做节点的表面误差率增益值，以此作为剪枝前后误差的定义