# 决策树算法知识点

## 决策树算法的常用算法
最初的决策树算法是心理学家兼计算机科学家E.B.Hunt于1962年在研究人类的概念学习过程中提出的CLS（Concept Learning System）
ID3算法，由罗斯·昆兰于1979年提出，1986年完善，最优划分属性的判别指标：信息增益。

C4.5算法，由罗斯昆兰于1993年提出，该算法是ID3算法的改进，使用了一个启发式方法：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择信息增益率最高的。同时，C4.5算法在树构造过程中进行剪枝防止过拟合，能够完成对连续属性的离散化处理以及能够对不完整数据进行处理。

CART算法，分类回归树算法，由Breiman于1984年提出，该算法既能用于分类任务，也能用于预测任务决策树算法的原理

## 决策树算法的原理

是基于树结构进行决策，决策树的生成过程是一个递归的过程。通过选择最优划分属性，将样本划分到使得“纯度提升”最大的类别中去。一般的，一颗决策树
包含一个根节点，若干分支节点（内部节点）和若干叶节点，，叶节点对应于决策结果，其他节点对应于一个属性测试。

## 决策树算法的一般流程

输入：训练集={（x1,y1）,(x2,y2),……，（xm,ym）}
属性集={a1,a2,……,ad}

过程：函数TreeGenerate(D,A)

1.生成节点Node;

2.If D中样本属于同一类别C then

3.将Node标记为C类叶节点；return

4.End if

5.If A=∅ or D中样本在A上取值相同 then

6.将Node标记为叶节点，其类别标记为D中样本数最多的类；return

7.End if

8.从A中选择最优划分属性a*

9.For a* in a*v:

10.为Node生成一个分支；令Dv表示D中在a*上取值为a*v的样本子集；

11.   If Dv为空 then

12.       将分支节点标记为叶节点，其类别标记为D中样本数最多的类；return

13.   Else

14.       以TreeGenerate(Dv,A\{a*})为分支结点

15.   End if

16.End for

输出：以Node为根节点的一颗决策树


## 决策树算法的优点
决策树算法对原始数据集的处理工作要求较少，对缺失值不敏感，可以处理不相关特征数据

决策树算法不仅可以用于二分类，也可以用于多分类

决策树算法可以应用于混合属性的数据集

以树的结构展示逻辑关系，符合人类的直觉认识，有助于理解数据

在相对短的时间内能够对大型数据集作出可行且效果良好的结果

效率高，决策树只需一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度

是很多集成学习方法的基学习器，如随机森林、GBDT

Reference:
https://blog.csdn.net/keepreder/article/details/47168383

## 决策树算法的缺点

容易产生过拟合，，属于高方差低偏差模型，对数据集中数据的微小变化比较敏感。可以通过剪枝等方式防止过拟合，剪枝分为预剪枝和后剪枝

对连续性的属性比较难预测

对有时间顺序的数据，需要很多预处理的工作

当类别太多时，错误可能增加的比较快

在处理特征关联性比较强的数据时表现不是太好

Reference:
https://blog.csdn.net/keepreder/article/details/47168383

## 决策树算法在现实世界的应用

一些趣味问答游戏，通过提问问题，用户给出答案，判定某个结果属于哪个类别

## Sklearn中的决策树模块的一般使用流程

from sklearn.tree import DecisionTreeClssifiler#导入分类库

Param = {“max_depth”:4}#设置参数

clf_model = DecisionTreeClssifiler()#构建模型

clf_model.fit(train_X,train_y)#在训练集上训练模型

pred_y=clf_model.predict(test_X)#在测试集上预测

注:sklearn中关于决策树模型的默认设置
class sklearn.tree.DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=None, 
                                            min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, 
                                            max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, 
                                            min_impurity_split=None, class_weight=None, presort='deprecated', ccp_alpha=0.0)

reference:
https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html?highlight=decisiontree#sklearn.tree.DecisionTreeClassifier

# example

In [13]:
#导入需要的库
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [14]:
#加载数据
iris = load_iris()
data = iris.data
targets = iris.target

In [21]:
#划分数据集
train_X,test_X,train_y,test_y = train_test_split(data,targets,test_size=0.2,random_state=42)

#构建决策树
clf = DecisionTreeClassifier()
clf.fit(train_X,train_y)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

In [24]:
preds_y = clf.predict(test_X)

In [25]:
from sklearn.metrics import confusion_matrix
confusion_matrix(test_y,preds_y)

array([[10,  0,  0],
       [ 0,  9,  0],
       [ 0,  0, 11]], dtype=int64)

In [27]:
cross_val_score(clf,train_X,train_y,cv=3,scoring='accuracy')

array([0.90243902, 0.9       , 0.94871795])

## 延伸：实施交叉验证的不同方式

Method_1:高阶方法：

直接使用sklearn.model_selection中的交叉验证功能cross_val_score,cross_val_score()函数返回的是K折交叉验证的K次分值的数组，至于分值是什么，取决于你的目标和scoring参数设置的值，对于预测类任务，scoring='neg_mean_squared_error'，对于分类任务，scoring='accuracy'。

例如：

In [30]:
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier

iris = load_iris()
clf=DecisionTreeClassifier(random_state=0)
cross_val_score(clf,iris.data,iris.target,scoring='accuracy',cv=10)

array([1.        , 0.93333333, 1.        , 0.93333333, 0.93333333,
       0.86666667, 0.93333333, 1.        , 1.        , 1.        ])

Method_2:低阶方法：

cross_val_score（）这一类交叉验证的函数，直接输出交叉验证的结果，但有时你可能希望自己能控制的多一些，在这种情况下，你可以自行实施交叉验证，
并输出相应的结果。