### 决策树 Decision Tree
决策树（Decision Tree）算法是一种基本的分类与回归方法，是最经常使用的数据挖掘算法之一。  

决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是 if-then 规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。  

决策树学习通常包括 3 个步骤: 
1. 特征选择
2. 决策树的生成
3. 决策树的修剪

如何高效的进行决策？
- 特征的先后顺序

#### 信息论基础
- 信息（information）：
  - 凡是在一种情况下能减少不确定性的任何事物都叫信息。
  - 信息是物质存在的一种方式、形态或运动形态，也是事物的一种普遍属性，一般指数据、消息中所包含的意义，***可以使消息中所描述事件中的不定性减少***。 


- 信息的衡量 - 信息量 - 信息熵

- 熵（entropy）: 
  - 熵指的是体系的混乱的程度。
  - 在不同的学科中也有引申出的更为具体的定义，是各领域十分重要的参量。  


- 信息论（information theory）中的熵（香农熵）: 
  - 是一种信息的度量方式，表示信息的混乱程度。
  - 也就是说: 信息越有序，信息熵越低。
  - 例如: 火柴有序放在火柴盒里，熵值很低，相反，熵值很高。  
  - 公式如下:
$$H = \sum_{k=1}^{n}p_klog_2p_k$$

- 信息增益（information gain）: 
  - 得知特征X的信息的不确定性减少的程度使得类Y的信息熵减少的程度
  - 在划分数据集前后信息发生的变化称为信息增益  

#### 决策树划分依据
- 信息增益：
  - 特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差，即公式为：
$$信息增益 = 信息熵 - 条件熵$$
$$g(D,A)=H(D)-H(D|A)$$
- ID3:
  - 信息增益 最大的准则
- C4.5:
  - 信息增益比 最大的准则
- CART:
  - 分类树：基尼系数 最小的准则 在sklearn中可以选择划分的默认原则
  - 优势：划分更加细致
### API
~~~python
# 决策树分类器
sklearn.tree.DecisionTreeClassifier
~~~
- criterion：默认是基尼系数(gini)，也可以选择信息增益的熵(entropy)
- max_depth: 树的深度，太深容易过拟合
- random_state: 随机数种子

### 总结
- 优点
  - 简单易理解，树可以可视化
- 缺点
  - 容易过拟合
- 改进
  - 减枝cart算法
  - 随机森林

In [19]:
def print_score(estimator):
    # model evaluate
    # 1. 直接比对真实值和预测值  
    y_predict = estimator.predict(x_test)  
    print(f"y_predict={y_predict}")
    print(f"y_test == y_predict:\n{y_test == y_predict}")

    y_predict_proba = estimator.predict_proba(x_test)
    print(f"y_predict_proba=\n{y_predict_proba}")

    # 2. 计算准确率  
    score = estimator.score(x_test,y_test)
    print(f"score:{score}")

In [14]:
# iris
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()

x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=30)


In [20]:
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier(criterion="entropy")
tree.fit(x_train, y_train)
print_score(tree)

y_predict=[0 0 0 2 1 1 2 2 1 2 0 2 1 1 0 1 0 0 0 1 2 0 0 0 2 2 2 2 0 1 2 1 2 2 2 2 1
 2]
y_test == y_predict:
[ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True False  True  True  True  True  True  True  True  True  True
  True  True]
y_predict_proba=
[[1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]]
score:0.9736842105263158


In [23]:
from sklearn.model_selection import GridSearchCV
estimator = DecisionTreeClassifier()
params = {
    "criterion":["gini","entropy"],
}
clf = GridSearchCV(estimator,params,cv=7)
clf.fit(x_train, y_train)
print(clf.best_params_)
print_score(clf)

{'criterion': 'entropy'}
y_predict=[0 0 0 2 1 1 2 2 1 2 0 2 1 1 0 1 0 0 0 1 2 0 0 0 2 2 2 2 0 1 2 1 2 2 2 2 1
 2]
y_test == y_predict:
[ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True False  True  True  True  True  True  True  True  True  True
  True  True]
y_predict_proba=
[[1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]]
score:0.9736842105263158


In [28]:
# 可视化
from sklearn.tree import export_graphviz
export_graphviz(tree,out_file="./out/iris_tree.dot",feature_names=iris.feature_names)
# 网站查看
# http://www.webgraphviz.com/?tab=map