### 决策树
- 决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，每个叶节点代表一种类别。
- 决策树的构造：通常采用递归的方法将数据集划分为较小的子集。
- 决策树的剪枝：决策树生成后，容易出现过拟合现象，需要对决策树进行剪枝。
- 从根节点，一步步向下，直到叶节点，就是决策树的分类过程。
- 所有的数据都会落到叶子节点，既可以做分类，也可以做回归。


树的构成：
- 根节点：第一个选择点，包含数据集中所有数据的集合。
- 非叶子节点与分支：中间节点，包含数据集中的一部分数据的集合。
- 叶子节点：最终的分类结果。

决策树的训练与测试
- 训练：根据训练数据集生成决策树。（从根节点开始选择特征，如何进行特征切分
- 测试：根据训练好的决策树对测试数据集进行分类。
- 构建好决策树之后测试比较简单。

如何切分特征
- 问题：根节点的选择，如何选择最优的特征进行切分。
- 目标：通过一种衡量标准，找到最优的特征进行切分。决定根节点。

衡量标准-信息熵
- 信息熵：表示随机变量不确定性的度量。(物体内部的混乱程度)
- 信息增益：表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
- 信息增益越大，说明使用特征X划分数据集D的效果越好。
- 公式：
    - 信息熵：$H(D) = -\sum_{i=1}^{n}p_i\log_{2}p_i$

决策树算法:ID3,C4.5,CART     
cart是用gini系数来划分数据集的，gini系数是基尼不纯度，是指从数据集中随机选取子项，度量其被错误分类到其他分组里的概率。    
GINI:  $Gini(p) = 1 - \sum_{i=1}^{n}p_i^2$

连续值:
- 连续值的处理：对于连续值的处理，可以先对数据进行排序，然后遍历所有可能的划分点，找到最优的划分点。(切分, 离散化)

决策树剪枝:
- 剪枝：决策树生成后，容易出现过拟合现象，需要对决策树进行剪枝。
- 预剪枝：在决策树生成过程中，对每个节点在划分前先进行估计，若当前节点的划分不能带来决策树泛化性能提升，则停止划分。
    - 深度,叶子节点个数,信息增益,样本个数.
- 后剪枝：先生成决策树，然后自底向上对非叶子节点进行考察，若将该节点对应的子树替换为叶子节点能带来决策树泛化性能提升，则将该子树替换为叶子节点。
    - 一定衡量标准: $C_{\alpha}(T) = C(T) + \alpha|T|$

- 分类:叶子节点的类别是由多数表决决定的。取众数
- 回归:叶子节点的类别是由均值决定的。取均值

In [1]:
import numpy as np
import os
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12
import warnings
warnings.filterwarnings('ignore')

In [3]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

iris = load_iris()
X = iris.data[:, 2:] # petal length and width
y = iris.target

tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X, y)

In [4]:
from sklearn.tree import export_graphviz

export_graphviz(
        tree_clf,
        out_file='iris_tree.dot',
        feature_names=iris.feature_names[2:],
        class_names=iris.target_names,
        rounded=True,
        filled=True
    )



In [7]:
import graphviz
with open("E:\Project\Learning\决策树\iris_tree.dot") as f:
    dot_graph = f.read()
dot = graphviz.Source(dot_graph)
dot.format
dot.render(filename='iris_tree', format='png', cleanup=True)



ExecutableNotFound: failed to execute WindowsPath('dot'), make sure the Graphviz executables are on your systems' PATH