# 6.1 训练和可视化决策树

In [1]:
# 在鸢尾花数据集上训练了一个DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

iris = load_iris()
X = iris.data[:, 2:]    # petal length and width
y = iris.target

tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X, y)

DecisionTreeClassifier(max_depth=2)

In [None]:
# 使用export_graphviz()方法输出一个图形定义文件，将决策树可视化

from sklearn.tree import export_graphviz

# image_path = "D:\code\Hands-On Machine Learning\img"
export_graphviz(
    tree_clf,
    # out_file="D:\code\Hands-On Machine Learning\img\iris_tree.dot",
    feature_names=iris.feature_names[2:],
    class_names=iris.target_names,
    rounded=True,
    filled=True,
)

![iris_tree](./img/iris_tree.png)

# 6.2 做出决策

* 节点的samples属性统计它应用的训练实例数量。
* 节点的value属性说明了该节点上的每个类别的训练实例数量
* 节点的gini属性衡量其不纯度；如果应用的所有训练实例都属于同一个类别，那么节点就是纯的(gini=0)

深度2左侧节点，基尼系数等于$1-(0/54)^2-(49/54)^2-(5/54)^2\approx0.618$

基尼不纯度  
$$G{_i}=\sum_{k = 1}^{n} p{^2_{i,k}}$$

# 6.3 估计类概率

估算某个实例属于特定类k的概率

In [3]:
tree_clf.predict_proba([[5, 1.5]])

array([[0.        , 0.90740741, 0.09259259]])

In [4]:
tree_clf.predict([[5, 1.5]])

array([1])

# 6.4 CART训练算法

工作原理: 首先使用单个特征$k$和阈值$t{_k}$(例如"花瓣长度"<2.45cm)将训练分为两个子集

如何选择$k$和$t{_k}$?  
CART分类成本函数  
$$J(k,t{_k})=\frac{m{_{left}}}{m}G{_{left}}+\frac{m{_{right}}}{m}G{_{right}}$$  
$$其中
\begin{cases}
G{_{left/right}}测量左右子集的不纯度 \\
m{_{left/right}}测量左右子集的实例数
\end{cases}
$$

成功后再分割子集，以此类推

# 6.5 计算复杂度

遍历决策树需要经过大约$O(log{_2}(m))$个节点  
总体预测复杂度为$O(log{_2}(m))$

# 6.6 基尼不纯度或熵

将超参数criterion设置为"entropy"来选择熵作为不纯度的测量方式  

熵  
$$
H{_i} = -\sum_{k = 1, P{_{i,k}} \neq 0} ^n P{_{i,k}}log_{2}(P_{i,k})
$$


# 6.7 正则化超参数

* 减小max_depth可使模型正则化，降低过拟合的风险
* min_samples_leaf(叶节点必须有的最小样本数量)、min_weight_fraction_leaf(加权实例总数的占比)、max_leaf_nodes(最大叶节点数量)、max_features(分裂每个节点评估的最大特征数量)
* 增大超参数min_*或减小max_*将使模型正则化

# 6.8 回归

决策树还能够执行回归任务  
每个节点上不再预测一个类别而是预测一个值  
CART回归成本函数最小化

# 6.9 不稳定性

决策树对训练数据中的小变化非常敏感