# 训练和可视化决策树

In [1]:
# 拿鸢尾花数据集先训练一个决策树
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

In [2]:
iris=load_iris()
X=iris.data[:,2:]# petal length and width
y=iris.target

In [3]:
tree_clf=DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X,y)

DecisionTreeClassifier(max_depth=2)

将决策树可视化。

In [4]:
from sklearn.tree import export_graphviz
export_graphviz(tree_clf, out_file='./iris.dot',
                feature_names=iris.feature_names[2:], class_names=iris.target_names, rounded=True, filled=True)

决策树的特点就是它不需要准备数据，即不需要进行标准化处理。

sample属性统计它应用的训练实例数量。value属性说明了该结点上没个类别的训练实例数量。结点的gini属性是衡量其不纯度：如果应用的所有训练实例都属于同一个类别，那么结点就是'纯'的。深度为2的左侧结点，基尼系数1-(0/54)2-(49/54)2-(5/54)2≈0.168.

sklearn采用的是CART算法，该算法只生成二叉树。IDE3可以生成多叉树。

# 估计类的概率
决策树同样可以估计某个实例属于特定类的概率。例子见书，很好理解。

In [5]:
tree_clf.predict_proba([[5,1.5]])

array([[0.        , 0.90740741, 0.09259259]])

In [6]:
tree_clf.predict([[5,1.5]])

array([1])

# CART训练算法
见书和西瓜书、统计学习方法。

# 基尼不纯度和熵
基尼不纯度计算略快一点。不同点在于，基尼不纯度更倾向于从树枝中分裂出更常见的类别，熵倾向于产生更平衡的树。

# 正则化超参数
- 减小max_depth可以使模型正则化，从而降低过拟合的风险。
- min_samples_split 分裂前结点必须有的最小样本数。
- min_samples_left 叶节点必须有的最小样本数。
- min_weight_fraction_lefe 叶节点必须有的加权实例总数的占比。
- max_left_nodes 最大叶节点数量
- max_features 分裂每个结点评估的最大特征数量。
- 增加min或减小max都可以使模型正则化。

# 回归

In [7]:
import numpy as np
np.random.seed(42)
m = 200
X = np.random.rand(m, 1)
y = 4 * (X - 0.5) ** 2
y = y + np.random.randn(m, 1) / 10

In [8]:
# 在一个有噪声的数据集上训练回归树
from sklearn.tree import DecisionTreeRegressor
tree_reg=DecisionTreeRegressor(max_depth=2)
tree_reg.fit(X,y)

DecisionTreeRegressor(max_depth=2)

In [9]:
export_graphviz(tree_reg, out_file='./reg.dot',
                feature_names=['x1'], rounded=True, filled=True)

想要对x1=0.6进行预测，从根结点遍历，最后到达预测value=0.111的叶节点上。这个预测结果其实就是与这个叶节点关联的110个实例的平均目标值。在这110个实例上，预测产生的均方误差等于0.015.

CART算法的工作原理也大致相同，不同之处在于，它不再尝试以最小化不纯度的方法来拆分训练集，而是以最小化MSE的方法来拆分训练集。

成本函数
![jupyter](./CART_reg.jpg)

# 不稳定性
决策树的主要问题是它们对训练数据中的小变化非常敏感。