In [1]:
import warnings
warnings.filterwarnings("ignore")

## Descision Tree
#### 训练并可视化决策树

In [7]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

iris = load_iris()

X = iris.data[:,2:]
y = iris.target

tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X,y)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=2,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [12]:
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "decision_trees"
import os
def image_path(fig_id):
    return os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID, fig_id)

In [15]:
# 输出决策树
from sklearn.tree import export_graphviz
export_graphviz(
    tree_clf,
    out_file=image_path("iris_tree.dot"),
    feature_names = iris.feature_names[2:],
    class_names = iris.target_names,
    rounded = True,
    filled = True
)

###### gini公式$ G_{i} = 1 - \sum_{k=1}^{n}p_{i,k}^{2}$
###### $p_{i,k}$表示第 i个节点上的 k 实例的占比

In [16]:
tree_clf.predict_proba([[5,1.5]])

array([[ 0.        ,  0.90740741,  0.09259259]])

In [17]:
tree_clf.predict([[5,1.5]])

array([1])

### CART 训练算法

###### 算法远离:扫描所有特征，并从中选出一个特征k和它对应阈值 $t_k$使得拆分出来的子集最纯
###### $J(k,t_k) = \frac{m_{left}}{m}G_{left} + \frac{m_{right}}{m}G_{right}$
###### 终止条件:深度达到最大max_depth 参数或是不能切分减少纯度（其他终止条件参数 min_ samples_split,min_samples_leaf,min_weight_fraction,max_leaf_nodes）
###### 预测快$O(\log{2^m})$，但是训练慢$O(n * m\log{m})$,对于小数据集（1000以内）sklearn 可以通过（set presort=True）加速，对于大数据集合无能为力
###### gini衡量纯度是默认的使用的，可以选择使用 entropy来代替衡量纯度（参数为criterion）
###### 熵:$H_i = - \sum_{k=1,p_{i,k}\not=0}^{n}p_{i,k}\log{p_{i,k}}$
###### 正则化参数:数模型属于nonparametric模型，参数不会优先决定（这点不同于parametric这种类似的线性模型），因此需要对它的自由度有所限制来控制过拟合问题，即所谓的正则化。这里使用 max_depth默认值未 None，通过设置它来控制模型深度。DecisionTreeClassifier还有其他参数来限制树：min_ samples_split（样本在一个节点上的最小可切分数量），min_samples_leaf（一个叶子节点必须有样本的最小数量），min_weight_fraction（同前一个，但是表示为有权重样例和总数的分数），max_leaf_nodes（最大叶子总数），max_features

### Regression

In [18]:
from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor(max_depth=2)
tree_reg.fit(X,y)

DecisionTreeRegressor(criterion='mse', max_depth=2, max_features=None,
           max_leaf_nodes=None, min_impurity_decrease=0.0,
           min_impurity_split=None, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           presort=False, random_state=None, splitter='best')

In [19]:
export_graphviz(
    tree_reg,
    out_file=image_path("iris_reg.dot"),
    feature_names = iris.feature_names[2:],
    class_names = iris.target_names,
    rounded = True,
    filled = True
)

###### CART 算法在做回归的时候使用方法和分类基本一致，只是在做切分时使用的最小化 MSE的方法$J(k,t_k)=\frac{m_{left}}{m}MSE_{left} + \frac{m_{right}}{m}MSE_{right}$,代替纯度计算方法;
$$ where =\left\{
\begin{array}{rcl}
MSE_{node} = \sum_{i\in{node}}(\hat{y}_{node} - y^{(i)})^2      &      \\
\hat{y}_{node} = \frac{1}{m_{node}}\sum_{i\in{node}}y^{(i)}
\end{array} \right. $$
