<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1.-决策树的超参数-Hyperparameter" data-toc-modified-id="1.-决策树的超参数-Hyperparameter-1">1. 决策树的超参数 Hyperparameter</a></span><ul class="toc-item"><li><span><a href="#1.1-最大深度-Maximun-depth" data-toc-modified-id="1.1-最大深度-Maximun-depth-1.1">1.1 最大深度 Maximun depth</a></span></li><li><span><a href="#1.2-Minimum-samples-per-leaf-每片叶子的最小样本数" data-toc-modified-id="1.2-Minimum-samples-per-leaf-每片叶子的最小样本数-1.2">1.2 Minimum samples per leaf 每片叶子的最小样本数</a></span></li><li><span><a href="#1.3-每次分裂的最小样本数" data-toc-modified-id="1.3-每次分裂的最小样本数-1.3">1.3 每次分裂的最小样本数</a></span></li><li><span><a href="#1.4-最大特征数" data-toc-modified-id="1.4-最大特征数-1.4">1.4 最大特征数</a></span></li></ul></li><li><span><a href="#2.-使用-Scikit-learn-实现决策树算法" data-toc-modified-id="2.-使用-Scikit-learn-实现决策树算法-2">2. 使用 Scikit-learn 实现决策树算法</a></span><ul class="toc-item"><li><span><a href="#2.1-Hyperparameter-超参数" data-toc-modified-id="2.1-Hyperparameter-超参数-2.1">2.1 Hyperparameter 超参数</a></span></li><li><span><a href="#2.2-Example-实例" data-toc-modified-id="2.2-Example-实例-2.2">2.2 Example 实例</a></span></li></ul></li></ul></div>

# 1. 决策树的超参数 Hyperparameter

## 1.1 最大深度 Maximun depth

* 决策树的最大深度指树根和叶子之间的最大长度。当决策树的最大深度为$k$时，它最多可以拥有$2^k$片叶子。

* 较大的深度往往会导致过拟合，这是因为过深的决策树可以记忆数据。而较小的深度会使得模型过于简单，导致欠拟合。
![942fc8371812cfba2633a679eed21bff.png]

<img style="float:left" src="https://x1a-alioss.oss-cn-shenzhen.aliyuncs.com/1140D5F7-A786-4302-9D48-7A7A7A878A93.png" width="520" >

## 1.2 每片叶子的最小样本数 Minimum samples per leaf 

* 在分裂节点时，很有可能一片叶子上有 99 个样本，而另一片叶子上只有 1 个样本。这将使我们陷入困境，并造成资源和时间的浪费。如果想避免这种问题，我们可以设置每片叶子允许的最小样本数。

* 这个数字可以被指定为一个整数，也可以是一个浮点数。如果它是整数，它将表示这片叶子上的最小样本数。如果它是个浮点数，它将被视作每片叶子上的最小样本比例。比如，0.1 或 10% 表示如果一片叶子上的样本数量小于该节点中样本数量的 10%，这种分裂将不被允许。

* 当每片叶子的样本数量较小时，叶子上的样本数量也有可能过于稀少，此时模型将记忆数据，也就是过拟合。当每片叶子的样本数量较大时，决策树能够获得足够的弹性进行构建，这也许会导致欠拟合。

<img style="float:left" src="https://x1a-alioss.oss-cn-shenzhen.aliyuncs.com/839F227C-3645-49C5-B23F-ADBD3C505381.png" width="520" >

## 1.3 每次分裂的最小样本数
* 与每片叶子上的最小样本树相同，只不过是应用在节点的分裂当中。

## 1.4 最大特征数
* 有时，我们会遇到特征数量过于庞大，而无法建立决策树的情况。在这种状况下，对于每一个分裂，我们都需要检查整个数据集中的每一个特征。这种过程极为繁琐。而解决方案之一是限制每个分裂中查找的特征数。如果这个数字足够庞大，我们很有可能在查找的特征中找到良好特征（尽管也许并不是完美特征）。然而，如果这个数字小于特征数，这将极大加快我们的计算速度。

# 2. 使用 Scikit-learn 实现决策树算法
``` Python
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
model = DecisionTreeClassifier()
model = DecisionTreeClassifier(max_depth = 7, min_samples_leaf = 10)
model.fit(x_values, y_values)
y_pred = model.predict(X)
acc = accuracy_score(y,y_pred)
```

## 2.1 Hyperparameter 超参数
* max_depth：树中的最大层级数量。（预剪枝）
* min_samples_leaf：叶子允许的最低样本数量。
* min_samples_split：拆分内部节点所需的最低样本数量。
* max_features：寻找最佳拆分方法时要考虑的特征数量。
``` Python
model = DecisionTreeClassifier(max_depth = 7, min_samples_leaf = 10)
```


## 2.2 Example 实例
``` Python
# Import statements 
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import pandas as pd
import numpy as np

# Read the data.
data = np.asarray(pd.read_csv('data.csv', header=None))
# Assign the features to the variable X, and the labels to the variable y. 
X = data[:,0:2]
y = data[:,2]

# TODO: Create the decision tree model and assign it to the variable model.
# You won't need to, but if you'd like, play with hyperparameters such
# as max_depth and min_samples_leaf and see what they do to the decision
# boundary.
model = DecisionTreeClassifier()

# TODO: Fit the model.
model.fit(X, y)
# TODO: Make predictions. Store them in the variable y_pred.
y_pred = model.predict(X)

# TODO: Calculate the accuracy and assign it to the variable acc.
acc = accuracy_score(y,y_pred)

# 可视化
from sklearn.tree import export_graphviz
export_graphviz(model,out_file="tree.dot",class_names=['a','b'],impurity=False,filled=True)
# 通过terminal cd到文件夹
# 运行 dot -Tpdf Tree.dot -o output.pdf
```