## <span class="motutor-highlight motutor-id_32y3d0z-id_n4ebtme"><i></i>使用`Sklearn`工具包</span>构建和训练决策树模型 

<center><img src="http://imgbed.momodel.cn//20200324144418.png" width=700></center>

每朵鸢尾花有**萼片长度**、**萼片宽度**、**花瓣长度**、**花瓣宽度**四个特征。现在需要根据这四个特征将鸢尾花分为**杂色鸢尾花（versicolor）**、**维吉尼亚鸢尾（virginica）**和**山鸢尾（setosa）**三类，试构造决策树进行分类。

|序号|萼片长度（sepal length）|萼片宽度（sepal width）|花瓣长度（petal length）|花瓣宽度 （petal width）|种类|
|:--:|:--:|:--:|:--:|:--:|:--:|
|1|5.0|2.0|3.5|1.0|杂色鸢尾|
|2|6.0|2.2|5.0|1.5|维吉尼亚鸢尾|
|3|6.0|2.2|4.0|1.0|杂色鸢尾|
|4|6.2|2.2|4.5|1.5|杂色鸢尾|
|5|4.5|2.3|1.3|0.3|山鸢尾|

观察上表中的五笔数据，我们可以看到 **杂色鸢尾** 和 **维吉尼亚鸢尾** 的花瓣宽度明显大于 **山鸢尾**，所以可以通过判断花瓣宽度是否大于 0.7，来将 **山鸢尾** 从其他两种鸢尾中区分出来。

然后我们观察到 **维吉尼亚鸢尾** 的花瓣长度明显大于 **杂色鸢尾**，所以可以通过判断花瓣长度是否大于 4.75，来将 **杂色鸢尾** 和 **维吉尼亚鸢尾**区分出来。

上面的表格只是 Iris 数据集的一小部分，完整的数据集包含 150 个数据样本，分为 3 类，每类 50 个数据，每个数据包含 4 个属性。即**花萼长度**，**花萼宽度**，**花瓣长度**，**花瓣宽度**4个属性。

我们使用 sklearn 工具包来构建决策树模型，先导入数据集。

In [None]:
from sklearn.datasets import load_iris
# 加载数据集
iris = load_iris()
# 查看 label
print(list(iris.target_names))
# 查看 feature
print(iris.feature_names)


setosa 是**山鸢尾**，versicolor是**杂色鸢尾**，virginica是**维吉尼亚鸢尾**。

sepal length， sepal width，petal length，petal width 分别是**萼片长度**，**萼片宽度**，**花瓣长度**，**花瓣宽度**。

然后进行<span class="motutor-highlight motutor-id_o74nvi8-id_r6yn5ga"><i></i>训练集和测试集的切分</span>。

In [None]:
from sklearn.model_selection import train_test_split
# 按属性和标签载入数据
X, y = load_iris(return_X_y=True)
# 切分训练集合测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)


接下来，我们在训练集数据上训练决策树模型。

In [None]:
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier
# 初始化模型，可以调整 max_depth 来观察模型的表现， 
# 也可以调整 criterion  为 gini 来使用 gini 指数构建决策树
clf = tree.DecisionTreeClassifier()
# 训练模型
clf = clf.fit(X_train, y_train)


我们可以使用 graphviz 包来展示构建好的决策树。

In [None]:
import graphviz
feature_names = ['萼片长度','萼片宽度','花瓣长度','花瓣宽度']
target_names = ['山鸢尾', '杂色鸢尾', '维吉尼亚鸢尾']
# 可视化生成的决策树
dot_data = tree.export_graphviz(clf, out_file=None,
                     feature_names=feature_names,
                     class_names=target_names,
                     filled=True, rounded=True,
                     special_characters=True)
graph = graphviz.Source(dot_data)
graph


我们看模型在测试集上的表现

In [None]:
from sklearn.metrics import accuracy_score
y_test_predict = clf.predict(X_test)
accuracy_score(y_test,y_test_predict)
