# 分类算法之决策树
1、**基本原理**

- 决策树为一种树形结构的分类器，通过顺序询问分类点的属性决定分类点的最终类别。一般根据特征的信息增益或其他指标，构建一棵决策树。在分类时，只需要按照决策树中的结点依次进行判断，即可得到样本所属类别。

2、**sklearn库与决策树**

- 在sklearn库中，使用sklearn.tree.DecisionTreeClassifier创建一个决策树用于分类，**主要参数**有：
 - **criterion**：用于作为选择属性的准则，默认为“gini”，表示基尼系数；也可以使用“entropy”代表信息增益；
 - **max_features**：表示在决策树结点进行分裂时，从多少个特征中选择最优特征。可以设定int、float、auto、sqrt、log2、none，默认为none，即max_features = n_features,使用所有特征个数。
 
3、**实质**

- 决策树本质上是寻找一种对特征空间上的划分，旨在构建一个训练数据拟合好且复杂度小的决策树。
- 实际使用中，需要根据数据情况，调整DecisionTreeClassifier类中传入的参数，如：选择合适的criterion，设置随机变量等

### 1、导入相关库

In [29]:
# 加载数据集，该例中使用鸢尾花数据集
from sklearn import datasets 
# 导入决策树算法模块
from sklearn.tree import DecisionTreeClassifier
# 导入交叉验证模块（cross_val_score:用于计算交叉验证值的函数）
from sklearn.model_selection import cross_val_score
# 导入可视化模块
import matplotlib.pyplot as plt
# 导入数组模块
import numpy as np

### 2、加载数据集

In [5]:
x_iris, y_iris = datasets.load_iris(return_X_y = True)

### 3、调用决策树算法，设定默认参数

In [23]:
tree = DecisionTreeClassifier()
print(tree)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            presort=False, random_state=None, splitter='best')


### 4、调用交叉验证对数据集进行划分（训练集、测试集）

In [15]:
# cv = 10即为10折交叉验证
cross_val_score(tree, x_iris, y_iris, cv = 10)

array([ 1.        ,  0.93333333,  1.        ,  0.93333333,  0.93333333,
        0.86666667,  0.93333333,  0.93333333,  1.        ,  1.        ])

In [42]:
# 利用fit(x_train, y_train)拟合数据构建模型
tree.fit(x_iris, y_iris)

# 使用predict(x_test)进行预测
tree.predict(np.arange(4).reshape((1, -1)))

array([0])