**决策树（DT）**是用于分类和回归的非参数监督学习方法。目标是创建一个模型，通过学习从数据特征推断出的简单决策规则来预测目标变量的价值。

决策树的一些优点是：
+ 很容易理解和解释。树可以被可视化。
+ 只需很少的数据准备。其他技术通常需要数据标准化，需要创建虚拟变量并删除空白值。但请注意，此模块不支持缺少的值。
+ 使用树的成本（即预测数据）是用于训练树的数据点的数量的对数。
+ 能够处理数字和分类数据。其他技术通常专门用于分析只有一种类型变量的数据集。查看更多信息的算法。
+ 能够处理多输出问题。
+ 使用白盒模型。如果给定的情况在模型中是可观察的，则条件的解释很容易通过布尔逻辑来解释。相比之下，在黑盒模型（例如，在人工神经网络中），结果可能更难以解释。
+ 可以使用统计测试来验证模型。这可以说明模型的可靠性。
+ 即使其假设受到数据生成的真实模型的某种程度的干扰，也可以很好地执行。

决策树的缺点包括：
+ 决策树学习者可以创建过于复杂的树，不能很好地概括数据。这被称为过度拟合。修剪（目前不支持）等机制，设置叶节点所需的最小样本数或设置树的最大深度是避免此问题所必需的。
+ 决策树可能不稳定，因为数据中的小变化可能会导致生成完全不同的树。通过在集合中使用决策树可以缓解这个问题。
+ 学习最优决策树的问题在最优化的几个方面甚至简单的概念下已知是NP完全的。因此，实际决策树学习算法基于启发式算法，例如在每个节点进行局部最优决策的贪婪算法。这样的算法不能保证返回全局最优决策树。这可以通过在集合学习器中训练多棵树来缓解，其中特征和样本随机地用替换采样。
+ 有些概念很难学，因为决策树不能很容易地表达它们，例如XOR，奇偶校验或多路复用器问题。
+ 如果某些类占主导地位，决策树学习者会创建偏向性树。因此，建议在拟合决策树之前平衡数据集。

## 1.10.1. Classification

In [1]:
from sklearn import tree
X = [[0,0],[1,1]]
y = [0,1]
clf = tree.DecisionTreeClassifier()
clf = clf.fit(X,y)

经过拟合后，该模型可用于预测样本的类别

In [2]:
clf.predict([[2.,2.]])

array([1])

或者，可以预测每个类的概率，这是叶中同一类的训练样本的分数

In [3]:
clf.predict_proba([[2.,2.]])

array([[ 0.,  1.]])

DecisionTreeClassifier能够同时具有二元（其中标签是[-1,1]）分类和多类别（其中标签是[0，...，K-1]）分类

In [4]:
from sklearn import datasets
from sklearn import tree
iris = datasets.load_iris()
clf = tree.DecisionTreeClassifier()
clf = clf.fit(iris.data, iris.target)

import graphviz

dot_data = tree.export_graphviz(clf, out_file=None)

graph = graphviz.Source(dot_data)

graph.render('iris')

In [5]:
clf.predict(iris.data[:1,:])

array([0])

In [6]:
clf.predict_proba(iris.data[:1,:])

array([[ 1.,  0.,  0.]])

## 1.10.2.Regression

In [8]:
from sklearn import tree
X = [[0,0],[2,2]]
y = [0.5, 2.5]
clf = tree.DecisionTreeRegressor()
clf = clf.fit(X, y)

In [9]:
clf.predict([[1,1]])

array([ 0.5])

## 1.10.3. Multi-output problems

With regard to decision trees, this strategy can readily be used to support multi-output problems. This requires the following changes:
+ Store n output values in leaves, instead of 1;
+ Use splitting criteria that compute the average reduction across all n outputs.

This module offers support for multi-output problems by implementing this strategy in both DecisionTreeClassifier and DecisionTreeRegressor. If a decision tree is fit on an output array Y of size [n_samples, n_outputs] then the resulting estimator will:

+ Output n_output values upon predict;
+ Output a list of n_output arrays of class probabilities upon predict_proba.

The use of multi-output trees for regression is demonstrated in Multi-output Decision Tree Regression. In this example, the input X is a single real value and the outputs Y are the sine and cosine of X.