CART 算法，英文全称叫做 Classification And Regression Tree，中文叫做分类回归树。

分类树：处理离散数据，即定性数据，输出样本的类别；

回归树：处理定量数据，主要是对连续性数据进行预测，输出数值。

## CART 算法构造分类树

基尼系数：反应样本的不确定度。基尼系数越小，样本之间的差异越小，不确定度越低。因此，CART 算法在构造分类树时，会选择基尼系数最小的属性作为属性划分。

计算公式：![](https://static001.geekbang.org/resource/image/f9/89/f9bb4cce5b895499cabc714eb372b089.png)

其中：

- p(Ck|t)：节点 t 属于类别 Ck 的概率；

节点 t 的基尼系数为 1 减去各类别 Ck 概率平方和。

### 示例

In [2]:
from sklearn.model_selection import train_test_split  # 构建训练、测试数据
from sklearn.metrics import accuracy_score  # 计算准确率
from sklearn.tree import DecisionTreeClassifier  # 用于创建 CART 分类树
from sklearn.datasets import load_iris  # 导入数据集

iris = load_iris()  # 准备数据集

features = iris.data  # 获取特征
labels = iris.target  # 获取标识

# 创建训练集和测试集， 33% 的数据为测试集，其余为训练集
train_features, test_features, train_labels, test_labels = train_test_split(
    features, labels, test_size=0.33, random_state=0)

# 创建CART 分类树
clf = DecisionTreeClassifier(criterion='gini')

# 拟合 CART 分类树
clf = clf.fit(train_features, train_labels)

# 预测
test_predict = clf.predict(test_features)

# 评价模型
score = accuracy_score(test_labels, test_predict)
print("CART 分类树准确率 %.4lf" % score)

CART 分类树准确率 0.9600


## CART 算法构造回归树

与分类树不同的是，回归树划分节点的方法是**最小绝对偏差（LAD）、最小二乘偏差（LSD）**。

### 示例

In [7]:
from sklearn.metrics import mean_squared_error # 导入二乘偏差均值包
from sklearn.model_selection import train_test_split # 导入训练、测试集
from sklearn.datasets import load_boston # 导入数据集
from sklearn.metrics import mean_absolute_error # 导入绝对值偏差均值
from sklearn.tree import DecisionTreeRegressor # 导入回归树

boston = load_boston() # 加载数据

print(boston.feature_names)

features = boston.data # 特征值
prices = boston.target # 定量数据

train_features, test_features, train_prices, test_prices = train_test_split(
    features, prices, test_size=0.33)

dtf = DecisionTreeRegressor() # 初始化一颗回归树

dtf.fit(train_features, train_prices) # 拟合回归树

predict_price = dtf.predict(test_features) # 预测

print("回归树二乘偏差均值：", mean_squared_error(test_prices,predict_price)) # 求二乘偏差均值
print("回归树绝对值偏差均值：", mean_absolute_error(test_prices,predict_price)) # 求绝对值偏差均值

['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']
回归树二乘偏差均值： 34.552095808383235
回归树绝对值偏差均值： 3.330538922155689


## CART 决策树的剪枝

CCP(cost-complexity-prune)，代价复杂度。指标：节点的表面误差率增益值。公式如下：![](https://static001.geekbang.org/resource/image/6b/95/6b9735123d45e58f0b0afc7c3f68cd95.png)

其中：
- Tt：以 t 为根节点的子树；

- C(Tt)：节点 t 的子树未被裁剪时，子树 Tt 的误差；

- C(t)：节点 t 的子树被剪枝后节点 t 的误差；

- |Tt|：子树 Tt 的叶子数，剪枝后，T 的叶子数减少了 |Tt|-1。

节点的表面误差率增益值 = 节点 t 的子树被剪枝后的误差变化 / 剪掉的叶子数量

## 思考题

- ID3、C4.5、CART 分类树在做节点划分时的区别；


- 对 sklearn 中的数据集 load_digits() 创建一个分类树，并且选取一部分测试集，统计分类树的准确率。

ID3、C4.5、CART 分类树在做节点划分时的区别:

- ID3 ：选取信息增益大的作为节点，因此容易倾向选择值多的属性；

- C4.5：选取信息增益率最大的作为节点；

- CART 分类树：选取基尼系数小的作为节点；

- CART 回归树：选取二乘偏差或绝对值偏差小的作为节点。

load_digits():