[![Image Name](https://cdn.kesci.com/upload/sehv2zq3qx.jpg?imageView2/0/w/960/h/960)](https://www.heywhale.com/home/competition/66598b3271a1fd975a17d6ad)  
[**vgbhfive**](http://blog.vgbhfive.com)，多年风控引擎研发及金融模型开发经验，现任某公司风控研发工程师，对数据分析、金融模型开发、风控引擎研发具有丰富经验。

在前一关中学习了如何使用肘部法则计算最佳分类数，也知道了计算 `KMeans` 分类的特征要求。在新的一关中，我们将开始学习训练决策树模型。

### 决策树

决策树字如其名，其主要展示类似于树状结构。  

在分类问题中，表示基于特征对实例进行分类的过程，过程可以认为是 **`if-then` 的集合** ;而在回归问题中，会被认为特征分布在分类空间上的**条件概率分布**。  


### iris 数据集之多分类问题

`Iris` 数据集算是机器学习算法的入门数据集，其包含有三个分类结果和四个特征信息，其分别是花萼长度，花萼宽度，花瓣长度，花瓣宽度，通过上述四个特征信息预测鸢尾花卉属于哪一类？

#### 引入依赖

In [1]:
import pandas as pd
import numpy as np

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.metrics import accuracy_score, r2_score, mean_squared_error

#### 加载数据

In [2]:
# 1. 加载数据

iris = load_iris()
x, y = pd.DataFrame(iris.data), iris.target
x.head(), y

(     0    1    2    3
 0  5.1  3.5  1.4  0.2
 1  4.9  3.0  1.4  0.2
 2  4.7  3.2  1.3  0.2
 3  4.6  3.1  1.5  0.2
 4  5.0  3.6  1.4  0.2,
 array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]))

#### 训练模型和计算测试集指标

In [3]:
# 2. 切分数据集

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)
x_train, x_test, y_train, y_test

(       0    1    2    3
 142  5.8  2.7  5.1  1.9
 104  6.5  3.0  5.8  2.2
 9    4.9  3.1  1.5  0.1
 98   5.1  2.5  3.0  1.1
 80   5.5  2.4  3.8  1.1
 136  6.3  3.4  5.6  2.4
 91   6.1  3.0  4.6  1.4
 35   5.0  3.2  1.2  0.2
 83   6.0  2.7  5.1  1.6
 15   5.7  4.4  1.5  0.4
 49   5.0  3.3  1.4  0.2
 99   5.7  2.8  4.1  1.3
 84   5.4  3.0  4.5  1.5
 109  7.2  3.6  6.1  2.5
 79   5.7  2.6  3.5  1.0
 11   4.8  3.4  1.6  0.2
 127  6.1  3.0  4.9  1.8
 17   5.1  3.5  1.4  0.3
 119  6.0  2.2  5.0  1.5
 115  6.4  3.2  5.3  2.3
 42   4.4  3.2  1.3  0.2
 40   5.0  3.5  1.3  0.3
 18   5.7  3.8  1.7  0.3
 21   5.1  3.7  1.5  0.4
 1    4.9  3.0  1.4  0.2
 25   5.0  3.0  1.6  0.2
 97   6.2  2.9  4.3  1.3
 146  6.3  2.5  5.0  1.9
 100  6.3  3.3  6.0  2.5
 60   5.0  2.0  3.5  1.0
 ..   ...  ...  ...  ...
 114  5.8  2.8  5.1  2.4
 50   7.0  3.2  4.7  1.4
 148  6.2  3.4  5.4  2.3
 6    4.6  3.4  1.4  0.3
 94   5.6  2.7  4.2  1.3
 34   4.9  3.1  1.5  0.2
 44   5.1  3.8  1.9  0.4
 130  7.4  2.8  6.1  1.9


In [4]:
# 3. 构建决策树模型并训练模型

clf = DecisionTreeClassifier(criterion='gini')

clf.fit(x_train, y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

In [5]:
# 4. 预测测试集

y_pred = clf.predict(x_test)

In [6]:
# 5. 计算测试集的准确率

acc = accuracy_score(y_test, y_pred)
acc

0.9333333333333333

#### 特征重要性

In [7]:
# 6. 特征重要性
# feature_importances_ 是一个数组类型，里边的元素分别代表对应特征的重要性，所有元素之和为1。元素的值越大，则对应的特征越重要。

imprtances = clf.feature_importances_
imprtances

array([0.        , 0.01911524, 0.41130054, 0.56958422])

#### 可视化决策树

In [8]:
# 打印决策树

from sklearn.tree import export_graphviz
import graphviz

# clf 为决策树对象
dot_data = export_graphviz(clf)
graph = graphviz.Source(dot_data)

# 生成 Source.gv.pdf 文件，可以下载打开
graph.view()

'Source.gv.pdf'


![Image Name](https://cdn.kesci.com/upload/sdy55qd9c5.jpg?imageView2/0/w/960/h/960)  


#### 总结  
通过可视化决策树，可以看出正如前面介绍的那样，分类决策树是 `if-then` 的集合，最终得到对应的分类结果。

### 波士顿房价之回归问题  
在二手房产交易中，其中最受关注的便是房屋价格问题，其涉及到多个方方面面，例如房屋面积、房屋位置、户型大小、户型面积、小区平均房屋价格等等信息。现在 sklearn 提供波士顿的房屋价格数据集，其中有 506 例记录，包含城镇人均犯罪率、住宅用地比例、平均房间数等特征信息，学习使用这些信息准确预测波士顿的房屋价格，之后以此类推收集想要购买区域的房屋价格信息，就可以预测自身购买房屋价格是否划算。

波士顿房价数据集数据含义如下：  

| 特征列名称 | 特征含义 |  
| --- | --- |  
| CRIM | 城镇人均犯罪率   |  
| ZN | 占地面积超过25,000平方英尺的住宅用地比例   |  
| INDUS | 每个城镇非零售业务的比例   |  
| CHAS | Charles River虚拟变量   |  
| NOX | 一氧化氮浓度（每千万份）   |  
| RM | 每间住宅的平均房间数   |  
| AGE | 1940年以前建造的自住单位比例   |  
| DIS | 波士顿的五个就业中心加权距离   |  
| RAD | 径向高速公路的可达性指数   |  
| TAX | 每10,000美元的全额物业税率   |  
| PTRATIO | 城镇的学生与教师比例   |  
| B |  1000*(Bk / 0.63)^2 其中Bk是城镇黑人的比例   |  
| LSTAT | 区域中被认为是低收入阶层的比率   |  
| MEDV | 自有住房的中位数报价, 单位1000美元 |

#### 加载数据

In [9]:
# 1. 加载数据

boston = pd.read_csv('/home/mw/input/boston_housing/housing.csv')
boston.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PIRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


#### 预处理数据

In [10]:
# 2. 获取特征集和房价
x = boston.drop(['MEDV'], axis=1)
y = boston['MEDV']
x.head(), y.head()

(      CRIM    ZN  INDUS  CHAS    NOX     RM   AGE     DIS  RAD    TAX  \
 0  0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296.0   
 1  0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242.0   
 2  0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242.0   
 3  0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222.0   
 4  0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222.0   
 
    PIRATIO       B  LSTAT  
 0     15.3  396.90   4.98  
 1     17.8  396.90   9.14  
 2     17.8  392.83   4.03  
 3     18.7  394.63   2.94  
 4     18.7  396.90   5.33  , 0    24.0
 1    21.6
 2    34.7
 3    33.4
 4    36.2
 Name: MEDV, dtype: float64)

In [11]:
# 3. 测试集与训练集 7:3

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33)
x_train.head(), x_test.head(), y_train.head(), y_test.head()

(         CRIM    ZN  INDUS  CHAS     NOX     RM   AGE     DIS  RAD    TAX  \
 331   0.05023  35.0   6.06     0  0.4379  5.706  28.4  6.6407    1  304.0   
 403  24.80170   0.0  18.10     0  0.6930  5.349  96.0  1.7028   24  666.0   
 498   0.23912   0.0   9.69     0  0.5850  6.019  65.3  2.4091    6  391.0   
 52    0.05360  21.0   5.64     0  0.4390  6.511  21.1  6.8147    4  243.0   
 221   0.40771   0.0   6.20     1  0.5070  6.164  91.3  3.0480    8  307.0   
 
      PIRATIO       B  LSTAT  
 331     16.9  394.02  12.43  
 403     20.2  396.90  19.77  
 498     19.2  396.90  12.92  
 52      16.8  396.90   5.28  
 221     17.4  395.24  21.46  ,
         CRIM    ZN  INDUS  CHAS    NOX     RM   AGE      DIS  RAD    TAX  \
 354  0.04301  80.0   1.91     0  0.413  5.663  21.9  10.5857    4  334.0   
 201  0.03445  82.5   2.03     0  0.415  6.162  38.4   6.2700    2  348.0   
 433  5.58107   0.0  18.10     0  0.713  6.436  87.9   2.3158   24  666.0   
 397  7.67202   0.0  18.10     0  0

#### 训练回归模型

In [12]:
# 4. 创建 CART 回归树

dtr = DecisionTreeRegressor()

In [13]:
# 5. 训练构造 CART 回归树

dtr.fit(x_train, y_train)

DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,
                      max_leaf_nodes=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      presort=False, random_state=None, splitter='best')

In [21]:
# 6. 预测测试集中的房价

y_pred = dtr.predict(x_test)
y_pred

array([17.6, 22.9, 16.7, 13. , 15.2, 13.1, 29.9, 36. , 26.6, 26.7, 22.7,
       21.6, 33.4, 25. , 20.3, 43.1, 18.9, 14.9, 50. , 10.2, 11.3, 14.4,
       22.8, 33.2, 17.7, 17.1, 23. , 23.3, 18.3, 19.9, 33.3, 15.4, 17.1,
       23.7, 15.4, 17.4, 25. , 16.3, 23.8, 20. , 28.4, 17.4, 18.8, 17.8,
       22.8, 21.6, 50. , 19.8, 16.2, 27.1,  9.7, 20.1, 20.9, 28.7, 13.2,
       27.9, 17.9, 17.2, 33.4, 22.8,  8.1, 28.6, 22.6, 13.1, 14.1, 25.2,
       22.7, 31.5, 31.6, 18.5, 23.7, 23.9, 19.8, 18.3, 21.2, 10.2, 20.7,
       16. , 37.9, 22. , 19.6, 12.6, 17.8, 33.3, 11.5, 28.5, 16. , 35.2,
       33.3, 25. , 30.1, 19.6, 30.5, 13. , 50. , 28.7, 19.4,  7.2, 13.9,
       23.9, 17.9, 21.4, 19.1, 20.9, 29.8, 16.1, 22.2, 15.6, 24.8, 22.9,
       17.7, 28.5, 23.1, 21.9, 30.8, 17.1, 21.7, 14.5, 42.3, 22.5, 20.3,
       14.1, 43.8, 33.3, 23.1, 25. , 25. , 25. , 18.8, 21.1, 31.5, 18.7,
       24.8, 21.4, 24.3, 25. , 21.9, 17.2, 22.2, 13.4, 13.1, 19. , 17.9,
       33.4, 23. , 26.6, 13.9, 25. , 24.6, 33.4, 19

#### 计算测试集指标

In [19]:
# 7. 测试集结果评价

# r2_score 决定系数，反映因变量的全部变异能通过回归关系被自变量解释的比例。
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2, mse

(0.6276701049130964, 28.405029940119757)

### 闯关题

#### STEP1：请根据要求完成题目

Q1. iris数据集中共有四个特征，重要性最小的特征是哪个？  
   A. 花萼长度  
   B. 花萼宽度  
   C. 花瓣长度  
   D. 花瓣宽度

Q2. 波士顿房价回归问题中的绝对值偏差均值 MAE 是多少？mae 平均绝对误差，用于衡量模型预测值与实际值之间的平均绝对偏差。  
   A. 2.22  
   B. 3.22  
   C. 4.22

In [22]:
from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_test, y_pred)
mae

3.5293413173652692

In [23]:
#填入你的答案并运行,注意大小写
a1 = 'A'  # 如 a1= 'A'
a2 = 'B'  # 如 a2= 'A'

#### STEP2：将结果保存为 csv 文件  
将结果保存为 csv 文件  
csv 需要有两列，列名：id、answer。其中，id 列为题号，如 q1、q2；answer 列为 STEP1 中各题你计算出来的结果。💡 这一步的代码你不用做任何修改，直接运行即可。

In [24]:
import pandas as pd

# 生成 csv 作业答案文件
def save_csv(a1, a2):
    df = pd.DataFrame({"id": ["q1", "q2"], "answer": [a1, a2]})
    df.to_csv("answer_3.csv", index=None)
    print(df)

save_csv(a1, a2)

   id answer
0  q1      A
1  q2      B


#### STEP3: 提交 csv 文件，获取分数结果  
提交 csv 文件，获取分数结果  

你的 csv 答案文件已经准备完毕了，最后让我们提交答案文件，看看是否正确。  

提交方法：  

1、拷贝提交 token  

去对应关卡的 提交页面，找到对应关卡，看到了你的 token 嘛？  

拷贝它。  

记得：每个关卡的 token 不一样。  

2、下方 cell 里，拿你拷贝的 token 替换掉 XXXXXXX， 然后 Ctrl+Enter 运行 。  



In [25]:
#运行这个Cell 下载提交工具

!wget -nv -O heywhale_submit https://cdn.kesci.com/submit_tool/v4/heywhale_submit&&chmod +x heywhale_submit

# 运行提交工具
# 把下方XXXXXXX替换为你的 Token
# 改完看起来像是：!./heywhale_submit -token 586eeef71cb92941 -file answer_3.csv

!./heywhale_submit -token 290a14a6804fbab9 -file answer_3.csv  # 替换XXXXXXX；注意不可增减任何空格或其他字符

wget: /opt/conda/lib/libcrypto.so.1.0.0: no version information available (required by wget)
wget: /opt/conda/lib/libssl.so.1.0.0: no version information available (required by wget)
wget: /opt/conda/lib/libssl.so.1.0.0: no version information available (required by wget)
2025-07-18 03:49:08 URL:https://cdn.kesci.com/submit_tool/v4/heywhale_submit [22020102/22020102] -> "heywhale_submit" [1]
Heywhale Submit Tool: v5.0.1 
> 已验证Token
> 开始上传文件
20 / 20 [||||||||||||||||||||||||||||||||||||||||||||||||||||||||] ? p/s 100.00%
> 文件已上传        
> 服务器响应: 200 提交成功，请等待评审完成
> 提交完成
