# 决策树Decision Tree

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

## 分类

分类学习是最常见的监督学习问题之一，分类预测的结果可以是二分类或多分类。

垃圾短信/邮件的识别需要根据发送人号码、内容等特征进行判断，这是一个二分类问题。

车牌识别需要识别出车牌上的每个字母和数字，这是一个多分类问题。

根据数据集中的多个特征和一个分类标签，可以预测新数据的分类。

例如在银行客户偿还贷款能力的分析中，可以通过以往客户的房产、婚姻、年收入（特征）和是否偿还（分类标签）进行分类学习。当新客户来贷款时，只要给出该客户的各项特征值，分类模型就可以预测此客户未来是否具有偿还贷款的能力。

常用的分类学习算法包含：

- 决策树
- 贝叶斯分类
- KNN
- 支持向量机SVM
- 神经网络
- 集成学习

## 性能评估

混淆矩阵（Confusion Matrix）可用于评估分类模型的预测准确度。

| 真实值\预测值 | Yes | No |
| --- | --- | --- |
| **Yes** | a | b |
| **No** | c | d |

准确率Accuracy：所有数据中被正确预测的比例。

Accuracy = $ {a + d} \over {a + b + c + d} $

精确率Precision：预测类为Yes的样本中，真实类为Yes的比例。

Precision = $ a \over {a + c} $

召回率Recall：真实类为Yes的样本中，被正确预测的比例。

Recall = $ a \over {a + b} $

F1：精确率和召回率的调和平均数。

F1 = $ 2a \over {2a + b + c} $

## 决策树

决策树是常见的分类学习方法，它来源于人们在面临决策问题时一种自然的思考过程。

例如，判断苹果好不好，先看颜色，青的肯定不好；颜色红的再看有没有虫眼，没有虫眼的就是好苹果。

In [None]:
df = pd.read_csv('data/bankdebt.csv', header=None, names=['房产', '婚姻', '年收入（万元）', '无法偿还'])
df

![](./img/决策树.png)

在训练模型时，需要将特征转换为数值类型。

In [None]:
df['房产'] = df['房产'].map({'Yes': 1, 'No': 0})
df['婚姻'] = df['婚姻'].map({'Single': 1, 'Married': 2, 'Divorced': 3})
df['无法偿还'] = df['无法偿还'].map({'Yes': 1, 'No': 0})

df

取出特征值和分类值：

In [None]:
X = df[['房产', '婚姻', '年收入（万元）']]
y = df['无法偿还']

创建决策树模型：

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
model = DecisionTreeClassifier()
model.fit(X, y)

读取测试集：

In [None]:
df_test = pd.read_csv('data/test_bankdebt.csv', header=None, names=['房产', '婚姻', '年收入（万元）'])
df_test

In [None]:
X_test = df_test[['房产', '婚姻', '年收入（万元）']]

预测客户能够偿还：

In [None]:
y_pred = model.predict(X_test)
y_pred

In [None]:
df_test['无法偿还'] = y_pred
df_test

生成决策树：

In [None]:
from sklearn.tree import export_text

In [None]:
print(export_text(model, feature_names=['房产', '婚姻', '年收入（万元）']))