# 决策树

决策树（Decision Tree），又称判定树，是一个流程图形式的树结构，它利用树形图进行决策，是直观运用概率分析的一种图解法。

决策树可以用于分类和回归任务。在分类任务中，决策树通过一系列的选择将样本分配到不同的类别中；而在回归任务中，它用于预测连续值的目标变量。 

## 决策树的组成与原理

决策树由树根（决策节点）、其他内点（方案节点、状态节点）、树叶（终点）、树枝（方案枝、概率枝）、概率值、损益值等要素组成。

在决策树中，每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一个类别或预测结果。基本原理是用决策点代表决策问题，用方案分枝代表可供选择的方案，用概率分枝代表方案可能出现的各种结果，经过对各种方案在各种结果条件下损益值的计算比较，为决策者提供决策依据。

### 工作原理

特征选择：

+ 信息增益：选择使得信息增益最大的特征。信息增益表示特征分裂前后数据集纯度的提升程度。
+ 增益率：增益率的引入是为了克服信息增益偏向于选择取值多的特征的缺点。增益率是信息增益与特征的固有值（取值个数）的比值。
+ 基尼不纯度：选择使得基尼不纯度最小的特征。基尼不纯度表示数据集的不确定性，值越小表示数据集越纯。
+ 树分裂：根据选定的特征，将数据集分裂成多个子集。分裂方式可以是二分分裂（是/否）或多分分裂（多个取值）。
+ 递归构建：对每个子集递归地执行特征选择和树分裂，直到满足停止条件。
+ 创建叶节点：当满足停止条件时，创建叶节点。叶节点可以是类标签（分类问题）或数值（回归问题）。

### 停止条件

+ 所有样本属于同一类：此时无需继续分裂，直接创建叶节点。
+ 达到最大树深度：为了防止过拟合，可以设置最大树深度。
+ 子集样本数量小于最小分裂阈值：当子集样本数量太少时，继续分裂可能没有意义。
+ 特征用完：当所有特征都已用于分裂时，停止分裂。

## 剪枝

剪枝是防止决策树过拟合的一种技术。它通过删除部分分支来简化树结构，从而提高模型的泛化能力。剪枝方法包括：

+ 预剪枝：在树构建过程中，提前停止分裂。例如，当分裂后信息增益小于某个阈值时停止分裂。
+ 后剪枝：在树构建完成后，删除部分分支。例如，使用验证集评估每个节点的重要性，删除对模型性能提升不大的节点。

## 算法实现

常见的决策树算法包括：

+ ID3：使用信息增益作为特征选择标准，只能处理离散特征。
+ C4.5：是ID3的改进版，使用增益率作为特征选择标准，可以处理连续特征。
+ CART：使用基尼不纯度作为特征选择标准，可以处理分类和回归问题。

## 优缺点

优点：

+ 易于理解和解释。
+ 可以处理非线性关系。
+ 对数据预处理要求不高。
+ 可以处理混合类型数据（离散和连续）。

缺点：

+ 容易过拟合。
+ 对噪声数据敏感。
+ 可能产生不平衡的决策树。


## 红酒

### 数据内容

Alcohol, Malic acid, Ash, Alcalinity of ash  , Magnesium, Total phenols, Flavanoids, Nonflavanoid phenols, Proanthocyanins, Color intensity, Hue, OD280/OD315 of diluted wines, Proline 

酒精, 苹果酸, 灰分, 灰的碱度, 镁, 总酚, 黄酮类, 非黄酮类酚, 原花青素, 颜色强度, 色调, 稀释葡萄酒的OD280/OD315, 脯氨酸

In [5]:
import pandas as pd


data = pd.read_csv("./dat/wine.data", header=None)
print(data)


     0      1     2     3     4    5     6     7     8     9      10    11  \
0     1  14.23  1.71  2.43  15.6  127  2.80  3.06  0.28  2.29   5.64  1.04   
1     1  13.20  1.78  2.14  11.2  100  2.65  2.76  0.26  1.28   4.38  1.05   
2     1  13.16  2.36  2.67  18.6  101  2.80  3.24  0.30  2.81   5.68  1.03   
3     1  14.37  1.95  2.50  16.8  113  3.85  3.49  0.24  2.18   7.80  0.86   
4     1  13.24  2.59  2.87  21.0  118  2.80  2.69  0.39  1.82   4.32  1.04   
..   ..    ...   ...   ...   ...  ...   ...   ...   ...   ...    ...   ...   
173   3  13.71  5.65  2.45  20.5   95  1.68  0.61  0.52  1.06   7.70  0.64   
174   3  13.40  3.91  2.48  23.0  102  1.80  0.75  0.43  1.41   7.30  0.70   
175   3  13.27  4.28  2.26  20.0  120  1.59  0.69  0.43  1.35  10.20  0.59   
176   3  13.17  2.59  2.37  20.0  120  1.65  0.68  0.53  1.46   9.30  0.60   
177   3  14.13  4.10  2.74  24.5   96  2.05  0.76  0.56  1.35   9.20  0.61   

       12    13  
0    3.92  1065  
1    3.40  1050  
2    3.17

In [6]:
from sklearn.model_selection import train_test_split

# 分开数据与对应的种类
x_val = data[[i for i in range(1, 13, 1)]]   # 十二个列的数据
y_val = data[[0]]   # 对应的种类

# 对数据进行切分, 取7/10的数据进行训练
x_train, x_test, y_train, y_test = train_test_split(x_val, y_val, test_size=0.3, random_state=13)


# 导入决策树分类器
from sklearn.tree import DecisionTreeClassifier

# 使用训练数据拟合模型
model = DecisionTreeClassifier()
model.fit(x_train, y_train)


In [7]:
# 使用模型预测数据
y_pred = model.predict(x_test)

# 使用准确率, 分类报告, 混淆矩阵对模型进行评估
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

acc = accuracy_score(y_test, y_pred)
cls_rep = classification_report(y_test, y_pred)
cfu_mtx = confusion_matrix(y_test, y_pred)

print("准确率: ", accuracy_score(y_test, y_pred))
print("分类报告:\n", classification_report(y_test, y_pred))
print("混淆矩阵:\n", confusion_matrix(y_test, y_pred))

准确率:  0.9444444444444444
分类报告:
               precision    recall  f1-score   support

           1       0.94      0.89      0.91        18
           2       0.92      1.00      0.96        23
           3       1.00      0.92      0.96        13

    accuracy                           0.94        54
   macro avg       0.95      0.94      0.94        54
weighted avg       0.95      0.94      0.94        54

混淆矩阵:
 [[16  2  0]
 [ 0 23  0]
 [ 1  0 12]]
