# 决策树模型

决策树是一种常用的机器学习算法，广泛应用于分类和回归任务。它通过递归地将数据集划分为更小的子集，最终形成一个树状结构，其中每个节点代表一个特征的测试，每个分支代表测试结果，而每个叶节点代表一个类别标签或回归值。

## 算法原理
- 决策树是一种树形结构，其中每个内部节点表示对某个特征上的判断，每个分支表示判断结果，而每个叶节点表示一个类别标签或回归值。

## 建立过程
1. **特征选择**：使用信息增益、信息增益率或基尼指数等指标选择最能区分数据的特征。
2. **树的生成**：根据选择的特征将数据集划分为子集，递归地对每个子集重复特征选择和划分过程，直到满足停止条件（如所有样本属于同一类别或没有更多特征可用）。
3. **剪枝**：为了防止过拟合，可以对生成的决策树进行剪枝，去除一些不必要的分支。

# 信息熵：

- 熵：信息论中代表随机变量不确定度的度量
    - 熵越大表示数据不确定性越高，信息越多
    - 熵越小表示数据不确定性越低

$$ H(X)=-\sum_{i=1}^np\left(x_i\right)\log p\left(x_i\right) $$
    $$ 其中，p(x_i)为表示随机事件X为x_{i}的概率，H(X)表示为信息熵的值 $$

# 信息增益
- 概念：
    特征a对训练数据集D的信息增益，表示通过特征a对数据集D进行划分所带来的信息熵的减少量。即：集合D的熵与特征a给定条件下D的条件熵之差。
- 计算公式：
$$ Gain\left(D,a\right)=H\left(D\right)-\sum_{v=1}^k\frac{|D^v|}{|D|}H\left(D^v\right) $$
    $$ 其中，H(D)表示划分前的数据集D的信息熵，D^v表示特征a取值为v时的数据子集，k表示特征a的取值个数。 $$

## 基本概念
- 节点：树中的每个点被称为节点。根节点是树的起点，内部节点是决策点，叶节点是最终的决策结果
- 分支：从一个节点到另一个节点的路径称为分支
- 分裂：根据某个特征将数据集分成 多个子集的过程
- 纯度：衡量一个子集中样本的类别是否一致。纯度越高，说明子集中的样本越相似。

## 基尼系数
用于分类问题的分裂标准，计算公式为：
$$ Gini\left(D\right)=1-\sum_{i=1}^np\left(x_i\right)^2 $$
    $$ 其中，p(x_i)为表示随机事件X为x_{i}的概率，Gini(D)表示为基尼系数的值 $$

### 决策树的优缺点
优点：
- 易于理解和解释：决策树的结构直观，易于可视化，便于解释模型的决策过程。
- 处理多种数据类型：决策树可以处理数值型和类别型数据。
- 不需要数据标准化：决策树不受数据尺度影响，无需对数据进行归一化处理。

缺点：
- 容易过拟合：决策树容易对训练数据过拟合，
- 对噪声敏感：决策树对数据中的噪声较为敏感，可能导致不稳定的树结构。
- 不稳定性：小的变化可能导致生成完全不同的树结构。

In [7]:
# 加载必要的依赖库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.metrics import accuracy_score

In [8]:
# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

In [9]:
# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [10]:
# 创建决策树分类器
clf = DecisionTreeClassifier()

clf.fit(X_train, y_train)

0,1,2
,criterion,'gini'
,splitter,'best'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,
,max_leaf_nodes,
,min_impurity_decrease,0.0


In [11]:
# 模型评估与预测
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy * 100:.2f}%")

模型准确率: 100.00%


### 决策树可视化


In [12]:
# dot_data = export_graphviz(clf, out_file=None,
#                            feature_names=iris.feature_names,
#                            class_names=iris.target_names,
#                            filled=True, rounded=True,
#                            special_characters=True)

# # 使用graphviz库进行可视化
# import graphviz
# graph = graphviz.Source(dot_data)
# graph.render("decision_tree_iris")  # 保存为文件
# graph.view