DecisionTreeRegressor 是 scikit-learn 中用于回归任务的决策树模型，其参数与分类树（DecisionTreeClassifier）有许多相似之处，但也存在一些关键差异。以下是核心参数及其作用：
### 1. 控制树结构的参数
|参数	|作用	|默认值|
| ---- | ---- | ---- |
|criterion	|分裂质量的衡量标准，可选：<br>- mse（均方误差，最常用）<br>- friedman_mse（改进的均方误差）<br>- mae（平均绝对误差）	|mse|
|splitter	|分裂策略，可选：<br>- best（选择最优分裂点）<br>- random（随机选择分裂点，增加随机性）|	best|
|max_depth	|树的最大深度。若为 None，则节点会一直分裂直到所有叶子节点都是纯的，或达到最小样本数限制。	|None
|min_samples_split	|分裂内部节点所需的最小样本数。可以是整数或浮点数（百分比）。	|2|
|min_samples_leaf	|叶子节点所需的最小样本数。可以是整数或浮点数（百分比）。	|1|
|min_weight_fraction_leaf	|叶子节点所需的最小权重总和（针对样本权重）。	|0.0|
|max_features	|寻找最佳分裂时考虑的特征数量。可选：<br>- 整数、浮点数、auto（即 n_features）、sqrt、log2、None（使用所有特征）	|None|
|max_leaf_nodes	|最大叶子节点数。若为 None，则无限制。	|None|
|min_impurity_decrease	|分裂所需的最小不纯度减少量。若分裂导致的不纯度减少小于该值，则不分裂。	|0.0|

### 2. 处理缺失值和样本权重的参数
|参数	|作用	|默认值|
| ---- | ---- | ---- |
|missing_values	|识别缺失值的标记（仅在 scikit-learn 1.2+ 支持）。例如 np.nan。	|np.nan|
|ccp_alpha	|成本复杂度剪枝参数。较大的值会导致更多剪枝，生成更简单的树。	|0.0|
|random_state	|随机数种子，控制随机性（如特征选择的随机性）。	None
|class_weight	|样本权重，用于处理不平衡数据。回归任务中通常不需要（默认 None）。	|None|

### 3. 其他参数
|参数	|作用	|默认值|
| ---- | ---- | ---- |
|presort	|是否预排序数据以加速寻找最佳分裂点。在大数据集上可能降低效率。	|deprecated|
|min_impurity_split	|提前停止分裂的不纯度阈值（已弃用，改用 min_impurity_decrease）。	|-|


## DecisionTreeRegressor 核心方法

### 1. 模型训练与预测
|方法	|作用|
| ---- | ---- |
|fit(X, y[, sample_weight, check_input])	训练模型。<br>- X: 特征矩阵<br>- y: 目标值（连续值）<br>- sample_weight: 样本权重|
|predict(X[, check_input])	|对输入数据进行预测，返回预测值。|
|predict_log_proba(X)	|对输入数据预测对数概率密度（仅在支持概率输出的回归器中可用）。|
|score(X, y[, sample_weight])	|返回预测的 R² 分数（决定系数），评估模型拟合优度。|

### 2. 树结构与特征分析
|方法	|作用|
| ---- | ---- |
|get_depth()	|返回决策树的深度（即根节点到最远叶子节点的路径长度）。|
|get_n_leaves()	|返回决策树的叶子节点数量。|
|feature_importances_	|返回特征重要性得分（值越高，特征越重要）。|
|tree_	|返回底层的树对象，包含详细的树结构信息（如节点分裂规则、叶子节点值）。|

### 3. 模型保存与加载
|方法	|作用|
| ---- | ---- |
|__getstate__()	|返回模型的状态（用于序列化）。|
|__setstate__(state)	|从状态恢复模型（用于反序列化）。|




## 决策树回归与分类的关键差异
|对比项	|决策树回归（DecisionTreeRegressor）	|决策树分类（DecisionTreeClassifier）|
| ---- | ---- | ---- |
|目标变量类型	|连续值（如房价、温度）	|离散类别（如猫 / 狗、垃圾邮件 / 正常邮件）|
|默认分裂标准	|mse（均方误差）	|gini（基尼不纯度）或 entropy（信息熵）|
|叶子节点值	|该节点样本的平均值	|该节点样本中最多的类别|
|评估指标	|R²、MSE、MAE 等回归指标	|准确率、F1 分数、AUC 等分类指标|
|参数 class_weight	|不常用（回归任务通常不需要）	|常用（处理类别不平衡）|

## 示例代码：使用 DecisionTreeRegressor

In [2]:
import numpy as np
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score

# 生成回归数据集
X, y = make_regression(
    n_samples=1000, n_features=10, n_informative=5, noise=10, random_state=42
)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化并训练模型
model = DecisionTreeRegressor(
    max_depth=5,                # 限制树深，防止过拟合
    min_samples_leaf=10,        # 每个叶子节点至少10个样本
    criterion='friedman_mse',            # 使用均方误差作为分裂标准
    random_state=42
)
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"测试集 MSE: {mse:.4f}")
print(f"测试集 R² 分数: {r2:.4f}")
print(f"树的深度: {model.get_depth()}")
print(f"叶子节点数: {model.get_n_leaves()}")

# 查看特征重要性
importances = model.feature_importances_
feature_names = [f"Feature {i}" for i in range(X.shape[1])]

# 排序并打印特征重要性
indices = np.argsort(importances)[::-1]
print("\n特征重要性排序:")
for f in range(X_train.shape[1]):
    print(f"{feature_names[indices[f]]}: {importances[indices[f]]:.4f}")

测试集 MSE: 754.6877
测试集 R² 分数: 0.8206
树的深度: 5
叶子节点数: 28

特征重要性排序:
Feature 0: 0.8011
Feature 3: 0.1913
Feature 9: 0.0036
Feature 4: 0.0031
Feature 6: 0.0009
Feature 8: 0.0000
Feature 5: 0.0000
Feature 7: 0.0000
Feature 2: 0.0000
Feature 1: 0.0000
