In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

df = pd.read_csv("D:\机器学习预测模型全流程代码_全网同名_派大珍\网页构建\期刊复现：基于XGBoost模型的网页工具SHAP力图解释单样本预测结果 2025-5-6 84818 1\Dataset.csv")

# 划分特征和目标变量
X = df.drop(['target'], axis=1)
y = df['target']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, 
                                                    random_state=42, stratify=df['target'])

df.head()

Unnamed: 0,Age,Max_Diameter,Tumor_Location,Multifocality,Extrathyroidal_extension,PLR,SII,target
0,0,1,1,1,1,211.54,666.35,1
1,1,1,1,0,0,111.5,469.42,1
2,0,0,3,1,1,149.19,625.1,1
3,1,0,2,1,1,177.38,487.8,1
4,0,1,3,1,1,142.63,506.34,1


In [5]:
import xgboost as xgb
from sklearn.model_selection import GridSearchCV

# XGBoost模型参数
params_xgb = {
    'learning_rate': 0.1,  # 学习率，控制每一步的步长，用于防止过拟合。典型值范围：0.01 - 0.1
    'booster': 'gbtree',   # 提升方法，这里使用梯度提升树（Gradient Boosting Tree）
    'objective': 'binary:logistic',  # 损失函数，这里使用逻辑回归，用于二分类任务
    'max_leaves': 127,     # 每棵树的叶子节点数量，控制模型复杂度。较大值可以提高模型复杂度但可能导致过拟合
    'verbosity': 1,        # 控制 XGBoost 输出信息的详细程度，0表示无输出，1表示输出进度信息
    'seed': 42,            # 随机种子，用于重现模型的结果
    'nthread': -1,         # 并行运算的线程数量，-1表示使用所有可用的CPU核心
    'colsample_bytree': 0.6,  # 每棵树随机选择的特征比例，用于增加模型的泛化能力
    'subsample': 0.6,      # 每次迭代时随机选择的样本比例，用于增加模型的泛化能力
    'eval_metric': 'logloss'  # 评价指标，这里使用对数损失（logloss）
}

# 初始化XGBoost分类模型
model_xgb = xgb.XGBClassifier(**params_xgb)

# 定义参数网格，用于网格搜索
param_grid = {
    'learning_rate': [0.01, 0.1, 0.2],  # 学习率
    'max_depth': [3, 5, 10],            # 最大深度
    'n_estimators': [50, 100, 200],     # 弱分类器数量
    'subsample': [0.6, 0.8, 1.0]        # 采样比例
}

# 使用 GridSearchCV 进行网格搜索和 k 折交叉验证
grid_search_xgb = GridSearchCV(
    estimator=model_xgb,  # 使用之前定义的默认参数模型
    param_grid=param_grid,  # 使用之前定义的超参数网格
    scoring='roc_auc',    # 使用 AUC 作为评价指标
    cv=5,                 # 5 折交叉验证
    n_jobs=-1,            # 并行计算
    verbose=1
)

# 在训练集上进行网格搜索
grid_search_xgb.fit(X_train, y_train)

# 输出最优参数
print("Best parameters found: ", grid_search_xgb.best_params_)
print("Best ROC AUC score: ", grid_search_xgb.best_score_)

# 使用最优参数训练模型
best_model = grid_search_xgb.best_estimator_

Fitting 5 folds for each of 81 candidates, totalling 405 fits
Best parameters found:  {'learning_rate': 0.01, 'max_depth': 3, 'n_estimators': 200, 'subsample': 0.8}
Best ROC AUC score:  0.853762643251853


In [6]:
import joblib
# 保存模型
joblib.dump(best_model , 'XGBoost.pkl')

['XGBoost.pkl']