# 简介

XGBRegressor 是 XGBoost 库中的一个回归模型，它基于梯度提升树（Gradient Boosting Tree）算法，用于解决回归问题。XGBoost 是一种高效的机器学习算法，被广泛应用于数据科学和机器学习竞赛中，因其在准确性和速度上的优势而备受青睐。

```
模块名称：XGBRegressor
模块类型：回归模型
功能：使用梯度提升树算法解决回归问题
主要参数：
    learning_rate：学习率，控制每次更新中的权重调整幅度。
        学习率决定了每棵树对最终模型的影响程度，
            较小的学习率可以使模型更加稳定，但可能需要更多的迭代次数才能达到最优解，
            而较大的学习率则可以加快模型的收敛速度，但可能会导致过拟合或震荡。
        取值范围：0 到 1 之间的实数
        默认值：0.1
    early_stopping_rounds：指定早停止（Early Stopping）的轮数
        早停止是一种训练算法，在训练过程中监视模型的性能指标，如果在连续的若干轮训练中性能指标没有改善，则停止训练，以防止模型过拟合。
        取值范围：正整数，通常在 5 到 50 之间
        默认值：None（不启用早停止）
    n_estimators：要使用的弱学习器（树）的数量。
        specifies how many times to go through the modeling cycle
        It is equal to the number of models that we include in the ensemble.
            Too low a value causes underfitting, which leads to inaccurate predictions on both training data and test data.
            Too high a value causes overfitting, which causes accurate predictions on training data, but inaccurate predictions on test data (which is what we care about).
        Typical values range from 100-1000, though this depends a lot on the `learning_rate` parameter
        取值范围：正整数，通常在 10 到 1000 之间
        默认值：100
    n_jobs：指定并行运行的作业数量
        取值范围：正整数、-1（使用所有可用的 CPU 核心），或 None（默认值）
        默认值：None
    random_state：
使用场景：
    解决回归问题，如房价预测、销售量预测等。
    在特征工程和模型调优过程中，XGBoost 的灵活性和高性能使其成为流行的选择。
示例用法：
    创建一个 XGBRegressor 对象，并设置各种参数。
    使用 fit() 方法拟合模型，并使用 predict() 方法进行预测。
```

In [2]:
!pip install xgboost

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting xgboost
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/45/6d/8c1d2570a52db6263d855c3ee3daf8f4bdf4a365cd6610772d6fce5fd904/xgboost-2.0.3-py3-none-macosx_10_15_x86_64.macosx_11_0_x86_64.macosx_12_0_x86_64.whl (2.2 MB)
[K     |████████████████████████████████| 2.2 MB 310 kB/s eta 0:00:01
Installing collected packages: xgboost
Successfully installed xgboost-2.0.3


In [4]:
from xgboost import XGBRegressor
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 加载糖尿病数据集
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target

# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建一个 XGBRegressor 模型
model = XGBRegressor(max_depth=3, learning_rate=0.1, n_estimators=100)

# 拟合模型
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print("均方误差：", mse)


均方误差： 2959.455813706508
