In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import xgboost as xgb

In [2]:
data = load_iris()
x,y = data.data, data.target


In [3]:
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state=42,test_size=0.2)

# 演示XGBoost

# 将数据转换为 DMatrix 格式，这是 XGBoost 要求的格式
dtrain = xgb.DMatrix(x_train, label=y_train)
dtest = xgb.DMatrix(x_test, label=y_test)

# 设置参数
# max_depth: 这个参数指定了每棵树的最大深度。增大这个值会使模型更复杂，可以更好地拟合训练数据，但也更容易过拟合。通常来说，max_depth 的取值范围是 [1, ∞]。如果设置为 None，树的深度将不受限制。
# eta（也称为 learning rate）: 学习率控制每次迭代中的权重更新幅度。它的作用是减小每棵树的贡献，使得模型更加稳定。较小的学习率通常需要更多的迭代次数来达到相同的效果。通常来说，eta 的取值范围是 (0, 1]。
# objective: 这个参数指定了要优化的损失函数。对于多类别分类问题，可以选择 'multi:softmax'。此外，你还可以根据需要选择其他的目标函数，比如 'binary:logistic'（二分类逻辑回归）或 'reg:squarederror'（回归问题的平方损失函数）等。
# num_class: 这个参数指定了类别的数量。在多类别分类问题中，需要设置 num_class 的值为类别的数量。例如，对于三类分类问题，可以设置 num_class=3。#
# 综上所述，max_depth 和 eta 是控制模型复杂度和训练速度的两个重要参数，objective 用于指定优化的损失函数，而 num_class 则用于指定类别的数量。
params = {
    'max_depth': 3,
    'eta': 0.1,
    'objective': 'multi:softmax',
    'num_class': 3
}

# 训练模型
num_rounds = 100
xgb_model = xgb.train(params, dtrain, num_rounds)

# 在测试集上进行预测
y_pred = xgb_model.predict(dtest)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("XGBoost Accuracy:", accuracy)

XGBoost Accuracy: 1.0
