In [3]:
import numpy as np
import lightgbm as lgb
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建 LightGBM 数据集
train_data = lgb.Dataset(X_train, label=y_train)
test_data = lgb.Dataset(X_test, label=y_test)

# 设置参数
# objective: 定义了要优化的损失函数。在这里，设置为 'multiclass' 表示多类别分类任务。其他常用的选项包括 'binary'（二分类）、'regression'（回归）等。
#
# num_class: 表示类别的数量。在多类别分类任务中，需要设置这个参数为类别的数量。
#
# metric: 模型评估指标。在这里，设置为 'multi_logloss' 表示使用多分类交叉熵损失作为评估指标。其他常用的选项包括 'binary_logloss'（二分类交叉熵损失）、'rmse'（均方根误差）等。
#
# boosting_type: 提升类型，指定了使用的提升方法。在这里，设置为 'gbdt' 表示使用梯度提升树。其他可选的提升类型包括 'dart'（dropout 融合）、'goss'（基于梯度的单边采样）等。
#
# num_leaves: 每棵树的叶子节点数。增大这个值会使模型更复杂，可以更好地拟合训练数据，但也更容易过拟合。
#
# learning_rate: 学习率，控制每次迭代中模型参数的更新幅度。较小的学习率可以使模型更加稳定，但需要更多的迭代次数才能收敛。
#
# feature_fraction: 每次迭代中使用的特征的比例。这个参数可以用于加速训练和防止过拟合，通过随机选择一部分特征来训练每棵树
params = {
    'objective': 'multiclass',
    'num_class': 3,
    'metric': 'multi_logloss',
    'boosting_type': 'gbdt',  # 使用梯度提升树
    'num_leaves': 31,
    'learning_rate': 0.05,
    'feature_fraction': 0.9,
}

# 训练模型
num_round = 100
bst = lgb.train(params, train_data, num_round, valid_sets=[test_data])

# 预测
y_pred = bst.predict(X_test, num_iteration=bst.best_iteration)

# 将概率转换为类别
y_pred_class = np.argmax(y_pred, axis=1)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred_class)
print("LightGBM Accuracy:", accuracy)

[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000065 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 91
[LightGBM] [Info] Number of data points in the train set: 120, number of used features: 4
[LightGBM] [Info] Start training from score -1.098612
[LightGBM] [Info] Start training from score -1.073920
[LightGBM] [Info] Start training from score -1.123930
LightGBM Accuracy: 1.0
