In [None]:
# 导入机器学习所需的包

# 导入交叉验证相关的工具
from sklearn.model_selection import KFold          # 导入K折交叉验证
from sklearn.model_selection import cross_val_score # 导入交叉验证评分工具

# 导入集成学习相关的分类器
from sklearn.ensemble import BaggingClassifier     # 导入Bagging集成分类器
from sklearn.tree import DecisionTreeClassifier    # 导入决策树分类器作为基分类器

# 导入数据集
from sklearn import datasets                       # 导入sklearn自带的标准数据集


In [None]:
# 加载IRIS数据集
# IRIS数据集是机器学习中最著名的数据集之一
# 包含3种不同类型的鸢尾花：Setosa、Versicolor和Virginica
# 每种花都有50个样本，共150个样本
# 每个样本包含4个特征：
# 1. 萼片长度 (Sepal Length)
# 2. 萼片宽度 (Sepal Width)
# 3. 花瓣长度 (Petal Length)
# 4. 花瓣宽度 (Petal Width)
iris = datasets.load_iris()

# X存储特征矩阵，形状为(150, 4)
# 每一行代表一个样本，每一列代表一个特征
X = iris.data

# Y存储目标变量，形状为(150,)
# 包含0,1,2三个类别标签，分别代表三种鸢尾花
Y = iris.target

In [9]:
# 分类器及交叉检验
# 设置随机种子以确保结果可重现
seed = 42

# 创建K折交叉验证对象
# n_splits=10: 将数据集分成10份
# shuffle=True: 在分割前随机打乱数据，有助于防止过拟合
# random_state=seed: 设置随机状态，确保可重现性
kfold = KFold(n_splits=10, shuffle=True, random_state=seed) # 添加shuffle=True 解决过拟合

# 创建决策树分类器
# criterion='gini': 使用基尼系数作为分裂标准
# max_depth=2: 限制树的最大深度为2，防止过拟合
cart = DecisionTreeClassifier(criterion='gini',max_depth=2)

# 使用训练数据拟合模型
cart = cart.fit(X ,Y)

# 对决策树模型进行交叉验证评估
# cross_val_score返回每个折叠的准确率
result = cross_val_score(cart, X, Y, cv=kfold)
print("CART树结果：",result.mean())

# 创建Bagging集成分类器
# estimator=cart: 使用上面创建的决策树作为基分类器
# n_estimators=100: 集成100个基分类器
# random_state=seed: 设置随机状态确保可重现性
model = BaggingClassifier(estimator=cart, n_estimators=100, random_state=seed)

# 对Bagging模型进行交叉验证评估
result = cross_val_score(model, X, Y, cv=kfold)
print("装袋法提升后结果：",result.mean())

CART树结果： 0.9466666666666667
装袋法提升后结果： 0.9400000000000001
