# 集成学习

集成学习是一种通过结合多个模型的预测结果来提高整体预测性能的方法。常见的集成学习方法包括Bagging、Boosting和Stacking等。

## Bagging

Bagging（Bootstrap Aggregating）是一种通过对原始数据集进行多次有放回的采样，训练多个模型，并将这些模型的预测结果进行平均或投票，得到最终预测结果的方法。Bagging可以有效降低模型的方差，防止过拟合。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 设置字体和解决负号显示问题
plt.rcParams['font.sans-serif'] = 'Hiragino Sans GB'
plt.rcParams['axes.unicode_minus'] = False

# 生成示例数据
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 拟合Bagging模型
bagging = BaggingClassifier(estimator=DecisionTreeClassifier(), n_estimators=100, random_state=42)
bagging.fit(X_train, y_train)

# 预测并计算准确率
y_pred = bagging.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Bagging模型的准确率: {accuracy:.2f}')


## Boosting

Boosting是一种通过逐步训练多个弱模型，每个模型都试图纠正前一个模型的错误，从而得到一个强模型的方法。常见的Boosting算法包括AdaBoost、Gradient Boosting和XGBoost等。

In [None]:
from sklearn.ensemble import AdaBoostClassifier

# 拟合AdaBoost模型
adaboost = AdaBoostClassifier(n_estimators=100, algorithm='SAMME', random_state=42)
adaboost.fit(X_train, y_train)

# 预测并计算准确率
y_pred_adaboost = adaboost.predict(X_test)
accuracy_adaboost = accuracy_score(y_test, y_pred_adaboost)
print(f'AdaBoost模型的准确率: {accuracy_adaboost:.2f}')

## Stacking

Stacking是一种通过训练多个不同类型的基模型，并使用这些基模型的预测结果作为输入，训练一个元模型，从而得到最终预测结果的方法。Stacking可以结合不同模型的优点，提高预测性能。

In [None]:
from sklearn.ensemble import StackingClassifier
from sklearn.linear_model import LogisticRegression

# 定义基模型
estimators = [
    ('dt', DecisionTreeClassifier()),
    ('ab', AdaBoostClassifier(algorithm='SAMME'))
]

# 定义元模型
stacking = StackingClassifier(estimators=estimators, final_estimator=LogisticRegression())

# 拟合Stacking模型
stacking.fit(X_train, y_train)

# 预测并计算准确率
y_pred = stacking.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Stacking模型的准确率: {accuracy:.2f}')


通过以上示例，我们了解了Bagging、Boosting和Stacking的基本原理和应用。在实际应用中，选择合适的集成学习方法可以显著提高模型的性能和鲁棒性。