# Bagging、Boosting、Random Forest
代码实现

In [10]:
# 引入数据集及相关方法库
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier, AdaBoostClassifier

In [8]:
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
X.shape, y.shape, X_train.shape, X_test.shape, y_train.shape, y_test.shape

((150, 4), (150,), (105, 4), (45, 4), (105,), (45,))

## Bagging
使用的是DecisionTree classifier，estimator的数量等同于训练多少个base learner。   
- Bagging 会对训练集进行 10 次有放回抽样，每次抽取的数据都用于训练一棵树。
- 最终的预测结果是这 10 棵树的 多数投票（分类） 或 平均值（回归）。

### 举例说明
假设训练集有 100 条样本；  
你设置 n_estimators = 10，意味着你将训练 10 棵树；  
对于第 1 棵树，它会从原始 100 条样本中，随机采样 100 次，有放回；
- 所以有些样本可能会被重复抽中；
- 有些样本可能一次都没被抽中；  
   
重复以上过程，共构造 10 个不同的训练子集（每个包含 100 条样本，但来源不同）；然后分别训练 10 棵树，最后对预测结果做投票（分类）或平均（回归）。  
抽样是 `BaggingClassifier` 做的，不是 `DecisionTreeClassifier`。

In [12]:
# 1. Bagging
bagging_model = BaggingClassifier(
    estimator=DecisionTreeClassifier(),
    n_estimators=10, # 训练10个base learner
    random_state=42
)
bagging_model.fit(X_train, y_train)
bagging_preds = bagging_model.predict(X_test)
print("Bagging Accuracy:", accuracy_score(y_test, bagging_preds))

Bagging Accuracy: 1.0


## Random Forest

In [13]:
# 2. Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)
rf_preds = rf_model.predict(X_test)
print("Random Forest Accuracy:", accuracy_score(y_test, rf_preds))

Random Forest Accuracy: 1.0


## Boosting
AdaBoost in this case

In [15]:
# 3. Boosting - AdaBoost
boosting_model = AdaBoostClassifier(
    estimator=DecisionTreeClassifier(max_depth=1),
    n_estimators=50,
    learning_rate=1.0,
    random_state=42
)
boosting_model.fit(X_train, y_train)
boosting_preds = boosting_model.predict(X_test)
print("AdaBoost Accuracy:", accuracy_score(y_test, boosting_preds))

AdaBoost Accuracy: 1.0
