# Bagging

Bagging不仅仅集成模型最后的预测结果，同时采用一定策略来影响基模型训练，保证基模型可以服从一定的假设。

Bagging的核心在于**自助采样（bootstrap）**这一概念，即有放回的从数据集中进行采样。首先我们随机取出一个样本放入采样集合中，再把这个样本放回初始数据集，重复K次采样，最终我们可以获得一个大小为K的样本集合。同样的方法， 我们可以采样出T个含K个样本的采样集合，然后基于每个采样集合训练出一个基学习器，再将这些基学习器进行结合，这就是Bagging的基本流程。

## 举例

In [1]:
# 创建一个含有1000个样本20维特征的随机分类数据集
from sklearn.datasets import make_classification
x,y=make_classification(n_samples=1000,n_features=20,n_informative=15,n_redundant=5,random_state=5)
print(x.shape,y.shape)

(1000, 20) (1000,)


In [1]:
from numpy import mean,std
from sklearn.datasets import make_classification
from sklearn.model_selection import cross_val_score,RepeatedStratifiedKFold
from sklearn.ensemble import BaggingClassifier

x, y = make_classification(n_samples=1000, n_features=20, n_informative=15,n_redundant=5, random_state=5)
model=BaggingClassifier()
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
n_scores = cross_val_score(model, x, y, scoring='accuracy', cv=cv, n_jobs=-1, error_score='raise')
print('Accuracy: %.3f (%.3f)' % (mean(n_scores), std(n_scores)))

Accuracy: 0.855 (0.035)


Bagging算法（英语：Bootstrapaggregating，引导聚集算法），又称装袋算法，是机器学习领域的一种团体学习算法。最初由Leo Breiman于1996年提出。Bagging算法可与其他分类、回归算法结合，提高其准确率、稳定性的同时，通过降低结果的方差，避免过拟合的发生。

给定一个大小为n的训练集D，Bagging算法从中均匀、有放回地（即使用自助抽样法）选出m个大小为n'的子集Di，作为新的训练集。在这m个训练集上使用分类、回归等算法，则可得到m个模型，再通过取平均值、取多数票等方法，即可得到Bagging的结果。



1.Bagging通过降低基分类器的方差，改善了泛化误差。

2.其性能依赖于基分类器的稳定性；如果基分类器不稳定，bagging有助于降低训练数据的随机波动导致的误差；如果稳定，则集成分类器的误差主要由基分类器的偏倚引起。

3.由于每个样本被选中的概率相同，因此bagging并不侧重于训练数据集中的任何特定实例。