# What is Bagging?


* 단순히 같은 데이터셋으로 만드는 Classifier는 의미가 없다(e.g. 같은 Dataset으로 만든 여러개의 Tree를 생각해보면 매우 비슷하게 만들어질 것으로 성능에 영향을 주지 않는다)
* 우리가 보고 있는 데이터는 매우 큰 데이터의 일부에 지나지 않는다
* 마찬가지로 우리가 갖고 있는 샘플 자체를 하나의 모집단이라고 생각하고 이 모집단을 샘플링해서 모델을 만든다면 매우 Robust한 모델을 만들수 있다

### TL;DR
> 다양한 Sampling Dataset으로 다양한 Classifier를 만들어보자!

In [2]:
import warnings
warnings.filterwarnings('ignore')
import numpy as np


from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier

In [3]:
X = np.load("./tatanic_X_train.npy")
y = np.load("./tatanic_y_train.npy")

## Modeling

In [4]:
clf2 = DecisionTreeClassifier(random_state=1)
eclf = BaggingClassifier(clf2, oob_score=True)

## Evaluation

In [22]:
from sklearn.model_selection import cross_val_score
cross_val_score(eclf, X, y, cv=10).mean()

0.8009448416751788

## Parameter Search

In [16]:
params = {
    "n_estimators": [10, 20, 30, 40, 50, 100, 200],
    "max_samples": [0.5, 0.5, 0.5, 0.5, 0.5, 0.6, 0.7]
}

In [17]:
from sklearn.model_selection import GridSearchCV
grid = GridSearchCV(estimator=eclf, param_grid=params, cv=5, n_jobs=-1)
grid = grid.fit(X, y)

In [8]:
# before Parameter Search
grid.best_score_

0.8346456692913385

In [18]:
# after Parameter Search
grid.best_score_

0.8402699662542182

In [19]:
grid.best_params_

{'max_samples': 0.5, 'n_estimators': 40}

In [20]:
grid.best_estimator_.oob_score_

0.8222722159730034

## 해석
* Grid_Search만으로 성능이 40%나 더 좋아졌다...
* 마다할 이유가 있겠는가...!