# Ensemble Learning

앙상블 기법은 **여러 개의 모델을 결합**하여 더 나은 예측 성능을 얻는 머신러닝 기법이다. 이 방법은 각 모델의 단점을 보완하고, 결과의 안정성을 높이는 데 유용하다. 

1. 배깅(Bagging):

    여러 개의 학습 데이터를 랜덤하게 선택하여 각각의 모델을 학습시킨 후, 결과를 평균내거나 다수결 투표로 결합합니다.

    예: 랜덤 포레스트(Random Forest)

2. 부스팅(Boosting):

    약한 학습기(weak learner)를 순차적으로 학습시키며, 이전 모델의 오차를 줄이는 방향으로 새로운 모델을 추가합니다.

    예: 에이다부스트(AdaBoost), 그라디언트 부스팅 머신(GBM), XGBoost

3. 스태킹(Stacking):

    여러 개의 학습 모델을 결합하여 새로운 메타 모델(meta-model)을 학습시킵니다.

    각 모델의 예측 결과를 메타 모델의 입력으로 사용합니다.

4. 보팅(Voting):

    여러 개의 모델을 각각 학습시키고, 결과를 다수결 투표 방식으로 결합합니다.

    예: 소프트 보팅(Soft Voting), 하드 보팅(Hard Voting)

## 랜덤 포레스트(Random Forest)
랜덤 포레스트(Random Forest)는 배깅(Bagging) 기법을 사용한 앙상블 학습 방법의 하나로, 여러 개의 결정 트리(Decision Tree)를 결합하여 예측 성능을 향상시키는 알고리즘이다. 

- 동작 과정:
    1. 데이터 샘플링:
    
        원본 학습 데이터를 여러 개의 부분 집합으로 랜덤하게 샘플링한다. 이때 각 샘플은 원본 데이터와 동일한 크기를 가지며, 중복을 허용하는 방식으로 샘플링된다(부트스트래핑).

    2. 모델 학습:

        각 부분 집합마다 하나의 결정 트리를 학습시킴. 이때 트리의 각 노드에서 분할할 때, 전체 특징(feature) 중 일부를 랜덤하게 선택하여 최적의 분할을 찾음. 이를 통해 트리의 다양성을 높인다.

    3. 예측 결합:

        학습된 여러 개의 결정 트리로 새로운 데이터를 예측할 때, 각 트리의 예측 결과를 결합하여 최종 결과를 도출. 분류 문제에서는 **다수결 투표** 방식으로, 회귀 문제에서는 평균을 내는 방식으로 결합.

- 랜덤 포레스트의 주요 장점:

    1. 높은 예측 성능: 여러 개의 모델을 결합하므로 개별 결정 트리보다 일반화 성능이 뛰어나다.

    2. 과적합 방지: 트리의 다양성과 모델의 결합을 통해 과적합(overfitting)을 방지한다. 랜덤하게 선택한 샘플과 특성(RandomForestClassifier는 root N개의 특성, RandomForestRegressor은 전체 특성 사용)사용.

    3. 특성 중요도 측정: 각 특성의 중요도를 평가할 수 있어 해석 가능성이 높다.

하지만 랜덤 포레스트는 많은 트리를 생성하므로 계산 비용이 높음. 따라서 대규모 데이터셋에서는 계산 효율성을 고려해야 한다.

## 부트스트랩(Bootstrap)
부트스트랩은 통계학 및 머신러닝에서 데이터의 신뢰성을 평가하기 위해 사용되는 기법이다. 원본 데이터를 여러 번 샘플링하여 새로운 데이터셋을 만들고, 이를 통해 통계적 추정치를 계산하는 과정을 거친다.

- 부트스트랩의 주요 단계
    1. 데이터 샘플링:

    원본 데이터에서 **중복을 허용하여(복원추출)** 랜덤하게 샘플을 추출한다. 각 샘플링 과정에서 원본 데이터의 크기와 동일한 크기의 새로운 데이터셋을 만든다.

    2. 모델 학습 및 평가:

    각 샘플링된 데이터셋을 사용하여 모델을 학습시키고, 성능을 평가한다. 이 과정을 여러 번 반복하여 결과를 수집한다.

    3. 결과 분석:

    여러 번의 반복을 통해 얻어진 성능 평가 결과를 분석하여 최종적인 통계적 추정치를 계산한다. 이를 통해 모델의 신뢰성과 안정성을 평가할 수 있다.

- 장점
    1. 신뢰성 향상: 부트스트랩을 통해 모델의 성능 평가가 더욱 신뢰성 있게 이루어진다.

    2. 데이터 활용 극대화: 한정된 데이터로도 다양한 샘플을 생성하여 분석할 수 있다.

부트스트랩 방법은 머신러닝 모델의 성능 평가뿐만 아니라, 통계적 가설 검정 및 변수 중요도 평가 등 다양한 분야에서 활용된다.

In [17]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

wine = pd.read_csv('http://bit.ly/wine_csv_data')
data = wine[['alcohol','sugar','pH']].to_numpy()
target = wine['class'].to_numpy()

train_input, test_input, train_target, test_target = train_test_split(data, target, test_size = 0.2, random_state=42)

In [23]:
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(n_jobs= -1, random_state=42)
scores = cross_validate(rf, train_input, train_target, return_train_score= True, n_jobs=-1)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9973541965122431 0.8905151032797809


In [25]:
rf.fit(train_input, train_target)
print(rf.feature_importances_)

[0.23167441 0.50039841 0.26792718]


In [27]:
# 부스트 트랩 샘플에 포함되지 않고 남는 샘플을 이용해 부스트트랩샘플로 훈련한 결정트리를 평가한다.
# oob(out of bag)_score = True로 설정
rf = RandomForestClassifier(oob_score=True, n_jobs= -1, random_state=42)
rf.fit(train_input, train_target)
print(rf.oob_score_)

0.8934000384837406


## 엑스트라 트리(Extremely Randomized Trees)
엑스트라 트리, 또는 엑스트림 랜덤 트리(Extremely Randomized Trees)는 랜덤 포레스트와 유사한 앙상블 학습 방법 중 하나로, 여러 개의 결정 트리를 결합하여 예측 성능을 높이는 기법이다. 엑스트라 트리는 트리의 다양성을 극대화하여 과적합을 방지하고, 예측 성능을 향상시키는 것을 목표로 한다.

- 엑스트라 트리의 주요 특징
    1. 완전한 무작위성:

        각 트리의 각 분할 시점에서 무작위로 선택된 특성을 사용하여 분할을 수행한다. 이로 인해 트리의 다양성이 극대화된다.
    
    2. 부트스트랩 샘플링 없음:

        원본 데이터에서 부트스트랩 샘플링을 사용하지 않고, **전체 데이터셋**을 사용하여 각 트리를 학습시킨다. 이는 **랜덤 포레스트와의 주요 차이점** 중 하나이다.

    3. 결정 경계의 다양성:

        각 트리의 **분할 기준을 무작위**로 선택하므로, 트리의 결정 경계가 매우 다양해진다. 이는 모델의 안정성을 높이는 데 기여한다.

- 장점
    1. 높은 예측 성능: 트리의 다양성을 극대화함으로써 예측 성능이 향상된다.

    2. 과적합 방지: 트리의 무작위성을 통해 과적합을 방지할 수 있다.

    3. 빠른 학습 속도: 부트스트랩 샘플링을 사용하지 않으므로 학습 속도가 빠르다.

엑스트라 트리는 일반적으로 랜덤 포레스트와 함께 사용되며, 두 방법의 장점을 결합하여 더 높은 예측 성능을 얻을 수 있다.

In [38]:
from sklearn.ensemble import ExtraTreesClassifier

et = ExtraTreesClassifier(n_jobs= -1, random_state=42)
scores = cross_validate(et, train_input, train_target, return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']),np.mean(scores['test_score']))

0.9974503966084433 0.8887848893166506


In [42]:
et.fit(train_input, train_target)
print(et.feature_importances_)

[0.20183568 0.52242907 0.27573525]


## 그래디언트 부스팅(Gradient Boosting)
그래디언트 부스팅은 여러 개의 약한 학습기(weak learner)를 결합하여 강한 예측 모델을 만드는 앙상블 기법이다. 주로 결정 트리(decision tree)를 약한 학습기로 사용하며, 이전 모델의 오차를 줄이는 방향으로 새로운 모델을 추가하는 방식으로 동작한다. 그래디언트 부스팅의 주요 단계는 다음과 같다.

- 주요 단계
    1. 초기 모델 학습:

        첫 번째 약한 학습기를 사용하여 초기 모델을 학습시킨다. 이 모델은 보통 단순한 결정 트리이다.

    2. 잔여 오차 계산:

        초기 모델의 예측값과 실제값 사이의 오차(잔여)를 계산한다.

    3. 잔여 오차를 예측하는 모델 학습:

        두 번째 약한 학습기를 사용하여 앞서 계산한 잔여 오차를 예측하는 모델을 학습시킨다. 이 모델은 첫 번째 모델의 예측을 보완하는 역할을 한다.

    4. 모델 업데이트:

        새로운 모델을 기존 모델에 더하여 업데이트한다. 이를 통해 전체 모델의 예측 성능을 향상시킨다.

    5. 반복:

        위 과정을 여러 번 반복하여 모델을 계속해서 개선한다. 각 반복 단계에서는 이전 모델의 오차를 줄이는 방향으로 새로운 모델을 추가한다.

- 장점
    높은 예측 성능: 여러 개의 약한 학습기를 결합하여 강한 예측 모델을 만들기 때문에 높은 예측 성능을 가진다.

    유연성: 분류, 회귀 등 다양한 문제에 적용할 수 있다.

    과적합 방지: 적절한 정규화 기법을 사용하면 과적합을 방지할 수 있다.

- 단점
    학습 시간: 많은 반복 과정을 거치기 때문에 학습 시간이 길어질 수 있다.

    복잡성: 모델이 복잡해지면서 해석이 어려워질 수 있다.

그래디언트 부스팅은 앙상블 기법 중에서도 매우 강력한 예측 성능을 보여주며, 실제로 많은 경진대회와 실무에서 널리 사용되고 있다.

In [49]:
from sklearn.ensemble import GradientBoostingClassifier

gb = GradientBoostingClassifier(random_state=42)
scores = cross_validate(gb, train_input, train_target, return_train_score= True, n_jobs=-1)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

#GradientBoosting은 과대적합에 강하다

0.8881086892152563 0.8720430147331015


In [51]:
gb = GradientBoostingClassifier(n_estimators=500, learning_rate=0.2, random_state=42)
scores = cross_validate(gb, train_input, train_target, return_train_score= True, n_jobs=-1)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9464595437171814 0.8780082549788999


In [53]:
gb.fit(train_input, train_target)
print(gb.feature_importances_)

[0.15882696 0.6799705  0.16120254]


## 히스토그램 기반 그레디언트 부스팅

히스토그램 기반 그래디언트 부스팅(Histogram-based Gradient Boosting)은 입력 특성을 여러 구간으로 나누어 데이터를 히스토그램으로 변환하여 학습 및 예측에 활용하는 방식이다. 이 방법은 특히 범주형 변수를 처리하는 데 유리하며, 빠르고 효율적인 학습을 가능하게 한다.

주요 특징

    - 입력 특성 구간화: 입력 특성을 256개의 구간으로 나누고, 이를 통해 노드를 분할할 때 최적의 분할을 빠르게 찾는다.

    - 누락된 값 처리: 256개의 구간 중 하나를 떼어 놓고, 누락된 값을 위해 사용함. 이를 통해 누락된 값 전처리 없이도 학습이 가능합니다.

In [63]:
from sklearn.experimental import enable_hist_gradient_boosting
from sklearn.ensemble import HistGradientBoostingClassifier

hgb = HistGradientBoostingClassifier(random_state=42)
scores = cross_validate(hgb, train_input, train_target, return_train_score=True)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9321723946453317 0.8801241948619236


In [67]:
from sklearn.inspection import permutation_importance

hgb.fit(train_input, train_target)
result = permutation_importance(hgb, train_input, train_target, n_repeats=10, random_state= 42, n_jobs=-1)
print(result.importances_mean)

[0.08876275 0.23438522 0.08027708]


permutation_importance() 함수가 변화하는 개겣는 반복하여 얻은 특성 중요도(importances), 평균(importances_mean), 표준편차(importances_std)를 담고있다.

In [72]:
result = permutation_importance(hgb, test_input, test_target, n_repeats=10, random_state=42, n_jobs=-1)
print(result.importances_mean)

[0.05969231 0.20238462 0.049     ]


In [76]:
hgb.score(test_input, test_target)

0.8723076923076923

In [84]:
# 히스토그램 기반 그레디언트 부스팅 **회귀**
# XGBoost
import pip
pip.main(['install', 'xgboost'])

Please see https://github.com/pypa/pip/issues/5599 for advice on fixing the underlying issue.
To avoid this problem you can invoke Python with '-m pip' instead of running pip directly.


Output()

0

In [93]:
from xgboost import XGBClassifier

xgb = XGBClassifier(tree_method='hist', random_state=42)
scores = cross_validate(xgb, train_input, train_target, return_train_score=True)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9558403027491312 0.8782000074035686


In [99]:
# 히스토그램 기반 그레디언트 부스팅 **회귀**
# LightGBM

from lightgbm import LGBMClassifier
lgb = LGBMClassifier(random_state=42)
scores = cross_validate(lgb, train_input, train_target, return_train_score= True, n_jobs=-1)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.935828414851749 0.8801251203079884
