In [1]:
# 여러 개의 모델(weak learners)을 결합해 더 강력한 예측 성능을 얻는 방법

In [None]:
# Bagging
# 단일 모델로 동작할 수 있으나 일반화 성능이 떨어짐
# Bootstrap은 Aggregation할 모델들의 다양성을 보이게 함
# 불안정한 결과를 보이는 모델의 분산을 줄여 일반화 성능을 높임
# Aggregation 모델의 수가 늘어나면 분산이 줄어들어 과적합 현상을 완화

In [2]:
# Boosting
# 경사부스팅의 기반 모델은 분류와 회귀 모두 상관 없이 회귀 모델을 사용
# 부스팅 모델을 구성하는 모델의 수를 늘리면 평향이 커진다.
# 부스팅은 순차적으로 모델을 결합, 병렬화가 어려움
# Gradient Boost는 단계별로 손실 함수를 줄여 나가기 때문에 병렬 처리가 불가능하다.
# AdaBoost는 다음 라운드의 모델을 학습할 때 오차가 큰 데이터 포인트의 비중을 높이고, 손실을 최소화하는 모델의 가중치를 구한다.
# 틀린 것에 가중치를 주는 방식
# 각 예측기가 선형 분류기였으면 결합된 최종 모델도 선형이다.
# 중간에 weak learner를 써도 마지막에 비선형 결과가 나올 수 있다.


In [None]:
# 과적합 해소를 위해 Base Estimator를 Weak Learner로 사용한다. (?)

In [None]:
# 그래디언트 부스팅
# 모든 학생의 실수 패턴을 분석해서 더 집중해서 가르치기
# 이전 학습기의 잔차(residual)를 새로운 학습기의 목표값으로 사용 
# 잔차에 대해 예측하는 모델을 추가하여 앙상블 모델을 구성 
# 잔차는 loss function의 negative gradient와 같다. (잔차 = 실제값 - 예측값 : 자체가 gradient)
# 오차를 줄이기 위해 잔차(residual)를 모델링하는 방식을 경사 하강법(gradient descent)으로 일반화한 방식 (잔차를 학습)

# 손실 함수가 없으면 안됨.
# 손실 함수의 음의 그래디언트(negative gradient)를 잔차로 사용하여 모델을 학습

# 오차에 대해 모델을 만들어서 추가로 앙상블 모델을 구성한다.
# LightGBM은 그래디언드 부스팅을 이용한 알고리즘.

In [None]:
# AdaBoost
# 문제를 많이 틀린 학생에게 더 집중해서 가르치기
# 이전 학습기가 잘못 분류한 샘플에 가중치를 부여, 잔차를 직접 학습하지는 않음.
# 다음 모델은 이전 모델이 틀린 샘플에 가중치를 준다.
# weak learner는 랜덤 분류기보다 약간 더 성능이 좋아야 한다.
# 분류 모델들의 confidence level에 따라 가중합하여 최종 결정을 내린다. (신뢰도에 따라 가중치를 줘서 최종 예측)
# SVM을 내부 모델로 사용할 수 있다. (일반적으로는 Decision Stump = 깊이 1짜리 트리를 사용)

In [None]:
# XGBoost
# XGBoost는 Gradient Boosting의 개선 버전
# Gradient Boost에 비해 규제(L1, L2)가 가능하고 병렬처리도 가능하여 속도가 빠르다.
# 잔차 예측 + 2차 도함수(헤시안) 사용 (정확도↑)

In [None]:
# Stacking
# 여러 개의 서로 다른 모델(기본 모델들, base learners)의 예측 결과를 
# 또 다른 모델(메타 모델, meta-learner)에 입력으로 넣어 최종 예측을 수행하는 기법
# 잔차를 학습하지는 않음.

# 여러 개의 기본 학습기(base learners)가 같은 훈련 데이터를 바탕으로 개별 예측을 수행함.
# 각 base learner의 예측값을 모아서 새로운 데이터셋(2차 특징)을 생성.
# 이 데이터를 이용해 메타 학습기(meta learner)를 학습시키고, 최종 예측은 이 메타 모델이 수행.

훈련 데이터
   ↓
[Model A]  → 
[Model B]  →  → 예측값 → 메타 모델 → 최종 예측
[Model C]  →


# 과적합 방지를 위해 base 모델의 예측값은 반드시 훈련 데이터가 아닌 검증 데이터에서 생성해야 함 (즉, Out-of-Fold 예측).
# 메타 모델이 base 모델의 잘못된 학습을 과대 평가하지 않도록 주의해야 함.
# 계산 비용이 큼 (여러 모델 학습 필요).

# K-fold stacking: 훈련 데이터를 K개의 폴드로 나누어, 각 폴드에 대해 예측값을 생성.
# Blending: 훈련 데이터를 훈련/홀드아웃 세트로 나누고, 홀드아웃 예측값으로 메타 모델을 학습.