## 부스팅(Boosting) 모델

 뛰어난 예측 성능으로 머신러닝 분야에서 가장 인기 있고 강력한 알고리즘 중 하나

(LightGBM, XGBoost, CatBoost) 모두 **트리 기반 모델**

 **결정 트리(Decision Tree)** 를 기본 예측기(base estimator)로 사용하며, 이를 순차적으로 결합하여 강력한 예측 모델을 만드는 **부스팅(Boosting)** 계열의 앙상블 학습(Ensemble Learning) 알고리즘.

### 트리 기반 모델의 공통점

1. **기본 구조:** 모두 데이터를 분할하고 질문을 던지며 내려가는 **결정 트리** 형태를 가진다.

2. **부스팅 (Boosting):** 하나의 강력한 트리 대신, **약한 여러 개의 트리**를 순차적으로 만들어 이전 트리가 잘못 예측한 부분(오류 또는 잔차)을 다음 트리가 보완하도록 학습.
3. **비선형성:** 선형 모델로는 찾기 어려운 복잡한 **비선형 관계**를 데이터에서 효과적으로 학습.

###  핵심 차이점:
세 모델의 차이는  '트리를 어떻게 만들고(성장시키고)', '오류를 어떻게 보정하는지'에 있다.

| 모델 | 트리를 만드는 방식 | 오류 보정 방식 |
| --- | --- | --- |
| **LightGBM** | Leaf-wise (오류가 큰 리프 중심) | GOSS, EFB (효율성 강조) |
| **XGBoost** | Level-wise (수준별, 균형 강조) | 2차 미분(더 정밀함), 강력한 규제 |
| **CatBoost** | Oblivious Trees (균일 구조) | Ordered Target Encoding (범주형 처리 및 편향 방지) |


---

| 모델 | 특징 | 주요 장점 |
| --- | --- | --- |
| **LightGBM** | Microsoft 개발. **Leaf-wise** 성장 방식 사용. | **매우 빠른 학습 속도**, 적은 메모리 사용, 우수한 성능. 대규모 데이터셋에 최적화. |
| **XGBoost** | C. Chen 개발. **Level-wise** 성장 방식 사용. | **압도적인 안정성과 정확도**. 하이퍼파라미터가 직관적이고 튜닝하기 쉬움. |
| **CatBoost** | Yandex 개발. **Categorical Features** 처리 특화. | **범주형 변수 자동 처리**, 예측 단계에서 빠른 속도, 파라미터 튜닝이 비교적 적음. |

세 모델 모두 트리 기반이지만, 각각의 고유한 최적화 전략 덕분에 속도, 정확도, 특정 데이터 타입 처리 능력 등에서 차이를 보인다.

---

### 1.  LightGBM (Light Gradient Boosting Machine)

가장 일반적으로 추천하는 모델이며, 특히 **대규모 데이터셋**을 다루거나 **학습 속도**가 중요할 때 최고의 선택.

* **주요 특징:**
* **Leaf-wise Growth (리프 중심 성장)**: 손실 감소를 최대화하는 리프 노드부터 분할하여 균형 잡힌 트리보다 **빠르게** 수렴합니다.
* **컬럼 샘플링 (GOSS)**: 그라디언트(Gradient)가 큰 데이터 샘플을 우선적으로 학습에 사용하여 효율을 극대화합니다.


* **추천 상황:**
* 데이터의 크기가 크고 학습 시간이 중요할 때.
* 최소한의 메모리 사용으로 최고의 성능을 내야 할 때.



### 2.  XGBoost (Extreme Gradient Boosting)

수많은 데이터 경진대회(Kaggle)에서 검증된 모델로, **안정성과 정확성**을 최우선으로 고려할 때 탁월.

* **주요 특징:**
* **Level-wise Growth (수준별 성장)**: 깊이 순서대로 균형 잡힌 트리를 만들며, 병렬 처리에 유리.
* **강력한 규제(Regularization)**: L1, L2 규제가 내장되어 있어 과적합을 방지하는 능력이 뛰어남.


* **추천 상황:**
* **최고의 예측 정확도**를 달성해야 할 때.
* 모델의 안정성과 신뢰성이 중요하며, 계산 자원이 충분할 때.



### 3.  CatBoost (Categorical Boosting)

범주형 특징(Categorical Features)이 많은 데이터셋에 특화된 모델.

* **주요 특징:**
* **범주형 변수 자동 처리:** 별도의 원-핫 인코딩(One-Hot Encoding)이나 레이블 인코딩 없이 내부적으로 **순서형 타겟 인코딩(Ordered Target Encoding)** 을 사용하여 처리.
* **편향되지 않은 그라디언트:** 예측 시프트(Prediction Shift)를 방지하여 모델 일반화 성능이 좋다.


* **추천 상황:**
* 데이터셋에 **문자열 형태의 범주형 변수**가 많을 때.
* 전처리 과정을 최소화하고 싶을 때.


---

###  가이드

1. **LightGBM**: 대부분의 경우 LightGBM이 가장 빠르고 효율적인 성능을 제공하므로, **LightGBM**으로 시작하는 것을 추천.
2. **정확도 극대화**: LightGBM의 성능이 만족스럽지 않다면, **XGBoost**로 전환하여 더 깊은 튜닝을 시도해 볼 수 있다.
3. **범주형 변수**: 데이터에 범주형 변수가 많다면, **CatBoost**가 전처리 없이 강력한 성능을 보여줄 수 있다.




### 1.  LightGBM: 

LightGBM은 **가장 효율적으로, 가장 빠르게** 성적을 올리는 것을 목표로 한다(마치 벼락치기공부하는것).

* **트리를 만드는 방식 (Leaf-wise):**
* **비유:** 시험 문제를 풀 때, **가장 점수가 많이 깎인(오류가 큰) 문제만 골라서** 그것만 집중적으로 다시 푼다.
* **결과:** 모든 문제를 골고루 풀지 않아도 되니 **학습 속도가 엄청나게 빠르다.** 

* **오류 보정 방식 (GOSS, EFB):**
* **GOSS 란:** 이미 잘 맞춘 쉬운 문제들은 건너뛰고, **헷갈리거나 완전히 틀린 어려운 문제들(오류가 큰 데이터)** 에만 힘을 쏟는다.

* **EFB 란:** 서로 겹치지 않는 비슷한 종류의 문제들(특징들)을 **하나의 묶음**으로 만들어서 한 번에 처리합. (문제를 푸는 시간을 확 줄인다.)


### 2.  XGBoost: 

'기본에 충실한 모범생'XGBoost는 **가장 정확하고 안전하게** 만점을 받는 것을 목표로 한다.

* **트리를 만드는 방식 (Level-wise):**
* **비유:** 공부할 때 **'단원 순서대로', '기초부터 심화까지'** 균형 있게 진도를 나간다.
* **결과:** 나무(트리)가 한쪽으로 치우치지 않고 **안정적이고 단단하게** 성장. (팀원들이 동시에 병렬로 문제를 풀 수 있어 효율도 좋다.)


* **오류 보정 방식 (2차 미분, 강력한 규제):**

* **2차 미분 비유:** 틀린 문제의 **'원인과 오답률'**을 단순하게 계산하는 것이 아니라, **가장 정밀한 수학 공식**을 동원해 분석. 그래서 다음 풀이에 적용하는 보정 값이 아주 정확.
* **규제 비유:** "혹시 이 문제가 너무 특이한 예외 아닐까?" 하고 항상 의심하며, 특이한 문제 하나에 너무 집착하지 않도록 **강력한 브레이크(규제)**를 걸어 과도한 암기를 막는다.


### 3.  CatBoost: 

'까다로운 문제 전문가'CatBoost는 **글자나 이름 같은 까다로운 정보(범주형 데이터)**를 가장 잘 다루는 것을 목표로.

* **트리를 만드는 방식 (Oblivious Trees):**
* **비유:** 팀원 모두 **똑같은 규칙(분할 기준)**을 적용해서 트리를 만든다.
* **결과:** 트리가 단순하고 예측이 **매우 빨라집니다.**


* **오류 보정 방식 (Ordered Target Encoding):**

* **비유:** **'이름표'가 붙은 문제들('서울', '부산', '대구' 등)**을 숫자로 바꿔서 풀어야 할 때, 단순한 방식으로 바꾸면 정보가 섞여서 오답이 나온다.

* CatBoost는 **순서대로** 데이터를 활용하여 '이름표'를 숫자로 변환할 때 **부정행위(데이터 누수/편향)** 가 일어나지 않도록 막는다.
* **결과:** 범주형 변수(글자로 된 정보)를 미리 전처리할 필요 없이 **알아서 가장 똑똑하게 처리** 한다.

---

**요약:**

* **LightGBM:** 빨리, 효율적으로! (대규모 데이터)
* **XGBoost:** 정확하고, 안정적으로! (최고 성능이 필요할 때)
* **CatBoost:** 까다로운 글자 데이터도 문제없어! (범주형 데이터가 많을 때)

In [1]:
%pip install lightgbm

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
%pip install xgboost

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
%pip install catboost

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


## lgbm

In [None]:
# import lightgbm as lgb
from lightgbm import LGBMClassifier
from sklearn.datasets import load_iris, load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [5]:
iris = load_iris( as_frame=True)
x_data = iris['data']
y_data = iris['target']

In [8]:
x_train, x_test, y_train, y_test = train_test_split(x_data,y_data,
                                    test_size=0.2, random_state=42)

In [10]:
model_lgb = LGBMClassifier()
model_lgb.fit( x_train, y_train)

[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000437 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 91
[LightGBM] [Info] Number of data points in the train set: 120, number of used features: 4
[LightGBM] [Info] Start training from score -1.098612
[LightGBM] [Info] Start training from score -1.073920
[LightGBM] [Info] Start training from score -1.123930


0,1,2
,boosting_type,'gbdt'
,num_leaves,31
,max_depth,-1
,learning_rate,0.1
,n_estimators,100
,subsample_for_bin,200000
,objective,
,class_weight,
,min_split_gain,0.0
,min_child_weight,0.001


In [11]:
pred = model_lgb.predict(x_test)
accuracy_score( y_test, pred)

1.0

## xgboost

In [12]:
from xgboost import XGBClassifier

In [13]:
model_xgb = XGBClassifier(rndom_state=42)
model_xgb.fit( x_train, y_train)

0,1,2
,objective,'multi:softprob'
,base_score,
,booster,
,callbacks,
,colsample_bylevel,
,colsample_bynode,
,colsample_bytree,
,device,
,early_stopping_rounds,
,enable_categorical,False


In [14]:
pred = model_xgb.predict( x_test )
accuracy_score( y_test, pred)

1.0

## catboost

In [15]:
from catboost import CatBoostClassifier

In [17]:
model_cat = CatBoostClassifier(random_state=42, verbose=0)
model_cat.fit( x_data, y_data)

<catboost.core.CatBoostClassifier at 0x2cf69ee7430>

In [18]:
model_cat.fit( x_train, y_train)

<catboost.core.CatBoostClassifier at 0x2cf69ee7430>

In [19]:
pred = model_cat.predict( x_test)
accuracy_score( y_test, pred)

1.0

- lightgbm
- cancer 데이터를 이용하여 train, test  
- test 정확도 확인