#### 【 앙상블 – GBM (Gradient Boosting Machine) 】

- 이전 모델의 예측 오차를 손실함수의 기울기(gradient)로 계산
-> 다음 모델 학습하는 알고리즘

- 손실함수를 최소화하는 경사하강법
    * 각 단계에서 손실함수의 기울기(잔차)를 예측하는 결정트리를 하나씩 추가

- 회귀 / 분류 모두 사용 가능
- 미분 가능한 손실함수를 단계적으로 최소화하는 알고리즘 => 예: MSE, Log-loss, Huber loss 등
- 각 단계에서 손실함수의 음의 기울기(잔차, residual)를 새로운 모델이 학습
    * 예측이 많이 틀린 샘플 → 큰 잔차(gradient)
    * 예측이 적게 틀린 샘플 → 작은 잔차

[1] 분류 예제<hr>


In [1]:
## 모듈 로딩
from xgboost import XGBClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

## 1. 데이터 생성
X, y = make_classification(
    n_samples=1000,
    n_features=10,
    n_informative=5,
    random_state=42
)

## 2. 학습 / 테스트 분리
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

## 3. 모델 생성 (CPU)
model = XGBClassifier(
    n_estimators=100,
    max_depth=3,
    learning_rate=0.1,
    tree_method="hist",   # CPU 히스토그램 기반
    random_state=42
)

## 4. 학습
model.fit(X_train, y_train)

## 5. 예측 및 평가
y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)

print(f"Accuracy: {acc:.4f}")


Accuracy: 0.9550


[2] 회귀 예제 <hr>

In [2]:
## 모듈 로딩
from xgboost import XGBRegressor
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

## 1. 데이터 생성
X, y = make_regression(
    n_samples=1000,
    n_features=10,
    noise=10.0,
    random_state=42
)

## 2. 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

## 3. 모델 생성 (CPU)
model = XGBRegressor(
    n_estimators=200,
    max_depth=4,
    learning_rate=0.05,
    tree_method="hist",   # CPU
    random_state=42
)

## 4. 학습
model.fit(X_train, y_train)

## 5. 예측 및 평가
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)

print(f"MSE: {mse:.2f}")


MSE: 1344.70
