# XGBoost
- Boosting 중 대표적인 모델
- Gradient Boosting 알고리즘 고도화한 모델
- 빠른 속도, 높은 성능, 과적합 제어 기능을 제공하는 트리 기반 앙상블 모델
- XGBoost는 sklearn에 존재 x, 별도의 라이브러리 설치
- 대규모 데이터에서 자주 사용되는 모델
- 분류(XGBoostClassifier)와 회귀(XGBoostRegressor) 모두 가능

- 매개변수
    1. 학습 제어 관련
        - n_estimators
            - 기본값 : 100
            - 트리가 생성이 되는 개수 (모델의 개수)
            - 클수록 성능이 올라가지만 계산이 많아지면서 시간은 오래 걸린다.
        - learning_rate
            - 기본값 : 0.1
            - 각 단계별 학습율(기여도)
            - 작을수록 데이터의 단순화, 클수록 데이터 복잡
        - early_stopping_rounds
            - 'eval_set에서 지정된 평가 지표가 n 라운드 연속 개선되지 않으면 학습 중단
            - n_estimators의 값을 크게 잡고 이 값으로 최적의 라운드 검색
        - objective
            - 손실 함수 지정
            - 분류
                - "binary:logistic"
                    - 이진분류용(0/1)
                    - 출력 : 확률
                    - predict_probability와 연결
                - "binary:logiraw"
                    - 이진분류
                    - 출력 : 로직(log-odds)값 (확률 x)
                    - 확률 후의 처리를 직접 사용
                - "multi:softmax"
                    - 다중 클래스 분류
                - "multi:softrob"
                    - 다중 클래스 분류
                    - 출력 : 각 클래스별 확률 벡터
                    - 확률 기반 후처리/평가에 적합
            - 회귀
                - "reg:squarederror"
                    - 평균 제곱 오차(MSE) 기반
                    - 일반적인 연속형 데이터 예측 사용
                - "reg:absoluteerror"
                    - 평균 절대 오차(MAE) 기반
                    - 이상치 데이터에 대해서 유리
                - "reg:squaredlogerror"
                    - 로그 평균 제곱 오치(MSLE)기반
                    - 종속 데이터가 양수이고 값의 범위가 넓을 때 유리
                - "reg:pseudohubererror"
                    - pseudo-huber 손실 기반
                    - MSE와 MAE의 절충 -> 이상치에 완화된 영향
        - eval_metric
            - 기본값 : None
            - 검증시 사용할 평가 지표
            - 조기 종료(early_stopping_rounds)와 함께 사용
            - 분류 : "logloss", "auc", "error"
            - 회귀 : "RMSE", "MAE" 등
    2. 트리구조제어
        - max_depth
            - 기본값: 6
            - 트리의 최대 깊이를 지정
            - 값이 커질수록 복잡도 증가, 과적합 위험
            - 일반적으로 깊이는 3~10 사용
        - min_child_weight
            - 기본값 : 1.0
            - leaf node가 분할되기 위한 최소 가중치
            - 값이 커질수록 보수적인 분할(과적합 위험이 내려감)
            - 값이 작을수록 세밀한 분할
        - gamma
            - 기본값 : 0
            - 리프 추가 분할에 필요한 최소 손실 감소
            - 값이 커지면 불필요한 분할 억제 (과적합 방지)
        - max_leave
            - 기본값 : None
            - 리프 노드의 개수를 제한
            - 깊이 대신 리프의 개수로 복잡도를 제어
    3. 샘플링 / 다양성 제어
        - subsample
            - 기본값 : 1.0
            - 각 트리에서 학습에서 사용할 샘플의 비율
            - 일반적으로 0.6 ~ 0.9 사용 -> 과적합 위험도를 줄이고 다양성 증가
        - colsample_bytree
            - 기본값 : 1.0
            - 각 트리에서 학습에서 사용할 샘플의 피쳐의 비율
            - 일반적으로 0.5~0.9 -> 일반화
        - colsample_bylevel / colsample_
            - 기본값 : 1.0
            - 레벨 / 노드 단위에서 추가 특징 샘플링
            - 미세한 조정이 필요한 경우라면 사용
    4. 정규화 / 규제
        - reg_lambda
            - 기본값 : 1.0
            - L2 정규화(가중치 크기 억제)
            - 값이 커지면 안정적인 모델, 과적합 방지
        - reg_alpha
            - 기본값 : 0.0
            - L1 정규화(가중치 희소화)
            - 피쳐 선택 효과
            - 고차원 데이터(피쳐가 많은 데이터)에 유용
    5. 데이터 불균형 처리 (분류)
        - scale_pos_weight
            - 기본값 : 1
            - 양성 / 음성 클래스 불균형을 보정
            - neg/ pos 비율로 설정 (음성 90%, 양성 10% -> 9)
    6. 실행 최적화
        - tree_method
            - 기본값 : 'auto'
            - 'auto' : 자동 선택
            - 'hist' : 대규모 데이터 빠른 학습
            - 'gpu_hist': GPU 가속 -> 대규모/고차원 데이터에서 권장
        - max_bin
            - 기본값 = 256
            - 히스토그램의 버킷(구간)의 수 지정
            - 값이 커지면 정확도 올라가지만 메모리의 사용량과 시간은 증가
    - 하이퍼 파라미터 튜닝의 일반적인 순서
        1. 1순위
            - n_estimator(트리개수), learning_rate(기여도)
            - max_depth(최대 깊이)
            - min_child_weight(최소 가중치의 합)
        2. 2순위 (과적합, 일반화)
            - gamma(손실)
            - subsample(학습에 사용될 데이터의 비율)
            - colsample_bytree(학습에 사용될 피쳐의 비율)
        3. 3순위 (세밀한 조정 / 특수 케이스)
            - reg_lambda, reg_alpha(정규화)
            - scale_pos_weight(데이터 불균형)
            - tree_method, max_bin(속도, 메모리 최적화)
    - 속성
        - feature_importances_
            - 학습된 모델의 피쳐들의 중요도
        - best_score, best_iteration, best_ntree_rounds
            - 조기 종료 이용시에 사용 가능한 속성
            - 최적의 결과
        - evals_result
            - 학습 중 평가 지표 기록
        - classes_
            - 학습된 클래스의 목록
        - n_features_in_
            - 입력된 피쳐의 수
    - 메서드
        - fit(x, y)
            - 모델의 학습
            - 매개변수
                - eval_set
                    - 검증 데이터셋 지정
                    - 예 -> [(X_train, Y_train), (X_train, Y_test)]
                    - 학습 로그와 조기 종료에서 사용
                - verbose
                    - 기본값 : None
                    - True : 각 라운드의 성능 출력
                    - 10 : 10라운드마다 성능 출력
            - predict(x)
                - 모델의 예측
            - score(x, y)
                - 정확도(분류) / R2(회귀)
            - get_boost()
                - 내부의 Boost 객체를 반환
            - save_model(filename) / load_model(filename)
                - 모델을 저장하거나 불러오기

In [None]:
# 라이브러리 로드
import numpy as np
import pandas as pd
from xgboost import XGBRegressor, XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report, mean_squared_error, r2_score

In [None]:
body = pd.read_csv("../data_git/data/bodyPerformance.csv")

In [None]:
body

In [None]:
body['gender'] = np.where(body['gender']=='M', 0, 1)
body['class'] = body['class'].map(
    {
        'A' : 0,
        'B' : 1,
        'C' : 2,
        'D' : 3
    }
)
body.head(3)

In [None]:
x = body.drop('class', axis = 1)
y = body['class']

X_train, X_test, Y_train, Y_test = train_test_split(
    x, y, test_size=0.3, random_state=42, stratify=y
)

In [14]:
clf = XGBClassifier(
    objective = 'multi:soft',   # 확률 출력
    eval_metric = 'mlogloss',
    n_estimators = 1000,    # 트리 생성 개수
    learning_rate = 0.05,
    max_depth = 6,
    min_child_weight = 2,
    subsample = 0.8,
    colsample_bytree = 0.8,
    early_stopping_rounds = 50,
    random_state = 42,
    tree_method = 'hist'
)

In [15]:
clf.fit(X_train, Y_train, eval_set = [(X_test, Y_test)], verbose=50)

[0]	validation_0-mlogloss:1.35944


[50]	validation_0-mlogloss:0.79907
[100]	validation_0-mlogloss:0.68629
[150]	validation_0-mlogloss:0.64471
[200]	validation_0-mlogloss:0.62727
[250]	validation_0-mlogloss:0.61893
[300]	validation_0-mlogloss:0.61528
[350]	validation_0-mlogloss:0.61141
[400]	validation_0-mlogloss:0.61058
[450]	validation_0-mlogloss:0.61043
[500]	validation_0-mlogloss:0.61024
[514]	validation_0-mlogloss:0.61036


0,1,2
,objective,'multi:softprob'
,base_score,
,booster,
,callbacks,
,colsample_bylevel,
,colsample_bynode,
,colsample_bytree,0.8
,device,
,early_stopping_rounds,50
,enable_categorical,False


In [16]:
clf_pred = clf.predict(X_test)

In [17]:
print("Best iteration : ", clf.best_iteration)
print(confusion_matrix(Y_test, clf_pred))
print(classification_report(Y_test, clf_pred))

Best iteration :  464
[[892 108   4   0]
 [225 627 126  26]
 [ 87 187 691  40]
 [ 15  49 104 837]]
              precision    recall  f1-score   support

           0       0.73      0.89      0.80      1004
           1       0.65      0.62      0.63      1004
           2       0.75      0.69      0.72      1005
           3       0.93      0.83      0.88      1005

    accuracy                           0.76      4018
   macro avg       0.76      0.76      0.76      4018
weighted avg       0.76      0.76      0.76      4018



In [37]:
# XGBoost 회귀 모델
car = pd.read_csv("../data_git/data/CarPrice_Assignment.csv")
# df에서 숫자형 컬럼의 데이터만 추출
car = car.select_dtypes('number')

x = car.drop(['car_ID', 'symboling', 'price'], axis = 1).values
y = car['price']

X_train, X_test, Y_train, Y_test = train_test_split(
    x, y, test_size=0.2, random_state=42
)

# 회귀 모델 생성
reg = XGBRegressor(
    objective = 'reg:squarederror',
    eval_metric = 'rmse',
    n_estimators = 1000,
    learning_rate = 0.05,
    max_depth = 5,
    min_child_weight = 3,
    subsample = 0.8,
    colsample_bytree = 0.8,
    reg_lambda = 3.0,
    random_state=42,
    early_stopping_rounds = 100,
    tree_method = 'hist'
)

In [38]:
reg.fit(X_train, Y_train, eval_set = [(X_test, Y_test)], verbose=100)
reg_pred = reg.predict(X_test)
mse = mean_squared_error(Y_test, reg_pred)
r2 = r2_score(Y_test, reg_pred)

print("Best iteration : ", reg.best_iteration)
print("MSE : ", round(mse, 2))
print("r2 : ", round(r2, 2))

print()

[0]	validation_0-rmse:8536.55253
[100]	validation_0-rmse:2347.83905
[200]	validation_0-rmse:2278.92960
[291]	validation_0-rmse:2298.42698
Best iteration :  191
MSE :  5129837.62
r2 :  0.94



In [30]:
# from sklearn.linear_model import LinearRegression
# # reg = LinearRegression()
# reg.fit(X_train, Y_train)
# pred = reg.predict(X_test)
# print("mse : ", mean_squared_error(pred, Y_test))

mse :  14628664.036287837
