# XGBoost
- Boosting 중 대표적인 모델
- Gradient Boosting 알고리즘을 고도화한 모델
- 빠른속도, 높은 성능, 과적합 제어 기능을 제공하는 트리 기반 앙상블 모델
- XGBoost는 sklearn에 존재x, 별도의 라이브러리 설치
- 대규모 데이터에서 자주 사용되는 모델
- 분류(XGBoostClassifier)와 회귀(XGBoostRegressor) 모두 가능

- 매개변수
    1. 학습 제어 관련
        - n_estimators
            - 기본값 : 100
            - 트리가 생성이되는 개수 (모델의 개수)
            - 클수록 성능이 올라가지만 계산이 많아지면서 시간은 오래걸린다.
        - learning-rate
            - 기본값 : 0.1
            - 각 단계별 학습율 (기여도)
            - 작을수록 데이터의 단순화, 클수록 데이터가 복잡
        - early_stopping_rounds
            - fit() 함수에서 'eval_set'에서 지정된 평가지표가 n라운드 연속 개선되지 않으면 학습 중단
            - n_estimators의 값을 크게 잡고 이 값으로 최적의 라운드 검색
        - objective
            - 손실 함수 지정
            - 분류
                - "binary:logistic"
                    - 이진분류용(0/1)
                    - 출력 : 확률
                    - predict_proba와 연결
                - "binary:logiraw"
                    - 이진분류
                    - 출력 : 로짓(log-odds) 값 (확률 x)
                    - 확률 후의 처리를 직접 사용
                - "multi:softmax"
                    - 다중 클래스 분류
                    - 출력: 클래스의 인덱스(정수)
                - "multi:softprob"
                    - 다중 클래스 분류
                    - 출력 : 각 클래스별 확률 벡터
                    - 확률 기반 후처리 / 평가에 적합
            - 회귀
                - "reg:squarederror"
                    - 평균 제곱 오차(MSE) 기반
                    - 일반적인 연속형 데이터 예측 사용
                - "reg:abosoluteerror"
                    - 평균 절대 오차(MAE) 기반
                    - 이상치 데이터에 대해서 유리
                - "reg:squaredlogerror"
                    - 로그 평균 제곱 오차(MSLE) 기반
                    - 종속 데이터가 양수이고 값의 범위가 넓을 때 유리
                - "reg:pseudohubererror"
                    - pseudo-huber 손실 기반
                    - MSE와 MAE의 절충 -> 이상치에 완화된 영향
        - eval_metric
            - 기본값 : None
            - 검증시 사용할 평가 지표
            - 조기 종료(earlt_stopping_rounds)와 함께 사용
            - 분류 : "logloss", "auc", "error"
            - 회귀 : "RMSE", "MAE" 등
    
    2. 트리 구조 제어
        - max_depth
            - 기본값 : 6
            - 트리의 최대 깊이를 지정
            - 값이 커질수록 복잡도 증가, 과적합 위험
            - 일반적으로 깊이는 3~10 사용
        - min_child_weight
            - 기본값 : 1.0
            - leaf node가 분할되기 위한 최소 가중치
            - 값이 커질수록 보수적인 분할(과적합 위험이 내려간다.)
            - 값이 작을수록 세밀한 분할
        - gamma
            - 기본값 : 0
            - 리프 추가 분할에 필요한 최소 손실 감소값
            - 값이 커지면 불필요한 분할 억제 (과적합 방지)
        - max_leave
            - 리프 노드의 개수를 제한
            - 깊이 대신 리프의 개수로 복잡도를 제어
    
    3. 샘플링 / 다양성 제어
        - subsample
            - 기본값 : 1.0
            - 각 트리의 학습에서 사용할 샘플의 비율
            - 일반적으로 0.6~0.9 사용 ->  과적합 위험도를 줄이고 다양성 증가
        - colsample_bytree
            - 기본값 :1.0
            - 각 트리의 학습에서 사용할 샘플의 피쳐의 비율
            - 일반적으로 0.5~0.9 -> 일반화 
        - colsample_bylevel / closample_bynode
            - 레벨 / 노드 단위에서 추가 특징 샘플링
            - 미세한 조정이 필요한 경우라면 사용
    
    4. 정규화 / 규제 (회귀)
        - reg_lambda
            - 기본값 : 1.0
            - L2 정규화 (가중치 크기 억제)
            - 값이 커지면 안정적인 모델, 과적합 방지
        - reg_alpha
            - 기본값 : 0.0
            - L1 정규화 (가중치 희소화)
            - 피쳐 선택 효과
            - 고차원 데이터에 유용
    
    5. 데이터 불균형 처리 (분류)
        - scale_pos_weight
            - 기본값 : 1
            - 양성 / 음성 클래스 불균형 보장
            - neg / pos 비율로 설정 (음성 90%, 양성 10% -> 9)

    6. 실행 최적화
        - tree_method
            - 기본값 : "auto"
            - "auto" : 자동 선택
            - "hist" : 대규모 데이터 빠른 학습
            - "gpu_hist" : GPU 가속 -> 대규모/고차원 데이터에서 권장
        - max_bin
            - 기본값 : 256
            - 히스토그램의 버킷의 수 지정
            - 값이 커지면 정화도 올라가지만 메모리의 사용량과 시간은 증가
    
    - 하이퍼 파라미터 튜닝에 일반적인 순서
        1. 1순위
            - n_estimator(트리개수), learning_rate(기여도)
            - max_depth(최대 깊이)
            - min_child_weight(최소 가중치의 합)
        2. 2순위 (과적합, 일반화)
            - gamma(손실)
            - subsample(학습에 사용될 데이터의 비율)
            - colsample_bytree(학습에 사용될 피쳐의 비율)
        3. 3순위 (세밀한 조정 / 특수 케이스)
            - reg_lambda, reg_alpha(정규화)
            - scale_pos_weight(데이터 불균형)
            - tree_method, max_bin(속도, 메모리 최적화)