# XGBoost(eXtra Gradient Boost)

## XGBoost 개요
- 트리 기반의 앙상블 학습 알고리즘 
- 분류에 있어서 일반적으로 다른 머신러닝보다 뛰어난 예측 성능을 나타냄
- GBM에 기반

### XGBoost 장점
- 뛰어난 예측 성능
- GBM 대비 빠른 수행 시간
- 과적합 규제 
- 가지치기 (pruning)
- 교차 검증 내장
- 결측값 자체 처리

## XGBoost 라이브러리

(1) XGBoost는 처음에는 C/C++로 작성되었음

(2) 파이썬에서도 XGBoost를 구동할 수 있도록 파이썬 패키지 **`xgboost`** 제공
- 패키지 역할 : 대부분 C/C++ 핵심 라이브러리를 호출하는 것
- 사이킷런과 호환되지 않는 독자적인 XGBoost 전용 패키지
- 사이킷런의 fit(), predict() 메서드 같은 사이킷런 고유 아키텍처 적용 불가
- 다양한 유틸리티(cross_val_score, GridSearchCV, Pipeline 등)도 사용 불가
- **`'파이썬 래퍼 XGBoost 모듈'`**로 지칭

(3) 파이썬 기반의 ML 이용자들이 사이킷런을 많이 사용하기 때문에  
사이킷런과 연동할 수 있는 래퍼 클래스(Wrapper class) 제공
- **`XGBClassifer`** 와 **`XGBRegressor`** 래퍼 클래스
- 사이킷런 estimator가 학습을 위해 사용하는 fit()과 predict() 등 
- 표준 사이킷런 개발 프로세스 및 다양한 유틸리티 활용 가능
- **`'사이킷런 래퍼 XGBoost 모듈'`** 로 지칭

### 과적합 문제가 심각한 경우 XGBoost에서 하이퍼파라미터 튜닝
- eta 값 낮추고 num_round(또는 n_estimators)는 반대로 높임
- max_depth 값 낮춤
- min_child_weight 값 높임
- gamma 값 높임 (?)
- subsample과 colsample_bytree 조정

### XGBoost 조기 중단(Early Stopping) 기능
- 지정한 수만큼의 부스팅 반복 작업이 종료되지 않더라도 예측 오류가 더 이상 개선되지 않으면 중간에 중지해서 수행 시간 개선 

- 학습 시간 단축 : 특히 최적화 튜닝 단계에서 적절하게 사용 가능

- 반복 횟수를 많이 단축할 경우 예측 성능 최적화가 안 된 상태에서 학습이 종료될 수 있으므로 주의 필요

- 조기 중단 설정을 위한 주요 파라미터
    - early_stoppings 
    - eval_metric 
    - eval_set 

## XGBoost 설치
- Windows 기반에서 설치하는 경우
    * Anaconda Prompt 관리자 모드로 열고  
    * conda install -c anaconda py-xgboost

In [None]:
# XGBoost 버전 확인



## xgboost : XGBoost의 파이썬 패키지
- 자체적으로 교차 검증, 성능 평가, 피처 중요도 등의 시각화 기능 포함
- 조기 중단 기능 : 수행 시간 개선 
- 빠른 수행시간 처리 가능하지만
- CPU 코어가 많지 않은 개인용 PC에서는 수행시간 향상 효과 보기 어려움

### 파이썬 래퍼 XGBoost 하이퍼파라미터

① 일반 파라미터 : 실행 시 스레드의 개수, silent 모드 등의 선택을 위한 파라미터로 거의 바꾸는 경우 없음

② 부스터 파라미터 : 트리 최적화, 부스팅, regularization 등과 관련된 파라미터

③ 학습 태스크 파라미터 : 학습 수행 시 객체 함수, 평가를 위한 지표 등을 설정하는 파라미터

### 과적합 문제가 심각할 경우 파이썬래퍼 XGBoost의 조정할 하이퍼 파라미터들
- eta값을 낮춤 (0.01 ~ 0.2) : num_round(또는 n_estimator)는 반대로 높여줘야 함
- max_depth 값을 낮춤
- min_child_weight 값을 높임
- gamma 값을 높임
- subsample과 colsample_bytree 조정

## 사이킷런 래퍼 XGBoost
- 사이킷런의 기본 Estimator를 그대로 상속해 만든 것
- 다른 estimator와 같이 **`fit(), predict()`**만으로 학습과 예측 가능
- GridSearchCV, Pipeline 등 사이킷런의 유틸리티 그대로 사용 가능


- 분류를 위한 XGBClassifier 클래스
- 회귀를 위한 XGBRegressor 클래스


- 파이썬 래퍼 XGBoost에서 사용하는 하이퍼파라미터와 호환성을 유지하기 위해 몇개 하이퍼파라미터를 변경
    - eta  → learning_rate
    - sub_sample → subsample
    - lambda → reg_lambda
    - alpha → reg_alpha
    
    
- xgboost의 n_estimators와 num_boost_round는 동일한 파라미터
    - 이를 동시에 사용할 경우 
        - 파이썬 래퍼 XGBoost API는 n_estimator를 무시하고 num_boost_round를 적용
        - 사이킷런 래퍼 XGBoost는 n_estimator 파라미터를 적용

# [예제] 위스콘신 유방암 예측  
(1) 파이썬 Wrapper XGBoost 적용  
(2) 사이킷런 Wrapper XGBoost 적용

### 위스콘신 유방암 데이터 세트
: 사이킷런 내장데이터세트 `load_brest_cancer`
- 종양의 크기, 모양 등의 다양한 속성값을 기반으로
- 악성 종양(malignant)인지 양성 종양(benign)인지를 분류한 세트

## (1) 파이썬 래퍼 XGBoost 적용 – 위스콘신 Breast Cancer 데이터 셋



In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
# 모둘 임포트


In [None]:
# 데이터 세트 로딩 



In [None]:
# 데이터 확인하기 위해 데이터 프레임으로 생성


In [None]:
# 맨 마지막에 target 추가


In [None]:
# 레이블 값 분포 확인


In [None]:
# 전체 데이터 중 80%는 학습용 데이터, 20%는 테스트용 데이터 추출



**학습과 예측 데이터 세트를 `DMatrix`로 변환** 

- 파이썬 래퍼 XGBoost에서는 사이킷런과 다르게 별도로 DMatrix 사용   
- DMatrix : XGBoost 전용 데이터 세트

In [None]:
# DMatrix 타입으로 변환: 학습용, 테스트용 데이터 세트 생성



**하이퍼 파라미터 설정**  

**테스트 데이터 세트에 예측 수행**

**XGBoost 모델의 예측 성능 평가**
:앞의 평가에서 생성한 get_clf_eval( ) 함수 적용

### xgboost 패키지에 내장된 시각화 기능 이용하여 피처 중요도 시각화

- plot_importance() API : 피처의 중요도를 막대그래프 형식으로 나타냄
    - 기본 평가 지표로 fi 스코어를 기반으로 해서 
    - 각 피처의 중요도 표시

**`plot_importance(학습이 완료된 모델 객체, Matplotlib의 ax)`**
    
(사이킷런 : Estimator 객체의 feature_importance_ 속성을 이용해 시각화)

**graphviz를 이용하여 XGBoosts 모델 트리 시각화**

### 파이썬 래퍼 XGBoost 교차검증 수행 API : cv()

: xgboost는 사이킷런의 GridSearchCV와 유사하게 cv( )를 API로 제공

## (2) 사이킷런 Wrapper XGBoost 개요 및 적용 

- 사이킷런의 기본 Estimator를 그대로 상속  
- fit()과 predict()만드로 학습과 예측 가능  

- 하이퍼 파라미터 차이  
    - 파이썬 Wrapper : 사이킷런 Wrapper  
        - eta : learning_rate (학습률)  
        - num_boost_rounds : n_estimators (학습기의 개수 : 반복 수행 횟수)  

In [None]:
# 사이킷런 래퍼 XGBoost 클래스인 XGBClassifier 임포트


# 학습과 예측 수행 : 




In [None]:
# 예측 성능 평가 수행


**early stopping을 100으로 설정하고 재 학습/예측/평가**

In [None]:
# early stopping이 어떻게 동작하는지 확인


In [None]:
# 예측 성능 평가


In [None]:
# 결과


**early stopping을 10으로 설정하고 재학습/예측/평가**

In [None]:
# 피처 중요도 시각화

