# 머신러닝 with Python 
## 09 앙상블 학습 부스팅-XGBoost 연습- breast_cancer 데이터

##### 이번에는 XGBoost를 활용해 유방암 여부를 예측하는 모형을 만들어본다.

(책 p.286~ 에서 그래디언트 부스팅을 실습하였었다. -08번 파일)

---


## XGBoost

XGBoost: Extreme Gradient Boosting의 약자

Boosting 알고리즘은 그래디언트 부스팅이 대표적이나, 이를 병렬 학습이 지원되도록 구현한 라이브러리가 XGBoost라고 한다.

회귀와 분류 문제 모두를 지원하고, 성능과 자원 효율이 좋아 인기가 있다고 한다.

---

하단부에서는 트리 맥스 레벨수와 분류기 개수를 변경해보면서 작은 실험을 해보았다.

> 배운점1: max_depth = 6으로 기본 설정되어 있는데, 이 모델 자체 기본 설정들에 최적화 된 값이라고 생각할 수 있었다.

> 배운점2: 분류기 개수가 늘어나도 어느 일정선에서 성능이 더 나아지거나 하락하지 않았다. 그 일정선을 문제를 해결할 때마다 찾는 것이 중요해 보였다.

### 데이터 불러오기

In [1]:
from sklearn import datasets

In [2]:
# 유방암 데이터 가져오기

raw_breast_cancer = datasets.load_breast_cancer()

In [3]:
# 데이터 살펴보기

raw_breast_cancer

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
         1.189e-01],
        [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
         8.902e-02],
        [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
         8.758e-02],
        ...,
        [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
         7.820e-02],
        [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
         1.240e-01],
        [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
         7.039e-02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
        1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
        1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
        1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0

In [4]:
# 데이터 셋 내 피처 이름들

raw_breast_cancer.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

### 피처, 타깃 데이터 지정

In [5]:
X = raw_breast_cancer.data
y = raw_breast_cancer.target

### 트레이닝/테스트 데이터 분할

In [6]:
from sklearn.model_selection import train_test_split                 # 분할을 위해 필요한 함수
X_tn, X_te, y_tn, y_te = train_test_split(X, y, random_state = 0)    # 분리. randomstate는 고정

### 데이터 표준화

In [7]:
from sklearn.preprocessing import StandardScaler         # 데이터 표준화를 위한 함수
std_scale = StandardScaler()                             # 표준화 스케일러 지정
std_scale.fit(X_tn)                                      # 트레이닝 피처를 기준으로 표준화를 적합

X_tn_std = std_scale.transform(X_tn) 
X_te_std = std_scale.transform(X_te)                     # 트레인, 테스트 데이터 각각 적합시킨 표준화에 맞게 변형

### 데이터 학습

In [11]:
import xgboost as xgb                                    # XGBoost 함수

# 모델 선언
clf_xgb = xgb.XGBClassifier() 

# 모델 훈련
clf_xgb.fit(X_tn_std, y_tn) 

XGBoostError: 
XGBoost Library (libxgboost.dylib) could not be loaded.
Likely causes:
  * OpenMP runtime is not installed
    - vcomp140.dll or libgomp-1.dll for Windows
    - libomp.dylib for Mac OSX
    - libgomp.so for Linux and other UNIX-like OSes
    Mac OSX users: Run `brew install libomp` to install OpenMP runtime.

  * You are running 32-bit Python on a 64-bit OS

Error message(s): ["dlopen(/Users/Angela/opt/anaconda3/envs/py3_8_5/lib/python3.8/site-packages/xgboost/lib/libxgboost.dylib, 0x0006): Library not loaded: /usr/local/opt/libomp/lib/libomp.dylib\n  Referenced from: /Users/Angela/opt/anaconda3/envs/py3_8_5/lib/python3.8/site-packages/xgboost/lib/libxgboost.dylib\n  Reason: tried: '/usr/local/opt/libomp/lib/libomp.dylib' (no such file), '/usr/local/lib/libomp.dylib' (no such file), '/usr/lib/libomp.dylib' (no such file)"]


### 오류 해결은 이렇게

선형대수를 함께 들었던 조진우님이 해결해주셨다! :https://randomwalk.tistory.com/m/5
```
brew install libomp 
```
를 했을 뿐인데 되다니?

In [8]:
import xgboost as xgb                                    # XGBoost 함수

# 모델 선언
clf_xgb = xgb.XGBClassifier() 

# 모델 훈련
clf_xgb.fit(X_tn_std, y_tn) 

  from pandas import MultiIndex, Int64Index




XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=1, enable_categorical=False,
              gamma=0, gpu_id=-1, importance_type=None,
              interaction_constraints='', learning_rate=0.300000012,
              max_delta_step=0, max_depth=6, min_child_weight=1, missing=nan,
              monotone_constraints='()', n_estimators=100, n_jobs=4,
              num_parallel_tree=1, predictor='auto', random_state=0,
              reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1,
              tree_method='exact', validate_parameters=1, verbosity=None)

### 데이터 예측

In [9]:
pred_xgboost = clf_xgb.predict(X_te_std)
print(pred_xgboost)

[0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 1 1 0 1 1 0 1 0 1 0 1 0 1 0 1
 0 1 0 0 1 0 1 1 0 1 1 1 0 0 0 0 1 1 1 1 1 1 0 0 0 1 1 0 1 0 0 0 1 1 0 1 0
 0 1 1 1 1 1 0 0 0 1 0 1 1 1 0 0 1 1 1 0 1 1 0 1 1 1 1 1 1 1 0 1 0 1 0 0 1
 0 0 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 1 1 1 1 0 0 1 1 1 0]


### 정확도 평가

In [10]:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_te, pred_xgboost)                # 실제값과 예측값을 넣음
print(accuracy)

0.986013986013986


### confusion matrix 확인

In [11]:
from sklearn.metrics import confusion_matrix
conf_matrix = confusion_matrix(y_te, pred_xgboost)
print(conf_matrix)

[[52  1]
 [ 1 89]]


### 분류 리포트 확인

In [12]:
from sklearn.metrics import classification_report
class_report = classification_report(y_te, pred_xgboost)
print(class_report)

              precision    recall  f1-score   support

           0       0.98      0.98      0.98        53
           1       0.99      0.99      0.99        90

    accuracy                           0.99       143
   macro avg       0.99      0.99      0.99       143
weighted avg       0.99      0.99      0.99       143



### 결과

중간에 난황이 있었지만 잘 해결했고, 정말 좋은 결과가 나왔다. 각 클래스 별로 한 개의 오류밖에 생기지 않았다!!! 와우!

옵션을 따로 만지지 않았는데 이 정도면 원래의 셋팅값이 이런 데이터에 잘 되어있는 옵션인가보다. 

그렇다해도 인기있는 이유가 분명 이 안에 숨어있을 듯 한데 

일단 max_depth = 6 이나 learning_rate=0.300000012 이런 부분들은 알아들을 수 있는 것 같다.

---

그래도 궁금하니까 몇가지 옵션을 뜯어보려고 한다.

```
XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=1, enable_categorical=False,
              gamma=0, gpu_id=-1, importance_type=None,
              interaction_constraints='', learning_rate=0.300000012,
              max_delta_step=0, max_depth=6, min_child_weight=1, missing=nan,
              monotone_constraints='()', n_estimators=100, n_jobs=4,
              num_parallel_tree=1, predictor='auto', random_state=0,
              reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1,
              tree_method='exact', validate_parameters=1, verbosity=None) 
```

# 실험1: max_depth = 1~5

In [15]:
import xgboost as xgb                                    # XGBoost 함수
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report


for i in range(1,7):

    # 모델 선언
    clf_xgb = xgb.XGBClassifier(max_depth = i, random_state = 0, use_label_encoder=False) 

    # 모델 훈련
    clf_xgb.fit(X_tn_std, y_tn) 

    # 데이터 예측
    pred_xgboost = clf_xgb.predict(X_te_std)

    # 정확도 평가
    accuracy = accuracy_score(y_te, pred_xgboost)                # 실제값과 예측값을 넣음

    # 분류 리포트 확인
    class_report = classification_report(y_te, pred_xgboost)

    # 모델 상태 확인 
    print("분류기 개별 max_depth: ", i )
    print("모델 정확도: ", accuracy)
    print("모델 분류 리포트")
    print(class_report)
    print("========================================================")

분류기 개별 max_depth:  1
모델 정확도:  0.986013986013986
모델 분류 리포트
              precision    recall  f1-score   support

           0       1.00      0.96      0.98        53
           1       0.98      1.00      0.99        90

    accuracy                           0.99       143
   macro avg       0.99      0.98      0.98       143
weighted avg       0.99      0.99      0.99       143

분류기 개별 max_depth:  2
모델 정확도:  0.986013986013986
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.98      0.98      0.98        53
           1       0.99      0.99      0.99        90

    accuracy                           0.99       143
   macro avg       0.99      0.99      0.99       143
weighted avg       0.99      0.99      0.99       143

분류기 개별 max_depth:  3
모델 정확도:  0.972027972027972
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.96      0.96      0.96        53
           1       0.98      0.98      0.98        90

    accu

 ### 결과
 
 워닝 좀 불편한데....
 
 살펴보니 각 깊이마다 큰 차이는 없지만 결과적으로 default인 6개일때 정확도가 좋게 나왔다. 1, 2개일때도 해당되지만, 이 부분은 다른 데이터로 해보았을 떄도 확인해야 할 것 같다고 생각이 된다.

# 실험2: n_estimators = 10~200 

In [17]:
import xgboost as xgb                                    # XGBoost 함수
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

n_esti = [10, 25, 50, 75, 100, 125, 150, 175, 200]

for i in n_esti:

    # 모델 선언
    clf_xgb = xgb.XGBClassifier(n_estimators = i, random_state = 0, use_label_encoder=False) 

    # 모델 훈련
    clf_xgb.fit(X_tn_std, y_tn) 

    # 데이터 예측
    pred_xgboost = clf_xgb.predict(X_te_std)

    # 정확도 평가
    accuracy = accuracy_score(y_te, pred_xgboost)                # 실제값과 예측값을 넣음

    # 분류 리포트 확인
    class_report = classification_report(y_te, pred_xgboost)

    # 모델 상태 확인 
    print("분류기 개별 max_depth: ", 6 )
    print("분류기 개수: ", i )
    print("모델 정확도: ", accuracy)
    print("모델 분류 리포트")
    print(class_report)
    print("========================================================")

분류기 개별 max_depth:  6
분류기 개수:  10
모델 정확도:  0.9790209790209791
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.95      1.00      0.97        53
           1       1.00      0.97      0.98        90

    accuracy                           0.98       143
   macro avg       0.97      0.98      0.98       143
weighted avg       0.98      0.98      0.98       143

분류기 개별 max_depth:  6
분류기 개수:  25
모델 정확도:  0.9790209790209791
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.98      0.96      0.97        53
           1       0.98      0.99      0.98        90

    accuracy                           0.98       143
   macro avg       0.98      0.98      0.98       143
weighted avg       0.98      0.98      0.98       143

분류기 개별 max_depth:  6
분류기 개수:  50
모델 정확도:  0.972027972027972
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.96      0.96      0.96        53
           1       0.98  

### 결과

분류기 개수가 75까지는 0.9790 정도였으나 100에서 0.9860으로 현재 XGBoost로 산출되었던 가장 높은 정확도를 보여주었다.

그러나 100 이상이 되면 더이상 정확도가 높아지는 일은 없었다. 샘플 개수가 적어서 그런지는 모르겠지만 약간 다른 결과이다. 

나중에 회귀 문제를 풀 때에도 비교를 해보아야 겠다.

그외 base_score 등 관심이 생겼으나 분류 문제에서 건드릴 것들은 많지 않아보여서 여기까지 해보는 것으로! 