# XGBoost (1) - Basic

- XGBoost는 트리 기반의 앙상블 학습에서 가장 각광받고 있는 알고리즘 중 하나
- GBM에 기반을 하고 있으면서 GMB의 실행 시간 및 과적합 규제가 없는 부분 등의 문제를 해결한 학습 모델
- 병렬 CPU환경에서 분산 처리가 가능하기 때문에 기존 모델보다 수행 시간이 단축된다
- `C/C++로 구현된 독립 라이브러리이기 때문에 skleaern과의 코드 진행이 다소 다르다
- 수행시간에 있어서 굉장히 빠른 모델이다
- 데이터프레임을 안 쓴다

## 1. 패키지 참조
```shell
pip3 install --upgrade xgboost
```

In [1]:
import warnings
warnings.filterwarnings('ignore')

import numpy as np
import seaborn as sb
import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt
from pandas import read_excel
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE

from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

## 2. 데이터 가져오기 및 전처리

In [2]:
origin = read_excel('https://data.hossam.kr/G02/breast_cancer.xlsx')

# 독립/종속 변수 분리
x = origin.drop('target', axis = 1)
y = origin['target']

# 데이터 표준화
std_x = StandardScaler().fit_transform(x)

# 훈련/검증 데이터 분리
x_train, x_test, y_train, y_test = train_test_split(
    std_x, y, test_size = 0.3, random_state=2021
)

# SMOTE 적용
x_sm, y_sm = SMOTE(random_state=2021).fit_resample(x_train, y_train)

x_sm.shape, y_sm.shape, x_test.shape, y_test.shape

((500, 30), (500,), (171, 30), (171,))