# 52.Ensemble Basics II : Boosting

1. XGboost를 적용해본다.
2. 다른 알고리즘들과 성능을 비교해본다.

---------------------------


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# [1]XGB 일단 모델링 해보기

## 1.데이터 불러오기

In [None]:
# 데이터 불러오기

iris = pd.read_csv("https://raw.githubusercontent.com/DA4BAM/dataset/master/iris.csv")

from sklearn.model_selection import train_test_split

# features와 target 분리
target = 'Species'
x = iris.drop(target, axis = 1)
y = iris.loc[:, target]  # target 변수.

# 먼저 전체에서 train : test = 8 : 2
train_x, test_x, train_y, test_y = train_test_split(x, y, test_size=0.2, random_state=1)


## 2.모델링

In [None]:
# 사용할 것 불러오고
from xgboost import XGBClassifier

In [None]:
# 1) 모델 선언
xgb_model = XGBClassifier(n_estimators = 10)

In [None]:
# 2) 학습
xgb_model.fit(train_x, train_y)

눈여겨 볼 파라미터
* learning_rate : 과적합을 방지하는데 사용. 낮을수록 계산 시간이 오래 걸림
* max_depth : 나무 크기 (숫자가 클수록 복잡)
* n_estimators : 나무 개수 (숫자가 클수록 복잡)
* objective
    * 'reg:linear' 	Regression
    * 'binary:logistic'	Logistic regression for binary classification. Output probability.
    * 'multi:softmax'	Multiclass classification using the softmax objective.
    * 'multi:softprob'	Multiclass classification using the softmax objective.



In [None]:
# 3) 예측
y_pred = xgb_model.predict(test_x)

In [None]:
# 4) 평가
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

print(classification_report(test_y, y_pred))
print("-------------------------------------")
print(accuracy_score(test_y, y_pred))
print("-------------------------------------")
print(confusion_matrix(test_y, y_pred))

In [None]:
from sklearn.metrics import precision_recall_fscore_support, accuracy_score
acc = accuracy_score(test_y, y_pred)
precision, recall, f1, support = precision_recall_fscore_support(test_y, y_pred, average='macro')

In [None]:
print(acc, precision, recall)

# [2] mobile 데이터 XGB 적용해보기

### 00.환경 준비와 데이터 로딩

#### 01.라이브러리 불러오기

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split

#### 02.데이터 업로드 

In [None]:
# mobile data
path = "https://raw.githubusercontent.com/DA4BAM/dataset/master/mobile_cust_churn.csv"
mobile = pd.read_csv(path)

In [None]:
# train set과 holdout(test set) 두 df로 나눕니다.
target = 'CHURN'
x = mobile.drop(target, axis=1)
y = mobile.loc[:, target]

### 20.데이터 준비

#### 21.변수 정리

In [None]:
x.drop('id', axis = 1, inplace = True)

#### 22.NA 처리

#### 23.Feature Engineering

#### 24.Dummy Variable

In [None]:
col_cat = ['REPORTED_SATISFACTION', 'REPORTED_USAGE_LEVEL', 'CONSIDERING_CHANGE_OF_PLAN' ]

In [None]:
# 범주형(명목형) 변수를 가변수로 만들고 붙여봅시다.

for v in col_cat :
    dummies = pd.get_dummies(x[v], prefix=v)
    x = pd.concat([x, dummies], axis=1)
    x.drop(v, axis = 1, inplace=True)

x.head()

#### 25.Scaling




#### 26.Data Split

In [None]:
train_x, val_x, train_y, val_y = train_test_split(x, y, test_size=0.4, random_state=1)

In [None]:
print(train_x.shape)
print(val_x.shape)

## 실습1
mobile 데이터를 가져와서 xgboost로 모델링해 봅시다.

    * n_estimators = 5 으로 설정하고 모델링
    * test셋으로 예측하고 평가해 봅시다.

In [None]:
# 1) 함수 불러오기


In [None]:
# 2) 모델 선언


In [None]:
# 3) 학습



In [None]:
# 4) 예측


In [None]:
# 5) 평가


## 실습2 : 튜닝 grid search
xgboost에 대해 grid search로 튜닝을 수행해 봅시다.

    * 준비된 train_x, train_y, test_x, test_y로 부터 시작합니다.
    * 42번 파일을 참조하여 grid search를 수행하시오.
    * cv = 3
    * grid 파라미터
        - max_depth : 3~8 사이에서 3개 선택
        - n_estimators : 50~150 사이에서 3개 선택
        - objective : 'binary:logistic'
        - learning_rate :0.01~ 0.2 사이에서 3개 선택

In [None]:
# 1) 파라미터를 dictionary형태로 선언
grid_param = 


In [None]:
# 2) 함수 불러오기



In [None]:
# 3) 모델 선언



In [None]:
# 4) 학습 : 



In [None]:
# 5) 예측



In [None]:
# 6) 평가

