# 추가_Ensemble Stacking

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# [1]스태킹 구현해보기 : iris

## 1.데이터 불러오기

In [None]:
# 데이터 불러오기

iris = pd.read_csv("https://raw.githubusercontent.com/DA4BAM/dataset/master/iris.csv")

from sklearn.model_selection import train_test_split

# features와 target 분리
target = 'Species'
x = iris.drop(target, axis = 1)
y = iris.loc[:, target]  # target 변수.

# 먼저 전체에서 train : test = 8 : 2
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1)


## 2.모델링

In [None]:
# 필요한 함수들을 모두 불러옵니다.
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import StackingClassifier

from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.metrics import * 

In [None]:
# 1) 모델 선언
estimators = [('lr', LogisticRegression()),
              ('dt', DecisionTreeClassifier()),
              ('knn', make_pipeline(StandardScaler(), KNeighborsClassifier())),
              ('rf', RandomForestClassifier()),
              ('xgb', XGBClassifier())]

model_stacking = StackingClassifier(estimators=estimators
                                    , final_estimator= RandomForestClassifier())

In [None]:
# 2) 학습
model_stacking.fit(x_train, y_train)

In [None]:
# 3) 예측
pred = model_stacking.predict(x_test)

In [None]:
# 4) 평가
print(classification_report(y_test, pred))

In [None]:
# 내부 모델 중 하나를 뽑아서 사용할 수도 있습니다.
model_stacking.named_estimators_['dt']

# [2] 실습 : mobile

### 00.환경 준비와 데이터 로딩

#### 01.라이브러리 불러오기

In [None]:
import pandas as pd
import numpy as np

#### 02.데이터 업로드 

In [None]:
# mobile data
path = "https://raw.githubusercontent.com/DA4BAM/dataset/master/mobile_cust_churn.csv"
data = pd.read_csv(path)
data.drop(['id', 'REPORTED_USAGE_LEVEL','OVER_15MINS_CALLS_PER_MONTH'], axis = 1, inplace = True)
data.rename(columns = {'HANDSET_PRICE':'H_PRICE', 
                       'AVERAGE_CALL_DURATION':'DURATION',
                       'REPORTED_SATISFACTION':'SATISFACTION',
                       'CONSIDERING_CHANGE_OF_PLAN':'CHANGE'}
            , inplace = True)
data.head()

|변수 명|내용|구분|
|	----	|	----	|	----	|
|	COLLEGE	|	대학졸업 여부(1,0) - 범주	|		|
|	INCOME	|	연 수입액(달러)	|		|
|	OVERAGE	|	월 초과사용 시간(분)	|		|
|	LEFTOVER	|	월 사용 잔여시간비율(%)	|		|
|	HOUSE	|	집 가격(달러)	|		|
|	HANDSET_PRICE	|	핸드폰 가격(달러)	|		|
|	AVERAGE_CALL_DURATION	|	평균 통화시간(분)	|		|
|	REPORTED_SATISFACTION	|	만족도 설문('very_unsat', 'unsat', 'avg', 'sat', 'very_sat' ) - 범주	|		|
|	CONSIDERING_CHANGE_OF_PLAN	|	변경 계획 설문('never_thought', 'no', 'perhaps', 'considering',   'actively_looking_into_it') - 범주	|		|
|	**CHURN**	|	이탈여부(1 : 이탈, 0 : 잔류)	|	**Target**	|


In [None]:
# 데이터분할1
target = 'CHURN'
x = data.drop(target, axis=1)
y = data.loc[:, target]

# 가변수화
dumm_cols = ['SATISFACTION','CHANGE']
x = pd.get_dummies(x, columns = dumm_cols, drop_first = True)

# 데이터 분할2
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=.5
                                                  , random_state = 2022)

## 실습

* 모바일 데이터에 대해서 스태킹 모델을 구현해 봅시다.
* 알고리즘의 하이퍼파라미터를 조절해 봅시다.