# Chapter 04. 머신러닝 분류 문제 연습하기 2

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## 실습 가이드
1. 데이터를 다운로드하여 Colab에 불러옵니다.
> 다운로드한 데이터의 위치는 **Colab Notebooks/data/** 로 통일합니다.

2. 필요한 라이브러리는 모두 코드로 작성되어 있습니다.
3. 코드는 위에서부터 아래로 순서대로 실행합니다.
4. 전체 문제 구성은 좌측 첫 번째 아이콘을 통해 확인할 수 있습니다.

### <b> 데이터의 속성</b>
**시작 전에** 원본 데이콘 페이지에서 상세한 데이터에 대한 설명을 확인하세요 !

Reference : https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients


### <b>학습목표</b>
- 1) Binary Classification 모델의 이해
- 2) 학습했던 다양한 머신러닝 분류모델의 이해
- 3) 분류를 위한 데이터 전처리 방법에 대한 이해
- 4) feature engineering에 대한 이해
- 5) 평가결과를 바탕으로 모델을 개선하는 방법 습득

- 출제자: 김용담 강사

## Step 1. 예측할 데이터 불러오기

### 문제 01. 데이터 불러오기

In [None]:
# 분석에 필요한 라이브러리를 불러옵니다
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns 

import warnings
warnings.filterwarnings('ignore')

In [None]:
# 데이터 경로를 찾습니다. 원본 데이터를 그대로 구글드라이브에 업로드를 하세요.
data = 

### 문제 02. 데이터 미리보기

In [None]:
# 데이터 크기 확인


# 데이터 일부 확인


### 문제 03. 데이터 확인하기

In [None]:
# 데이터에서 결측치가 있는 column 확인하기


## Step 2. Data Preprocessing

- 이번 데이터는 결측치가 없습니다.

- 학습을 위해서 column들을 정리하고, train-test split을 합니다.

### 문제 04. 데이터 feature matrix(X)와 target vector(y) 정의하기

In [None]:
# data에서 X, y를 정의합니다.
X = 
y = 

### 문제 05. train test 데이터 나누기

In [None]:
# 학습의 평가를 위해서 데이터의 일부를 test data로 나누고, 나머지 데이터를 학습에 사용합니다.


# 25%를 test data로 사용합니다.


In [None]:
# 잘 나누어졌는지 크기를 확인합니다.


## Step 3. Feature Engineering

- 분석에 사용할 feature들을 만들고, 학습을 위한 데이터를 준비하는 단계입니다.

- 분석할 데이터들의 scale을 통일시켜줍니다.

### 문제 06. feature scaling

In [None]:
# StandardScaler로 변환하기



X_train_standard = 
X_test_standard = 

In [None]:
# 스케일 조정된 X_train 데이터 확인하기
X_train_standard

### 문제 07. feature scaling 2

In [None]:
# feature scaling의 성능 비교를 위해 RobustScaler도 사용해봅니다.



X_train_robust = 
X_test_robust = 

In [None]:
# 변경된 값 확인


### 참고: scikit-learn에서 제공하는 피처 스케일러(scaler)

- `StandardScaler`: 기본 스케일, 각 피처의 평균을 0, 표준편차를 1로 변환
- `RobustScaler`: 위와 유사하지만 평균 대신 중간값(median)과 일분위, 삼분위값(quartile)을 사용하여 이상치 영향을 최소화
- `MinMaxScaler`: 모든 피처의 최대치와 최소치가 각각 1, 0이 되도록 스케일 조정
- `Normalizer`: 피처(컬럼)이 아니라 row마다 정규화되며, 유클리드 거리가 1이 되도록 데이터를 조정하여 빠르게 학습할 수 있게 함

<p> 스케일 조정을 하는 이유는 데이터의 값이 너무 크거나 작을 때 학습이 제대로 되지 않을 수도 있기 때문입니다. 또한 스케일의 영향이 절대적인 분류기(예: knn과 같은 거리기반 알고리즘)의 경우, 스케일 조정을 필수적으로 검토해야 합니다.
    
<p> 반면 어떤 항목은 원본 데이터의 분포를 유지하는 것이 나을 수도 있습니다. 예를 들어, 데이터가 거의 한 곳에 집중되어 있는 feature를 표준화시켜 분포를 같게 만들었을 때, 작은 단위의 변화가 큰 차이를 나타내는 것처럼 학습될 수도 있습니다. 또한 스케일의 영향을 크게 받지 않는 분류기(예: 트리 기반 앙상블 알고리즘)를 사용할 경우에도 성능이 준수하게 나오거나 과대적합(overfitting)의 우려가 적다면 생략할 수도 있습니다.
    
<p> 스케일 조정시 유의해야할 점은 원본 데이터의 의미를 잃어버릴 수 있다는 것입니다. 최종적으로 답을 구하는 것이 목적이 아니라 모델의 해석이나 향후 다른 데이터셋으로의 응용이 더 중요할 때 원 피처에 대한 설명력을 잃어버린다면 모델 개선이 어려울 수도 있습니다. 이 점을 함께 고려하시면 좋겠습니다.

## Step 4. Training

- 공부한 각 머신러닝 분류 모델들을 돌려보고, 성능을 평가합니다.

- 아래 모델들이 그 대상에 해당합니다.

- Logistic Regression / Naive Bayes / Decision Tree / Random Forest / KNN / SVM / xgboost / lightgbm

### 문제 08. Logistic Regression 모델 돌려보기

In [None]:
# Logistic Regression으로 학습


### 문제 09. Logistic Regression 모델의 정확도 평가하기

In [None]:
# 학습 모델의 정확도 평가

logreg_score = 

print('Logistic Regression accuracy score: {0:0.4f}'.format(logreg_score))

### 문제 10. Naive Bayes 모델 돌려보기

In [None]:
# NB 모델중에 하나를 불러와서 학습


### 문제 11. Naive Bayes 평가하기

In [None]:
# 학습 모델의 정확도 평가
nb_score = 

print('Naive Bayes accuracy score: {0:0.4f}'.format(nb_score))

### 문제 12. Random Forest 모델 돌려보기

In [None]:
# RandomForestClassifier 모델 학습


In [None]:
# 학습 모델의 정확도 평가

rf_score = 
print('Random Forest Model accuracy score : {0:0.4f}'.format(rf_score))

### 문제 13. KNN Classification 모델 돌려보기

In [None]:
# KNNClassifier로 모델 학습


In [None]:
# 학습 모델의 정확도 평가
knn_score = 
print('KNN classification accuracy score : {0:0.4f}'.format(knn_score))

### 문제 14. Support Vector Machine 모델 돌려보기

In [None]:
# Support Vector Classifier로 모델 학습


In [None]:
# 학습 모델의 정확도 평가

svm_score = 
print('Support Vector Machine accuracy score : {0:0.4f}'.format(svm_score))

### 문제 15. XGBoost 모델 돌려보기

- xgboost의 구현체가 많지만, 여기서는 sklearn version을 사용합니다.

In [None]:
# XGBoost 모델 학습


### 문제 16. XGBoost 모델의 분류결과 확인하기

In [None]:
# 학습 모델의 정확도 평가

xgb_score = 
print('XGBoost accuracy score : {0:0.4f}'.format(xgb_score))

### 문제 17. Light GBM 모델 돌려보기

In [None]:
# LightGBM 모델 학습



### 문제 18. Light GBM 분류결과 확인하기

In [None]:
# 학습 모델의 정확도 평가

lgb_score = 
print('XGBoost accuracy score : {0:0.4f}'.format(lgb_score))

### 참고 : 부스팅(Boosting) 모델 개요


- 부스팅은 여러 트리의 적합 결과를 합하는 앙상블 알고리즘의 하나로, 이 때 sequential의 개념이 추가되어 있습니다. 즉 연속적인 weak learner, 바로 직전 weak learner의 error를 반영한 현재 weak learner를 잡겠다는 것입니다. 이 아이디어는 Gradient Boosting Model(GBM)에서 loss를 계속 줄이는 방향으로 weak learner를 잡는다는 개념으로 확장됩니다.

![boost](https://pluralsight2.imgix.net/guides/81232a78-2e99-4ccc-ba8e-8cd873625fdf_2.jpg)


- 부스팅 계열 모델은 XGBoost, LightGBM, CatBoost 등이 있습니다.


- 더 자세한 내용은 다음 Step에서 살펴보겠습니다.

### 문제 19. 성능이 가장 좋은 모델 3개를 뽑아서 RobustScaler로 성능 비교하기

In [None]:
# RandomForest, XGBoost, LightGBM 3개의 모델로 비교 실험을 수행합니다.



print('RandomForest accuracy score : {0:0.4f}'.format())
print('XGBoost accuracy score : {0:0.4f}'.format())
print('LightGBM accuracy score : {0:0.4f}'.format())

### 문제 20. Test prediction

- 학습한 모델을 기반하여 test 데이터를 평가합니다. 


- 실제 현업에서는 서비스에 들어가는 기술을 test 데이터로 평가합니다. 마치 유저가 들어온 것처럼요.

In [None]:
# 모델을 하나 정해서, test data에 대한 inference를 진행합니다.
final = 
final2 = 

In [None]:
# 성능 테스트
print('xxx model with Standard Scaler accuracy score : {0:0.4f}'.format(accuracy_score(y_test, final)))
print('xxx model with Robust Scaler accuracy score : {0:0.4f}'.format(accuracy_score(y_test, final2)))

In [None]:
# 결과 파일 생성
result = pd.DataFrame({"ID":X_test.index, "target":final}).set_index("ID").sort_index()
result

### 문제 21. 최종 성능 정리

In [None]:
print('Accuracy Comparisons for Binary Models\n')

print('logreg_score:', '{0:0.5f}'.format())
print('nb_score:', '{0:0.5f}'.format())
print('rf_score   :', '{0:0.5f}'.format())
print('knn_score   :', '{0:0.5f}'.format())
print('svm_score   :', '{0:0.5f}'.format())
print('xgb_score   :', '{0:0.5f}'.format())
print('lgb_score   :', '{0:0.5f}'.format())