# Chapter 03. 머신러닝 회귀 문제 연습하기

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## 실습 가이드
1. 데이터를 다운로드하여 Colab에 불러옵니다.
> 다운로드한 데이터의 위치는 **Colab Notebooks/data/** 로 통일합니다.

2. 필요한 라이브러리는 모두 코드로 작성되어 있습니다.
3. 코드는 위에서부터 아래로 순서대로 실행합니다.
4. 전체 문제 구성은 좌측 첫 번째 아이콘을 통해 확인할 수 있습니다.

### <b> 데이터의 속성</b>
**시작 전에** 원본 데이콘 페이지에서 상세한 데이터에 대한 설명을 확인하세요 !

Reference : https://dacon.io/competitions/official/235736/data


### <b>학습목표</b>
- 1) Regression 모델의 이해
- 2) 학습했던 다양한 머신러닝 회귀모델의 이해
- 3) 회귀를 위한 데이터 전처리 방법에 대한 이해
- 4) feature engineering에 대한 이해
- 5) 평가결과를 바탕으로 모델을 개선하는 방법 습득

- 출제자: 김용담 강사

## Step 1. 예측할 데이터 불러오기

### 문제 01. 데이터 불러오기

In [None]:
# 분석에 필요한 라이브러리를 불러옵니다
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns 

import warnings
warnings.filterwarnings('ignore')

In [None]:
base_path = '/content/drive/MyDrive/Colab Notebooks/data/energy'
train = 
test = 

### 문제 02. 데이터 미리보기

In [None]:
# 데이터 크기 확인


# 데이터 일부 확인


### 문제 03. 데이터 확인하기

In [None]:
# train 데이터에서 결측치가 있는 column 확인하기
train.info()

In [None]:
# test도 확인
test.info()

## Step 2. Data Preprocessing

- 데이터에 있는 결측치를 처리합니다.

- 결측치를 처리하기 위해 데이터에 잘못 기록된 점들을 확인합니다.

### 문제 04. train data에서 결측치가 있는 데이터 뽑기

In [None]:
# 데이터가 거의 비어있는 row가 있는지 확인합니다.
missing_rows = 
missing_rows

### 문제 05. test data에서 결측치가 있는 데이터 뽑기

In [None]:
# dtype이 object인 column들을 가져옵니다.
missing_rows = 
missing_rows

## 결측치 채우기

- test data의 결측치를 채워봅시다.

- 이 데이터는 시간 순서에 따른 정보를 가지는 시계열 데이터(time-series data)이므로, 평균이나 최빈값 같은값으로 한번에 채우는 것은 위험합니다.

- column마다 특성이 다르므로, 날씨와 관련된 정보들(numeric features)과 건물 정보(categorical features)를 다른 방법으로 결측치를 처리해줍니다.

- 날씨 정보들은 시간 순으로 인접한 데이터를 통해서 값을 채워주는 보간법(interpolation method)를 사용해서 결측치를 채워봅시다.

- 건물 정보들은 train data를 보고, 같은 건물 번호가 같은 정보를 가진다면, 그 정보들만 추출해서 채워줍니다.

### 문제 06. 결측치 패턴 파악하기

In [None]:
# 결측치 패턴 확인하기


- 기온, 풍속, 습도, 일조량은 3시간마다 측정되어 사이사이에 2칸씩 결측치가 있습니다.

- 강수량은 6시간마다 측정되어 사이사이에 5칸씩 결측치가 있습니다.

- 건물 정보들은 랜덤하게 비어있습니다.

### 문제 07. 건물 정보 추출하기

- test data의 건물 정보를 채우기 위해서 train data에 있는 건물 정보를 추출합니다.

In [None]:
# train data에서 건물 정보만 추출하기
building_info = 
building_info

In [None]:
# 같은 건물번호인 데이터는 모두 같은 데이터를 가집니다. (한번 확인해보세요)
# 하나의 건물당 하나의 정보를 남기고 중복되는 행을 지웁니다.
building_info = 
building_info

### 문제 08. 건물 정보 결측치 채우기

- 추출한 건물 정보에서 같은 건물번호를 가지는 건물정보를 가져와서, 데이터를 채워줍니다.

In [None]:
# test data의 건물번호가 building_info에 있는 번호와 같으면 해당 정보로 결측치를 채워줍니다.
for num in range(1, 61):
    
test

### 문제 09. table join을 사용하여 결측치 채우기

- 위의 for문을 사용하는 방법보다 좀 더 간단하게, test 데이터와 building_info의 num를 기준으로 join 연산을 수행하면 한번에 해결할 수 있습니다.

In [None]:
# join을 수행하기 위해서 test 데이터에 있는 기존 column을 제거합니다.


In [None]:
# num column을 기준으로 join 연산을 수행합니다.


### 문제 10. 날씨 정보 결측치 채우기

In [None]:
# test 데이터의 날씨 정보 column들을 보간법으로 채웁니다.
# pad method를 사용하면 이전에 등장했던 가장 가까운 값으로 채워줍니다.


In [None]:
# 사이 정보를 선형식으로 채워주는 linear method가 좀 더 좋아보입니다.


## Step 3. Feature Engineering

- 분석에 사용할 feature들을 만들고, 학습을 위한 데이터를 준비하는 단계입니다.

- 모든 categorical feature들을 변환하여 데이터를 feature vector로 만들어봅니다.

### 문제 11. categorical feature들 확인하기

In [None]:
# train, test categorical feature들 확인하기
train_categories = 
test_categories = 

In [None]:
print(train_categories)
print(test_categories)

### 문제 12. date_time을 시간정보로 변환하기

- date_time feature로 사용하기 위해서 시간 정보로 변환해줍니다.

In [None]:
# datetime data type으로 변환하기
train.date_time = 
test.date_time = 

In [None]:
# 변경되었는지 확인하기
train.info()

In [None]:
# test data도 확인하기
test.info()

### 문제 13. date_time 패턴 파악하기

In [None]:
plt.figure(figsize=(10, 6))
sns.lineplot(## TO-DO ##)
plt.show()

- 전력사용량 패턴을 보니, 5일과 2일의 패턴이 다르고, 그러한 패턴이 반복됩니다.

- 주중/주말에 건물의 전력사용량 패턴이 다르다는 사실을 파악하고, 이를 feature로 만들어봅니다.

## 문제 14. is_weekday feature 만들기

- date_time의 요일을 보고, 주중/주말을 구분하는 feature를 생성합니다.

- date_time에서 요일정보를 추출해서, 주중(1), 주말(0)의 feature를 생성합니다.

In [None]:
# weekday를 확인합니다.


In [None]:
# weekday는 0이 월요일이고, 6이 일요일을 나타냅니다.
# 5 이상을 주말, 나머지는 주중으로 나타내는 is_weekday feature를 만들어봅니다.


### 문제 15. test에도 동일하게 is_weekday feature 생성하기

In [None]:
# weekday는 0이 월요일이고, 6이 일요일을 나타냅니다.
# 5 이상을 주말, 나머지는 주중으로 나타내는 is_weekday feature를 만들어봅니다.


### 문제 15. 학습에 사용할 데이터 만들기

In [None]:
# train, test 데이터를 학습에 사용할 수 있는 상태로 만듭니다.
X_train = 
y_train = 
X_test = 

print(X_train.shape, y_train.shape, X_test.shape)

### 문제 16. feature scaling

- tree method 계열은 scaling이 필요하지 않지만, linear regression 계열은 scale에 굉장히 민감하기 때문에, 사전에 scaling을 해줍니다.

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = 
X_train_scaled = 
X_test_scaled = 

In [None]:
# 스케일 조정된 X_train 데이터 확인하기
X_train_scaled 

### 참고: scikit-learn에서 제공하는 피처 스케일러(scaler)

- `StandardScaler`: 기본 스케일, 각 피처의 평균을 0, 표준편차를 1로 변환
- `RobustScaler`: 위와 유사하지만 평균 대신 중간값(median)과 일분위, 삼분위값(quartile)을 사용하여 이상치 영향을 최소화
- `MinMaxScaler`: 모든 피처의 최대치와 최소치가 각각 1, 0이 되도록 스케일 조정
- `Normalizer`: 피처(컬럼)이 아니라 row마다 정규화되며, 유클리드 거리가 1이 되도록 데이터를 조정하여 빠르게 학습할 수 있게 함

<p> 스케일 조정을 하는 이유는 데이터의 값이 너무 크거나 작을 때 학습이 제대로 되지 않을 수도 있기 때문입니다. 또한 스케일의 영향이 절대적인 분류기(예: knn과 같은 거리기반 알고리즘)의 경우, 스케일 조정을 필수적으로 검토해야 합니다.
    
<p> 반면 어떤 항목은 원본 데이터의 분포를 유지하는 것이 나을 수도 있습니다. 예를 들어, 데이터가 거의 한 곳에 집중되어 있는 feature를 표준화시켜 분포를 같게 만들었을 때, 작은 단위의 변화가 큰 차이를 나타내는 것처럼 학습될 수도 있습니다. 또한 스케일의 영향을 크게 받지 않는 분류기(예: 트리 기반 앙상블 알고리즘)를 사용할 경우에도 성능이 준수하게 나오거나 과대적합(overfitting)의 우려가 적다면 생략할 수도 있습니다.
    
<p> 스케일 조정시 유의해야할 점은 원본 데이터의 의미를 잃어버릴 수 있다는 것입니다. 최종적으로 답을 구하는 것이 목적이 아니라 모델의 해석이나 향후 다른 데이터셋으로의 응용이 더 중요할 때 원 피처에 대한 설명력을 잃어버린다면 모델 개선이 어려울 수도 있습니다. 이 점을 함께 고려하시면 좋겠습니다.

## Step 4. Training

- 공부한 각 머신러닝 회귀 모델들을 돌려보고, 성능을 평가합니다.

- 아래 모델들이 그 대상에 해당합니다.

- Linear Regression / Ridge / Lasso / Random Forest / SVR / xgboost / lightgbm / catboost

### 문제 17. Linear Regression 모델 돌려보기

In [None]:
# 라이브러리를 불러오세요

linear_reg = 


### 문제 18. Linear Regression 모델의 MAE 평가하기

In [None]:
# prediction 이후, MAE를 계산하여 출력하세요.
pred = 
linear_reg_score = 

print('Linear Regression MAE:' )

### 문제 19. Lasso 모델 돌려보기

In [None]:
# Lasso를 불러와서 학습시키세요.


lasso = 


### 문제 20. Lasso 평가하기

In [None]:
# 학습한 Lasso 모델로 MAE를 계산하고 출력하세요.
pred = 
lasso_score = 

print('Lasso MAE: {0:0.4f}')

### 문제 21. Random Forest 모델 돌려보기

In [None]:
# RandomForest 모델을 불러오고, 학습 시키세요.


rf = 


In [None]:
# 예측 결과를 확인하고 MAE값을 출력하세요.
pred = 
rf_score = 
print('Random Forest MAE :')

### 문제 22. Support Vector Machine 모델 돌려보기

In [None]:
# Support Vector Machine 모델을 불러옵니다.
# 데이터가 10000개 이상일 때는 LinearSVR을 추천합니다.

svr = 


In [None]:
# SVM 모델의 결과를 확인하고, MAE를 측정해보세요.
pred = 
svm_score = 
print('Support Vector Machine MAE:')

### 문제 23. XGBoost 모델 돌려보기

- xgboost의 구현체가 많지만, 여기서는 sklearn version을 사용합니다.

In [None]:
# sklearn 구현체인 XGBRegressor를 불러와서 학습시킵니다.


xgb = 


In [None]:
# xgbm 예측 성능을 측정합니다.
pred = 
xgb_score = 
print('XGBoost MAE : ')

### 문제 24. Light GBM 모델 돌려보기

In [None]:
# sklearn 구현체인 LGBMRegressor를 불러와서 학습시킵니다.


lgb = 


In [None]:
# lgbm 예측 성능을 측정합니다.
pred = 
lgb_score = 
print('LightGBM MAE: ')

### 참고 : 부스팅(Boosting) 모델 개요


- 부스팅은 여러 트리의 적합 결과를 합하는 앙상블 알고리즘의 하나로, 이 때 sequential의 개념이 추가되어 있습니다. 즉 연속적인 weak learner, 바로 직전 weak learner의 error를 반영한 현재 weak learner를 잡겠다는 것입니다. 이 아이디어는 Gradient Boosting Model(GBM)에서 loss를 계속 줄이는 방향으로 weak learner를 잡는다는 개념으로 확장됩니다.

![boost](https://pluralsight2.imgix.net/guides/81232a78-2e99-4ccc-ba8e-8cd873625fdf_2.jpg)


- 부스팅 계열 모델은 XGBoost, LightGBM, CatBoost 등이 있습니다.


- 더 자세한 내용은 다음 Step에서 살펴보겠습니다.

### 문제 25. Test prediction

- 학습한 모델을 기반하여 test 데이터를 평가합니다. 그 예측값이 대회 제출이 되는 기준입니다.


- 실제 현업에서는 서비스에 들어가는 기술을 test 데이터로 평가합니다. 마치 유저가 들어온 것처럼요.

In [None]:
# 모델을 하나 정해서, test data에 대한 inference를 진행합니다.
final = 
final

In [None]:
# 제출 템플릿 불러오기
submission = 
submission

In [None]:
# 결과 파일 생성


### 문제 26. 최종 성능 정리

In [None]:
print('MAE Comparisons for Various Regression Models\n')
print('linear_reg_score:', '{0:0.5f}'.format())
print('lasso_score   :', '{0:0.5f}'.format())
print('rf_score   :', '{0:0.5f}'.format())
print('svm_score   :', '{0:0.5f}'.format())
print('xgb_score   :', '{0:0.5f}'.format())
print('lgb_score   :', '{0:0.5f}'.format())