In [None]:
import warnings
warnings.filterwarnings("ignore")

import os
from os.path import join

import pandas as pd
import numpy as np

import missingno as msno

from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import KFold, cross_val_score
import xgboost as xgb
import lightgbm as lgb

import seaborn as sns

import matplotlib.pyplot as plt
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

In [None]:
data_dir = os.getenv('HOME')+'/aiffel/kaggle_kakr_housing/data'

train_data_path = join(data_dir, 'train.csv')
sub_data_path = join(data_dir, 'test.csv')      # 테스트, 즉 submission 시 사용할 데이터 경로

print(train_data_path)
print(sub_data_path)

[python os.path](https://docs.python.org/3/library/os.path.html)

## 1. 데이터 살펴보기
pandas의 read_csv 함수를 사용해 데이터를 읽어오고, 각 변수들이 나타내는 의미를 살펴보겠습니다.
1. ID : 집을 구분하는 번호
2. date : 집을 구매한 날짜
3. price : 타겟 변수인 집의 가격
4. bedrooms : 침실의 수
5. bathrooms : 침실당 화장실 개수
6. sqft_living : 주거 공간의 평방 피트
7. sqft_lot : 부지의 평방 피트
8. floors : 집의 층 수
9. waterfront : 집의 전방에 강이 흐르는지 유무 (a.k.a. 리버뷰)
10. view : 집이 얼마나 좋아 보이는지의 정도
11. condition : 집의 전반적인 상태
12. grade : King County grading 시스템 기준으로 매긴 집의 등급
13. sqft_above : 지하실을 제외한 평방 피트
14. sqft_basement : 지하실의 평방 피트
15. yr_built : 집을 지은 년도
16. yr_renovated : 집을 재건축한 년도
17. zipcode : 우편번호
18. lat : 위도
19. long : 경도
20. sqft_living15 : 2015년 기준 주거 공간의 평방 피트(집을 재건축했다면, 변화가 있을 수 있음)
21. sqft_lot15 : 2015년 기준 부지의 평방 피트(집을 재건축했다면, 변화가 있을 수 있음)

In [None]:
data = pd.read_csv(train_data_path)
sub = pd.read_csv(sub_data_path)
print('train data dim : {}'.format(data.shape))
print('sub data dim : {}'.format(sub.shape))

#### 학습 데이터에서 라벨 제거하기

In [None]:
y = data['price']

del data['price']

#### 학습 데이터와 테스트 데이터 합치기

In [None]:
train_len = len(data)
data = pd.concat((data, sub), axis=0)

In [None]:
data.head()

## 2. 간단한 전처리 
각 변수들에 대해 결측 유무를 확인하고, 분포를 확인해보면서 간단하게 전처리를 하겠습니다.
### 결측치 확인
먼저 데이터에 결측치가 있는지를 확인하겠습니다.<br>
missingno 라이브러리의 matrix 함수를 사용하면, 데이터의 결측 상태를 시각화를 통해 살펴볼 수 있습니다.

In [None]:
msno.matrix(data)

모든 변수에 결측치가 없는 것으로 보이지만, 혹시 모르니 확실하게 살펴보겠습니다.<br>

[데이터 고급 인덱싱](https://datascienceschool.net/01%20python/04.03%20%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84%20%EA%B3%A0%EA%B8%89%20%EC%9D%B8%EB%8D%B1%EC%8B%B1.html?highlight=%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84%20%EA%B3%A0%EA%B8%89%20%EC%9D%B8%EB%8D%B1%EC%8B%B1)

In [None]:
for c in data.columns:
    print('{} : {}'.format(c, len(data.loc[pd.isnull(data[c]), c].values)))

### id, date 변수 정리
id 변수는 모델이 집값을 예측하는데 도움을 주지 않으므로 제거합니다.<br>
date 변수는 연월일시간으로 값을 가지고 있는데, 연월만 고려하는 범주형 변수로 만들겠습니다.

In [None]:
sub_id = data['id'][train_len:]
del data['id']
data['date'] = data['date'].apply(lambda x : str(x[:6])).astype(str)

### 각 변수들의 분포 확인
한쪽으로 치우친 분포는 모델이 결과를 예측하기에 좋지 않은 영향을 미치므로 다듬어줄 필요가 있습니다.   
[seaborn sns.kdeplot](https://seaborn.pydata.org/generated/seaborn.kdeplot.html)

In [None]:
fig, ax = plt.subplots(9, 2, figsize=(12, 50))   # 가로스크롤 때문에 그래프 확인이 불편하다면 figsize의 x값을 조절해 보세요. 

# id 변수(count==0인 경우)는 제외하고 분포를 확인합니다.
count = 1
columns = data.columns
for row in range(9):
    for col in range(2):
        sns.kdeplot(data[columns[count]], ax=ax[row][col])
        ax[row][col].set_title(columns[count], fontsize=15)
        count += 1
        if count == 19 :
            break

price, bedrooms, sqft_living, sqft_lot, sqft_above, sqft_basement 변수가 한쪽으로 치우친 경향을 보였습니다.<br>
log-scaling을 통해 데이터 분포를 정규분포에 가깝게 만들어 보겠습니다.

In [None]:
skew_columns = ['bedrooms', 'sqft_living', 'sqft_lot', 'sqft_above', 'sqft_basement']

for c in skew_columns:
    data[c] = np.log1p(data[c].values)

In [None]:
fig, ax = plt.subplots(3, 2, figsize=(10, 15))

count = 0
for row in range(3):
    for col in range(2):
        if count == 5:
            break
        sns.kdeplot(data[skew_columns[count]], ax=ax[row][col])
        ax[row][col].set_title(skew_columns[count], fontsize=15)
        count+=1



어느정도 치우침이 줄어든 분포를 확인할 수 있습니다.

In [None]:
sub = data.iloc[train_len:, :]
x = data.iloc[:train_len, :]

print(sub.shape)
print(x.shape)

## 3. 모델링
### Average Blending
여러가지 모델의 결과를 산술 평균을 통해 Blending 모델을 만들겠다.   
Baseline 커널에서는 여러 가지 모델을 함께 사용해서 결과를 섞는, 블렌딩(blending) 이라는 기법을 활용한다.
블렌딩은 앙상블 기법이라고 하기도 한다.

[Ensemble learning](https://subinium.github.io/introduction-to-ensemble-1/#:~:text=%EC%95%99%EC%83%81%EB%B8%94(Ensemble)%20%ED%95%99%EC%8A%B5%EC%9D%80%20%EC%97%AC%EB%9F%AC,%EB%A5%BC%20%EA%B0%80%EC%A7%80%EA%B3%A0%20%EC%9D%B4%ED%95%B4%ED%95%98%EB%A9%B4%20%EC%A2%8B%EC%8A%B5%EB%8B%88%EB%8B%A4.)   
[Ensemble Guide](https://gentlej90.tistory.com/73)

In [None]:
# boosting 계열 모델 3가지
gboost = GradientBoostingRegressor(random_state=2019)
xgboost = xgb.XGBRegressor(random_state=2019)
lightgbm = lgb.LGBMRegressor(random_state=2019)

models = [{'model':gboost, 'name':'GradientBoosting'}, {'model':xgboost, 'name':'XGBoost'},
          {'model':lightgbm, 'name':'LightGBM'}]

### Cross Validation
교차 검증을 통해 모델의 성능을 간단히 평가하겠습니다.

In [None]:
def get_cv_score(models):
    kfold = KFold(n_splits=5, random_state=2019).get_n_splits(x.values)
    for m in models:
        print("Model {} CV score : {:.4f}".format(m['name'], np.mean(cross_val_score(m['model'], x.values, y)), 
                                             kf=kfold))

In [None]:
get_cv_score(models)

### Make Submission

회귀 모델의 경우에는 cross_val_score 함수가 R<sup>2</sup>를 반환합니다.<br>
R<sup>2</sup> 값이 1에 가까울수록 모델이 데이터를 잘 표현함을 나타냅니다. 3개 트리 모델이 상당히 훈련 데이터에 대해 괜찮은 성능을 보여주고 있습니다.<br> 훈련 데이터셋으로 3개 모델을 학습시키고, Average Blending을 통해 제출 결과를 만들겠습니다.

In [None]:
def AveragingBlending(models, x, y, sub_x):
    for m in models : 
        m['model'].fit(x.values, y)
    
    predictions = np.column_stack([
        m['model'].predict(sub_x.values) for m in models
    ])
    return np.mean(predictions, axis=1)

In [None]:
y_pred = AveragingBlending(models, x, y, sub)
print(len(y_pred))
y_pred

In [None]:
data_dir = os.getenv('HOME')+'/aiffel/kaggle_kakr_housing/data'

submission_path = join(data_dir, 'sample_submission.csv')
submission = pd.read_csv(submission_path)
submission.head()

In [None]:
result = pd.DataFrame({
    'id' : sub_id, 
    'price' : y_pred
})

result.head()

In [None]:
my_submission_path = join(data_dir, 'submission.csv')
result.to_csv(my_submission_path, index=False)

print(my_submission_path)

# 랭킹 올리기

In [None]:
data_dir = os.getenv('HOME')+'/aiffel/kaggle_kakr_housing/data'

train_data_path = join(data_dir, 'train.csv')
test_data_path = join(data_dir, 'test.csv') 

train = pd.read_csv(train_data_path)
test = pd.read_csv(test_data_path)

In [None]:
train.head()

Baseline 커널이 했던 것과 달리, 우리는 int, 즉 정수형 데이터로 처리해보겠습니다.    
이렇게 하면 모델이 date도 예측을 위한 특성으로 활용할 수 있을 것이다

In [None]:
train['date'] = train['date'].apply(lambda i: i[:6]).astype(int)
train.head()

y 변수에 `price`를 넣어두고, train에서는 삭제한다.

In [None]:
y = train['price']
del train['price']

print(train.columns)

`id` 컬럼을 삭제하는 것까지 하면 기본적인 전처리는 모두 마무리된다.

In [None]:
del train['id']

print(train.columns)

test에 우리가 맞추어야 할 타겟 데이터인 `price`는 없으니 훈련 데이터셋과는 다르게 price에 대한 처리는 해주지 않아도 된다.

In [None]:
test['date'] = test['date'].apply(lambda i: i[:6]).astype(int)

del test['id']

print(test.columns)

타겟 데이터인 y를 확인해보자.

In [None]:
y

y는 `np.log1p()` 함수를 통해 로그 변환을 해주고, 나중에 모델이 값을 예측한 후에 다시 `np.exp1m()`을 활용해서 되돌려놓는다.      
`np.exp1m()`은 `np.log1p()`과는 반대로 각 원소 x마다 exp(x)-1의 값을 반환해 줍니다.

In [None]:
y = np.log1p(y)
sns.kdeplot(y)
plt.show()
y

In [None]:
# info() 함수로 전체 데이터의 자료형을 한눈에 확인하자
train.info()

## 과정들을 함수로 만들기

### RMSE 계산

데이터셋을 훈련(train) 데이터셋과 검증(test) 데이터셋으로 나누기 위한 train_test_split 함수와,    
RMSE 점수를 계산하기 위한 mean_squared_error를 가져온다.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

한 가지 주의해야 할 것은, y_test나 y_pred는 위에서 `np.log1p()`로 변환이 된 값이기 때문에    
원래 데이터의 단위에 맞게 되돌리기 위해 `np.expm1()`을 추가해야 한다.   
exp로 다시 변환해서 `mean_squared_error`를 계산한 값에 `np.sqrt`를 취하면 RMSE 값을 얻을 수 있다.

In [None]:
def rmse(y_test, y_pred):
    return np.sqrt(mean_squared_error(np.expm1(y_test), np.expm1(y_pred)))

In [None]:
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor

In [None]:
### models라는 리스트에 넣어준다.
random_state=2021

gboost = GradientBoostingRegressor(random_state=random_state)
xgboost = XGBRegressor(random_state=random_state)
lightgbm = LGBMRegressor(random_state=random_state)
rdforest = RandomForestRegressor(random_state=random_state)

models = [gboost, xgboost, lightgbm, rdforest]

각 모델의 이름은 다음과 같이 클래스의 `__name__` 속성에 접근해서 얻을 수 있다

In [None]:
gboost.__class__.__name__

In [None]:
df = {}

for model in models:
    # 모델 이름 획득
    model_name = model.__class__.__name__

    # train, test 데이터셋 분리 - 여기에도 random_state를 고정합니다. 
    X_train, X_test, y_train, y_test = train_test_split(train, y, random_state=random_state, test_size=0.2)

    # 모델 학습
    model.fit(X_train, y_train)
    
    # 예측
    y_pred = model.predict(X_test)

    # 예측 결과의 rmse값 저장
    df[model_name] = rmse(y_test, y_pred)
    
    # data frame에 저장
    score_df = pd.DataFrame(df, index=['RMSE']).T.sort_values('RMSE', ascending=False)
    
score_df

위의 과정을 `get_scores(models, train, y)` 함수로 만들어보자.

In [None]:
def get_scores(models, train, y):
    # 답안 작성
    df = {}
    
    for model in models:
        model_name = model.__class__.__name__
        
        X_train, X_test, y_train, y_test = train_test_split(train, y, random_state=random_state, test_size=0.2)
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        
        df[model_name] = rmse(y_test, y_pred)
        score_df = pd.DataFrame(df, index=['RMSE']).T.sort_values('RMSE', ascending=False)
    
    return score_df

get_scores(models, train, y)

## 그리드 탐색을 이용한 하이퍼 파라미터 튜닝
- 그리드 탐색(grid search)은 사람이 먼저 탐색할 하이퍼 파라미터의 값들을 정해두고,    \
그 값들로 만들어질 수 있는 모든 조합을 탐색한다. 특정 값에 대한 하이퍼 파라미터 조합을 모두 탐색하고자 할 때 유용하다.
- 랜덤 탐색(random search)은 사람이 탐색할 하이퍼 파라미터의 공간만 정해두고, 그 안에서 랜덤으로 조합을 선택해서 탐색하는 방법이다.

`GridSearchCV`에 입력되는 인자들.
- param_grid : 탐색할 파라미터의 종류 (딕셔너리로 입력)
- scoring : 모델의 성능을 평가할 지표
- cv : cross validation을 수행하기 위해 train 데이터셋을 나누는 조각의 개수
- verbose : 그리드 탐색을 진행하면서 진행 과정을 출력해서 보여줄 메세지의 양 (숫자가 클수록 더 많은 메세지를 출력합니다.)
- n_jobs : 그리드 탐색을 진행하면서 사용할 CPU의 개수


In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
param_grid = {
    'n_estimators': [50, 100],
    'max_depth': [1, 10],
}

In [None]:
model = LGBMRegressor(random_state=random_state)

In [None]:
grid_model = GridSearchCV(model, param_grid=param_grid, \
                        scoring='neg_mean_squared_error', \
                        cv=5, verbose=1, n_jobs=5)

grid_model.fit(train, y)

실험에 대한 결과는 다음과 같이 `grid_model.cv_results_`안에 저장된다.

In [None]:
grid_model.cv_results_

파라미터 조합은 위 딕셔너리 중 `params`에,    
각각에 대한 테스트 점수는 `mean_test_score`에 저장되어 있다.

In [None]:
params = grid_model.cv_results_['params']
score = grid_model.cv_results_['mean_test_score']

In [None]:
results = pd.DataFrame(params)
results['score'] = score
results

`neg_mean_squared_error`를 사용했기 때문에 점수가 음수로 나온다.    
음수로 된 MSE였으니, -1을 곱해주고 `np.sqrt`로 루트 연산을 해주면 RMSE 점수를 볼 수 있다.

In [None]:
results['RMSE'] = np.sqrt(-1 * results['score'])
results

컬럼의 이름을 RMSLE로 변환해 준다.

In [None]:
results = results.rename(columns={'RMSE': 'RMSLE'})
results

In [None]:
# 위의 표를 `RMSLE`가 낮은 순서대로 정렬해준다.
results.sort_values("RMSLE")

위 과정을 함수로 만들어보자.
1. GridSearchCV 모델로 `model`을 초기화한다.
2. 모델을 fitting 한다.
3. params, score에 각 조합에 대한 결과를 저장한다.
4. 데이터 프레임을 생성하고, RMSLE 값을 추가한 후 점수가 높은 순서로 정렬한 `results`를 반환한다.

In [None]:
def my_GridSearch(model, train, y, param_grid, verbose=2, n_jobs=5):
    grid_model = GridSearchCV(model, param_grid=param_grid, \
                        scoring='neg_mean_squared_error', \
                        cv=5, verbose=verbose, n_jobs=n_jobs)
    grid_model.fit(train, y)
    
    params = grid_model.cv_results_['params']
    score = grid_model.cv_results_['mean_test_score']
    
    results = pd.DataFrame(params)
    results['score'] = score
    
    results['RMSLE'] = np.sqrt(-1 * results['score'])
    results = results.sort_values("RMSLE")
    
    return results

### 실험을 통해 좋은 결과를 내는 모델을 찾아보자

In [None]:
param_grid = {
    'n_estimators': [50, 100],
    'max_depth': [1, 10],
}

model = LGBMRegressor(random_state=random_state)
my_GridSearch(model, train, y, param_grid, verbose=2, n_jobs=5)

위 표를 보면 가장 좋은 조합은 `max_depth=10`, `n_estimators=100` 이다.   
해당 모델로 학습을 해서 예측값인 `submission.csv` 파일을 만들자.

In [None]:
model = LGBMRegressor(max_depth=10, n_estimators=100, random_state=random_state)
model.fit(train, y)
prediction = model.predict(test)
prediction

예측 결과에 `np.expm1()`을 씌워서 다시 원래 스케일로 되돌리자

In [None]:
prediction = np.expm1(prediction)
prediction

In [None]:
data_dir = os.getenv('HOME')+'/aiffel/kaggle_kakr_housing/data'

submission_path = join(data_dir, 'sample_submission.csv')
submission = pd.read_csv(submission_path)
submission.head()

In [None]:
submission['price'] = prediction
submission.head()

In [None]:
submission_csv_path = '{}/submission_{}_RMSLE_{}.csv'.format(data_dir, 'lgbm', '0.164399')
submission.to_csv(submission_csv_path, index=False)
print(submission_csv_path)

위의 과정을 함수로 만들어보자.

In [None]:
def save_submission(model, train, y, test, model_name, rmsle):
    # 모델을 `train`, `y`로 학습
    model.fit(train, y)
    # `test`에 대해 예측
    prediction = model.predict(test)
    # 예측값을 `np.expm1`으로 변환
    prediction = np.expm1(prediction)
    
    # sample_submission.csv을 불러옴
    data_dir = os.getenv('HOME')+'/aiffel/kaggle_kakr_housing/data'
    submission_path = join(data_dir, 'sample_submission.csv')
    submission = pd.read_csv(submission_path)
    
    # prediction값을 테이블에 붙인후 `submission_model_name_RMSLE_100000.csv`형태의 이름으로 저장
    submission['price'] = prediction
    submission_csv_path = '{}/submission_{}_RMSLE_{}.csv'.format(data_dir, model_name, rmsle)
    submission.to_csv(submission_csv_path, index=False)
    print("{} saved.".format(submission_csv_path))

In [None]:
save_submission(model, train, y, test, 'lgbm', rmsle='0.0168')