### 4-1. 프로젝트 : This is your playground! Leaderboard를 정복해 주세요!

 ***캐글 리더보드의 Private score 기준 110000 이하의 점수***
 
 - 목표 : 어떤 조건을 가진 집의 가격이 높고 낮은지를 예측하는 모델을 만드는 것을 목표
 - 평가방식 : RMSE
 - train.csv - 예측 모델을 만들기 위해 사용하는 학습 데이터입니다. 집의 정보와 예측할 변수인 가격(Price) 변수를 가지고 있습니다.
 - test.csv - 학습셋으로 만든 모델을 가지고 예측할 가격(Price) 변수를 제외한 집의 정보가 담긴 테스트 데이터 입니다.
 - sample_submission.csv - 제출시 사용할 수 있는 예시 submission.csv 파일입니다.

In [1]:
# 사용할 라이브러리 import 하기

import xgboost
import lightgbm
import missingno
import sklearn
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Dataset read & 크기 살펴보기
# -> test 데이터는 Price 컬럼이 빠져있으므로 컬럼의 갯수가 적음

train_data = pd.read_csv('./data/train.csv')
test_data = pd.read_csv('./data/test.csv')

print(f'train_data shape = {train_data.shape}, test_data shape = {test_data.shape}')

train_data shape = (15035, 21), test_data shape = (6468, 20)


In [8]:
# train_data.corr()['price'].sort_values(ascending=False)

# # sqft_living , grade , sqft_above , sqft_living15 , bathrooms

price            1.000000
sqft_living      0.702899
grade            0.667211
sqft_above       0.608577
sqft_living15    0.586419
bathrooms        0.525479
view             0.400806
bedrooms         0.323672
sqft_basement    0.322218
lat              0.301604
waterfront       0.265738
floors           0.262588
yr_renovated     0.140808
sqft_lot         0.096793
sqft_lot15       0.086384
yr_built         0.047290
condition        0.039740
long             0.023547
id               0.020899
zipcode         -0.051498
Name: price, dtype: float64

#### 주요 컬럼 설명 

ID : 집을 구분하는 번호

date : 집을 구매한 날짜

price : 타겟 변수인 집의 가격

bedrooms : 침실의 수

bathrooms : 침실당 화장실 개수

sqft_living : 주거 공간의 평방 피트

sqft_lot : 부지의 평방 피트

floors : 집의 층 수

waterfront : 집의 전방에 강이 흐르는지 유무 (a.k.a. 리버뷰)

view : 집이 얼마나 좋아 보이는지의 정도

condition : 집의 전반적인 상태

grade : King County grading 시스템 기준으로 매긴 집의 등급

sqft_above : 지하실을 제외한 평방 피트

sqft_basement : 지하실의 평방 피트

yr_built : 집을 지은 년도

yr_renovated : 집을 재건축한 년도

zipcode : 우편번호

lat : 위도

long : 경도

sqft_living15 : 2015년 기준 주거 공간의 평방 피트(집을 재건축했다면, 변화가 있을 수 있음)

sqft_lot15 : 2015년 기준 부지의 평방 피트(집을 재건축했다면, 변화가 있을 수 있음)

In [None]:
# y 데이터셋 분리하고 train_data 에서 price 컬럼 drop 하기

y = train_data['price']
train_data.drop(labels=['price'], axis=1, inplace = True)

# train, test 분리를 위하여 train data 의 길이를 저장
tr_len = len(train_data)

# 행 방향으로 trin, test 데이터 붙이기
data = pd.concat((train_data, test_data), axis=0)

In [None]:
# 데이터 타입과 null 값 확인하기
display(data.info())

# -> Null 값이없고, 컬럼이 숫자값으로 구성된것을 확인 할 수 있다.

In [None]:
# 훈련용 데이터셋 살펴보기

display(data.head())

In [None]:
# ID 컬럼 drop , 열 방향으로 drop

data.drop(labels=['id'], axis=1, inplace = True)

# date 컬럼 전처리 년,월,일 만 남기도록

data['date'] = data['date'].apply(lambda x : str(x[:6])).astype(str)

In [None]:
# 전처리 완료된 데이터 확인

display(data.head())

In [None]:
# 혹시 모르니 다시한번 null 값이 있는지 확인

display(data.isnull().sum())

In [None]:
# 각 변수들의 분포 확인

fig, ax = plt.subplots(9, 2, figsize=(20, 45))
count = 1
columns = data.columns
for row in range(9):
    for col in range(2):
        sns.kdeplot(data=data[columns[count]], ax=ax[row][col])
        ax[row][col].set_title(columns[count], fontsize=15)
        count += 1
        if count == 19 :
            break

In [None]:
# skew 되어있는 데이터들을 np.log1p()를 통해서 로그 변환을 실행

skew_columns = ['bedrooms', 'sqft_living', 'sqft_lot', 'sqft_above', 'sqft_basement', 'sqft_lot15', 'sqft_living15']

for c in skew_columns:
    data[c] = np.log1p(data[c].values)

In [None]:
# np.log1p()를 적용한 이후 데이터의 분포 모습

fig, ax = plt.subplots(3, 2, figsize=(10, 15))

count = 0
for row in range(3):
    for col in range(2):
        if count == 5:
            break
        sns.kdeplot(data[skew_columns[count]], ax=ax[row][col])
        ax[row][col].set_title(skew_columns[count], fontsize=15)
        count+=1

In [None]:
# y 데이터의 분포 확인
# y 값 역시 왼쪽으로 skew 된것을 볼 수 있다.

sns.histplot(y, kde=True)
plt.show()

In [None]:
# log1p를 이용하여 값을 변환
# !!!! 나중에 모델이 값을 예측한 후에 다시 expm1()을 통해 값을 돌려 주어여함 !!!!

y = np.log1p(y)

sns.histplot(y, kde=True)
plt.show()

In [None]:
# 아까 합쳐두었던 train, test 데이터를 분리하기

train_data = data.iloc[:tr_len, :].to_numpy()
test_data = data.iloc[tr_len:, :].to_numpy()


print(f'train_data shape = {train_data.shape}, test_data shape = {test_data.shape}')

In [None]:
# Base 모델 선정하기, train, test 나누고, rmse 정의하기

from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error


def rmse(y_test, y_pred):
    return np.sqrt(mean_squared_error(np.expm1(y_test), np.expm1(y_pred)))

In [None]:
# random_state는 모델초기화나 데이터셋 구성에 사용되는 랜덤 시드값입니다.   
random_state=9999

gboost = GradientBoostingRegressor(random_state=random_state)
xgboost = XGBRegressor(random_state=random_state)
lightgbm = LGBMRegressor(random_state=random_state)
rdforest = RandomForestRegressor(random_state=random_state)

models = [gboost, xgboost, lightgbm, rdforest]

In [None]:
def get_scores(models, train, y):
    df = {}
    
    for model in models:
        model_name = model.__class__.__name__
        
        X_train, X_test, y_train, y_test = train_test_split(train, y, random_state=random_state, test_size=0.2)
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        
        df[model_name] = rmse(y_test, y_pred)
        score_df = pd.DataFrame(df, index=['RMSE']).T.sort_values('RMSE', ascending=False)
            
    return score_df
get_scores(models, train_data, y)

### Loss 값이 가장 낮은 lightgbm 모델을 base모델로 선정하고 하이퍼 파라미터 튜닝해보기

- max_depth : 의사 결정 나무의 깊이, 정수 사용

- learning_rate : 한 스텝에 이동하는 양을 결정하는 파라미터, 보통 0.0001~0.1 사이의 실수 사용

- n_estimators : 사용하는 개별 모델의 개수, 보통 50~100 이상의 정수 사용

- num_leaves : 하나의 LightGBM 트리가 가질 수 있는 최대 잎의 수

- boosting_type : 부스팅 방식, gbdt, rf 등의 문자열 입력

In [None]:
# 파라미터 값 지정을 위해서 Grid Search CV를 import / 파라미터 설정하기

from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [100,150,200],
    'max_depth': [10, 20, 30],
    'num_leave': [1,2,3,4],
}

In [None]:
# lgbm 모델 선언하고 학습함수 선언하기

model = LGBMRegressor(random_state=random_state)

def my_GridSearch(model, train, y, param_grid, verbose=2, n_jobs=5):
    # GridSearchCV 모델로 초기화
    grid_model = GridSearchCV(model, param_grid=param_grid, scoring='neg_mean_squared_error', \
                              cv=5, verbose=verbose, n_jobs=n_jobs)
    
    # 모델 fitting
    grid_model.fit(train, y)

    # 결과값 저장
    params = grid_model.cv_results_['params']
    score = grid_model.cv_results_['mean_test_score']
    
    # 데이터 프레임 생성
    results = pd.DataFrame(params)
    results['score'] = score
    
    # RMSLE 값 계산 후 정렬
    results['RMSLE'] = np.sqrt(-1 * results['score'])
    results = results.sort_values('RMSLE')

    return results

In [None]:
param_test = my_GridSearch(model, train_data, y, param_grid)

print(param_test[:5])

#### max_depth = 10 , n_estimators =  200, num_leave = 2 일때 RMSLE 값이 제일 낮다.

In [None]:
# 위에서 얻은 결과를 기반으로 하이퍼 파라미터 값 설정
# test_data 가 있기때문에 train_test_split()는 진행하지 않음

model = LGBMRegressor(max_depth=10, n_estimators=200,num_leave=1, random_state=random_state)

model.fit(train_data, y)
prediction = model.predict(test_data)

# log1p()를 적용했기 때문에 empm1()으로 값을 다시 되돌려야한다.
prediction = np.expm1(prediction)

In [None]:
# sample_submission 파일 읽어오기
submission = pd.read_csv('./data/sample_submission.csv')

# 모델이 예측한 결과값을 price 컬럼에 추가하기
submission['price'] = prediction
submission.head()

In [None]:
# 제출용 파일 csv 파일로 저장하기

submission.to_csv('./data/submission.csv', index=False)