# [코드리뷰 프로젝트] 1. 코드 업그레이드

## 0. 전처리 & 모델 학습

In [5]:
# 데이터 다운로드
!wget –no-check-certificate 'https://docs.google.com/uc?export=download&id=1IVvuG3SMlarSSGmcliGFjq1fMxZtksE0' -O kaggle-kakr-housing-data.zip

'wget'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.
'id'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [6]:
# 다운로드 받은 zip파일 압축풀기
!unzip -qq ./kaggle-kakr-housing-data.zip

'unzip'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [7]:
import warnings
warnings.filterwarnings("ignore")

import os
from os.path import join

import pandas as pd
import numpy as np

from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import KFold, cross_val_score
import xgboost as xgb
import lightgbm as lgb

import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline
%config InlineBackend.figure_format = 'retina'

#--------------------------------------------------------------------------------------------------------------------------------------
train_data_path = join('./kaggle-kakr-housing-data/train.csv')
sub_data_path = join('./kaggle-kakr-housing-data/test.csv')    # 테스트, 즉 submission 시 사용할 데이터 경로

#--------------------------------------------------------------------------------------------------------------------------------------
data = pd.read_csv(train_data_path)
sub = pd.read_csv(sub_data_path)

#--------------------------------------------------------------------------------------------------------------------------------------
y = data['price']
del data['price']

train_len = len(data)
data = pd.concat((data, sub), axis=0)

sub_id = data['id'][train_len:]
del data['id']

data['date'] = data['date'].apply(lambda x : str(x[:6])).astype(int)

#--------------------------------------------------------------------------------------------------------------------------------------
skew_columns = ['bedrooms', 'sqft_living', 'sqft_lot', 'sqft_above', 'sqft_basement']

for c in skew_columns:
    data[c] = np.log1p(data[c].values)

#--------------------------------------------------------------------------------------------------------------------------------------
y_log_transformation = np.log1p(y)

sub = data.iloc[train_len:, :] # 테스트 데이터
x = data.iloc[:train_len, :] # 학습 데이터

print(x.shape)
print(sub.shape)


(15035, 19)
(6468, 19)


In [8]:
#--------------------------------------------------------------------------------------------------------------------------------------
gboost = GradientBoostingRegressor(random_state=2023)
xgboost = xgb.XGBRegressor(random_state=2023)
lightgbm = lgb.LGBMRegressor(random_state=2023)

models = [{'model':gboost, 'name':'GradientBoosting'}, {'model':xgboost, 'name':'XGBoost'},
          {'model':lightgbm, 'name':'LightGBM'}]

#--------------------------------------------------------------------------------------------------------------------------------------
def get_cv_score(models):
    kfold = KFold(n_splits=5).get_n_splits(x.values)
    for m in models:
        CV_score = np.mean(cross_val_score(m['model'], X=x.values, y=y, cv=kfold))
        print(f"Model: {m['name']}, CV score:{CV_score:.4f}")

get_cv_score(models)


Model: GradientBoosting, CV score:0.8609
Model: XGBoost, CV score:0.8763
Model: LightGBM, CV score:0.8819


In [9]:
#--------------------------------------------------------------------------------------------------------------------------------------
def AveragingBlending(models, x, y, sub_x):
    # 모델학습
    for m in models :
        m['model'].fit(x.values, y)

    # 모델예측
    predictions = np.column_stack([
        m['model'].predict(sub_x.values) for m in models
    ])

    # 각 모델 에측의 평균을 return
    return np.mean(predictions, axis=1)

y_pred = AveragingBlending(models, x, y, sub)
print(len(y_pred))
y_pred

6468


array([ 548944.53804912,  443655.17105951, 1345797.07909443, ...,
        457185.23303678,  339532.04977609,  422564.70651683])

## 1. 하이퍼 파라미터 튜닝

- 모델 성능을 평가하기 위한 지표를 구현합니다.
- 더 높은 성능을 가진 머신러닝 모델을 만들기 위해 하이퍼 파라미터를 활용합니다.
- 튜닝한 결과를 모델에 저장하고, 학습 후 예측 결과를 생성합니다.

In [10]:
train = x # 기존 학습 데이터를 train으로
test = sub # 기존 테스트 데이터를 test로
y = np.log1p(y) # y값(price)의 로그변환

In [11]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [12]:
def rmse(y_test, y_pred):
    return np.sqrt(mean_squared_error(np.expm1(y_test), np.expm1(y_pred)))

In [13]:
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor

In [14]:
# random_state는 모델초기화나 데이터셋 구성에 사용되는 랜덤 시드값입니다.
# random_state=None    # 이게 초기값입니다. 아무것도 지정하지 않고 None을 넘겨주면 모델 내부에서 임의로 선택합니다.
random_state=2023        # 하지만 우리는 이렇게 고정값을 세팅해 두겠습니다.

gboost = GradientBoostingRegressor(random_state=random_state)
xgboost = XGBRegressor(random_state=random_state)
lightgbm = LGBMRegressor(random_state=random_state)
rdforest = RandomForestRegressor(random_state=random_state)

models = [gboost, xgboost, lightgbm, rdforest]

In [15]:
def get_scores(models, train, y):
    df = {} # 결과 저장을 위한 table 생성
    for model in models: # 모델명 추출
        model_name = model.__class__.__name__
        # 0.2만 validation에 사용
        X_train, X_val, y_train, y_val = train_test_split(train, y, random_state=random_state, test_size=0.2)

        # 모델학습
        model.fit(X_train, y_train)

        #학습된 모델 테스트
        y_pred = model.predict(X_val)

        # rmse를 이용한 계산
        df[model_name] = rmse(y_val, y_pred)

        # 테이블을 DataFrame으로 변환
        score_df = pd.DataFrame(df, index=['RMSE']).T.sort_values('RMSE', ascending=False)
    return score_df

In [16]:
from sklearn.model_selection import GridSearchCV

In [17]:
param_grid = {
    'n_estimators': [50, 100],
    'max_depth': [1, 10],
}

In [18]:
model = LGBMRegressor(random_state=random_state)

In [19]:
grid_model = GridSearchCV(model, param_grid=param_grid, \
                        scoring='neg_mean_squared_error', \
                        cv=5, verbose=1, n_jobs=5)

grid_model.fit(x, y)

Fitting 5 folds for each of 4 candidates, totalling 20 fits


In [20]:
grid_model.cv_results_

{'mean_fit_time': array([0.07918797, 0.09394822, 0.19068928, 0.30957513]),
 'std_fit_time': array([0.01645557, 0.00230908, 0.00572511, 0.01769506]),
 'mean_score_time': array([0.00498624, 0.0079783 , 0.01376276, 0.02872272]),
 'std_score_time': array([0.00109254, 0.00089186, 0.00074598, 0.00565568]),
 'param_max_depth': masked_array(data=[1, 1, 10, 10],
              mask=[False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_n_estimators': masked_array(data=[50, 100, 50, 100],
              mask=[False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'max_depth': 1, 'n_estimators': 50},
  {'max_depth': 1, 'n_estimators': 100},
  {'max_depth': 10, 'n_estimators': 50},
  {'max_depth': 10, 'n_estimators': 100}],
 'split0_test_score': array([-0.0756974 , -0.05555652, -0.02885212, -0.02664695]),
 'split1_test_score': array([-0.07666447, -0.057876  , -0.03041411, -0.02795762]),
 'split2_test_score': array([-0.07354904

In [21]:
params = grid_model.cv_results_['params']
params

[{'max_depth': 1, 'n_estimators': 50},
 {'max_depth': 1, 'n_estimators': 100},
 {'max_depth': 10, 'n_estimators': 50},
 {'max_depth': 10, 'n_estimators': 100}]

In [33]:
score = grid_model.cv_results_['mean_test_score']
score

array([-0.07339763, -0.05502319, -0.02917323, -0.02702383])

In [34]:
results = pd.DataFrame(params)
results['score'] = score

results

Unnamed: 0,max_depth,n_estimators,score
0,1,50,-0.073398
1,1,100,-0.055023
2,10,50,-0.029173
3,10,100,-0.027024


In [35]:
results['RMSE'] = np.sqrt(-1 * results['score'])
results

Unnamed: 0,max_depth,n_estimators,score,RMSE
0,1,50,-0.073398,0.27092
1,1,100,-0.055023,0.23457
2,10,50,-0.029173,0.170802
3,10,100,-0.027024,0.164389


In [39]:
# 미션 : RMSE 컬럼명을 바꿔보세요.

##############################################
#### 코드리뷰 1-1. 알맞은 코드를 직접 작성해보세요! ####
##############################################

results.rename(columns={'RMSE':'RMSE_COLUMNS'},inplace=True)
results

Unnamed: 0,max_depth,n_estimators,score,RMSE_COLUMNS
0,1,50,-0.073398,0.27092
1,1,100,-0.055023,0.23457
2,10,50,-0.029173,0.170802
3,10,100,-0.027024,0.164389


In [42]:
# 미션 : results 데이터 프레임에서 RMSLE가 낮은 순으로 정렬해보세요.

##############################################
#### 코드리뷰 1-2. 알맞은 코드를 직접 작성해보세요! ####
##############################################

results.sort_values(by="RMSE_COLUMNS")
results

Unnamed: 0,max_depth,n_estimators,score,RMSE_COLUMNS
0,1,50,-0.073398,0.27092
1,1,100,-0.055023,0.23457
2,10,50,-0.029173,0.170802
3,10,100,-0.027024,0.164389


In [43]:
## 미션 : GridSearchCV 를 통해 진행한 내용을 함수로 만들어보세요.

##############################################
#### 코드리뷰 1-3. 알맞은 코드를 직접 작성해보세요! ####
##############################################

def my_GridSearch(model, train, y, param_grid, verbose=2, n_jobs=5):
    # GridSearchCV 모델로 초기화
    grid_model = GridSearchCV(model, param_grid=param_grid, scoring='neg_mean_squared_error', \
                              cv=5, verbose=verbose, n_jobs=n_jobs)

    # 모델 fitting
    grid_model.fit(train, y)

    # 결과값 저장
    params = grid_model.cv_results_['params']
    score = grid_model.cv_results_['mean_test_score']

    # 데이터 프레임 생성
    results = pd.DataFrame(params)
    results['score'] = score

    # RMSLE 값 계산
    results['RMSLE'] = (results['score'] * -1) ** 0.5

    # RMSLE 값으로 정렬
    results = results.sort_values(by='RMSLE')

    return results

## 2. 대회 참여하기
- 예측 결과를 대회에 제출하고, Public Score를 확인합니다.

In [44]:
param_grid = {
    'n_estimators': [50, 100],
    'max_depth': [1, 10],
}

model = LGBMRegressor(random_state=random_state)
my_GridSearch(model, train, y, param_grid, verbose=2, n_jobs=5)

Fitting 5 folds for each of 4 candidates, totalling 20 fits


Unnamed: 0,max_depth,n_estimators,score,RMSLE
3,10,100,-0.027024,0.164389
2,10,50,-0.029173,0.170802
1,1,100,-0.055023,0.23457
0,1,50,-0.073398,0.27092


In [45]:
model = LGBMRegressor(max_depth=10, n_estimators=100, random_state=random_state)
model.fit(train, y)
prediction = model.predict(test)
prediction

array([13.13580793, 13.08051399, 14.11202067, ..., 13.01592878,
       12.69894979, 12.96297768])

In [46]:
prediction = np.expm1(prediction)
prediction

array([ 506766.66784595,  479506.10405112, 1345155.15609376, ...,
        449515.92243642,  327402.87855805,  426332.71354302])

In [48]:
submission_path = './kaggle-kakr-housing-data/sample_submission.csv'
submission = pd.read_csv(submission_path)
submission.head()

Unnamed: 0,id,price
0,15035,100000
1,15036,100000
2,15037,100000
3,15038,100000
4,15039,100000


In [49]:
submission['price'] = prediction
submission.head()

Unnamed: 0,id,price
0,15035,506766.7
1,15036,479506.1
2,15037,1345155.0
3,15038,312257.9
4,15039,333864.5


In [58]:
submission_csv_path = '{}/submission_{}_RMSLE_{}.csv'.format('./kaggle-kakr-housing-data', 'lgbm', '0.164399')
submission.to_csv(submission_csv_path, index=False)
print(submission_csv_path)

./kaggle-kakr-housing-data/submission_lgbm_RMSLE_0.164399.csv


In [61]:
"""
아래의 과정을 수행하는 `save_submission(model, train, y, test, model_name, rmsle)` 함수.
1. 모델을 `train`, `y`로 학습시킵니다.
2. `test`에 대해 예측합니다.
3. 예측값을 `np.expm1`으로 변환하고, `submission_model_name_RMSLE_100000.csv` 형태의 `csv` 파일을 저장합니다.
"""

def save_submission(model, train, y, test, model_name, rmsle=None):
    model.fit(train, y)
    prediction = model.predict(test)
    prediction = np.expm1(prediction)
    data_dir = './kaggle-kakr-housing-data'
    submission_path = join(data_dir, 'sample_submission.csv')
    submission = pd.read_csv(submission_path)
    submission['price'] = prediction
    submission_csv_path = '{}/submission_{}_RMSLE_{}.csv'.format(data_dir, model_name, rmsle)
    submission.to_csv(submission_csv_path, index=False)
    print('{} saved!'.format(submission_csv_path))

In [62]:
save_submission(model, train, y, test, 'lgbm', rmsle='0.164399')

./kaggle-kakr-housing-data/submission_lgbm_RMSLE_0.164399.csv saved!


In [63]:
# 미션 : 아래에 Public Score를 기록하여 제출해보세요.

print("575671.71462")

575671.71462


## 3. 코드리뷰 프로젝트 제출하기

- 수행한 프로젝트 내용을 확인하고, 전체 코드를 파이썬 파일(.py)로 저장합니다.
- 다운로드 받은 .py 파일을 zip으로 압축 및 제출하여 수행여부를 증빙합니다.
- 이번 차시에 궁금한 점이 있다면, 본문에 내용을 함께 작성하여 제출할 수 있습니다.

ALL RIGHTS RESERVED. (C)NAVER Connect Foundation.