In [203]:
import pandas as pd
from google.colab import files
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor

from sklearn.model_selection import GridSearchCV

In [204]:
uploaded = files.upload()

# 업로드된 파일에서 파일명 가져오기
submisstion_file, test_file, train_file = list(uploaded.keys())[:3]

# CSV 파일 로드

submission = pd.read_csv(submisstion_file)
train = pd.read_csv(train_file)
test = pd.read_csv(test_file)

Saving sample_submission.csv to sample_submission (3).csv
Saving test.csv to test (5).csv
Saving train.csv to train (6).csv


# **train 데이터 전처리**
1. date 컬럼을 int로 6자리까지 자르기
2. price 컬럼을 y로 두고 train에는 제거하기
3. 학습에 불필요하다고 판단되는 Id 컬럼 제거하기

In [205]:
train['date'] = train["date"].str[:6].astype(int)
y = train['price']
del train['price']

print(train.columns)

Index(['id', 'date', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot',
       'floors', 'waterfront', 'view', 'condition', 'grade', 'sqft_above',
       'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long',
       'sqft_living15', 'sqft_lot15'],
      dtype='object')


In [206]:
del train['id']

4. y 데이터 정규분포 형태로 맞추기

In [207]:
# sns.kdeplot(y)
# plt.show()

y_np=np.log1p(y)
# sns.kdeplot(y_np)
# plt.show()

test 데이터 전처리
1. date 컬럼을 int로 6자리까지 자르기
2. train data 와 마찬가지로 id 컬럼 제거하기

In [208]:
test['date'] = test["date"].str[:6].astype(int)

del test['id']

# **모델튜닝 시작**
1. RMSE 계산

In [209]:
def rmse(y_test, y_pred):
    return np.sqrt(mean_squared_error(y_test, y_pred))

2.  XGBRegressor, LGBMRegressor, GradientBoostingRegressor, RandomForestRegressor 네 가지 모델을 가져오고 model 리스트에 넣기



In [210]:
random_state=2025

gboost = GradientBoostingRegressor(random_state=random_state)
xgboost = XGBRegressor(random_state=random_state)
lightgbm = LGBMRegressor(random_state=random_state)
rdforest = RandomForestRegressor(random_state=random_state)

models = [gboost, xgboost, lightgbm, rdforest]

3. 모델 스코어 도출하는 함수 작성하기

In [211]:

def get_scores(models, train, y):
    df = {}

    for model in models:
        model_name = model.__class__.__name__

        X_train, X_test, y_train, y_test = train_test_split(train, y, random_state=random_state, test_size=0.2)
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)

        df[model_name] = rmse(y_test, y_pred)
        score_df = pd.DataFrame(df, index=['RMSE']).T.sort_values('RMSE', ascending=False)

    return score_df


# **하이퍼 파라미터로 실험하기**


**그리드탐색** (GridSearchCV 사용)

GridSearchCV에 입력되는 인자

1. param_grid : 탐색할 파라미터의 종류 (딕셔너리로 입력)
2. scoring : 모델의 성능을 평가할 지표
3. cv : cross validation을 수행하기 위해 train 데이터셋을 나누는 조각의 개수
4. verbose : 그리드 탐색을 진행하면서 진행 과정을 출력해서 보여줄 메세지의 양 (숫자가 클수록 더 많은 메세지를 출력합니다.)
5. n_jobs : 그리드 탐색을 진행하면서 사용할 CPU의 개수


 xgboost 관련 하이퍼 파라미터로 param_grid 준비

In [217]:
param_grid = {
    'n_estimators': [50, 300],
    'max_depth': [1, 20],
}


my_GridSearch 함수 생성

1. GridSearchCV 모델로 `model`을 초기화합니다.
2. 모델을 fitting 합니다.
3. params, score에 각 조합에 대한 결과를 저장합니다.
4. 데이터 프레임을 생성하고, RMSLE 값을 추가한 후 점수가 높은 순서로 정렬한 `results`를 반환합니다.

In [218]:
def my_GridSearch(model, train, y_np, param_grid, verbose=1, n_jobs=5):
    # GridSearchCV 모델로 초기화
    grid_model = GridSearchCV(model, param_grid=param_grid,
                              scoring='neg_mean_squared_error',
                              cv=5,  # 5-Fold 교차 검증
                              verbose=verbose, # 진행 상황 출력
                              n_jobs=n_jobs  # CPU 코어 사용
                              )

    # 모델 fitting
    grid_model.fit(train, y_np)

    # 결과값 저장
    params = grid_model.cv_results_['params']
    score = grid_model.cv_results_['mean_test_score']

    # 데이터 프레임 생성
    results = pd.DataFrame(params)
    results['score'] = score

    # RMSLE 값 계산 후 정렬
    results['RMSLE'] = np.sqrt(-1 * results['score'])
    results = results.sort_values('RMSLE')

    return results

In [219]:
my_GridSearch(model, train, y_np, param_grid, verbose=1, n_jobs=5)

Fitting 5 folds for each of 4 candidates, totalling 20 fits
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.001531 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 2338
[LightGBM] [Info] Number of data points in the train set: 15035, number of used features: 19
[LightGBM] [Info] Start training from score 13.048122


Unnamed: 0,max_depth,n_estimators,score,RMSLE
3,20,300,-0.026091,0.161527
2,20,50,-0.029198,0.170875
1,1,300,-0.042028,0.205008
0,1,50,-0.073394,0.270914


가장 좋은 조합으로 학습 후 예측 결과를 생성

모델은 LightGBM(lgbm)를 사용

In [220]:
model = LGBMRegressor(max_depth=20, n_estimators=300, random_state=random_state)

# 하이퍼파라미터 변경 시도  max_depth=10 -> 20, n_estimators=100 -> 300,
# 결과 : 0.161527
# 시도한 것들중 가장 최적화

# 모델변경 시도 : RandomForestRegressor
# 결과 : 0.177306
# 코드 : model = RandomForestRegressor(max_depth=20, n_estimators=300, random_state=random_state)
# max_depth 와 n_estimators 를 줄여도 결과치는 0.17xx

def save_submission(model, train, y_np, test, model_name, rmsle=None):
    model.fit(train, y_np)
    prediction = model.predict(test)
    prediction = np.expm1(prediction)
    submission['price'] = prediction
    submission_csv_path = 'submission_{}_RMSLE_{}.csv'.format(model_name, rmsle)
    submission.to_csv(submission_csv_path, index=False)
    files.download(submission_csv_path)
    print('{} saved!'.format(submission_csv_path))


In [221]:
save_submission(model, train, y_np, test, 'lgbm', rmsle=0.161527)

[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.002580 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 2338
[LightGBM] [Info] Number of data points in the train set: 15035, number of used features: 19
[LightGBM] [Info] Start training from score 13.048122


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

submission_lgbm_RMSLE_0.161527.csv saved!


- 배운점 : 각 모델링 마다, 그리고 하이퍼파라미터 값 마다 오차범위가 줄어드는 것을 볼 수 있었다.
- 아쉬운점 : 데이터 컬럼 튜닝을 더 시도하지 못했다. Score 목표치에 도달하지 못했다.
- 느낀점 : 시간이 매우 오래걸렸다. 더 다양하게 시도할 수 있는 부분이 어떤것이 있는지 머리속에 확실히 자리잡혀야 시간이 덜 걸릴 것 같다.



### Score: 107686.06860
### Private score: 111329.52684