## Exploration 5. Kaggle 경진대회 참가하기 🛸

In [None]:
# 필요한 라이브러리 설치하기
# ! conda install -c conda-forge xgboost=1.3.3
# ! conda install -c conda-forge lightgbm=3.1.1 
# ! conda install -c conda-forge missingno=0.4.2

## 1. 필요한 라이브러리 불러오기

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

import warnings
warnings.filterwarnings("ignore")

import os
from os.path import join

import pandas as pd
import numpy as np

import missingno as msno

from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import KFold, cross_val_score
import xgboost as xgb
import lightgbm as lgb

import matplotlib.pyplot as plt
import seaborn as sns

## 2. 데이터 살펴보기
pandas의 read_csv 함수를 사용해 데이터를 읽어오고, 각 변수들이 나타내는 의미를 살펴보겠습니다.
1. ID : 집을 구분하는 번호
2. date : 집을 구매한 날짜
3. price : 타겟 변수인 집의 가격
4. bedrooms : 침실의 수
5. bathrooms : 침실당 화장실 개수
6. sqft_living : 주거 공간의 평방 피트
7. sqft_lot : 부지의 평방 피트
8. floors : 집의 층 수
9. waterfront : 집의 전방에 강이 흐르는지 유무 (a.k.a. 리버뷰)
10. view : 집이 얼마나 좋아 보이는지의 정도
11. condition : 집의 전반적인 상태
12. grade : King County grading 시스템 기준으로 매긴 집의 등급
13. sqft_above : 지하실을 제외한 평방 피트
14. sqft_basement : 지하실의 평방 피트
15. yr_built : 집을 지은 년도
16. yr_renovated : 집을 재건축한 년도
17. zipcode : 우편번호
18. lat : 위도
19. long : 경도
20. sqft_living15 : 2015년 기준 주거 공간의 평방 피트(집을 재건축했다면, 변화가 있을 수 있음)
21. sqft_lot15 : 2015년 기준 부지의 평방 피트(집을 재건축했다면, 변화가 있을 수 있음)

In [None]:
data_dir = os.getenv('HOME')+'/aiffel/kaggle_kakr_housing/data'

train_data_path = join(data_dir, 'train.csv')
sub_data_path = join(data_dir, 'test.csv')      # 테스트, 즉 submission 시 사용할 데이터 경로

train = pd.read_csv(train_data_path)
test = pd.read_csv(sub_data_path)

print(train.shape, test.shape)

In [None]:
train.head()

In [None]:
# id 컬럼 삭제
del train['id']
print(train.columns)

In [None]:
# train셋에서 date를 정수형 데이터로 처리
train['date'] = train['date'].apply(lambda i: i[:6]).astype(int)
train.head()

In [None]:
# test셋에서 date를 정수형 데이터로 처리
test['date'] = test['date'].apply(lambda i: i[:6]).astype(int)
del test['id']

print(test.columns)

In [None]:
# target data에 해당하는 price 분리 --> 변수에 price를 넣어두고, train에서는 삭제
y = train['price']
del train['price']

print(train.columns)

In [None]:
# 컬럼 수 같은지 확인 
print(train.shape, test.shape)

In [None]:
# 타겟 데이터인 y 확인해보기
y

In [None]:
# 'y' 가격 데이터의 분포도 확인 -> seaborn의 `kdeplot`을 활용해 가격그래프 그려보기 

sns.kdeplot(y)
plt.show()

In [None]:
# 왼쪽으로 크게 치우쳐 있는 형태 price --> np.log1p() 함수를 통해 로그 변환
y = np.log1p(y)
y

In [None]:
sns.kdeplot(y)
plt.show()

In [None]:
# 전체 데이터의 자료형을 한눈에 확인해보기
train.info()

#### 모두 다 정수형 or 실수형 변수로 이루어짐!! 

## 3. RMSE로 계산하기
> np.log1p()로 변환이 된 값을 원래 데이터 단위에 맞게 np.expm1()을 활용해서 되돌리기 
- 위에서 y값에 대해 log 변환을 취함 = RMSLE 값 계산
- 실제 rmse 값을 계산하기 위해 다시 exp를 취해주어야 함

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

def rmse(y_test, y_pred):
    return np.sqrt(mean_squared_error(np.expm1(y_test), np.expm1(y_pred)))

## 4. 모델 생성하기

In [None]:
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor

random_state=2022

gboost = GradientBoostingRegressor(random_state=random_state)
xgboost = XGBRegressor(random_state=random_state)
lightgbm = LGBMRegressor(random_state=random_state)
rdforest = RandomForestRegressor(random_state=random_state)

models = [gboost, xgboost, lightgbm, rdforest]

In [None]:
# 각 모델의 이름은 다음과 같이 클래스의 __name__ 속성에 접근해서 얻을 수 있음 
gboost.__class__.__name__

In [None]:
def get_scores(models, train, y):
    df = {}

    for model in models:
        model_name = model.__class__.__name__ # 모델 이름 획득

        X_train, X_test, y_train, y_test = train_test_split(train, y, random_state=random_state, test_size=0.2)
        model.fit(X_train, y_train) # 모델 학습
        y_pred = model.predict(X_test) # 예측
        
        # rmse 저장
        df[model_name] = rmse(y_test, y_pred)
        # dataframe에 저장
        score_df = pd.DataFrame(df, index=['RMSE']).T.sort_values('RMSE', ascending=False) # 내림차순 정렬
    
    return score_df

#### (1) 이름을 접근하여 for문 안에서 각 모델 별로 학습 및 예측하기

In [None]:
df = {}

for model in models:
    # 모델 이름 획득
    model_name = model.__class__.__name__

    # train, test 데이터셋 분리 - 여기에도 random_state를 고정합니다. 
    X_train, X_test, y_train, y_test = train_test_split(train, y, random_state=random_state, test_size=0.2)

    # 모델 학습
    model.fit(X_train, y_train)
    
    # 예측
    y_pred = model.predict(X_test)

    # 예측 결과의 rmse값 저장
    df[model_name] = rmse(y_test, y_pred)
    
    # data frame에 저장
    score_df = pd.DataFrame(df, index=['RMSE']).T.sort_values('RMSE', ascending=False)
    
df  # 네 가지의 모델에 대해 모두 RMSE값 얻을 수 있음

#### (2) RMSE 결과값을 나타내주는 위의 과정을 get_scores(models, train, y) 함수로 만들어서 결과 보기

In [None]:
def get_scores(models, train, y):
    df = {}

    for model in models:
        model_name = model.__class__.__name__ # 모델 이름 획득

        X_train, X_test, y_train, y_test = train_test_split(train, y, random_state=random_state, test_size=0.2)
        model.fit(X_train, y_train) # 모델 학습
        y_pred = model.predict(X_test) # 예측
        
        # rmse 저장
        df[model_name] = rmse(y_test, y_pred)
        # dataframe에 저장
        score_df = pd.DataFrame(df, index=['RMSE']).T.sort_values('RMSE', ascending=False) # 내림차순 정렬
    
    return score_df

get_scores(models, train, y)

## 5. 사이킷런의 GridSearchCV
#### 그리드 탐색
🛸 탐색할 하이퍼 파라미터의 값들을 정해두고, 그 값들로 만들어질 수 있는 모든 조합을 (격자와 같이) 탐색   
🛸 사람이 정해둔 값들로 조합 탐색하므로 최적의 조합 놓칠 수 있음

- param_grid : 탐색할 파라미터의 종류 (딕셔너리로 입력)
- scoring : 모델의 성능을 평가할 지표
- cv : cross validation을 수행하기 위해 train 데이터셋을 나누는 조각의 개수
- verbose : 그리드 탐색을 진행하면서 진행 과정을 출력해서 보여줄 메세지의 양 (숫자가 클수록 더 많은 메세지를 출력합니다.)
- n_jobs : 그리드 탐색을 진행하면서 사용할 CPU의 개수

#### (참고) 랜덤 탐색
🛸 사람이 탐색할 하이퍼 파라미터의 공간만 정해두고, 그 안에서 랜덤으로 조합을 선택해 탐색하는 방법   
🛸 랜덤으로 탐색하기 때문에 최적의 조합 찾을 수 있지만 가능성 또한 랜덤성에 의존 (보장 x)

---

(1) GridSearchCV 활용: 다양한 파라미터를 입력하면 가능한 모든 조합 탐색

In [None]:
from sklearn.model_selection import GridSearchCV

(2) 탐색할 xgboost 관련 하이퍼 파라미터를 넣어서 준비하기

- max_depth: 의사 결정 나무의 깊이 (정수)
- learning_rate: 한 스텝에 이동하는 양을 결정하는 파라미터 (0.0001-0.1)
- n_estimators: 사용하는 개별 모델의 수 (50-100)
- num_leaves: 하나의 LightGBM 트리가 가질 수 있는 최대 잎 수
- boostying_type: 부스팅 방식, gbdt, rf 등의 문자열 입력

In [None]:
param_grid = {
    'n_estimators': [50, 100],
    'max_depth': [1, 10],
}

(3) GridSearchCV 수행하기
- GridSearchCV를 이용해서 grid_model 모델을 초기화하고, 
- train과 y 데이터로 모델을 간단히 학습시키면 param_grid 내의 모든 하이퍼 파라미터의 조합에 대해 실험하기

In [None]:
grid_model = GridSearchCV(model, param_grid=param_grid, \
                        scoring='neg_mean_squared_error', \
                        cv=5, verbose=1, n_jobs=5)

grid_model.fit(train, y)  # grid_model.fit 함수 활용하여 2X2가지 조합에 대한 실험하기

In [None]:
# 실험 결과 저장하기
grid_model.cv_results_

(4) 원하는 정보(값)만 빼오기(정제하기)
- 어떤 파라미터 조합일 때 점수가 어떻게 나오게 되는지
- 파라미터 조합은 위 딕셔너리 중 params에, 각각에 대한 테스트 점수는 mean_test_score에 저장되어 있음

In [None]:
params = grid_model.cv_results_['params']
score = grid_model.cv_results_['mean_test_score']
params, score

(5) 두 변수로 데이터 프레임을 만들고 최적의 성능을 내는 하이퍼 파라미터의 조합 찾기

In [None]:
results = pd.DataFrame(params)
results['score'] = score

results

> score 음수인 이유:'neg_mean_squared_error' 사용  
> -MSE에서 간단한 변환 함수로 RMSE 점수 보기

In [None]:
results['RMSE'] = np.sqrt(-1 * results['score'])
results = results.rename(columns={'RMSE': 'RMSLE'})
results

In [None]:
# 위의 표를 `RMSLE`가 낮은 순부터 높은 순서대로(낮은 순서대로) 정렬하기
results.sort_values('RMSLE')

#### (6) 함수로 만들기

In [None]:
def my_GridSearch(model, train, y, param_grid, verbose=2, n_jobs=5):
    
    # GridSearchCV 모델로 초기화
    grid_model = GridSearchCV(model,
                         param_grid=param_grid,
                         scoring='neg_mean_squared_error',
                         cv=5,
                         verbose=verbose,
                         n_jobs=n_jobs)
    # 모델 fitting
    grid_model.fit(train, y)
    
    # 결과값 저장
    params = grid_model.cv_results_['params']
    score = grid_model.cv_results_['mean_test_score']

    # 데이터 프레임 생성
    results = pd.DataFrame(params)
    results['score'] = score
    
    # RMSLE 값 계산 후 정렬
    results['RMSLE'] = np.sqrt(-1 * results['score'])
    results = results.sort_values('RMSLE')

    return results

### 6. 모델 학습 후 예측값인 submission.csv 파일 만들어서 제출하기

In [None]:
# 만들어 놓은 my_GridSearch() 함수로 간단한 그리드 탐색
param_grid = {
    'n_estimators': [50, 100],
    'max_depth': [1, 10],
}

model = LGBMRegressor(random_state=random_state)
my_GridSearch(model, train, y, param_grid, verbose=2, n_jobs=5)

   > 가장 좋은 조합은 max_depth=10, n_estimators=100 !!   

(1) 해당 파라미터로 구성된 모델을 준비하고, 학습 후 예측 결과 생성

In [None]:
model = LGBMRegressor(max_depth=10, n_estimators=100, random_state=random_state)
model.fit(train, y)
prediction = model.predict(test)
prediction

(2) 예측 결과에 np.expm1()을 씌워서 다시 원래 스케일로 되돌리기

In [None]:
prediction = np.expm1(prediction)
prediction

(3) sample_submission.csv 파일을 가져오기

In [None]:
data_dir = os.getenv('HOME')+'/aiffel/kaggle_kakr_housing/data'

submission_path = join(data_dir, 'sample_submission.csv')
submission = pd.read_csv(submission_path)
submission.head()

(4) 위의 데이터프레임에 우리의 모델이 예측한 값을 덮어씌우면 제출할 데이터 완성!

In [None]:
submission['price'] = prediction
submission.head()

#### (5) 위 과정 함수로 정리

In [None]:
def save_submission(model, train, y, test, model_name, rmsle=None):  # None 안넣으면 뭐가 달라지지? 

#	model = LGBMRegressor(max_depth=10, n_estimators=100, random_state=random_state)
    model.fit(train, y)
    prediction = model.predict(test)
    prediction = np.expm1(prediction)

    data_dir = os.getenv('HOME')+'/aiffel/kaggle_kakr_housing/data'

    submission_path = join(data_dir, 'sample_submission.csv')
    submission = pd.read_csv(submission_path)

    submission['price'] = prediction

    submission_csv_path = '{}/submission_{}_RMSLE_{}.csv'.format(data_dir, model_name, rmsle)
    submission.to_csv(submission_csv_path, index=False)
    print(f"{submission_csv_path} saved!")

(6) 한 줄로 모델을 학습시킨 후 예측 결과 저장하기

In [None]:
save_submission(model, train, y, test, 'lgbm', rmsle='0.0168')

## 7. 하이퍼 파라미터 튜닝튜닝튜닝 하기 🛸🛸🛸

**✓ 튜닝해볼 수 있는 모델 클래스 인자**  
🛸 대표적으로 자주 튜닝하는 lightgbm 라이브러리의 인자는 다음과 같습니다.

- max_depth : 의사 결정 나무의 깊이, 정수 사용
- learning_rate : 한 스텝에 이동하는 양을 결정하는 파라미터, 보통 0.0001~0.1 사이의 실수 사용
- n_estimators : 사용하는 개별 모델의 개수, 보통 50~100 이상의 정수 사용
- num_leaves : 하나의 LightGBM 트리가 가질 수 있는 최대 잎의 수
- boosting_type : 부스팅 방식, gbdt, rf 등의 문자열 입력
    
**✓ 시도해볼 수 있는 방법**  
🛸 시도해볼 수 있는 방법은 다음과 같은 것들이 있습니다.

- 기존에 있는 데이터의 피처를 모델을 보다 잘 표현할 수 있는 형태로 처리하기 (피처 엔지니어링)
- LGBMRegressor, XGBRegressor, RandomForestRegressor 세 가지 이상의 다양한 모델에 대해 하이퍼 파라미터 튜닝하기
- 다양한 하이퍼 파라미터에 대해 그리드 탐색을 시도해서 최적의 조합을 찾아보기
- Baseline 커널에서 활용했던 블렌딩 방법 활용하기

**✓ GridSearchCV**
- param_grid: 탐색할 파라미터 종류
- scoring: 모델의 성능을 평가할 지표
- cv: cross validation을 수행하기 위해 train 데이터셋을 나누는 조각의 수
- verbose: 그리드 탐색을 진행하며 진행 과정을 출력해서 보여줄 메시지 양
- n_jobs: 그리드 탐색 진행하며 사용할 CPU 수

### (1) LGBMRegressor

- 💃🏻 1st attempt

In [None]:
param_grid = {
    'max_depth': [1, 3, 5, 7, 9],  # 1,2,3(데이터 엄청 작을 때만 사용)  3 5 7 9
    'learning_rate': [0.0001, 0.001, 0.01, 0.1],
    'n_estimators': [50, 70, 90, 100],  # 1000 ~ 5000 예시 케이스 검색.. 일반적인 케이스 정리해보기..
    'num_leaves': [40, 50, 60]
}

In [None]:
# LightGBM(lgbm) 모델 사용
model = LGBMRegressor(random_state=random_state)
my_GridSearch(model, train, y, param_grid, verbose=2, n_jobs=5)

RMSLE: 0.163707 
> *가장 좋은 조합: learning_rate=0.1, max_depth=9, n_estimators=100, num_leaves=50*

In [None]:
model = LGBMRegressor(max_depth=9,
                      learning_rate=0.1,
                      n_estimators=100,
                      num_leaves=50,
                      random_state=random_state)

In [None]:
save_submission(model, train, y, test, 'lgbm', rmsle='0.163707')

RMSLE가 조금 더 낮게 나오긴 했지만 별 차이가 없으므로 다른 함수를 만들어 하이퍼 파라미터 튜닝을 해보고자 한다 !! 

### (2) Random Search

- 💃🏻💃🏻 2nd attempt
> 구글링 해본 결과 Random Search가 GridCV보다 성능이 좋다고 한다

In [None]:
from sklearn.model_selection import RandomizedSearchCV

In [None]:
def my_RandomSearch(model, train, y, param_distributions, verbose=2, n_jobs=5):
    
    # RandomizedSearchCV 모델로 초기화
    random_model = RandomizedSearchCV(model,
                             param_distributions=param_distributions,
                             scoring='neg_mean_squared_error',
                             cv=5,
                             verbose=verbose,
                             n_jobs=n_jobs)
    # 모델 fitting
    random_model.fit(train, y)
    
    # 결과값 저장
    params = random_model.cv_results_['params']
    score = random_model.cv_results_['mean_test_score']

    # 데이터 프레임 생성
    results = pd.DataFrame(params)
    results['score'] = score
    
    # RMSLE 값 계산 후 정렬
    results['RMSLE'] = np.sqrt(-1 * results['score'])
    results = results.sort_values('RMSLE')

    return results

In [None]:
param_distributions = {
    'max_depth': [3, 5, 7, 9, 11],
    'learning_rate': [0.001, 0.01, 0.05, 0.1, 0.5],
    'n_estimators': [100, 200, 300, 400, 600, 700, 800, 900, 1000],
    'num_leaves': [20, 30, 40, 50, 60]
}

In [None]:
model = LGBMRegressor(random_state=random_state)
my_RandomSearch(model, train, y, param_distributions, verbose=2, n_jobs=5)

RMSLE: 0.162258
> *가장 좋은 조합: learning_rate=0.1, max_depth=3, n_estimators=1000, num_leaves=30*

In [None]:
model = LGBMRegressor(max_depth=3,
                      learning_rate=0.1,
                      n_estimators=1000,
                      num_leaves=30,
                      random_state=random_state)

save_submission(model, train, y, test, 'lgbm_random', rmsle='0.162258')

- 💃🏻💃💃🏻 3rd attempt
> 함수는 그대로 쓰고 하이퍼 파라미터 튜닝만 해보기

In [None]:
param_distributions = {
    'max_depth': [5, 7, 9, 11, 13],
    'learning_rate': [0.01, 0.015, 0.18, 0.02, 0.025],
    'n_estimators': [800, 1000, 1400, 1600, 2000],
   # 'n_leaves': [16, 32, 64, 88, 106, 128]
}

model = LGBMRegressor(random_state=random_state)
my_RandomSearch(model, train, y, param_distributions, verbose=2, n_jobs=5)

RMSLE: 0.160626
> *가장 좋은 조합: learning_rate=0.025, max_depth=11, n_estimators=1400*

In [None]:
model = LGBMRegressor(max_depth=60,
                      learning_rate=0.05,
                      n_estimators=800,
                      random_state=random_state)

save_submission(model, train, y, test, 'lgbm_random', rmsle='0.160626')

### (3) Ensemble 
- 💃🏻💃💃💃🏻 4th attempt
> https://www.kaggle.com/dhznsdl/house-price-regression-python 여기를 참고하여 앙상블 모델로 해보려고 했으나 ... 아직 제대로 구현해낼 수 있는 수준이 아니어서 하다가 포기... 

In [None]:
lgb_model = LGBMRegressor(learning_rate=0.05, 
                          max_depth=13, 
                          n_estimators=700, num_leaves=31, 
                          random_state=random_state)
lgb_model.fit(train, y)
lgb_pred = lgb_model.predict(test)
lgb_pred = np.expm1(lgb_pred)

In [None]:
xgb_model = LGBMRegressor(learning_rate=0.05, max_depth=13, n_estimators=700, num_leaves=31 , random_state=random_state)
xgb_model.fit(train, y)
xgb_pred = xgb_model.predict(test)
xgb_pred = np.expm1(xgb_pred)

In [None]:
from sklearn import ensemble, linear_model
from sklearn.metrics import mean_squared_error

def eval(y_pred, y_true):
    print('error : {}'.format(np.sqrt(mean_squared_error(y_true= np.expm1(y_true), y_pred=np.expm1(y_pred)))))
    
def predeval(x, y_true, clf):
    print('error : {}'.format(np.sqrt(mean_squared_error(y_true= np.expm1(y_true), y_pred=np.expm1(clf.predict(x))))))

In [None]:
# import lightgbm as lgb

# param = {'objective':'regression', 'metric':'rmse', 'num_iteration':1000, 'learning_rate':0.05, 'early_stopping_round':30,
#          'max_depth':-1, 'num_leaves':15, 'feature_fraction':0.6,
#          'num_threads':-1}

# train_data = lgb.Dataset(trn_x, label=trn_y)
# validation_data = lgb.Dataset(val_x, label=val_y, reference=train_data)
# bst = lgb.train(param, train_data, valid_sets=[train_data, validation_data])
# bst.save_model('model.txt', num_iteration=bst.best_iteration)


# eval(y_pred=bst.predict(val_x), y_true=val_y_v)

## 8. Kaggle Submission 점수 집계

||파일 이름|점수|
|-|:------:|:---:|
|1|submission_lgbm_random_RMSLE_0.160626|109785.28895|
|2|submission_lgbm_random_RMSLE_0.162258|111408.69100|
|3|submission_lgbm_RMSLE_0.0168|111408.69100|
|4|submission_lgbm_RMSLE_0.163707|116010.17220|

# 회고 🌞🌞🌞

## 최종점수: 109785.28895

1. 데이터 전처리 과정이 매우 중요하다는 것을 깨달았습니다. 특히 skewdness가 심한 경우 np.log1p(y) 로그 변환 함수를 취해주면 훨씬 더 나은 결과를 얻을 수 있다는 점 !!!  


2. 스태킹 앙상블을 시도해보고자 했는데 ........ 아직 이해가 많이 부족했던 것 같습니다. 여러 강의들을 찾아보거나, Kaggle에 'Most Votes'로 해서 잘 정리되어 있는 Notebook들을 따라해보며 실력을 키워야겠다는 결심을 하게되었습니다.  


3. 하이퍼파라미터 튜닝할 때 활용할 수 있는 사이트들을 검색해본 결과 optuna, hyperopt, Scikit-Optimize가 있었습니다. 이곳의 도움을 받아 그나마 마지막에 그나마 괜찮은 하이퍼파라미터를 설정하여 110000이하의 점수를 얻을 수 있었던 것 같습니다... 하이퍼파라미터는 **반드시** 공부가 더 필요한 부분이에요.   


![image-2.png](attachment:image-2.png)  좌아아아아안 ~!  


5. 여러 모델들과 함수를 자유자재로 사용할 수 있는 그날이 오기까지... 열심히 노력해야겠습니다...! 