In [None]:
# 관련 라이브러리 import
import os
from os.path import join
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 데이터 가져오기
data_dir = os.getenv('HOME')+'/aiffel/kaggle_kakr_housing/data'

train_data_path = join(data_dir, 'train.csv')
test_data_path = join(data_dir, 'test.csv')

train = pd.read_csv(train_data_path)
test = pd.read_csv(test_data_path)

print(train.shape, test.shape)

In [None]:
# 훈련 데이터 살펴보기
train.head()

In [None]:
# 결측치의 유무를 확인한다.
train.isnull().sum()

In [None]:
# train 데이터의 date 칼럼에서 년도와 날짜만 추출한다.
train['date'] = train['date'].apply(lambda i: i[:6]).astype(int)
train.head()

In [None]:
# 타겟 칼럼인 price를 y에 담는다.
y = train['price']
del train['price'] # train에 있던 price 칼럼은 삭제한다.

print(train.columns)

In [None]:
# 불필요한 id 칼럼은 제거한다.
del train['id']

print(train.columns)

In [None]:
# 위 과정을 test 데이터에도 적용한다.
test['date'] = test['date'].apply(lambda i: i[:6]).astype(int)
del test['id']
test.head()
print(test.columns)

## 데이터 시각화  
1. 각각의 데이터를 살펴보자.
2. y값을 로그변환하여 정규 분포 모양을 갖도록 하자.

In [None]:
# train 데이터의 각 특성별 분포 살펴보기
plt.figure(figsize=(20, 40))

columns = train.columns
for i in range(len(columns)):
    plt.subplot(6, 4, i+1)
    sns.histplot(train[columns[i]], kde=True)
    plt.title(columns[i])

In [None]:
# y 값 살펴보기
y

In [None]:
# 데이터의 특성 별 상관관계 살펴보기
corr = pd.concat([train, y],axis=1).corr() # 각 특성과 price를 살펴보자.
plt.figure(figsize=(20, 20))
sns.heatmap(corr, annot=True)

In [None]:
# y값 분포 살펴보기
sns.histplot(y, kde=True)

In [None]:
# log 변환을 통해 정규분포 모양을 갖도록 한다.
y = np.log1p(y)
y # y에 로그변환을 해주었기 때문에, 모델 학습 후 예측 시 exp변환을 해주어야 한다.

In [None]:
# log 변환 후의 y값 분포 살펴보기
sns.kdeplot(y)
sns.histplot(y, kde=True)

In [None]:
train.info()

## 경도, 위도, zipcode 분석하기  
loss를 줄이기 위해서는 'lat', 'long', 'zipcode' 이 세 특성을 통해서 새로운 특성을 만들어야할 필요가 있다.

In [None]:
train_loc_price = pd.concat([train[['lat', 'long', 'zipcode']], y], axis=1) # lat, long, zipcode, y값만 추출한다.
train_loc_price


plt.figure(figsize=(20, 50))
plt.subplot(2, 1, 1)
sns.scatterplot(data=train_loc_price, x='long', y='lat', hue='price') # 경도, 위도별 집값
plt.subplot(2, 1, 2)
sns.scatterplot(data=train_loc_price, x='long', y='lat', hue='zipcode') # 경도, 위도별 우편번호

In [None]:
# get correlations of loc_price and plot heatmap
corr = train_loc_price.corr()
plt.figure(figsize=(10, 10))
sns.heatmap(corr, annot=True)

## 도시 정보 추가하기
이 부분이 loss를 줄이는 데 나름 큰 기여를 했다.

In [None]:
# zipcode 칼럼의 값은, 미국 WA 주의 King County지역의 zipcode임을 확인할 수 있었다.
# zipcode 값을 해당 도시 이름으로 매핑한다.
def zipcode_to_city(zipcode):
    # 우편번호별 지역 이름
    matcher = {98001: 'Auburn',
    98002: 'Auburn',
    98003: 'Federal Way',
    98004: 'Bellevue',
    98005: 'Bellevue',
    98006: 'Bellevue',
    98007: 'Bellevue',
    98008: 'Bellevue',
    98010: 'Black Diamond',
    98011: 'Bothell',
    98014: 'Carnation',
    98019: 'Duvall',
    98022: 'Enumclaw',
    98023: 'Federal Way',
    98024: 'Fall City',
    98027: 'Issaquah',
    98028: 'Kenmore',
    98029: 'Issaquah',
    98030: 'Kent',
    98031: 'Kent',
    98032: 'Kent',
    98033: 'Kirkland',
    98034: 'Kirkland',
    98038: 'Maple Valley',
    98039: 'Medina',
    98040: 'Mercer Island',
    98042: 'Kent',
    98045: 'North Bend',
    98052: 'Redmond',
    98053: 'Redmond',
    98055: 'Renton',
    98056: 'Renton',
    98058: 'Renton',
    98059: 'Renton',
    98065: 'Snoqualmie',
    98070: 'Vashon',
    98072: 'Woodinville',
    98074: 'Sammamish',
    98075: 'Sammamish',
    98077: 'Woodinville',
    98092: 'Auburn',
    98102: 'Seattle',
    98103: 'Seattle',
    98105: 'Seattle',
    98106: 'Seattle',
    98107: 'Seattle',
    98108: 'Seattle',
    98109: 'Seattle',
    98112: 'Seattle',
    98115: 'Seattle',
    98116: 'Seattle',
    98117: 'Seattle',
    98118: 'Seattle',
    98119: 'Seattle',
    98122: 'Seattle',
    98125: 'Seattle',
    98126: 'Seattle',
    98133: 'Seattle',
    98136: 'Seattle',
    98144: 'Seattle',
    98146: 'Seattle',
    98148: 'Seattle',
    98155: 'Seattle',
    98166: 'Seattle',
    98168: 'Seattle',
    98177: 'Seattle',
    98178: 'Seattle',
    98188: 'Seattle',
    98198: 'Seattle',
    98199: 'Seattle'
    }
    return matcher[zipcode]

In [None]:
# train 데이터에 도시 칼럼을 추가한다.
train['city'] = train['zipcode'].map(zipcode_to_city)
train

In [None]:
# 동일하게 test 데이터에도 도시 칼럼을 추가한다.
test['city'] = test['zipcode'].map(zipcode_to_city)
test

In [None]:
# 도시 이름은 string이기 때문에 tree 기반 모델의 원활한 학습을 위해서 카테고리화를 할 필요가 있다.
# 먼저 string을 int로 label한다. 다음으로 int를 categorical로 바꾼다.

# string을 int로 label한다.
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
train_city_labeled = le.fit_transform(train['city'])
test_city_labeled = le.transform(test['city'])

# int label 적용하기
train['city'] = train_city_labeled
test['city'] = test_city_labeled

In [None]:
# int를 categorical로 바꾼다.
train['city'] = train['city'].astype('category')
test['city'] = test['city'].astype('category')

# city가 카테고리가 된 것을 확인하기
train.info()

In [None]:
# zipcode에서 city 데이터를 얻어내었기 때문에 할 일을 다한 zipcode는 이제 삭제
del train['zipcode']
del test['zipcode']

In [None]:
# city별 집값의 추세 평균

t_p = pd.concat([train[['city']], y], axis=1)
t_p.groupby('city').mean()
sns.barplot(data=t_p.groupby('city').mean(), x=t_p.groupby('city').mean().index, y='price')

## 모델 튜닝하기   
```

### 3. 앙상블 기법 적용

여기서는 `RandomForestRegressor`, `GradientBoostingRegressor`를 사용하고, 이를 `StackingRegressor`를 통해 앙상블합니다.

```

In [None]:
# 필요한 라이브러리 불러오기
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, StackingRegressor

# 랜덤 상태 설정
random_state=2020 


# RMSE 매트릭 함수
def rmse(y_test, y_pred):
    # 레이블인 y에 log변환을 해주었기 때문에, exp변환을 통해 본래 값으로 되돌려 놓는다.
    return np.sqrt(mean_squared_error(np.expm1(y_test), np.expm1(y_pred)))

# 개별 모델 정의
rf = RandomForestRegressor(random_state=random_state)
gbrt = GradientBoostingRegressor(random_state=random_state)
# 스태킹을 위한 최종 예측기 (여기서는 단순 평균을 사용)
estimators = [('rf', rf), ('gbrt', gbrt)]
final_estimator = RandomForestRegressor(n_estimators=10, random_state=42)

# 스태킹 모델 정의
stacking_regressor = StackingRegressor(
    estimators=estimators,
    final_estimator=final_estimator,
    cv=5
)
# 모델 훈련
stacking_regressor.fit(train, y)

# 예측 및 평가
y_pred = stacking_regressor.predict(X_train_preprocessed)
mse = mean_squared_error(y_train, y_pred)
rmse = np.sqrt(mse)

print(f"Root Mean Squared Error: {rmse:.2f}")

In [None]:
def save_submission(model, train, y, test, model_name, rmsle):
    """
    아래의 과정을 수행하는 `save_submission(model, train, y, test, model_name, rmsle)` 함수를 구현해 주세요.
    1. 모델을 `train`, `y`로 학습시킵니다.
    2. `test`에 대해 예측합니다.
    3. 예측값을 `np.expm1`으로 변환하고, `submission_model_name_RMSLE_100000.csv` 형태의 `csv` 파일을 저장합니다.
    """
    model.fit(train, y) # 모델 fitting(학습)
    y_pred = np.expm1(model.predict(test)) # 전처리 과정에서 y에 log변환을 했던 것을 기억하라. 이를 되돌리기 위해서 모델이 예측한 값에 expm1을 취한다.

    # sample_submission 파일을 불러온다.
    submission_path = join(data_dir, 'sample_submission.csv')
    submission = pd.read_csv(submission_path)
    submission['price'] = y_pred

    # sample_submission파일에 모델이 예측한 결과를 담아낸다. 이후 새로운 파일명으로 저장한다.
    submission_csv_path = '{}/submission_{}_RMSLE_{}.csv'.format(data_dir, model_name, rmsle)
    submission.to_csv(submission_csv_path, index=False)
    print('{} saved!'.format(submission_csv_path))

In [None]:
# 위 표에서 제시된 rmsle 값을 파일 명으로 담는다.
save_submission(model, train, y, test, 'lgbm', rmsle='0.160314')