# 주택 가격 예측하기!

메인퀘스트에 오신 것을 환영합니다!

이번 퀘스트의 목표는 여러 특성들을 종합적으로 고려하여 가장 주택 가격을 잘 예측하는 회귀모델을 만드는 것입니다.

- 예측할 값(y): SalePrice
- 평가지표: RMSE

퀘스트 진행 방식:

1. Code 란에서 테스트 노트북을 Copy&Edit 하여 작업!
2. 테스트 노트북을 submit 하여 리더보드에 정상적으로 등록되는지 확인하기
3. 자유롭게 모델을 발전시켜 좋은 성적 거두기!
4. 정상적으로 submit하고, 다음 구글폼에 이름/노트북주소/닉네임 등록!!!
- https://docs.google.com/forms/d/e/1FAIpQLSc0kXVZ9PRLbjsxBysCSSYLDiU4Hd9DLTvFrCFep4HLZLbL8w/viewform?usp=header

예시 형식:
~~~
Id,SalePrice
1461,169000.1
1462,187724.1233
1463,175221
etc.
~~~

### 데이터 확인 및 불러오기

In [20]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

In [21]:
df_train = pd.read_csv('/kaggle/input/modu-ds-5-house-prices-prediction/train.csv')
df_test = pd.read_csv('/kaggle/input/modu-ds-5-house-prices-prediction/test.csv')

특성이 너무 많습니다! 어떻게 하면 좋을까요?

참고로 각각의 특성은 다음을 나타냅니다.

| 변수명               | 설명 (한국어)                         |
| ----------------- | -------------------------------- |
| **SalePrice**     | 주택의 판매 가격(달러). 예측해야 하는 타겟 변수     |
| **MSSubClass**    | 건물 등급(건물 종류 분류)                  |
| **MSZoning**      | 토지 용도 구분(일반적인 구역 분류)             |
| **LotFrontage**   | 도로에 접한 토지 길이 (피트 단위)             |
| **LotArea**       | 토지 면적 (평방 피트)                    |
| **Street**        | 도로 접근 방식                         |
| **Alley**         | 골목(후면 도로) 접근 방식                  |
| **LotShape**      | 토지의 전반적인 모양                      |
| **LandContour**   | 토지의 평탄도                          |
| **Utilities**     | 사용 가능한 공공시설(전기, 수도 등)            |
| **LotConfig**     | 토지 배치 형태                         |
| **LandSlope**     | 토지의 경사도                          |
| **Neighborhood**  | Ames 시 내의 물리적 위치(주변 지역)          |
| **Condition1**    | 주요 도로·철도에 대한 근접도                 |
| **Condition2**    | 두 번째 주요 도로·철도에 대한 근접도            |
| **BldgType**      | 주거 건물 유형 (단독, 다세대 등)             |
| **HouseStyle**    | 주택의 건축 양식                        |
| **OverallQual**   | 자재 및 마감 품질 종합 평가                 |
| **OverallCond**   | 주택의 전반적인 상태 평가                   |
| **YearBuilt**     | 최초 건축 연도                         |
| **YearRemodAdd**  | 리모델링/개조 연도                       |
| **RoofStyle**     | 지붕 스타일                           |
| **RoofMatl**      | 지붕 재료                            |
| **Exterior1st**   | 외장 마감재(주 재료)                     |
| **Exterior2nd**   | 외장 마감재(보조 재료, 2번째)               |
| **MasVnrType**    | 석조 베니어 타입                        |
| **MasVnrArea**    | 석조 베니어 면적 (평방 피트)                |
| **ExterQual**     | 외장재 품질 평가                        |
| **ExterCond**     | 외장재 상태 평가                        |
| **Foundation**    | 기초(Foundation) 유형                |
| **BsmtQual**      | 지하실 높이 평가                        |
| **BsmtCond**      | 지하실 상태 평가                        |
| **BsmtExposure**  | 지하실 외부 노출 여부(출입구/창문 등)           |
| **BsmtFinType1**  | 주요 지하실 마감 구역 유형                  |
| **BsmtFinSF1**    | 주요 지하실 마감 면적 (평방 피트)             |
| **BsmtFinType2**  | 보조 지하실 마감 구역 유형                  |
| **BsmtFinSF2**    | 보조 지하실 마감 면적 (평방 피트)             |
| **BsmtUnfSF**     | 미완성 지하실 면적 (평방 피트)               |
| **TotalBsmtSF**   | 지하실 전체 면적 (평방 피트)                |
| **Heating**       | 난방 시스템 종류                        |
| **HeatingQC**     | 난방 품질 및 상태                       |
| **CentralAir**    | 중앙 에어컨 설치 여부                     |
| **Electrical**    | 전기 시스템 종류                        |
| **1stFlrSF**      | 1층 면적 (평방 피트)                    |
| **2ndFlrSF**      | 2층 면적 (평방 피트)                    |
| **LowQualFinSF**  | 저품질 마감 공간 면적 (전체 층 합산)           |
| **GrLivArea**     | 지상(Above grade) 생활 공간 면적 (평방 피트) |
| **BsmtFullBath**  | 지하실 완비 욕실 수                      |
| **BsmtHalfBath**  | 지하실 반 욕실 수                       |
| **FullBath**      | 지상 완비 욕실 수                       |
| **HalfBath**      | 지상 반 욕실 수                        |
| **Bedroom**       | 지하실 제외 침실 수                      |
| **Kitchen**       | 주방 수                             |
| **KitchenQual**   | 주방 품질                            |
| **TotRmsAbvGrd**  | 지상 전체 방 개수 (욕실 제외)               |
| **Functional**    | 주택 기능성 평가                        |
| **Fireplaces**    | 벽난로 개수                           |
| **FireplaceQu**   | 벽난로 품질                           |
| **GarageType**    | 차고 위치(유형)                        |
| **GarageYrBlt**   | 차고 건축 연도                         |
| **GarageFinish**  | 차고 내부 마감 상태                      |
| **GarageCars**    | 차고 크기 (주차 가능 차량 수)               |
| **GarageArea**    | 차고 면적 (평방 피트)                    |
| **GarageQual**    | 차고 품질                            |
| **GarageCond**    | 차고 상태                            |
| **PavedDrive**    | 포장 진입로 여부                        |
| **WoodDeckSF**    | 목재 데크 면적 (평방 피트)                 |
| **OpenPorchSF**   | 오픈 현관 면적 (평방 피트)                 |
| **EnclosedPorch** | 밀폐된 현관 면적 (평방 피트)                |
| **3SsnPorch**     | 3계절용 현관 면적 (평방 피트)               |
| **ScreenPorch**   | 스크린 현관 면적 (평방 피트)                |
| **PoolArea**      | 수영장 면적 (평방 피트)                   |
| **PoolQC**        | 수영장 품질                           |
| **Fence**         | 울타리 품질                           |
| **MiscFeature**   | 기타 특수 기능                         |
| **MiscVal**       | 기타 기능의 금전적 가치                    |
| **MoSold**        | 판매 월                             |
| **YrSold**        | 판매 연도                            |
| **SaleType**      | 판매 유형                            |
| **SaleCondition** | 판매 조건                            |


### 전처리

전처리에서 고민해야 할 것은 많습니다.

1. 결측치
2. 이상치

결측치는 처리하지 않으면 학습 자체가 불가할 수 있기 때문에, 최소한의 전처리로 결측치를 처리하겠습니다.

여러분들이라면 어떻게 결측치를 처리하면 좋을지 고민해보세요!

In [22]:
df_train_x = df_train.iloc[ : , :-1]
df_train_y = df_train.iloc[ : , -1]

col_x_total_list = ['MSSubClass', 'LotArea', 'Street', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
              'ExterQual', 'ExterCond', 'BsmtQual', 'BsmtCond', 'TotalBsmtSF', 'HeatingQC', 'CentralAir', '1stFlrSF', '2ndFlrSF',
              'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath', 'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual', 'TotRmsAbvGrd',
              'GarageYrBlt', 'GarageCars', 'GarageArea', 'GarageQual', 'GarageCond',
              ]

df_train_x = df_train_x[col_x_total_list]
df_test_x = df_test[col_x_total_list]

In [23]:
## Pave: 1, Grvl: 0으로 변환
df_train_x.loc[ df_train_x['Street']=='Pave', 'Street' ] = 1
df_train_x.loc[ df_train_x['Street']=='Grvl', 'Street' ] = 0

df_test_x.loc[ df_test_x['Street']=='Pave', 'Street' ] = 1
df_test_x.loc[ df_test_x['Street']=='Grvl', 'Street' ] = 0

## Y: 1, N: 0으로 변환
df_train_x.loc[ df_train_x['CentralAir']=='Y', 'CentralAir'] = 1
df_train_x.loc[ df_train_x['CentralAir']=='N', 'CentralAir'] = 0

df_test_x.loc[ df_test_x['CentralAir']=='Y', 'CentralAir'] = 1
df_test_x.loc[ df_test_x['CentralAir']=='N', 'CentralAir'] = 0

In [24]:
col_x_ordinary_list = ['ExterQual', 'ExterCond', 'BsmtQual', 'BsmtCond', 'HeatingQC', 'KitchenQual', 'GarageQual', 'GarageCond']

df_train_x[col_x_ordinary_list] = df_train_x[col_x_ordinary_list].fillna('NaN')
df_test_x[col_x_ordinary_list] = df_test_x[col_x_ordinary_list].fillna('NaN')

mapping = {'NaN': 0,
           'Po': 0,
           'Fa': 1,
           'TA': 2,
           'Gd': 3,
           'Ex': 4
           }

for col in col_x_ordinary_list:
    df_train_x[col] = df_train_x[col].map(mapping)
    df_test_x[col] = df_test_x[col].map(mapping)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_test_x[col_x_ordinary_list] = df_test_x[col_x_ordinary_list].fillna('NaN')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_test_x[col] = df_test_x[col].map(mapping)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_test_x[col] = df_test_x[col].map(mapping)
A value is trying to be set on a copy

In [25]:
clean_index = df_train_x.dropna().index

df_train_x = df_train_x.loc[ clean_index , ]
df_train_y = df_train_y.loc[ clean_index , ]

df_train_x = df_train_x.reset_index(drop=True)
df_train_y = df_train_y.reset_index(drop=True)

In [26]:
df_test_x = df_test_x.fillna(0)

  df_test_x = df_test_x.fillna(0)


### 모델 설정 및 학습

In [27]:
from sklearn.model_selection import train_test_split

train_x, valid_x, train_y, valid_y = train_test_split(df_train_x, df_train_y, test_size=0.2, random_state=2025,)

In [28]:
from sklearn.preprocessing import MinMaxScaler

mm_scaler = MinMaxScaler()

train_x_mm = mm_scaler.fit_transform(train_x)
valid_x_mm = mm_scaler.transform(valid_x)
test_x_mm = mm_scaler.transform(df_test_x)

In [29]:
from sklearn.linear_model import LinearRegression

model_lr = LinearRegression()

model_lr.fit(train_x_mm, train_y)

pred_y_lr = model_lr.predict(valid_x_mm)

In [34]:
from sklearn.ensemble import RandomForestRegressor

model_rfr = RandomForestRegressor()

model_rfr.fit(train_x_mm, train_y)

pred_y_rfr = model_rfr.predict(valid_x_mm)

In [37]:
from sklearn.ensemble import GradientBoostingRegressor

model_gbr = GradientBoostingRegressor()

model_gbr.fit(train_x_mm, train_y)

pred_y_gbr = model_gbr.predict(valid_x_mm)

In [40]:
from xgboost import XGBRegressor

model_xgbr = XGBRegressor()

model_xgbr.fit(train_x_mm, train_y)

pred_y_xgbr = model_xgbr.predict(valid_x_mm)

In [30]:
from sklearn.metrics import mean_squared_error

# rmse = mean_squared_error(valid_y, pred_y_lr, squared=False)
# rmse = mean_squared_error(valid_y, pred_y_rfr, squared=False)
# rmse = mean_squared_error(valid_y, pred_y_gbr, squared=False)
rmse = mean_squared_error(valid_y, pred_y_xbgr, squared=False)

rmse

45945.28713001959

### 테스트 데이터 예측 및 제출

In [41]:
# pred_y_test = model_lr.predict(test_x_mm)
# pred_y_test = model_rfr.predict(test_x_mm)
# pred_y_test = model_gbr.predict(test_x_mm)
pred_y_test = model_xgbr.predict(test_x_mm)

In [42]:
submission = pd.DataFrame({"Id": df_test['Id'],
                           'SalePrice': pred_y_test
                           })

submission.to_csv('submission.csv', index=False)