In [None]:
# 문제정의(KAGGLE : https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/overview)

# ---------------------------
## 1. 해결과제
# ---------------------------
# - 주어진 주택 데이터(물리적 특성 + 주변 환경)를 이용해 **최종 판매 가격(SalePrice)** 예측
# - 단순 선형 회귀가 아니라 다양한 회귀 기법을 적용해 성능 최적화가 목표

# ---------------------------
# 2. 타겟 변수
# ---------------------------
# - **SalePrice**  
# - 주택의 실제 판매 가격 (회귀 문제의 종속 변수)

# ---------------------------
# 3 데이터셋 컬럼 정리
# ---------------------------
# ## 1). ID / Target
# - **Id**: 샘플 고유 번호
# - **SalePrice**: 주택 판매 가격 (타겟 변수, train에만 존재)

# ---

# ## 2). 주택 일반 정보
# - **MSSubClass**: 건물 클래스 (주택 유형 코드)
# - **MSZoning**: 구역 분류 (주거, 상업 등)
# - **Street**: 도로 종류 (포장/비포장)
# - **Alley**: 골목 접근 유형
# - **LotFrontage**: 도로와 접한 면적 길이 (ft)
# - **LotArea**: 대지 면적 (sq ft)
# - **LotShape**: 대지 형태 (정방형/불규칙 등)
# - **LandContour**: 지형 윤곽 (평지, 경사 등)
# - **Utilities**: 사용 가능한 설비 (전기, 수도 등)
# - **LotConfig**: 대지 구성 (독립, 구석, 4면도로 등)
# - **LandSlope**: 대지 경사 정도
# - **Neighborhood**: 주택이 위치한 동네
# - **Condition1**: 주요 도로/철도 근접 조건
# - **Condition2**: 보조 도로/철도 근접 조건
# - **BldgType**: 건물 유형 (단독, 연립, 아파트 등)
# - **HouseStyle**: 주택 스타일 (1층, 2층, 다층 등)

# ---

# ## 3). 건축 관련
# - **OverallQual**: 전반적 자재와 마감 품질 (1~10)
# - **OverallCond**: 전반적 주택 상태 (1~10)
# - **YearBuilt**: 건축 연도
# - **YearRemodAdd**: 리모델링 연도
# - **RoofStyle**: 지붕 형태
# - **RoofMatl**: 지붕 자재
# - **Exterior1st**: 외장재 1
# - **Exterior2nd**: 외장재 2
# - **MasVnrType**: 벽돌 베니어 유형
# - **MasVnrArea**: 벽돌 베니어 면적 (sq ft)
# - **ExterQual**: 외장재 품질
# - **ExterCond**: 외장재 상태

# ---

# ## 4). 기초/지하
# - **Foundation**: 기초 유형
# - **BsmtQual**: 지하 높이
# - **BsmtCond**: 지하 상태
# - **BsmtExposure**: 지하 채광 정도
# - **BsmtFinType1**: 지하 마감 유형 1
# - **BsmtFinSF1**: 지하 마감 면적 1 (sq ft)
# - **BsmtFinType2**: 지하 마감 유형 2
# - **BsmtFinSF2**: 지하 마감 면적 2 (sq ft)
# - **BsmtUnfSF**: 지하 미마감 면적 (sq ft)
# - **TotalBsmtSF**: 지하 전체 면적 (sq ft)

# ---

# ## 5). 생활 공간
# - **Heating**: 난방 종류
# - **HeatingQC**: 난방 품질
# - **CentralAir**: 중앙 에어컨 유무
# - **Electrical**: 전기 시스템
# - **1stFlrSF**: 1층 면적 (sq ft)
# - **2ndFlrSF**: 2층 면적 (sq ft)
# - **LowQualFinSF**: 낮은 품질 마감 면적 (sq ft)
# - **GrLivArea**: 지상 생활 면적 (sq ft)

# ---

# ## 6). 방 관련
# - **BsmtFullBath**: 지하 전체 욕실 개수
# - **BsmtHalfBath**: 지하 반 욕실 개수
# - **FullBath**: 전체 욕실 개수
# - **HalfBath**: 반 욕실 개수
# - **BedroomAbvGr**: 지상 침실 개수
# - **KitchenAbvGr**: 지상 주방 개수
# - **KitchenQual**: 주방 품질
# - **TotRmsAbvGrd**: 지상 전체 방 개수
# - **Functional**: 주택 기능 상태 (정상/이상 등)

# ---

# ## 7). 기타 공간
# - **Fireplaces**: 벽난로 개수
# - **FireplaceQu**: 벽난로 품질
# - **GarageType**: 차고 유형
# - **GarageYrBlt**: 차고 건축 연도
# - **GarageFinish**: 차고 내부 마감
# - **GarageCars**: 차고 차량 수용 가능 대수
# - **GarageArea**: 차고 면적 (sq ft)
# - **GarageQual**: 차고 품질
# - **GarageCond**: 차고 상태
# - **PavedDrive**: 포장 진입로 여부

# ---

# ## 8). 외부/부속 공간
# - **WoodDeckSF**: 목재 데크 면적 (sq ft)
# - **OpenPorchSF**: 오픈 현관 면적 (sq ft)
# - **EnclosedPorch**: 밀폐 현관 면적 (sq ft)
# - **3SsnPorch**: 3계절용 현관 면적 (sq ft)
# - **ScreenPorch**: 스크린 현관 면적 (sq ft)
# - **PoolArea**: 수영장 면적 (sq ft)
# - **PoolQC**: 수영장 품질
# - **Fence**: 울타리 품질
# - **MiscFeature**: 기타 특이 시설
# - **MiscVal**: 기타 시설 가치

# ---

# ## 9). 판매 정보
# - **MoSold**: 판매 월
# - **YrSold**: 판매 연도
# - **SaleType**: 판매 유형
# - **SaleCondition**: 판매 조건


In [None]:
# ---------------------------------
# 라이브러리 가져오기
# ---------------------------------

In [6]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

In [None]:
# ---------------------------------
# EDA
# ---------------------------------

In [2]:
train.shape, test.shape
train.describe(include='O')

Unnamed: 0,MSZoning,Street,Alley,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,Condition1,...,GarageType,GarageFinish,GarageQual,GarageCond,PavedDrive,PoolQC,Fence,MiscFeature,SaleType,SaleCondition
count,1460,1460,91,1460,1460,1460,1460,1460,1460,1460,...,1379,1379,1379,1379,1460,7,281,54,1460,1460
unique,5,2,2,4,4,2,5,3,25,9,...,6,3,5,5,3,3,4,4,9,6
top,RL,Pave,Grvl,Reg,Lvl,AllPub,Inside,Gtl,NAmes,Norm,...,Attchd,Unf,TA,TA,Y,Gd,MnPrv,Shed,WD,Normal
freq,1151,1454,50,925,1311,1459,1052,1382,225,1260,...,870,605,1311,1326,1340,3,157,49,1267,1198


In [3]:
missing = train.isnull().sum()
missing = missing[missing > 0]
print(missing)

LotFrontage      259
Alley           1369
MasVnrType       872
MasVnrArea         8
BsmtQual          37
BsmtCond          37
BsmtExposure      38
BsmtFinType1      37
BsmtFinType2      38
Electrical         1
FireplaceQu      690
GarageType        81
GarageYrBlt       81
GarageFinish      81
GarageQual        81
GarageCond        81
PoolQC          1453
Fence           1179
MiscFeature     1406
dtype: int64


In [None]:
# ---------------------------------
# 데이터 전처리
# ---------------------------------

In [8]:
# 타겟 로그 변환 (정규분포화)
train["SalePrice"] = np.log1p(train["SalePrice"])

In [9]:
# 타겟 변수 분리
y = train["SalePrice"]
train_ID = train["Id"]
test_ID = test["Id"]

In [12]:
# ID 제거
train.drop(["Id", "SalePrice"], axis=1, inplace=True)
test.drop(["Id"], axis=1, inplace=True)

In [13]:
# 합쳐서 전처리 (train + test)
all_data = pd.concat([train, test], axis=0)

In [14]:
# --------------------------
# 결측치 처리
# --------------------------
# 범주형 결측치 → 'None' 또는 최빈값
for col in all_data.select_dtypes(include='object').columns:
    all_data[col] = all_data[col].fillna('None')

# 수치형 결측치 → 0 또는 평균
for col in all_data.select_dtypes(exclude='object').columns:
    all_data[col] = all_data[col].fillna(0)

In [15]:
# --------------------------
# 범주형 → One-hot 인코딩
# --------------------------
all_data = pd.get_dummies(all_data)

In [16]:
# 다시 train/test 분리
X = all_data[:len(train)]
X_test = all_data[len(train):]

In [None]:
# ---------------------------------
# 학습 및 평가(MSE, MAE , R2..)
# ---------------------------------

In [18]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from sklearn.metrics import mean_squared_error

In [19]:
X_train, X_val, y_train, y_val = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=42
)

In [21]:
models = {
    "Linear Regression": LinearRegression(),
    "Ridge": Ridge(alpha=10),
    "Lasso": Lasso(alpha=0.001),
    "Random Forest": RandomForestRegressor(n_estimators=100, random_state=42),
    "XGBoost": XGBRegressor(n_estimators=100, learning_rate=0.05),
    "LightGBM": LGBMRegressor(n_estimators=100)
}

print("모델별 RMSE 비교:")
for name, model in models.items():
    model.fit(X_train, y_train)
    preds = model.predict(X_val)
    rmse = np.sqrt(mean_squared_error(y_val, preds))
    print(f"{name:20}: RMSE = {rmse:.4f}")

모델별 RMSE 비교:
Linear Regression   : RMSE = 0.0102
Ridge               : RMSE = 0.0107
Lasso               : RMSE = 0.0123
Random Forest       : RMSE = 0.0115
XGBoost             : RMSE = 0.0114
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000716 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 3218
[LightGBM] [Info] Number of data points in the train set: 1168, number of used features: 193
[LightGBM] [Info] Start training from score 2.566856
LightGBM            : RMSE = 0.0110


In [None]:
# ---------------------------------
# 파일로 저장
# ---------------------------------

In [22]:
# 예: LightGBM으로 최종 예측
final_model = LGBMRegressor(n_estimators=100)
final_model.fit(X, y)

# 테스트 데이터 예측
final_preds = final_model.predict(X_test)
final_preds = np.expm1(final_preds)  # 로그 역변환

# 제출 파일 생성
submission = pd.DataFrame({
    "Id": test_ID,
    "SalePrice": final_preds
})
submission.to_csv("submission.csv", index=False)

[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.001482 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 3489
[LightGBM] [Info] Number of data points in the train set: 1460, number of used features: 202
[LightGBM] [Info] Start training from score 2.566329
