In [None]:
# 문제정의(KAGGLE : https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/overview)

# ---------------------------
## 1. 해결과제
# ---------------------------
# - 주어진 주택 데이터(물리적 특성 + 주변 환경)를 이용해 **최종 판매 가격(SalePrice)** 예측
# - 단순 선형 회귀가 아니라 다양한 회귀 기법을 적용해 성능 최적화가 목표

# ---------------------------
# 2. 타겟 변수
# ---------------------------
# - **SalePrice**  
# - 주택의 실제 판매 가격 (회귀 문제의 종속 변수)

# ---------------------------
# 3 데이터셋 컬럼 정리
# ---------------------------
# ## 1). ID / Target
# - **Id**: 샘플 고유 번호
# - **SalePrice**: 주택 판매 가격 (타겟 변수, train에만 존재)

# ---

# ## 2). 주택 일반 정보
# - **MSSubClass**: 건물 클래스 (주택 유형 코드)
# - **MSZoning**: 구역 분류 (주거, 상업 등)
# - **Street**: 도로 종류 (포장/비포장)
# - **Alley**: 골목 접근 유형
# - **LotFrontage**: 도로와 접한 면적 길이 (ft)
# - **LotArea**: 대지 면적 (sq ft)
# - **LotShape**: 대지 형태 (정방형/불규칙 등)
# - **LandContour**: 지형 윤곽 (평지, 경사 등)
# - **Utilities**: 사용 가능한 설비 (전기, 수도 등)
# - **LotConfig**: 대지 구성 (독립, 구석, 4면도로 등)
# - **LandSlope**: 대지 경사 정도
# - **Neighborhood**: 주택이 위치한 동네
# - **Condition1**: 주요 도로/철도 근접 조건
# - **Condition2**: 보조 도로/철도 근접 조건
# - **BldgType**: 건물 유형 (단독, 연립, 아파트 등)
# - **HouseStyle**: 주택 스타일 (1층, 2층, 다층 등)

# ---

# ## 3). 건축 관련
# - **OverallQual**: 전반적 자재와 마감 품질 (1~10)
# - **OverallCond**: 전반적 주택 상태 (1~10)
# - **YearBuilt**: 건축 연도
# - **YearRemodAdd**: 리모델링 연도
# - **RoofStyle**: 지붕 형태
# - **RoofMatl**: 지붕 자재
# - **Exterior1st**: 외장재 1
# - **Exterior2nd**: 외장재 2
# - **MasVnrType**: 벽돌 베니어 유형
# - **MasVnrArea**: 벽돌 베니어 면적 (sq ft)
# - **ExterQual**: 외장재 품질
# - **ExterCond**: 외장재 상태

# ---

# ## 4). 기초/지하
# - **Foundation**: 기초 유형
# - **BsmtQual**: 지하 높이
# - **BsmtCond**: 지하 상태
# - **BsmtExposure**: 지하 채광 정도
# - **BsmtFinType1**: 지하 마감 유형 1
# - **BsmtFinSF1**: 지하 마감 면적 1 (sq ft)
# - **BsmtFinType2**: 지하 마감 유형 2
# - **BsmtFinSF2**: 지하 마감 면적 2 (sq ft)
# - **BsmtUnfSF**: 지하 미마감 면적 (sq ft)
# - **TotalBsmtSF**: 지하 전체 면적 (sq ft)

# ---

# ## 5). 생활 공간
# - **Heating**: 난방 종류
# - **HeatingQC**: 난방 품질
# - **CentralAir**: 중앙 에어컨 유무
# - **Electrical**: 전기 시스템
# - **1stFlrSF**: 1층 면적 (sq ft)
# - **2ndFlrSF**: 2층 면적 (sq ft)
# - **LowQualFinSF**: 낮은 품질 마감 면적 (sq ft)
# - **GrLivArea**: 지상 생활 면적 (sq ft)

# ---

# ## 6). 방 관련
# - **BsmtFullBath**: 지하 전체 욕실 개수
# - **BsmtHalfBath**: 지하 반 욕실 개수
# - **FullBath**: 전체 욕실 개수
# - **HalfBath**: 반 욕실 개수
# - **BedroomAbvGr**: 지상 침실 개수
# - **KitchenAbvGr**: 지상 주방 개수
# - **KitchenQual**: 주방 품질
# - **TotRmsAbvGrd**: 지상 전체 방 개수
# - **Functional**: 주택 기능 상태 (정상/이상 등)

# ---

# ## 7). 기타 공간
# - **Fireplaces**: 벽난로 개수
# - **FireplaceQu**: 벽난로 품질
# - **GarageType**: 차고 유형
# - **GarageYrBlt**: 차고 건축 연도
# - **GarageFinish**: 차고 내부 마감
# - **GarageCars**: 차고 차량 수용 가능 대수
# - **GarageArea**: 차고 면적 (sq ft)
# - **GarageQual**: 차고 품질
# - **GarageCond**: 차고 상태
# - **PavedDrive**: 포장 진입로 여부

# ---

# ## 8). 외부/부속 공간
# - **WoodDeckSF**: 목재 데크 면적 (sq ft)
# - **OpenPorchSF**: 오픈 현관 면적 (sq ft)
# - **EnclosedPorch**: 밀폐 현관 면적 (sq ft)
# - **3SsnPorch**: 3계절용 현관 면적 (sq ft)
# - **ScreenPorch**: 스크린 현관 면적 (sq ft)
# - **PoolArea**: 수영장 면적 (sq ft)
# - **PoolQC**: 수영장 품질
# - **Fence**: 울타리 품질
# - **MiscFeature**: 기타 특이 시설
# - **MiscVal**: 기타 시설 가치

# ---

# ## 9). 판매 정보
# - **MoSold**: 판매 월
# - **YrSold**: 판매 연도
# - **SaleType**: 판매 유형
# - **SaleCondition**: 판매 조건


In [None]:
# ---------------------------------
# 라이브러리 가져오기
# ---------------------------------

In [1]:
import pandas as pd

train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

In [None]:
# ---------------------------------
# EDA
# ---------------------------------

In [2]:
train.shape, test.shape

((1460, 81), (1459, 80))

In [2]:
train.describe() # 채우기 (최소/최대/평균/중앙)
train.describe(include='O') #채우기(최빈값...)

test.describe() # 채우기 (최소/최대/평균/중앙)
test.describe(include='O') #채우기(최빈값...)

Unnamed: 0,MSZoning,Street,Alley,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,Condition1,...,GarageType,GarageFinish,GarageQual,GarageCond,PavedDrive,PoolQC,Fence,MiscFeature,SaleType,SaleCondition
count,1455,1459,107,1459,1459,1457,1459,1459,1459,1459,...,1383,1381,1381,1381,1459,3,290,51,1458,1459
unique,5,2,2,4,4,1,5,3,25,9,...,6,3,4,5,3,2,4,3,9,6
top,RL,Pave,Grvl,Reg,Lvl,AllPub,Inside,Gtl,NAmes,Norm,...,Attchd,Unf,TA,TA,Y,Ex,MnPrv,Shed,WD,Normal
freq,1114,1453,70,934,1311,1457,1081,1396,218,1251,...,853,625,1293,1328,1301,2,172,46,1258,1204


In [3]:
# print(train.isnull().sum().to_string()) # 전체보기

missing=train.isnull().sum()
missing=missing[missing>0]
print(missing)

LotFrontage      259
Alley           1369
MasVnrType       872
MasVnrArea         8
BsmtQual          37
BsmtCond          37
BsmtExposure      38
BsmtFinType1      37
BsmtFinType2      38
Electrical         1
FireplaceQu      690
GarageType        81
GarageYrBlt       81
GarageFinish      81
GarageQual        81
GarageCond        81
PoolQC          1453
Fence           1179
MiscFeature     1406
dtype: int64


In [None]:
# ---------------------------------
# 데이터 전처리
# ---------------------------------

In [4]:
# y값 분리
target = train.pop('SalePrice')
train.shape, test.shape

((1460, 80), (1459, 80))

In [5]:
features = [
    "OverallQual",   # 전반적 자재/마감 품질
    "GrLivArea",     # 지상 생활 면적
    "GarageCars",    # 차고 수용 차량 수
    "GarageArea",    # 차고 면적
    "TotalBsmtSF",   # 지하 전체 면적
    "1stFlrSF",      # 1층 면적
    "FullBath",      # 전체 욕실 개수
    "YearBuilt",     # 건축 연도
    "YearRemodAdd",  # 리모델링 연도
    "KitchenQual",   # 주방 품질
    "Fireplaces",    # 벽난로 개수
    "Neighborhood"   # 위치
]

train=train[features]
test=test[features]

In [16]:
train.info()
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   OverallQual   1460 non-null   int64 
 1   GrLivArea     1460 non-null   int64 
 2   GarageCars    1460 non-null   int64 
 3   GarageArea    1460 non-null   int64 
 4   TotalBsmtSF   1460 non-null   int64 
 5   1stFlrSF      1460 non-null   int64 
 6   FullBath      1460 non-null   int64 
 7   YearBuilt     1460 non-null   int64 
 8   YearRemodAdd  1460 non-null   int64 
 9   KitchenQual   1460 non-null   object
 10  Fireplaces    1460 non-null   int64 
 11  Neighborhood  1460 non-null   object
dtypes: int64(10), object(2)
memory usage: 137.0+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1459 entries, 0 to 1458
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   OverallQual   1459 non-null   int64  
 1   GrLivArea  

In [6]:
#수치형 컬럼(x) 결측치 채우기(최소/평균/중앙값 중 최소값 선택)
test['GarageCars']=test['GarageCars'].fillna(test['GarageCars'].min())
test['GarageArea']=test['GarageArea'].fillna(test['GarageArea'].min())
test['TotalBsmtSF']=test['TotalBsmtSF'].fillna(test['TotalBsmtSF'].min())
test.describe()
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1459 entries, 0 to 1458
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   OverallQual   1459 non-null   int64  
 1   GrLivArea     1459 non-null   int64  
 2   GarageCars    1459 non-null   float64
 3   GarageArea    1459 non-null   float64
 4   TotalBsmtSF   1459 non-null   float64
 5   1stFlrSF      1459 non-null   int64  
 6   FullBath      1459 non-null   int64  
 7   YearBuilt     1459 non-null   int64  
 8   YearRemodAdd  1459 non-null   int64  
 9   KitchenQual   1458 non-null   object 
 10  Fireplaces    1459 non-null   int64  
 11  Neighborhood  1459 non-null   object 
dtypes: float64(3), int64(7), object(2)
memory usage: 136.9+ KB


In [7]:
# 범주형 컬럼(x) 결측치 채우기(최빈값 / 시분위수 범위내 중 최소값/최대값..)
# KitchenQual : Ex=우수, Gd=좋음, TA=보통, Fa=나쁨
test['KitchenQual']=test['KitchenQual'].fillna(test['KitchenQual'].mode()[0])
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1459 entries, 0 to 1458
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   OverallQual   1459 non-null   int64  
 1   GrLivArea     1459 non-null   int64  
 2   GarageCars    1459 non-null   float64
 3   GarageArea    1459 non-null   float64
 4   TotalBsmtSF   1459 non-null   float64
 5   1stFlrSF      1459 non-null   int64  
 6   FullBath      1459 non-null   int64  
 7   YearBuilt     1459 non-null   int64  
 8   YearRemodAdd  1459 non-null   int64  
 9   KitchenQual   1459 non-null   object 
 10  Fireplaces    1459 non-null   int64  
 11  Neighborhood  1459 non-null   object 
dtypes: float64(3), int64(7), object(2)
memory usage: 136.9+ KB


In [22]:
# 이상치 - 생략

In [8]:
# 인코딩 (LIGHTGBM) 사용시 범주형(object) -> 카테고리(category) 자료형)

train['KitchenQual']=train['KitchenQual'].astype('category')
train['Neighborhood']=train['Neighborhood'].astype('category')
train.info()

test['KitchenQual']=test['KitchenQual'].astype('category')
test['Neighborhood']=test['Neighborhood'].astype('category')
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   OverallQual   1460 non-null   int64   
 1   GrLivArea     1460 non-null   int64   
 2   GarageCars    1460 non-null   int64   
 3   GarageArea    1460 non-null   int64   
 4   TotalBsmtSF   1460 non-null   int64   
 5   1stFlrSF      1460 non-null   int64   
 6   FullBath      1460 non-null   int64   
 7   YearBuilt     1460 non-null   int64   
 8   YearRemodAdd  1460 non-null   int64   
 9   KitchenQual   1460 non-null   category
 10  Fireplaces    1460 non-null   int64   
 11  Neighborhood  1460 non-null   category
dtypes: category(2), int64(10)
memory usage: 118.0 KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1459 entries, 0 to 1458
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   OverallQual   1459 non-

In [None]:
# ---------------------------------
# 검증 데이터 분할 train - val (8,2)
# ---------------------------------

In [9]:
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(
    train,
    target,
    test_size=0.2,
    random_state=0
)
X_train.shape, X_val.shape, y_train.shape, y_val.shape

((1168, 12), (292, 12), (1168,), (292,))

In [11]:
import lightgbm as lgb
model = lgb.LGBMRegressor(random_state=0, verbose=-1)
model.fit(X_train, y_train)
y_pred = model.predict(X_val)
y_pred

array([341764.75749812, 141688.47910067, 120677.81758381, 228575.75211451,
        92251.28852243, 113043.99740768, 225809.54820198, 127978.36444965,
       563876.8571553 , 146429.51181508, 200409.89106504, 173586.80944635,
       220551.87875481, 117533.88502192, 128088.77204484, 132381.60556189,
       207334.32809832, 117411.78140702, 144575.01788236, 172587.93147109,
       128809.21044769, 143704.1417425 , 109073.95609355, 175374.0920053 ,
       188612.94734439, 190423.50138547, 176349.39322053,  71867.25871788,
       306058.79134878, 123242.47692563, 118737.94715063, 181409.04171498,
       140585.05457823, 288160.12655409, 404077.30328448, 176080.76221067,
       267782.91798305, 130654.79465395, 250707.29123974, 299490.56030609,
       202327.97574432, 130428.26202987, 189989.11439171, 302960.56851511,
       388234.26728087, 141637.48155231, 122178.45559983, 123184.20341559,
       154213.64188508,  97465.09571438, 401084.00749283, 141343.96728508,
       178784.83192722,  

In [None]:
# ---------------------------------
# 학습 및 평가(MSE, MAE , R2..)
# ---------------------------------

In [12]:
from sklearn.metrics import mean_squared_error # MSE(평균 제곱 오차)
from sklearn.metrics import mean_absolute_error # MAE(평균 절대 오차)
from sklearn.metrics import root_mean_squared_error #RMSE(제곱 평균 오차 루트)
from sklearn.metrics import r2_score #R2Score(결정계수)

lr_mse = mean_squared_error(y_val, y_pred)
lr_mae = mean_absolute_error(y_val, y_pred)
lr_rmse = root_mean_squared_error(y_val, y_pred)
lr_r2 = r2_score(y_val, y_pred)

print("MSE : ",lr_mse) # 오차를 제곱해 평균을 낸 값 - 값 클수록 예측이 실제와 다름
print("MAE : ",lr_mae) # 오차를 절대값으로 계산 - 값 클수록 예측이 실제와 다름
print("RMSE : ",lr_rmse)
print("R2 : ",lr_r2)

MSE :  1138255660.1912904
MAE :  19091.970142754628
RMSE :  33738.044700179205
R2 :  0.8351751535112408


In [None]:
# 결과 평가
# MSE : 1138255660.1912904 -> 다른 모델과 비교시 사용(튜닝이전/이후 비교) 낮은값 코드 사용
# MAE : 19091.970142754628 -> 예측값과 실제 집값의 차이가 평균적으로 19000달러
# RMSE : 33738.044700179205 -> 예측값과 실제 집값의 차이가 33000 - 약 20% 정도 오차
# R2 : 0.8351751535112408 -> 모델이 집값에 대한 예측을 83.5% 정도 설명이 가능(우수한 성능)

In [None]:
# ---------------------------------
# 파일로 저장
# ---------------------------------

In [13]:
pred = model.predict(test)
submit = pd.DataFrame({'pred':pred})
submit.to_csv("result.csv", index=False)

In [14]:
# ---------------------------------
# SAMPLE X 전달 -> 집값 예측 확인
# ---------------------------------

In [21]:
sample = {
    "OverallQual":5,   # 전반적 자재/마감 품질(1-10)
    "GrLivArea":1800,     # 지상 생활 면적
    "GarageCars":2,    # 차고 수용 차량 수
    "GarageArea":500,    # 차고 면적
    "TotalBsmtSF":800,   # 지하 전체 면적
    "1stFlrSF":2600,      # 1층 면적
    "FullBath":2,      # 전체 욕실 개수
    "YearBuilt":2005,     # 건축 연도
    "YearRemodAdd":2018,  # 리모델링 연도
    "KitchenQual":"Ex",   # 주방 품질
    "Fireplaces":1,    # 벽난로 개수
    "Neighborhood":"collgCr"   # 위치
}
sample_df = pd.DataFrame([sample])
sample_df.info()

sample_df['KitchenQual']=sample_df['KitchenQual'].astype('category')
sample_df['Neighborhood']=sample_df['Neighborhood'].astype('category')

pred_price=model.predict(sample_df)
print("예측 집값 : ",pred_price)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1 entries, 0 to 0
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   OverallQual   1 non-null      int64 
 1   GrLivArea     1 non-null      int64 
 2   GarageCars    1 non-null      int64 
 3   GarageArea    1 non-null      int64 
 4   TotalBsmtSF   1 non-null      int64 
 5   1stFlrSF      1 non-null      int64 
 6   FullBath      1 non-null      int64 
 7   YearBuilt     1 non-null      int64 
 8   YearRemodAdd  1 non-null      int64 
 9   KitchenQual   1 non-null      object
 10  Fireplaces    1 non-null      int64 
 11  Neighborhood  1 non-null      object
dtypes: int64(10), object(2)
memory usage: 228.0+ bytes
예측 집값 :  [163012.48434695]
