In [None]:
# 문제정의(KAGGLE : https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/overview)

# ---------------------------
## 1. 해결과제
# ---------------------------
# - 주어진 주택 데이터(물리적 특성 + 주변 환경)를 이용해 **최종 판매 가격(SalePrice)** 예측
# - 단순 선형 회귀가 아니라 다양한 회귀 기법을 적용해 성능 최적화가 목표

# ---------------------------
# 2. 타겟 변수
# ---------------------------
# - **SalePrice**  
# - 주택의 실제 판매 가격 (회귀 문제의 종속 변수)

# ---------------------------
# 3 데이터셋 컬럼 정리
# ---------------------------
# ## 1). ID / Target
# - **Id**: 샘플 고유 번호
# - **SalePrice**: 주택 판매 가격 (타겟 변수, train에만 존재)

# ---

# ## 2). 주택 일반 정보
# - **MSSubClass**: 건물 클래스 (주택 유형 코드)
# - **MSZoning**: 구역 분류 (주거, 상업 등)
# - **Street**: 도로 종류 (포장/비포장)
# - **Alley**: 골목 접근 유형
# - **LotFrontage**: 도로와 접한 면적 길이 (ft)
# - **LotArea**: 대지 면적 (sq ft)
# - **LotShape**: 대지 형태 (정방형/불규칙 등)
# - **LandContour**: 지형 윤곽 (평지, 경사 등)
# - **Utilities**: 사용 가능한 설비 (전기, 수도 등)
# - **LotConfig**: 대지 구성 (독립, 구석, 4면도로 등)
# - **LandSlope**: 대지 경사 정도
# - **Neighborhood**: 주택이 위치한 동네
# - **Condition1**: 주요 도로/철도 근접 조건
# - **Condition2**: 보조 도로/철도 근접 조건
# - **BldgType**: 건물 유형 (단독, 연립, 아파트 등)
# - **HouseStyle**: 주택 스타일 (1층, 2층, 다층 등)

# ---

# ## 3). 건축 관련
# - **OverallQual**: 전반적 자재와 마감 품질 (1~10)
# - **OverallCond**: 전반적 주택 상태 (1~10)
# - **YearBuilt**: 건축 연도
# - **YearRemodAdd**: 리모델링 연도
# - **RoofStyle**: 지붕 형태
# - **RoofMatl**: 지붕 자재
# - **Exterior1st**: 외장재 1
# - **Exterior2nd**: 외장재 2
# - **MasVnrType**: 벽돌 베니어 유형
# - **MasVnrArea**: 벽돌 베니어 면적 (sq ft)
# - **ExterQual**: 외장재 품질
# - **ExterCond**: 외장재 상태

# ---

# ## 4). 기초/지하
# - **Foundation**: 기초 유형
# - **BsmtQual**: 지하 높이
# - **BsmtCond**: 지하 상태
# - **BsmtExposure**: 지하 채광 정도
# - **BsmtFinType1**: 지하 마감 유형 1
# - **BsmtFinSF1**: 지하 마감 면적 1 (sq ft)
# - **BsmtFinType2**: 지하 마감 유형 2
# - **BsmtFinSF2**: 지하 마감 면적 2 (sq ft)
# - **BsmtUnfSF**: 지하 미마감 면적 (sq ft)
# - **TotalBsmtSF**: 지하 전체 면적 (sq ft)

# ---

# ## 5). 생활 공간
# - **Heating**: 난방 종류
# - **HeatingQC**: 난방 품질
# - **CentralAir**: 중앙 에어컨 유무
# - **Electrical**: 전기 시스템
# - **1stFlrSF**: 1층 면적 (sq ft)
# - **2ndFlrSF**: 2층 면적 (sq ft)
# - **LowQualFinSF**: 낮은 품질 마감 면적 (sq ft)
# - **GrLivArea**: 지상 생활 면적 (sq ft)

# ---

# ## 6). 방 관련
# - **BsmtFullBath**: 지하 전체 욕실 개수
# - **BsmtHalfBath**: 지하 반 욕실 개수
# - **FullBath**: 전체 욕실 개수
# - **HalfBath**: 반 욕실 개수
# - **BedroomAbvGr**: 지상 침실 개수
# - **KitchenAbvGr**: 지상 주방 개수
# - **KitchenQual**: 주방 품질
# - **TotRmsAbvGrd**: 지상 전체 방 개수
# - **Functional**: 주택 기능 상태 (정상/이상 등)

# ---

# ## 7). 기타 공간
# - **Fireplaces**: 벽난로 개수
# - **FireplaceQu**: 벽난로 품질
# - **GarageType**: 차고 유형
# - **GarageYrBlt**: 차고 건축 연도
# - **GarageFinish**: 차고 내부 마감
# - **GarageCars**: 차고 차량 수용 가능 대수
# - **GarageArea**: 차고 면적 (sq ft)
# - **GarageQual**: 차고 품질
# - **GarageCond**: 차고 상태
# - **PavedDrive**: 포장 진입로 여부

# ---

# ## 8). 외부/부속 공간
# - **WoodDeckSF**: 목재 데크 면적 (sq ft)
# - **OpenPorchSF**: 오픈 현관 면적 (sq ft)
# - **EnclosedPorch**: 밀폐 현관 면적 (sq ft)
# - **3SsnPorch**: 3계절용 현관 면적 (sq ft)
# - **ScreenPorch**: 스크린 현관 면적 (sq ft)
# - **PoolArea**: 수영장 면적 (sq ft)
# - **PoolQC**: 수영장 품질
# - **Fence**: 울타리 품질
# - **MiscFeature**: 기타 특이 시설
# - **MiscVal**: 기타 시설 가치

# ---

# ## 9). 판매 정보
# - **MoSold**: 판매 월
# - **YrSold**: 판매 연도
# - **SaleType**: 판매 유형
# - **SaleCondition**: 판매 조건


In [None]:
# ---------------------------------
# 라이브러리 가져오기
# ---------------------------------

In [2]:
import pandas as pd
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

In [None]:
# ---------------------------------
# EDA
# ---------------------------------

In [7]:
# train.head(5)

In [9]:
# test.head(5)

In [13]:
train.shape , test.shape

((1460, 81), (1459, 80))

In [28]:
target=train.pop('SalePrice')
target

0       208500
1       181500
2       223500
3       140000
4       250000
         ...  
1455    175000
1456    210000
1457    266500
1458    142125
1459    147500
Name: SalePrice, Length: 1460, dtype: int64

In [29]:

# 중요도 있는 컬럼 선별
features = [
    "OverallQual",   # 전반적 자재/마감 품질
    "GrLivArea",     # 지상 생활 면적
    "GarageCars",    # 차고 수용 차량 수
    "GarageArea",    # 차고 면적
    "TotalBsmtSF",   # 지하 전체 면적
    "1stFlrSF",      # 1층 면적
    "FullBath",      # 전체 욕실 개수
    "YearBuilt",     # 건축 연도
    "YearRemodAdd",  # 리모델링 연도
    "KitchenQual",   # 주방 품질
    "Fireplaces",    # 벽난로 개수
    "Neighborhood"   # 위치
]
train = train[features]
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   OverallQual   1460 non-null   int64 
 1   GrLivArea     1460 non-null   int64 
 2   GarageCars    1460 non-null   int64 
 3   GarageArea    1460 non-null   int64 
 4   TotalBsmtSF   1460 non-null   int64 
 5   1stFlrSF      1460 non-null   int64 
 6   FullBath      1460 non-null   int64 
 7   YearBuilt     1460 non-null   int64 
 8   YearRemodAdd  1460 non-null   int64 
 9   KitchenQual   1460 non-null   object
 10  Fireplaces    1460 non-null   int64 
 11  Neighborhood  1460 non-null   object
dtypes: int64(10), object(2)
memory usage: 137.0+ KB


In [30]:
test = test[features]
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1459 entries, 0 to 1458
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   OverallQual   1459 non-null   int64  
 1   GrLivArea     1459 non-null   int64  
 2   GarageCars    1458 non-null   float64
 3   GarageArea    1458 non-null   float64
 4   TotalBsmtSF   1458 non-null   float64
 5   1stFlrSF      1459 non-null   int64  
 6   FullBath      1459 non-null   int64  
 7   YearBuilt     1459 non-null   int64  
 8   YearRemodAdd  1459 non-null   int64  
 9   KitchenQual   1458 non-null   object 
 10  Fireplaces    1459 non-null   int64  
 11  Neighborhood  1459 non-null   object 
dtypes: float64(3), int64(7), object(2)
memory usage: 136.9+ KB


In [33]:
test.shape ,train.shape

((1459, 12), (1460, 12))

In [37]:
test.isnull().sum()

OverallQual     0
GrLivArea       0
GarageCars      1
GarageArea      1
TotalBsmtSF     1
1stFlrSF        0
FullBath        0
YearBuilt       0
YearRemodAdd    0
KitchenQual     1
Fireplaces      0
Neighborhood    0
dtype: int64

In [38]:
# test.describe()

In [42]:
train.isnull().sum()

OverallQual     0
GrLivArea       0
GarageCars      0
GarageArea      0
TotalBsmtSF     0
1stFlrSF        0
FullBath        0
YearBuilt       0
YearRemodAdd    0
KitchenQual     0
Fireplaces      0
Neighborhood    0
dtype: int64

In [45]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   OverallQual   1460 non-null   int64 
 1   GrLivArea     1460 non-null   int64 
 2   GarageCars    1460 non-null   int64 
 3   GarageArea    1460 non-null   int64 
 4   TotalBsmtSF   1460 non-null   int64 
 5   1stFlrSF      1460 non-null   int64 
 6   FullBath      1460 non-null   int64 
 7   YearBuilt     1460 non-null   int64 
 8   YearRemodAdd  1460 non-null   int64 
 9   KitchenQual   1460 non-null   object
 10  Fireplaces    1460 non-null   int64 
 11  Neighborhood  1460 non-null   object
dtypes: int64(10), object(2)
memory usage: 137.0+ KB


In [None]:
# ---------------------------------
# 데이터 전처리
# ---------------------------------

In [41]:
test['GarageArea'] = test['GarageArea'].fillna(test['GarageArea'].mean())
test['GarageCars'] = test['GarageCars'].fillna(test['GarageCars'].mean())

In [46]:
from sklearn.preprocessing import LabelEncoder
cols = train.columns[train.dtypes == object]
for col in cols:
    le = LabelEncoder()
    le.fit(pd.concat([train[col],test[col]],axis=0))
    train[col] = le.fit_transform(train[col])
    test[col] = le.transform(test[col])

ValueError: y contains previously unseen labels: nan

In [None]:
# ---------------------------------
# 검증 데이터 분할 train - val (8,2)
# ---------------------------------

In [None]:
# ---------------------------------
# 학습 및 평가(MSE, MAE , R2..)
# ---------------------------------

In [None]:
# ---------------------------------
# 파일로 저장
# ---------------------------------