In [None]:
# 문제정의(KAGGLE : https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/overview)

# ---------------------------
## 1. 해결과제
# ---------------------------
# - 주어진 주택 데이터(물리적 특성 + 주변 환경)를 이용해 **최종 판매 가격(SalePrice)** 예측
# - 단순 선형 회귀가 아니라 다양한 회귀 기법을 적용해 성능 최적화가 목표

# ---------------------------
# 2. 타겟 변수
# ---------------------------
# - **SalePrice**  
# - 주택의 실제 판매 가격 (회귀 문제의 종속 변수)

# ---------------------------
# 3 데이터셋 컬럼 정리
# ---------------------------
# ## 1). ID / Target
# - **Id**: 샘플 고유 번호
# - **SalePrice**: 주택 판매 가격 (타겟 변수, train에만 존재)

# ---

# ## 2). 주택 일반 정보
# - **MSSubClass**: 건물 클래스 (주택 유형 코드)
# - **MSZoning**: 구역 분류 (주거, 상업 등)
# - **Street**: 도로 종류 (포장/비포장)
# - **Alley**: 골목 접근 유형
# - **LotFrontage**: 도로와 접한 면적 길이 (ft)
# - **LotArea**: 대지 면적 (sq ft)
# - **LotShape**: 대지 형태 (정방형/불규칙 등)
# - **LandContour**: 지형 윤곽 (평지, 경사 등)
# - **Utilities**: 사용 가능한 설비 (전기, 수도 등)
# - **LotConfig**: 대지 구성 (독립, 구석, 4면도로 등)
# - **LandSlope**: 대지 경사 정도
# - **Neighborhood**: 주택이 위치한 동네
# - **Condition1**: 주요 도로/철도 근접 조건
# - **Condition2**: 보조 도로/철도 근접 조건
# - **BldgType**: 건물 유형 (단독, 연립, 아파트 등)
# - **HouseStyle**: 주택 스타일 (1층, 2층, 다층 등)

# ---

# ## 3). 건축 관련
# - **OverallQual**: 전반적 자재와 마감 품질 (1~10)
# - **OverallCond**: 전반적 주택 상태 (1~10)
# - **YearBuilt**: 건축 연도
# - **YearRemodAdd**: 리모델링 연도
# - **RoofStyle**: 지붕 형태
# - **RoofMatl**: 지붕 자재
# - **Exterior1st**: 외장재 1
# - **Exterior2nd**: 외장재 2
# - **MasVnrType**: 벽돌 베니어 유형
# - **MasVnrArea**: 벽돌 베니어 면적 (sq ft)
# - **ExterQual**: 외장재 품질
# - **ExterCond**: 외장재 상태

# ---

# ## 4). 기초/지하
# - **Foundation**: 기초 유형
# - **BsmtQual**: 지하 높이
# - **BsmtCond**: 지하 상태
# - **BsmtExposure**: 지하 채광 정도
# - **BsmtFinType1**: 지하 마감 유형 1
# - **BsmtFinSF1**: 지하 마감 면적 1 (sq ft)
# - **BsmtFinType2**: 지하 마감 유형 2
# - **BsmtFinSF2**: 지하 마감 면적 2 (sq ft)
# - **BsmtUnfSF**: 지하 미마감 면적 (sq ft)
# - **TotalBsmtSF**: 지하 전체 면적 (sq ft)

# ---

# ## 5). 생활 공간
# - **Heating**: 난방 종류
# - **HeatingQC**: 난방 품질
# - **CentralAir**: 중앙 에어컨 유무
# - **Electrical**: 전기 시스템
# - **1stFlrSF**: 1층 면적 (sq ft)
# - **2ndFlrSF**: 2층 면적 (sq ft)
# - **LowQualFinSF**: 낮은 품질 마감 면적 (sq ft)
# - **GrLivArea**: 지상 생활 면적 (sq ft)

# ---

# ## 6). 방 관련
# - **BsmtFullBath**: 지하 전체 욕실 개수
# - **BsmtHalfBath**: 지하 반 욕실 개수
# - **FullBath**: 전체 욕실 개수
# - **HalfBath**: 반 욕실 개수
# - **BedroomAbvGr**: 지상 침실 개수
# - **KitchenAbvGr**: 지상 주방 개수
# - **KitchenQual**: 주방 품질
# - **TotRmsAbvGrd**: 지상 전체 방 개수
# - **Functional**: 주택 기능 상태 (정상/이상 등)

# ---

# ## 7). 기타 공간
# - **Fireplaces**: 벽난로 개수
# - **FireplaceQu**: 벽난로 품질
# - **GarageType**: 차고 유형
# - **GarageYrBlt**: 차고 건축 연도
# - **GarageFinish**: 차고 내부 마감
# - **GarageCars**: 차고 차량 수용 가능 대수
# - **GarageArea**: 차고 면적 (sq ft)
# - **GarageQual**: 차고 품질
# - **GarageCond**: 차고 상태
# - **PavedDrive**: 포장 진입로 여부

# ---

# ## 8). 외부/부속 공간
# - **WoodDeckSF**: 목재 데크 면적 (sq ft)
# - **OpenPorchSF**: 오픈 현관 면적 (sq ft)
# - **EnclosedPorch**: 밀폐 현관 면적 (sq ft)
# - **3SsnPorch**: 3계절용 현관 면적 (sq ft)
# - **ScreenPorch**: 스크린 현관 면적 (sq ft)
# - **PoolArea**: 수영장 면적 (sq ft)
# - **PoolQC**: 수영장 품질
# - **Fence**: 울타리 품질
# - **MiscFeature**: 기타 특이 시설
# - **MiscVal**: 기타 시설 가치

# ---

# ## 9). 판매 정보
# - **MoSold**: 판매 월
# - **YrSold**: 판매 연도
# - **SaleType**: 판매 유형
# - **SaleCondition**: 판매 조건


In [None]:
# ---------------------------------
# 라이브러리 가져오기
# ---------------------------------

In [1]:
import pandas as pd
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

In [2]:
train

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,175000
1456,1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,...,0,,MnPrv,,0,2,2010,WD,Normal,210000
1457,1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,...,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2010,WD,Normal,142125


In [None]:
# ---------------------------------
# EDA
# ---------------------------------

In [25]:
# train.shape, test.shape
# # train에 정답값(y값 컬럼) 포함되어있음
# train.info() # 정답값 : Sale_Price

# # 수치형 데이터 확인
# train.describe()
# test.describe()

# # 범주형 데이터 확인
# train.describe(include='O')
# test.describe(include='O')

# 결측치 확인
train.isnull().sum().sum() #LotFrontage : 259 / SaleType : 1
# test.isnull().sum() # LotFrontage : 227 / SaleType : 1


7829

In [None]:
# ---------------------------------
# 데이터 전처리
# ---------------------------------

In [23]:
# y값 분할
# target = train.pop('SalePrice')
# print(train.shape, test.shape)
# 결과값 : (1460, 80) (1459, 80)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1459 entries, 0 to 1458
Data columns (total 80 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1459 non-null   int64  
 1   MSSubClass     1459 non-null   int64  
 2   MSZoning       1455 non-null   object 
 3   LotFrontage    1459 non-null   float64
 4   LotArea        1459 non-null   int64  
 5   Street         1459 non-null   object 
 6   Alley          107 non-null    object 
 7   LotShape       1459 non-null   object 
 8   LandContour    1459 non-null   object 
 9   Utilities      1457 non-null   object 
 10  LotConfig      1459 non-null   object 
 11  LandSlope      1459 non-null   object 
 12  Neighborhood   1459 non-null   object 
 13  Condition1     1459 non-null   object 
 14  Condition2     1459 non-null   object 
 15  BldgType       1459 non-null   object 
 16  HouseStyle     1459 non-null   object 
 17  OverallQual    1459 non-null   int64  
 18  OverallC

In [27]:
# 컬럼이 너무 많은 관계로 후보 데이터들만 선택해서 사용
features = [
    "OverallQual",   # 전반적 자재/마감 품질
    "GrLivArea",     # 지상 생활 면적
    "GarageCars",    # 차고 수용 차량 수
    "GarageArea",    # 차고 면적
    "TotalBsmtSF",   # 지하 전체 면적
    "1stFlrSF",      # 1층 면적
    "FullBath",      # 전체 욕실 개수
    "YearBuilt",     # 건축 연도
    "YearRemodAdd",  # 리모델링 연도
    "KitchenQual",   # 주방 품질 (범주형)
    "Fireplaces",    # 벽난로 개수
    "Neighborhood"   # 위치 (범주형)
]
train = train [features]
# train에서 features 리스트 안에 지정된 특정 컬럼들만 선택하여 새로운(또는 덮어쓴)
# 데이터 프레임 train을 만들겠다는 의미

test = test [features]
train.info()
test.info()
    

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   OverallQual   1460 non-null   int64 
 1   GrLivArea     1460 non-null   int64 
 2   GarageCars    1460 non-null   int64 
 3   GarageArea    1460 non-null   int64 
 4   TotalBsmtSF   1460 non-null   int64 
 5   1stFlrSF      1460 non-null   int64 
 6   FullBath      1460 non-null   int64 
 7   YearBuilt     1460 non-null   int64 
 8   YearRemodAdd  1460 non-null   int64 
 9   KitchenQual   1460 non-null   object
 10  Fireplaces    1460 non-null   int64 
 11  Neighborhood  1460 non-null   object
dtypes: int64(10), object(2)
memory usage: 137.0+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1459 entries, 0 to 1458
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   OverallQual   1459 non-null   int64  
 1   GrLivArea  

In [33]:
# 결측치 제거 / 채우기
train.isnull().sum() #결측치 X
test.isnull().sum() # 결측치 : GarageCars(1), GarageArea(1), TotatlBsmtSF(1),
                    # KitchenQual(1)
test.describe()

# test의 결측치는 각 컬럼마다 1개씩이니까 지우는 게 나을 듯?
# test 결측치 제거
test.drop('GarageCars', axis=1)
test.drop('GarageArea', axis=1)
test.drop('TotalBsmtSF', axis=1)
test.drop('KitchenQual', axis=1)
# test.isnull().sum()


Unnamed: 0,OverallQual,GrLivArea,GarageCars,GarageArea,TotalBsmtSF,1stFlrSF,FullBath,YearBuilt,YearRemodAdd,Fireplaces,Neighborhood
0,5,896,1.0,730.0,882.0,896,1,1961,1961,0,NAmes
1,6,1329,1.0,312.0,1329.0,1329,1,1958,1958,0,NAmes
2,5,1629,2.0,482.0,928.0,928,2,1997,1998,1,Gilbert
3,6,1604,2.0,470.0,926.0,926,2,1998,1998,1,Gilbert
4,8,1280,2.0,506.0,1280.0,1280,2,1992,1992,0,StoneBr
...,...,...,...,...,...,...,...,...,...,...,...
1454,4,1092,0.0,0.0,546.0,546,1,1970,1970,0,MeadowV
1455,4,1092,1.0,286.0,546.0,546,1,1970,1970,0,MeadowV
1456,5,1224,2.0,576.0,1224.0,1224,1,1960,1996,1,Mitchel
1457,5,970,0.0,0.0,912.0,970,1,1992,1992,0,Mitchel


In [None]:
# ---------------------------------
# 검증 데이터 분할 train - val (8,2)
# ---------------------------------

In [None]:
# ---------------------------------
# 학습 및 평가(MSE, MAE , R2..)
# ---------------------------------

In [None]:
# ---------------------------------
# 파일로 저장
# ---------------------------------