In [None]:
# 문제정의(KAGGLE : https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/overview)

# ---------------------------
## 1. 해결과제
# ---------------------------
# - 주어진 주택 데이터(물리적 특성 + 주변 환경)를 이용해 **최종 판매 가격(SalePrice)** 예측
# - 단순 선형 회귀가 아니라 다양한 회귀 기법을 적용해 성능 최적화가 목표

# ---------------------------
# 2. 타겟 변수
# ---------------------------
# - **SalePrice**  
# - 주택의 실제 판매 가격 (회귀 문제의 종속 변수)

# ---------------------------
# 3 데이터셋 컬럼 정리
# ---------------------------
# ## 1). ID / Target
# - **Id**: 샘플 고유 번호
# - **SalePrice**: 주택 판매 가격 (타겟 변수, train에만 존재)

# ---

# ## 2). 주택 일반 정보
# - **MSSubClass**: 건물 클래스 (주택 유형 코드)
# - **MSZoning**: 구역 분류 (주거, 상업 등)
# - **Street**: 도로 종류 (포장/비포장)
# - **Alley**: 골목 접근 유형
# - **LotFrontage**: 도로와 접한 면적 길이 (ft)
# - **LotArea**: 대지 면적 (sq ft)
# - **LotShape**: 대지 형태 (정방형/불규칙 등)
# - **LandContour**: 지형 윤곽 (평지, 경사 등)
# - **Utilities**: 사용 가능한 설비 (전기, 수도 등)
# - **LotConfig**: 대지 구성 (독립, 구석, 4면도로 등)
# - **LandSlope**: 대지 경사 정도
# - **Neighborhood**: 주택이 위치한 동네
# - **Condition1**: 주요 도로/철도 근접 조건
# - **Condition2**: 보조 도로/철도 근접 조건
# - **BldgType**: 건물 유형 (단독, 연립, 아파트 등)
# - **HouseStyle**: 주택 스타일 (1층, 2층, 다층 등)

# ---

# ## 3). 건축 관련
# - **OverallQual**: 전반적 자재와 마감 품질 (1~10)
# - **OverallCond**: 전반적 주택 상태 (1~10)
# - **YearBuilt**: 건축 연도
# - **YearRemodAdd**: 리모델링 연도
# - **RoofStyle**: 지붕 형태
# - **RoofMatl**: 지붕 자재
# - **Exterior1st**: 외장재 1
# - **Exterior2nd**: 외장재 2
# - **MasVnrType**: 벽돌 베니어 유형
# - **MasVnrArea**: 벽돌 베니어 면적 (sq ft)
# - **ExterQual**: 외장재 품질
# - **ExterCond**: 외장재 상태

# ---

# ## 4). 기초/지하
# - **Foundation**: 기초 유형
# - **BsmtQual**: 지하 높이
# - **BsmtCond**: 지하 상태
# - **BsmtExposure**: 지하 채광 정도
# - **BsmtFinType1**: 지하 마감 유형 1
# - **BsmtFinSF1**: 지하 마감 면적 1 (sq ft)
# - **BsmtFinType2**: 지하 마감 유형 2
# - **BsmtFinSF2**: 지하 마감 면적 2 (sq ft)
# - **BsmtUnfSF**: 지하 미마감 면적 (sq ft)
# - **TotalBsmtSF**: 지하 전체 면적 (sq ft)

# ---

# ## 5). 생활 공간
# - **Heating**: 난방 종류
# - **HeatingQC**: 난방 품질
# - **CentralAir**: 중앙 에어컨 유무
# - **Electrical**: 전기 시스템
# - **1stFlrSF**: 1층 면적 (sq ft)
# - **2ndFlrSF**: 2층 면적 (sq ft)
# - **LowQualFinSF**: 낮은 품질 마감 면적 (sq ft)
# - **GrLivArea**: 지상 생활 면적 (sq ft)

# ---

# ## 6). 방 관련
# - **BsmtFullBath**: 지하 전체 욕실 개수
# - **BsmtHalfBath**: 지하 반 욕실 개수
# - **FullBath**: 전체 욕실 개수
# - **HalfBath**: 반 욕실 개수
# - **BedroomAbvGr**: 지상 침실 개수
# - **KitchenAbvGr**: 지상 주방 개수
# - **KitchenQual**: 주방 품질
# - **TotRmsAbvGrd**: 지상 전체 방 개수
# - **Functional**: 주택 기능 상태 (정상/이상 등)

# ---

# ## 7). 기타 공간
# - **Fireplaces**: 벽난로 개수
# - **FireplaceQu**: 벽난로 품질
# - **GarageType**: 차고 유형
# - **GarageYrBlt**: 차고 건축 연도
# - **GarageFinish**: 차고 내부 마감
# - **GarageCars**: 차고 차량 수용 가능 대수
# - **GarageArea**: 차고 면적 (sq ft)
# - **GarageQual**: 차고 품질
# - **GarageCond**: 차고 상태
# - **PavedDrive**: 포장 진입로 여부

# ---

# ## 8). 외부/부속 공간
# - **WoodDeckSF**: 목재 데크 면적 (sq ft)
# - **OpenPorchSF*ㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁㅁ*: 오픈 현관 면적 (sq ft)
# - **EnclosedPorch**: 밀폐 현관 면적 (sq ft)
# - **3SsnPorch**: 3계절용 현관 면적 (sq ft)
# - **ScreenPorch**: 스크린 현관 면적 (sq ft)
# - **PoolArea**: 수영장 면적 (sq ft)
# - **PoolQC**: 수영장 품질
# - **Fence**: 울타리 품질
# - **MiscFeature**: 기타 특이 시설
# - **MiscVal**: 기타 시설 가치

# ---

# ## 9). 판매 정보
# - **MoSold**: 판매 월
# - **YrSold**: 판매 연도
# - **SaleType**: 판매 유형
# - **SaleCondition**: 판매 조건

In [2]:
import pandas as pd
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

In [12]:
 train.info()

# 삭제할 컬럼
# Id

# 결측치 있는 컬럼
# Alley, MasVnrType, MasVnrArea, BsmtQual, BsmtCond, BsmtExposure, BsmtFinType1, 
# BsmtFinType2, Electrical,  FireplaceQu,GarageType, GarageYrBlt, GarageFinish, GarageQual, GarageCond
# PoolQC, Fence, MiscFeature

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC

In [8]:
train.isnull().sum()

Id                 0
MSSubClass         0
MSZoning           0
LotFrontage      259
LotArea            0
                ... 
MoSold             0
YrSold             0
SaleType           0
SaleCondition      0
SalePrice          0
Length: 81, dtype: int64

In [15]:
train.describe(include = "O")

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
count,1460.0,1460.0,1201.0,1460.0,1460.0,1460.0,1460.0,1460.0,1452.0,1460.0,...,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,730.5,56.89726,70.049958,10516.828082,6.099315,5.575342,1971.267808,1984.865753,103.685262,443.639726,...,94.244521,46.660274,21.95411,3.409589,15.060959,2.758904,43.489041,6.321918,2007.815753,180921.19589
std,421.610009,42.300571,24.284752,9981.264932,1.382997,1.112799,30.202904,20.645407,181.066207,456.098091,...,125.338794,66.256028,61.119149,29.317331,55.757415,40.177307,496.123024,2.703626,1.328095,79442.502883
min,1.0,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,34900.0
25%,365.75,20.0,59.0,7553.5,5.0,5.0,1954.0,1967.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,2007.0,129975.0
50%,730.5,50.0,69.0,9478.5,6.0,5.0,1973.0,1994.0,0.0,383.5,...,0.0,25.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,163000.0
75%,1095.25,70.0,80.0,11601.5,7.0,6.0,2000.0,2004.0,166.0,712.25,...,168.0,68.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,214000.0
max,1460.0,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,...,857.0,547.0,552.0,508.0,480.0,738.0,15500.0,12.0,2010.0,755000.0


In [None]:
train.isnull() = train.isnull()