# 주택 가격 예측

주어진 집(house) 관련 데이터를 토대로 집 값을 예측하는 회귀(Regression) 분석 및 예측 대회입니다.

 79개의 다양한 집을 묘사할 수 있는 데이터 요소들을 기반으로, 각각의 집들에 대하여 최종 집값을 예측해 주길 기대합니다.
 
## 데이터 설명

#### 파일 구조
- train.csv
    - 학습을 위하여 활용되는 데이터 셋입니다.
- test.csv
    - 테스트를 위하여 제공되는 데이터 셋입니다. 본 파일 데이터를 기반으로 예측하여 집값을 예측합니다.
- submission.csv
    - 예측한 집값 데이터를 submission 파일에 작성한 후 제출합니다.
    
#### 컬럼 구조
* **SalePrice**: 부동산의 판매 가격 (달러). 이것은 예측하려는 **목표 변수**입니다.
* MSSubClass : 건물 등급
* MSZoning : 일반 구역 분류
* LotFrontage : 부동산에 연결된 거리의 선형 피트
* LotArea : 평방 피트 단위의 부지 크기
* Street : 도로 유형
* Alley : 골목 유형
* LotShape : 부지유형
* LandContour : 부동산의 평탄도
* Utilities : 사용 가능한 유틸리티 유형
* LotConfig : 부지부지 구성
* LandSlope : 부동산의 경사
* Neighborhood : 인근유형. 물리적 위치
* Condition1 : 주요 도로 또는 철도와의 근접성
* Condition2 : 주요 도로 또는 철도와의 근접성 (2번째 조건이 존재하는 경우)
* BldgType : 주거 유형
* HouseStyle : 주거 스타일
* OverallQual : 전체 재료 및 마감 품질
* OverallCond : 전체 상태 등급
* YearBuilt : 준공일준공일
* YearRemodAdd : 리모델링 날짜
* RoofStyle : 지붕 유형
* RoofMatl : 지붕 재료
* Exterior1st : 주택주택 외장재
* Exterior2nd : 주택 외장재 (하나 이상인 경우)
* MasVnrType : 벽돌 베니어 유형
* MasVnrArea : 벽돌 베니어 영역 (평방 피트)
* ExterQual : 외장재 품질
* ExterCond : 외장재의 현황
* Foundation : 기초 유형
* BsmtQual : 지하 높이
* BsmtCond : 지하실 일반 상태
* BsmtExposure : 워크 아웃 또는 정원 수준의 지하 벽
* BsmtFinType1 : 지하실 마감면의 품질
* BsmtFinSF1 : 유형 1 완성 된 평방 피트
* BsmtFinType2 : 두 번째 완성 된 영역의 품질 (있는 경우)
* BsmtFinSF2 : 유형 2 완성 된 평방 피트
* BsmtUnfSF : 미완성 된 지하실 면적
* TotalBsmtSF : 지하 총 평방 피트
* Heating : 난방 유형
* HeatingQC : 난방 품질 및 상태
* CentralAir : 중앙 에어컨
* Electrical : 전기 시스템
* 1stFlrSF : 1 층 평방 피트
* 2ndFlrSF : 2 층 평방 피트
* LowQualFinSF : 저품질 마감 평방 피트 (모든 층)
* GrLivArea : 지상 (지상) 거실 면적 평방 피트
* BsmtFullBath : 지하 전체 욕실
* BsmtHalfBath : 지하 반 욕실
* FullBath : 등급 이상의 전체 욕실
* HalfBath : 학년 이상의 Half Bath
* Bedroom : 지하층 이상의 침실 수
* Kitchen : 주방 수
* KitchenQual : 주방 품질
* TotRmsAbvGrd : 등급 이상의 총 방 (욕실은 포함되지 않음)
* Functional : 홈 기능 등급
* Fireplaces : 벽난로 수
* FireplaceQu : 벽난로 품질
* GarageType : 차고 위치
* GarageYrBlt : 차고 건설 연도
* GarageFinish : 차고 내부 마감
* GarageCars : 차량 수용 가능 차고 크기
* GarageArea : 차고 크기 (평방 피트)
* GarageQual : 차고 품질
* GarageCond : 차고 상태
* PavedDrive : 포장 된 진입로
* WoodDeckSF : 목재 데크 면적 (평방 피트)
* OpenPorchSF : 평방 피트 단위의 오픈 현관 영역
* EnclosedPorch : 밀폐 된 현관 영역 (평방 피트)
* 3SsnPorch : 3 계절 현관 면적 (평방 피트)
* ScreenPorch : 스크린 포치 면적 (평방 피트)
* PoolArea : 수영장 면적 (평방 피트)
* PoolQC : 수영장 품질
* Fence : 울타리 품질
* MiscFeature : 다른 카테고리에서 다루지 않는 기타 기능
* MiscVal : 기타 기능의 가치 (달러)
* MoSold : 판매 월
* YrSold : 판매 연도
* SaleType : 판매 유형
* SaleCondition : 판매 조건

## 프로젝트 구성
* 데이터 로드 (load data, train.csv, test.csv)
* 데이터 전처리 및 특성 공학 (train.csv, test.csv)
* 모델 생성 및 검증 (train.csv)
* 평가 데이터 예측 (test.csv)
* 결과 제출 및 점수 확인

## 제출 이력 및 순위 조회
[평가시스템](http://manage.jaen.kr)에 접속하여 확인 가능
> 로그인 -> 프로젝트 -> 주택 가격 예측 -> 리더보드

### 접속 정보
- ID : `~~~@sk.com`
- PWD : `mysuni`

## 환경 설정

In [1]:
project_name = "주택 가격 예측" # 프로젝트 이름
class_info = "4차수 B반" # 차수 정보
email = "mysuni_4b" # 회사 이메일을 넣어주세요. (~~~@sk.com)

## 모듈 설치 및 데이터 다운로드

In [2]:
!pip install mySUNI



You should consider upgrading via the 'c:\users\baem1n\anaconda3\python.exe -m pip install --upgrade pip' command.


In [3]:
from mySUNI import cds

In [4]:
cds.download_project(project_name, class_info, email)

프로젝트: 주택 가격 예측
파일 정보

train.csv:	 data\주택 가격 예측\train.csv
test.csv:	 data\주택 가격 예측\test.csv
submission.csv:	 data\주택 가격 예측\submission.csv



## 모듈 import 
필요한 모듈을 import 합니다. 필요에 따라 추가 패키지를 load 할 수 있습니다.

In [5]:
import os
import datetime
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# Data 경로 설정
DATA_DIR = 'data'

# train 데이터셋 로드 (train.csv)
train = pd.read_csv(os.path.join(DATA_DIR, project_name, 'train.csv'))
                                 
# test 데이터셋 로드 (test.csv)
test = pd.read_csv(os.path.join(DATA_DIR, project_name, 'test.csv'))

# submission 파일 로드 (submission.csv)
submission = pd.read_csv(os.path.join(DATA_DIR, project_name, 'submission.csv'))

In [15]:
# test.csv 예측 결과 대입
submission['SalePrice'] = 
submission

Unnamed: 0,Id,SalePrice
0,1461,127184.66
1,1462,155281.00
2,1463,178873.99
3,1464,181327.00
4,1465,199171.06
...,...,...
1454,2915,80098.00
1455,2916,83300.00
1456,2917,158481.37
1457,2918,110106.00


# 순서대로 평가가 진행됩니다. 실행은 1회만 해주세요.

- 느리다고 중지 후 다시 평가 코드를 실행하는 경우 제출 과정에서 패널티가 발생할 수 있습니다. (제출 횟수 이슈 발생 가능)

In [16]:
cds.submit(submission) # 제출 파일 생성 및 결과 제출

파일을 저장하였습니다. 파일명: submission-00-12-47.csv
제출 여부 :success
오늘 제출 횟수 : 1
제출 결과:0.14788141235616992


# 축하드립니다. 모델의 성능을 개선하여 더 좋은 점수를 획득해보세요!