# 부동산 가격 예측

## 개요
미국 매사추세츠주의 주택 가격 데이터(Boston Housing 1970)를 활용해 지역의 평균 주택 가격을 예측하는 선형 회귀 모델을 만들었고, 
이를 기초하여 주택 가격의 영향 요소 파악 및 주택 가격 예측을 진행

분석 절차

1. 데이터 파악
    - 데이터셋 기본 정보 파악
    - 변수 특징 탐색
    - 변수간 관계 탐색

</br>
    
2. 데이터 전처리  

3. 모델링  

4. 주택 가격 영향 요소 파악  

5. 주택 가격 예측 및 모델 예측 성능 평가



## Library and data import

In [3]:
# %matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

In [4]:
df = pd.read_csv("https://raw.githubusercontent.com/yoonkt200/FastCampusDataset/master/BostonHousing2.csv")

In [6]:
df.head()

Unnamed: 0,TOWN,LON,LAT,CMEDV,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,Nahant,-70.955,42.255,24.0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98
1,Swampscott,-70.95,42.2875,21.6,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14
2,Swampscott,-70.936,42.283,34.7,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03
3,Marblehead,-70.928,42.293,33.4,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94
4,Marblehead,-70.922,42.298,36.2,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33


1. Town : 소속 도시 이름
2. LON, LAT : 해당 지역의 경도(Longitudes) 위도(Latitudes) 정보
3. **CMEDV** : 해당 지역의 주택 가격 (중앙값) (corrected median values of housig in USD 1000)
4. CRIM : 지역 범죄율 (per capita crime)
5. ZN : 소속 도시에 25,000 제곱 피트(sq.ft) 이상의 주택지 비율
6. INDUS : 소속 도시에 상업적 비지니스에 활용되지 않는 농지 면적
7. CHAS : 해당 지역이 Charles 강와 접하고 있는지 여부
8. NOX : 소속 도시의 산화질소 농도
9. RM : 해당 지역의 자택당 평균 방 갯수
10. AGE : 해당 지역에 1940년 이전에 건설된 주택의 비율
11. DIS : 5개의 보스턴 고용 센터와의 거리에 따른 가중치 부여
12. RAD : 소속 도시가 Radial 고속도로와의 접근성 지수
13. TAX : 소속 도시의 10,000 달러 당 재산세
14. PTRATIO : 소속 도시의 학생 - 교사 비율
15. B : 해당 지역의 흑인 지수 (1,000(Bk - 0.63)^2), Bk = 흑인의 비율
16. LSTAT : 해당 지역의 빈곤층 비율

## 데이터 파악 (EDA : 탐색적 데이터 분석)

In [7]:
# 그래프 배경 설정
sns.set_style('darkgrid')

In [8]:
# 데이터셋 기본 정보 파악
df.shape


(506, 17)

In [9]:
# 결측치
df.isnull().sum()

TOWN       0
LON        0
LAT        0
CMEDV      0
CRIM       0
ZN         0
INDUS      0
CHAS       0
NOX        0
RM         0
AGE        0
DIS        0
RAD        0
TAX        0
PTRATIO    0
B          0
LSTAT      0
dtype: int64

In [10]:
# 각 변수의 타입 및 기초 통계량 (범주형 변수는 범주 구성) 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 17 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   TOWN     506 non-null    object 
 1   LON      506 non-null    float64
 2   LAT      506 non-null    float64
 3   CMEDV    506 non-null    float64
 4   CRIM     506 non-null    float64
 5   ZN       506 non-null    float64
 6   INDUS    506 non-null    float64
 7   CHAS     506 non-null    int64  
 8   NOX      506 non-null    float64
 9   RM       506 non-null    float64
 10  AGE      506 non-null    float64
 11  DIS      506 non-null    float64
 12  RAD      506 non-null    int64  
 13  TAX      506 non-null    int64  
 14  PTRATIO  506 non-null    float64
 15  B        506 non-null    float64
 16  LSTAT    506 non-null    float64
dtypes: float64(13), int64(3), object(1)
memory usage: 67.3+ KB
