# Boston housing data를 활용한 데이터탐색 및 주택가격 예측  

## Boston housing data

| 변수명 | 변수설명 | 
| :-: | :-: | 
|CRIM | 지역별 범죄 발생률 |
|ZN | 25,000평방피트를 초과하는 거주 지역의 비율 |
|INDUS | 비상업 지역 넓이 비율 |
|CHAS | 찰스강에 대한 가변수 (강 경계위치하면 1, 아니면 0) |
|NOX | 일산화질소 농도 |
|RM | 방의 개수 |
|AGE | 1940년 이전에 건축된 자가 주택의 비율 |
|DIS | 보스턴 5개 고용센터까지의 거리 | 
|RAD | 고속도로 접근성 |
|TAX | 10,000달러 당 재산세 비율 |
|PTRATIO | 교사와 학생의 비율 |
|B | 흑인의 비율 | 
|LSTAT | 하위계층의 비율 |
|MEDV | 자가 주택 가격(중위수값), 단위 = $1000|

- MEDV이 관심 변수 

In [None]:
import matplotlib
import matplotlib.pyplot as plt 
import seaborn as sns

# boston housing data 준비 
from sklearn.datasets import load_boston
import pandas as pd
tmp = load_boston()
# 독립변수들
boston = pd.DataFrame(tmp.data, columns = tmp.feature_names)

In [None]:
# target 변수를 boston 데이터프레임에 추가
boston['medv'] = tmp.target 

In [None]:
boston.shape

In [None]:
boston.head() # 13개의 독립변수

In [None]:
boston.isnull().sum()

- 기초통계량 계산 

In [None]:
boston.describe()

- CHAS는 범주형 자료

In [None]:
boston.CHAS.value_counts()

In [None]:
sns.boxplot(data=boston, x='CHAS', y='medv', showmeans=True)
plt.show()

- 찰스강 경계에 위치한 주택의 평균은 찰스강 경계에 위치하지 않은 주택의 평균보다 통계적으로 유의하게 큰지에 대한 검정  
- (단측검정) $H_0$ : $\mu_0 =\mu_1$, $H_1$ : $\mu_0 < \mu_1$ 

- T-test 검정절차 : 
    - [step 1] : 두 집단의 **모분산**이 동일한지에 관한 검정
    - [step 2] : **모평균**에 대한 **T-test** 시행 : 분산이 동일한지 아닌지 여부에 따라 ttest 함수의 옵션이 달라짐

In [None]:
# CHAS 에 따라 데이터셋 분리 
chas0 = boston.loc[boston.CHAS == 0, 'medv']
chas1 = boston.loc[boston.CHAS == 1, 'medv']

In [None]:
from scipy import stats

# [step 1] 두 집단의 모분산이 동일한가를 검정하는 bartlett test
s, p = stats.bartlett(chas0, chas1)
print('p-value : %.4f' % p)

- (등분산성 검정) $H_0$ : 등분산 / $H_1$ : 등분산 아님 
    - 결과 : p-value < $\alpha$ (0.05). 따라서 $H_0$ 기각
    - 해석 : $H_0$ 기각되므로 분산이 다르다고 할 수 있다. 

In [None]:
# [step 2] T-test 
s, p = stats.ttest_ind(chas0, chas1, equal_var=False) 
p2 = p/2
print('p-value : %.4f' % p2)

- **(단측 검정)**
    - 결과 : p-value < $\alpha$ (0.05). 따라서 $H_0$ 기각
    - 해석 : 찰스강 경계에 위치한 주택의 평균은 찰스강 경계에 위치하지 않은 주택의 평균보다 통계적으로 유의하게 크다고 할 수 있다. 

- 주택가격 medv를 다른 변수들에 포함된 정보를 활용하여 관계식을 구하고 추후 예측에 활용해보고자 함 
- 주택가격 medv의 분포

In [None]:
sns.boxplot(data=boston, x='medv', showmeans=True)
plt.show()

In [None]:
import statsmodels.api as sm 
import statsmodels.formula.api as smf 

In [None]:
sm.qqplot(boston.medv, line='q')
plt.show()

- 독립변수(X)들과 종속변수(Y)의 관계 탐색

In [None]:
fig, axs = plt.subplots(nrows=2, ncols=5, figsize=(12, 6))

sns.scatterplot(x='CRIM', y='medv', data=boston, ax=axs[0,0])
sns.scatterplot(x='ZN', y='medv', data=boston, ax=axs[0,1])
sns.scatterplot(x='INDUS', y='medv', data=boston, ax=axs[0,2])
sns.scatterplot(x='NOX', y='medv', data=boston, ax=axs[0,3])
sns.scatterplot(x='RM', y='medv', data=boston, ax=axs[0,4])
sns.scatterplot(x='AGE', y='medv', data=boston, ax=axs[1,0])
sns.scatterplot(x='TAX', y='medv', data=boston, ax=axs[1,1])
sns.scatterplot(x='ZN', y='medv', data=boston, ax=axs[1,2])
sns.scatterplot(x='B', y='medv', data=boston, ax=axs[1,3])
sns.scatterplot(x='LSTAT', y='medv', data=boston, ax=axs[1,4])

fig.tight_layout() 
plt.show()

- 상관분석 : 독립변수와 종속변수, 독립변수들 간의 관계를 미리 탐색 

In [None]:
boston.corr()

In [None]:
import statsmodels.api as sm 
import statsmodels.formula.api as smf 

- 자료에 포함된 모든 변수를 독립변수(X)로 포함하고 medv를 종속변수(Y)로 하는 회귀모형

In [None]:
m1 = smf.ols(formula = 'medv ~ CRIM + ZN + INDUS + CHAS + NOX + RM + AGE + DIS + RAD + TAX + PTRATIO + B + LSTAT', data=boston).fit()
m1.summary()

- 통계적으로 유의하지 않은 회귀계수를 가진 INDUS, AGE 제거한 모형 

In [None]:
f2 = smf.ols(formula = 'medv ~ CRIM + ZN + CHAS + NOX + RM + DIS + RAD + TAX + PTRATIO + B + LSTAT', data=boston)
m2 = f2.fit()
m2.summary()

$\Rightarrow \hat{medv} = 36.34 - 0.11 CRIM + 0.05 ZN + 2.72 CHAS - 17.38 NOX + 3.80 RM - 1.49 DIS + 0.30 RAD - 0.01 TAX - 0.95 PTRATIO + 0.01 B -0.52 LSTAT$
- (다른 독립변수들이 고정되어 있다고 가정했을 때) 회귀계수 해석
    - CRIM 해석 : 지역별 범죄 발생율이 1 증가할 때 주택가격은 0.11만큼 감소
    - CHAS 해석 : 찰스강에 경계에 위치한 경우는 아닌 경우보다 2.72만큼 주택가격이 높음 
    - RM 해석 : 방의 개수가 1 증가할 때 주택가격은 3.80만큼 증가 
    - LSTAT 해석 : 하위계층의 비중이 1 증가할 때 주택가격은 0.52만큼 감소 

- 잔차 $=y - \hat{y}$

In [None]:
m2.resid

- 표준화 잔차 (standardized residuals) 
    - 정규분포 위반 여부 진단
    - 절대값 2.5를 넘으면 이상치라 판단 

In [None]:
influence = m2.get_influence()
standardized_residuals = influence.resid_studentized_internal

In [None]:
# 정규 qqplot 
sm.qqplot(m2.resid, line='q')
plt.show()

In [None]:
plt.scatter(m2.fittedvalues, standardized_residuals)
plt.xlabel('fitted y')
plt.ylabel('Standardized Residuals')
plt.axhline(y=0, color='black', linestyle='--', linewidth=1)
plt.axhline(y=2.5, color='black', linestyle='--', linewidth=1)
plt.axhline(y=-2.5, color='black', linestyle='--', linewidth=1)
plt.show()

In [None]:
tf = abs(standardized_residuals) > 2.5
sum(tf)

In [None]:
boston_sub = boston.loc[~tf, :]
boston_sub.shape

- 이상치를 제거하고 다시 회귀모형 적합 

In [None]:
f3 = smf.ols(formula = 'medv ~ CRIM + ZN + CHAS + NOX + RM + DIS + RAD + TAX + PTRATIO + B + LSTAT', data=boston_sub)
m3 = f3.fit()
m3.summary()

In [None]:
influence = m3.get_influence()
standardized_residuals = influence.resid_studentized_internal

plt.scatter(m3.fittedvalues, standardized_residuals)
plt.xlabel('fitted y')
plt.ylabel('Standardized Residuals')
plt.axhline(y=0, color='black', linestyle='--', linewidth=1)
plt.axhline(y=2.5, color='black', linestyle='--', linewidth=1)
plt.axhline(y=-2.5, color='black', linestyle='--', linewidth=1)
plt.show()

In [None]:
# 정규 qqplot 
sm.qqplot(standardized_residuals, line='q')
plt.show()

- 분산확대인자(VIF) 계산하여 다중공선성 여부 확인 

In [None]:
from statsmodels.stats.outliers_influence import variance_inflation_factor

pd.DataFrame({'variable': column, 'VIF': variance_inflation_factor(f3.exog, i)} 
             for i, column in enumerate(f3.exog_names)
             if column != 'Intercept')  # 절편의 VIF는 구하지 않는다.

- TAX 제거한 모형 

In [None]:
m4 = smf.ols(formula = 'medv ~ CRIM + ZN + CHAS + NOX + RM + DIS + RAD + PTRATIO + B + LSTAT', data=boston_sub).fit()
m4.summary()

- RAD 제거한 모형 

In [None]:
m5 = smf.ols(formula = 'medv ~ CRIM + ZN + CHAS + NOX + RM + DIS + TAX + PTRATIO + B + LSTAT', data=boston_sub)
m5.fit().summary()