### 보스턴 주택 가격 데이터 셋

In [1]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# 한글처리
plt.rcParams['font.family'] = 'Malgun Gothic'
# 음수처리
plt.rcParams['axes.unicode_minus'] = False


import warnings
warnings.filterwarnings('ignore')

### 데이터 셋 로드

#### 1978 보스턴 주택 가격(506개 타운의 주택 가격 중앙값 - 단위:1000달러)

In [2]:
from sklearn.datasets import load_boston

boston = load_boston()

In [3]:
boston_df = pd.DataFrame(boston.data, columns=boston.feature_names)

In [4]:
boston_df['PRICE'] = boston.target

In [5]:
boston_df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


```
X (독립변수)

CRIM     지역별 범죄 발생율
ZN       25,000 평방 피트를 초과하는 거주 지역의 비율
INDUS    비 소매상업 지역 면적 비율
CHAS     찰스강에 대한 더미 변수(강의 경계에 위치한 경우는 1, 아니면 0)
NOX      일산화질소 농도
RM       거주할 수 있는 방 개수
AGE      1940년 이전에 건축된 소유 주택의 비율
DIS      5개 주요 고용센터까지의 가중 거리
RAD      고속도로 접근 용이도
TAX      10,000 달러당 재산세율
PTRATIO  지역의 교사와 학생 수 비율
B        지역의 흑인 비율
LSTAT    하위 계층의 비율


y (종속변수)

PRICE    본인 소유의 주택 가격(중앙값)
```

In [6]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

In [7]:
X = boston_df.iloc[:, :-1]
y = boston_df['PRICE']

In [9]:
train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.3, random_state=156)

#### 다항회귀
- PolynomialFeatures 를 통해 단항 피처를 다항 피처로 변환 후 LinearRegression 적용

In [10]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline

In [11]:
p_model = Pipeline([('poly', PolynomialFeatures(degree=2, include_bias=False)), ('linear', LinearRegression())])

In [14]:
p_model.fit(train_X, train_y)
pred_y = p_model.predict(test_X)

In [15]:
mse = mean_squared_error(test_y, pred_y)
rmse = mean_squared_error(test_y, pred_y, squared=False)
r2 = r2_score(test_y, pred_y)

In [16]:
print('MSE :: {0:.3f}'.format(mse))
print('RMSE :: {0:.3f}'.format(rmse))
print('R2 :: {0:.3f}'.format(r2))

MSE :: 15.556
RMSE :: 3.944
R2 :: 0.782


***
3 차 

In [17]:
p_model = Pipeline([('poly', PolynomialFeatures(degree=3, include_bias=False)), ('linear', LinearRegression())])

In [18]:
p_model.fit(train_X, train_y)
pred_y = p_model.predict(test_X)

In [19]:
mse = mean_squared_error(test_y, pred_y)
rmse = mean_squared_error(test_y, pred_y, squared=False)
r2 = r2_score(test_y, pred_y)

In [20]:
print('MSE :: {0:.3f}'.format(mse))
print('RMSE :: {0:.3f}'.format(rmse))
print('R2 :: {0:.3f}'.format(r2))

MSE :: 79625.593
RMSE :: 282.180
R2 :: -1116.598
