#### 회귀(Regression) - 보스턴 주택 가격 예측

###### 붓꽃은 지도학습 중 분류에 해당하는 유형이었다. 이제 지도학습의 다른 유형인 회귀 모델을 만들어 보자

##### 데이터 로딩
> ###### 보스턴 주택 데이터셋은 14개의 변수(col)로 구성된다. 각 열은 주택의 속성을 나타내는 피처(feature)를 말하고, 각 행은 개별 주택에 대한 데이터의 집합(record)을 나타낸다. <br> 하나의 행이 하나의 샘플(주택)을 나타내고, 각 열에 맞춰 해당하는 데이터가 입력되어 있다. <br> - CRIM: 해당 지역의 1인당 범죄 발생률 <br> - ZN: 면적 25,000평방피트를 넘는 주택용 토지의 비율 <br> - INDUS: 해당 지역의 비소매 상업 지역 비율 <br> - CHAS: 해당 부지의 찰스강 인접 여부(인접: 1, 그렇지 않음 0) <br> . <br> . <br> . <br> - LSTAT: 저소득층 비율 <br> -MEDV: 소유주 거주 주택의 주택 가격(중간값)

In [1]:
# 기본 라이브러리
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# sklearn 데이터셋에서 보스턴 주택 데이터셋 로딩
    # sklearn에서 더이상 보스턴 주택 데이터셋을 제공하지 않음음

# 데이터 불러오기
m_housing = pd.read_csv('C:/Users/zip23/OneDrive/바탕 화면/D_ML.python/Part_3/boston_house/house_price.csv')
# https://giveme-happyending.tistory.com/185 에서 불러와서 data에 관한 정보만 있음.

m_housing

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV,CAT.MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.0900,1,296,15.3,396.90,4.98,24.0,0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.90,9.14,21.6,0
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7,1
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4,1
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.90,5.33,36.2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273,21.0,391.99,9.67,22.4,0
502,0.04527,0.0,11.93,0,0.573,6.120,76.7,2.2875,1,273,21.0,396.90,9.08,20.6,0
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273,21.0,396.90,5.64,23.9,0
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273,21.0,393.45,6.48,22.0,0


In [2]:
# 판다스 데이터프레임으로 변환
data = pd.DataFrame(m_housing.loc[:, 'CRIM':'LSTAT'])
target = pd.DataFrame(m_housing, columns=['MEDV'])      # columns= 변수는 DataFrame() 에 입력한 데이터가 열 이름을 가지고 있을 경우 열을 결정하는 도구
                                                        # 역할을 한다.
target.columns = ['Target']
# 데이터셋 크기
print(data)
print(target)

        CRIM    ZN  INDUS  CHAS    NOX     RM   AGE     DIS  RAD  TAX  \
0    0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296   
1    0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242   
2    0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242   
3    0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222   
4    0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222   
..       ...   ...    ...   ...    ...    ...   ...     ...  ...  ...   
501  0.06263   0.0  11.93     0  0.573  6.593  69.1  2.4786    1  273   
502  0.04527   0.0  11.93     0  0.573  6.120  76.7  2.2875    1  273   
503  0.06076   0.0  11.93     0  0.573  6.976  91.0  2.1675    1  273   
504  0.10959   0.0  11.93     0  0.573  6.794  89.3  2.3889    1  273   
505  0.04741   0.0  11.93     0  0.573  6.030  80.8  2.5050    1  273   

     PTRATIO       B  LSTAT  
0       15.3  396.90   4.98  
1       17.8  396.90   9.14  
2       17.8  392.83   4.03  
3  