# 1 회귀 분석 프로젝트

### 1 보스턴 주택 가격 예측 프로젝트

사이킷런에서 제공하는 보스턴 데이터를 활용하여 주택 가격을 예측해 보자.

### 1 데이터 확인하기

외부에서 데이터 세트를 다운로드할 필요 없이 사이킷런에 내장된 데이터 세트를 활용할 수 있다.

1. 데이터 불러오기

사이킷런에 있는 보스턴 데이터를 불러온다.

In [None]:
# from sklearn.datasets import load_boston
# dataset = load_boston()
# dataset

In [None]:
import pandas as pd
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

2. 데이터 정보 확인하기

데이터의 개수와 속성 정보 등을 확인할 수 있다.

In [None]:
# print(dataset.DESCR)

해당 데이터의 속성을 살펴보면 다음과 같다.

CRIM: 지역별 1인당 범죄율  
ZN: 25,000제곱피트를 초과하는 거주 지역의 비율  
INDUS: 비소매 상없 지역이 차지하는 면적 비율  
CHAS: 찰수강 위치 변수(강 주변 1, 이외 0)  
NOX: 일산화질소 농도  
RM: 집의 평균 방 수  
AGE: 1940년 이전에 지어진 비율  
DIS: 5가지 보스턴시 고용 시설까지의 거리  
RAD: 순환고속도로의 접근 용이성  
TAX: 10,000달러당 재산세율  
PTRATIO: 지역별 학생과 교사 비율  
B: 지역별 흑인 비율  
LSTAT: 급여가 낮은 직업에 종사하는 인구 비율  
MEDV: 가격  


### 선형 회귀 실행

가격 데이터값이 y값이 되고 나머지 특성들은 X값이 된다.

1. 특성 데이터(X)의 형태 및 데이터 일부 출력하기

In [None]:
X = pd.DataFrame(data) #pd.DataFrame(dataset.data, columns=dataset.feature_names)
y = pd.Series(target, name='MEDV') #pd.Series(dataset.target, name='MEDV')

print(X.shape)
X.head()

2. 가격 데이터(y)의 형태 및 데이터 일부 출력하기

In [None]:
print(y.shape)
y.head()

3. KNN 회귀를 위한 k값 결정하기

KNN 회귀를 실행하기 위하여 k값을 결정해 보자.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
from sklearn.neighbors import KNeighborsRegressor

for k in range(1, 30):
    knn = KNeighborsRegressor(n_neighbors=k)
    knn.fit(X_train, y_train)
    print('train R^2 : {:.3f}'.format(knn.score(X_train, y_train)))
    print('test k : {}, R^2 : {:.3f}'.format(k, knn.score(X_test, y_test)))

4. 모델 학습시키기

정확도가 가장 높은 k값은 3으로, 55%의 정확도를 보인다. 해당 k값으로 모델 학습을 시켜 보자.

In [None]:
knn = KNeighborsRegressor(n_neighbors=3)
knn.fit(X_train, y_train)
knn.score(X_test, y_test)

1. 주택 가격 예측하기

다음 데이터값을 토대로 주택 가격(medv)을 예측해 보자.

| 속성 | 데이터 값 | 속성 | 데이터 값 |
| --- | --- | --- | --- |
| crim | 0.002758 | dis | 4.0900 |
| zn | 18.0 | rad | 1.0 |
| idus | 2.31 | tax | 296.0 |
| chas | 0.0 | ptratio | 15.3 |
| nox | 0.469 | b | 396.90 |
| rm | 6.575 | lstat | 4.03 |
| age | 50.2 |  |  |

In [None]:
knn.predict([[0.002758, 18.0, 2.31, 0.0, 0.469, 6.575, 50.2, 4.0900, 1.0, 296.0, 15.3, 496.90, 4.03]])

전체 코드는 다음과 같다.

In [None]:
import pandas as pd
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]


X = pd.DataFrame(data) #pd.DataFrame(dataset.data, columns=dataset.feature_names)
y = pd.Series(target, name='MEDV') #pd.Series(dataset.target, name='MEDV')

print(X.shape)
X.head()

print(y.shape)
y.head()

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
from sklearn.neighbors import KNeighborsRegressor

for k in range(1, 30):
    knn = KNeighborsRegressor(n_neighbors=k)
    knn.fit(X_train, y_train)
    print('train R^2 : {:.3f}'.format(knn.score(X_train, y_train)))
    print('test k : {}, R^2 : {:.3f}'.format(k, knn.score(X_test, y_test)))

knn = KNeighborsRegressor(n_neighbors=3)
knn.fit(X_train, y_train)
knn.score(X_test, y_test)

knn.predict([[0.002758, 18.0, 2.31, 0.0, 0.469, 6.575, 50.2, 4.0900, 1.0, 296.0, 15.3, 496.90, 4.03]])