# 09.딥러닝으로 선형회귀 해결
### 지금까지 주로 분류 문제를 살펴보았는데 회귀 문제도 딥러닝으로 해결해봅니다.

# 보스턴 집값 예측: 데이터 확인
### 1978년 집 값에 가장 큰 영향을 미치는 것이 '깨끗한 공기'라는 연구 결과(하버드대학교 도시개발학과)를 위한 데이터셋
* 환경과 집값의 변동을 보여주는 데이터셋 생성


* dataset/housing.csv

### 데이터 설명
* 샘플 수: 506
* 속성 수: 13
    - 컬럼 1: (CRIM) 인구 1인당 범죄 발생 수
    - 컬럼 2: (ZN) 25,000 평방 피트 이상의 주거 구역 비중
    - 컬럼 3: (INDUS) 소매업 외 상업이 차지하는 면적 비율
    - 컬럼 4: (CHAS) 찰스강 위치 변수(1: 강 주변, 0: 이외)
    - 컬럼 5: (NOX) 일산화질소 농도
    - 컬럼 6: (RM) 집의 평균 방 개수
    - 컬럼 7: (AGE) 1940년 이전에 지어진 비율
    - 컬럼 8: (DIS) 5가지 보스턴 시 고용 시설까지의 거리
    - 컬럼 9: (RAD) 순환고속도로의 접근 용이성
    - 컬럼 10: (TAX) 10,000 달러 당 부동산 세율 총계
    - 컬럼 11: (PTRATIO) 지역별 학생과 교사 비율
    - 컬럼 12: (B) 지역별 흑인 비율
    - 컬럼 13: (LSTAT) 급여가 낮은 직업에 종사하는 인구 비율(%)
    - 컬럼 14: 가격(단위: 1,000 달러)

# 보스턴 집값 예측: 선형회귀 실행
### 예측값 자체가 수치형 데이터이므로 출력증에 활성화 함수가 필요없음

In [None]:
from keras.models import Sequential
from keras.layers import Dense
from sklearn.model_selection import train_test_split

import numpy as np
import pandas as pd
import tensorflow as tf

# seed 값 설정
seed = 0
np.random.seed(seed)
tf.set_random_seed(seed)

df = pd.read_csv("./dataset/housing.csv", delim_whitespace=True, header=None)

dataset = df.values
X = dataset[:,0:13]
Y = dataset[:,13]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=seed)

### 출력층의 활성화 함수를 지정하지 않음에 유의

In [None]:
model = Sequential()
model.add(Dense(30, input_dim=13, activation='relu'))
model.add(Dense(6, activation='relu'))
model.add(Dense(1))

model.compile(loss='mean_squared_error',
              optimizer='adam')

model.fit(X_train, Y_train, epochs=200, batch_size=10)

# 예측 값과 실제 값의 비교
Y_prediction = model.predict(X_test).flatten()

In [None]:
p = model.predict(X_test)
p.shape

In [None]:
Y_prediction.shape

In [None]:
Y_prediction[:10]

In [None]:
for i in range(10):
    label = Y_test[i]
    prediction = Y_prediction[i]
    print("실제가격: {:.3f}, 예상가격: {:.3f}".format(label, prediction))