In [1]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

from matplotlib import font_manager, rc
#matplotlib 한글 폰트 오류 문제 해결
font_path='./dataset/malgun.ttf'
font_name = font_manager.FontProperties(fname=font_path).get_name()
rc('font',family=font_name)

## 0. Seed 설정

In [2]:
seed = 0
np.random.seed(seed)
tf.random.set_seed(seed)

## 1. 데이터 읽어오기
* 샘플 수 : 506개
* 속성 수 : 14개
    * CRIM: 인구 1인당 범죄 발생 수
    * ZN: 20,000평방 피트 이상의 주거 구역 비중
    * INDUS: 소매업 외 상업이 차지하는 면적 비율
    * CHAS: 찰스강 위치변수(1: 강 주변, 0: 이외)
    * NOX: 일산화질소 농도
    * RM: 집의 평균 방 수
    * AGE: 1940년 이전에 지어진 비율
    * DIS: 5가지 보스턴시 고용 시설까지의 거리
    * RAD: 순환고속도로의 접근 용이성
    * TAX: \$10,000당 부동산 세율 총계
    * PTRATIO: 지역별 학생과 교사 비율
    * B: 지역별 흑인비율
    * LSTAT: 급여가 낮은 직업에 종사하는 인구비율(%)
* 예측 원하는 변수
    * 가격(단위: \$1,000)

In [3]:
df = pd.read_csv("./dataset/housing.csv", delim_whitespace=True, header=None, names=["범죄발생수", "주거구역비중", "상업면적비율",
                "강 위치", "일산화탄소 농도", "집 방 개수", "1940년 이전 집 비율", "고용시설 거리", "순환고속도로 접근용이성",
                "부동산 세율", "학생/교사 비율", "흑인 비율", "급여가 낮은 직업 비율", "가격"])
df.head()

Unnamed: 0,범죄발생수,주거구역비중,상업면적비율,강 위치,일산화탄소 농도,집 방 개수,1940년 이전 집 비율,고용시설 거리,순환고속도로 접근용이성,부동산 세율,학생/교사 비율,흑인 비율,급여가 낮은 직업 비율,가격
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


## 2. Attribute, Class 나누기

In [4]:
dataset = df.values
X = dataset[:, 0:13]
Y = dataset[:, 13]

## 3. Training Set과 Test Set으로 나누기

In [5]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=seed)

## 4. 모델 설정 

In [6]:
model = Sequential()
model.add(Dense(30, input_dim=13, activation='relu'))
model.add(Dense(6, activation='relu'))
# 선형 회귀 데이터는 마지막에 참, 거짓 등의 구분이 필요 없기에, 출력층에 활성화 함수 지정 필요 없음
model.add(Dense(1))

## 5. 모델 컴파일 및 실행

In [7]:
model.compile(loss='mean_squared_error', optimizer='adam')
model.fit(X_train, Y_train, epochs=200, batch_size=10)

Train on 354 samples
Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200


Epoch 186/200
Epoch 187/200
Epoch 188/200
Epoch 189/200
Epoch 190/200
Epoch 191/200
Epoch 192/200
Epoch 193/200
Epoch 194/200
Epoch 195/200
Epoch 196/200
Epoch 197/200
Epoch 198/200
Epoch 199/200
Epoch 200/200


<tensorflow.python.keras.callbacks.History at 0x2ac4c254188>

## 6. 실제 가격과 예상 가격 비교

In [8]:
Y_prediction = model.predict(X_test).flatten()

for i in range(10):
    label = Y_test[i]
    prediction = Y_prediction[i]
    print("실제가격: {:.3f}, 예상가격: {:.3f}".format(label, prediction))

실제가격: 22.600, 예상가격: 25.542
실제가격: 50.000, 예상가격: 25.436
실제가격: 23.000, 예상가격: 25.546
실제가격: 8.300, 예상가격: 12.366
실제가격: 21.200, 예상가격: 18.598
실제가격: 19.900, 예상가격: 21.281
실제가격: 20.600, 예상가격: 23.228
실제가격: 18.700, 예상가격: 22.553
실제가격: 16.100, 예상가격: 16.893
실제가격: 18.600, 예상가격: 8.365
