In [2]:
# 선형회귀 테스트 - 보스턴 집값 예측하기
# 1978년, 집값에 가장 큰 영향을 미치는 것이 “깨끗한 공기” 라는 연구 결과가 
# 하버드 대학교 도시 개발학과에서 발표 되었다.
# 본 연구에서 집값의 변동에 영향을 미치는 여러 가지 요인들을 모아서 홖경과 집값의 변동을
# 보여주는 데이터 셋을 만들었다.
# 그로부터 수십 년 후, 이 데이터 셋은 머신 러닝의 선형회귀를 테스트하는 가장 유명한
# 데이터로 사용되고 있다.

# 주어진 환경 요인과 집값의 변동을 학습해서 환경 요인만 놓고 집값을 예측하는 예제

# 보스턴 집값에 영향을 미치는 환경요인과 집값의 변동 정보가 저장된 파일(housing.csv)을 
# 읽어와서 모델을 정의하고, 모델의 학습이 어느 정도 되었는지 
# 확인하기 위해 예측 값과 실제 값을 비교해보자.

# 보스턴 집값 데이터 : dataset/housing.csv ( 인덱스 : 506행, 컬럼 : 14열 )
# 보스턴 집값 데이터의 14개 컬럼 정보
# 0 CRIM : 인구 1인당 범죄 발생 수
# 1 ZN : 25,000평방 피트 이상의 주거 구역 비중
# 2 INDUS : 소매업 외 상업이 차지하는 면적 비율
# 3 CHAR : 찰스강 위치 변수 (1:강 주변, 0:이외)
# 4 NOX : 일산화 질소 농도
# 5 RM : 집의 평균 방 수
# 6 AGE : 1940년 이전에 지어진 비율
# 7 DIS : 5가지 보스턴 시 고용 시설까지의 거리
# 8 RAD : 순환 고속도로의 접근 용이성
# 9 TAX : $10,000당 부동산 세율 총계
# 10 PTRATIO : 지역별 학생과 교사 비율
# 11 B : 지역별 흑인 비율
# 12 LSTAT : 급여가 낮은 직업에 종사하는 인구 비율(%)
# 13 가격(단위 : $1,000)

# 모델 정의
# model = Sequential()
# - keras에서 모델을 만들때는 Sequential()함수를 사용함

# 은닉층
# model.add(Dense(30, input_dim=13, activation='relu'))
# - model에 새로운 층을 추가할때는 add()함수를 사용함
# - model에 추가된 각 층은 Dense()함수를 통해서 구체적인 구조를 설정한다.
# - 출력node 30개, 입력 데이터 13개, 활성화 함수는 relu 함수를 사용함
# - 첫번째 Dense()가 입력층 + 은닉층 역할을 한다.

# 출력층
# model.add(Dense(1))
# - 예측을 하기 때문에 출력층에는 활성화 함수가 필요하지 않는다.

# 모델 학습과정 설정 및 모델 학습
# 모델 학습과정 설정
# model.compile(loss='mean_squared_error', optimizer='adam’)
# - 오차함수는 평균제곱오차(mean_squared_error) 사용
# - 최적화 방법(optimizer)은 adam 사용
# 모델학습
# model.fit(X_train, Y_train, epochs=200, batch_size=10)
# - 학습 프로세스가 모든 샘플에 대해 한번 실행하는 것을 1 epoch(에포크)라고 핚다.
# - epochs=200 은 각 샘플을 처음 부터 끝까지(506개) 200번 반복 실행한다는 의미
# - batch_size=10 은 전체 506개의 샘플을 10개씩 끊어서 학습하라는 의미

# boston.py
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from sklearn.model_selection import train_test_split

import numpy
import pandas as pd
import tensorflow as tf

# seed 값 설정
seed = 0
numpy.random.seed(seed)
tf.random.set_seed(seed)

# 공백으로 분리된 데이터 파일을 읽어옴
df = pd.read_csv('/content/drive/My Drive/workspace-total/workspace-python/2020_07_24_t2/dataset/housing.csv')

print(df.info())
print(df.head())

dataset = df.values
X=dataset[:,0:13]
Y=dataset[:, 13]


# 전체 데이터를 훈련 데이터와 테스트 데이터로 분리
# test_size=0.3 : 전체 데이터에서 데스트 데이터를 30% 사용
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=seed)

# 모덜 정의
model = Sequential()
model.add(Dense(30, input_dim=13, activation='relu'))
model.add(Dense(6, activation='relu'))
model.add(Dense(1))     # 예측의 경우에는 출력층에 활성화 함수가 필요 없음

# 모델 학습 방식 설정
model.compile(loss='mean_squared_error', optimizer='adam', metrics=['accuracy'])

# 모델 학습
model.fit(X_train, Y_train, epochs=200, batch_size=10)    # 200번 학습

# 예측 값과 실제 값의 비교
# flatten() : 데이터의 배열을 1차원으로 바꿔주는 함수
Y_prediction = model.predict(X_test).flatten()

for i in range(10): # 506개의 30%(1 ~ 151)
  label = Y_test[i]
  prediction = Y_prediction[i]
  print("실제가격: {:.3f}, 예상가격: {:.3f}".format(label, prediction))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 505 entries, 0 to 504
Data columns (total 1 columns):
 #   Column                                                                                            Non-Null Count  Dtype 
---  ------                                                                                            --------------  ----- 
 0    0.00632  18.00   2.310  0  0.5380  6.5750  65.20  4.0900   1  296.0  15.30 396.90   4.98  24.00  505 non-null    object
dtypes: object(1)
memory usage: 4.1+ KB
None
   0.00632  18.00   2.310  0  0.5380  6.5750  65.20  4.0900   1  296.0  15.30 396.90   4.98  24.00
0   0.02731   0.00   7.070  0  0.4690  6.4210  78...                                              
1   0.02729   0.00   7.070  0  0.4690  7.1850  61...                                              
2   0.03237   0.00   2.180  0  0.4580  6.9980  45...                                              
3   0.06905   0.00   2.180  0  0.4580  7.1470  54...                         

IndexError: ignored