# 딥러닝-회귀

### 보스톤 집값 예측 데이타 셋 : ./dataset/housing.csv

<img src="./img/boston.png" align=left width=600>

- 1978년, 집값에 가장 큰 영향을 미치는 것이 ‘깨끗한 공기’라는 연구 결과가 
     - 하버드대학교 도시개발학과에서 발표됨
- 이들은 자신의 주장을 뒷받침하기 위해 집값의 변동에 영향을 미치는 여러 가지 요인을 모아서 
     - 환경과 집값의 변동을 보여주는 데이터셋을 만듦
- 이 데이타가 현재 선형 회귀를 테스트하는 가장 유명한 데이터로 쓰이고 있음

### 선형 회귀(Linear Regression) 
- 분류(Classfification) 
     - 참(1) 또는 거짓(0)을 맞히는 문제, 여러 개의 보기 중 맞는 하나를 예측하는 문제
- 선형 회귀(Linear Regression)
     - 하나의 정답을 맞히는 것이 아니라 수치를 예측하는 문제
     - 주어진 환경 요인과 집값의 변동을 학습해서 환경 요인만 놓고 집값을 예측하는 것

### 데이타 불러오기

In [1]:
# 데이타 불러오기
import pandas as pd

df = pd.read_csv("./dataset/housing.csv", delim_whitespace=True, header=None)

### 데이타 살펴보기

In [2]:
df.shape

(506, 14)

In [3]:
df.tail()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273.0,21.0,391.99,9.67,22.4
502,0.04527,0.0,11.93,0,0.573,6.12,76.7,2.2875,1,273.0,21.0,396.9,9.08,20.6
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273.0,21.0,396.9,5.64,23.9
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273.0,21.0,393.45,6.48,22.0
505,0.04741,0.0,11.93,0,0.573,6.03,80.8,2.505,1,273.0,21.0,396.9,7.88,11.9


<img src="./img/boston2.png" align=left width=650>

- 총 샘플의 수는 506개이고, 컬럼 수는 14개 - 13개의 속성과 1개의 클래스

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       506 non-null    float64
 1   1       506 non-null    float64
 2   2       506 non-null    float64
 3   3       506 non-null    int64  
 4   4       506 non-null    float64
 5   5       506 non-null    float64
 6   6       506 non-null    float64
 7   7       506 non-null    float64
 8   8       506 non-null    int64  
 9   9       506 non-null    float64
 10  10      506 non-null    float64
 11  11      506 non-null    float64
 12  12      506 non-null    float64
 13  13      506 non-null    float64
dtypes: float64(12), int64(2)
memory usage: 55.5 KB


In [5]:
df.describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677082,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


### 속성과 클래스 구분

In [6]:
dataset = df.values
X = dataset[:, 0:13]  # 속성
Y = dataset[:, 13]    # 클래스

### 학습 데이타와 테스트 데이타 나누기

In [7]:
from sklearn.model_selection import train_test_split
import numpy as np

# seed 값 설정
seed = 0
np.random.seed(seed)

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=seed)

In [8]:
X_train.shape, X_test.shape

((354, 13), (152, 13))

In [9]:
Y_train.shape, Y_test.shape

((354,), (152,))

### 모델 설정하기

In [10]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

import numpy
import tensorflow as tf

# seed 값 설정
seed = 0
tf.random.set_seed(seed)

# 모델 설정
model = Sequential()
model.add(Dense(30, input_dim=13, activation='relu'))  # 입력층 - 13개 노드, 은닉층1 - 30개 노드
model.add(Dense(6, activation='relu'))                 # 은닉층2 - 6개 노드
model.add(Dense(1))                                    # 출력층 - 1개 노드, 활성화 함수 사용하지 않음(수치 출력)

### 모델 컴파일

In [11]:
model.compile(loss='mean_squared_error',
              optimizer='adam')

### 모델 실행

In [12]:
model.fit(X_train, Y_train, epochs=200, batch_size=10)

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

Epoch 101/200
Epoch 102/200
Epoch 103/200
Epoch 104/200
Epoch 105/200
Epoch 106/200
Epoch 107/200
Epoch 108/200
Epoch 109/200
Epoch 110/200
Epoch 111/200
Epoch 112/200
Epoch 113/200
Epoch 114/200
Epoch 115/200
Epoch 116/200
Epoch 117/200
Epoch 118/200
Epoch 119/200
Epoch 120/200
Epoch 121/200
Epoch 122/200
Epoch 123/200
Epoch 124/200
Epoch 125/200
Epoch 126/200
Epoch 127/200
Epoch 128/200
Epoch 129/200
Epoch 130/200
Epoch 131/200
Epoch 132/200
Epoch 133/200
Epoch 134/200
Epoch 135/200
Epoch 136/200
Epoch 137/200
Epoch 138/200
Epoch 139/200
Epoch 140/200
Epoch 141/200
Epoch 142/200
Epoch 143/200
Epoch 144/200
Epoch 145/200
Epoch 146/200
Epoch 147/200
Epoch 148/200
Epoch 149/200
Epoch 150/200
Epoch 151/200
Epoch 152/200
Epoch 153/200
Epoch 154/200
Epoch 155/200
Epoch 156/200
Epoch 157/200
Epoch 158/200
Epoch 159/200
Epoch 160/200
Epoch 161/200
Epoch 162/200
Epoch 163/200
Epoch 164/200
Epoch 165/200
Epoch 166/200
Epoch 167/200
Epoch 168/200
Epoch 169/200
Epoch 170/200
Epoch 171/200
Epoch 

Epoch 199/200
Epoch 200/200


<tensorflow.python.keras.callbacks.History at 0x265f8e8d2c8>

### 예측값과 실제값 비교

In [13]:
# 예측값
model.predict(X_test)

array([[23.365078 ],
       [25.240007 ],
       [24.272375 ],
       [12.595086 ],
       [18.163317 ],
       [20.790972 ],
       [20.769337 ],
       [22.056067 ],
       [16.585564 ],
       [ 7.744078 ],
       [ 8.018615 ],
       [11.964857 ],
       [13.730315 ],
       [12.351804 ],
       [46.15092  ],
       [29.792612 ],
       [22.4222   ],
       [34.383698 ],
       [29.374914 ],
       [21.210531 ],
       [23.45303  ],
       [18.868534 ],
       [18.710537 ],
       [25.158276 ],
       [21.387268 ],
       [13.982561 ],
       [20.381248 ],
       [10.212119 ],
       [34.788647 ],
       [18.391521 ],
       [14.045837 ],
       [17.898876 ],
       [19.51824  ],
       [20.717997 ],
       [23.350594 ],
       [20.967731 ],
       [12.411643 ],
       [27.161783 ],
       [12.4477005],
       [13.129853 ],
       [23.492252 ],
       [20.770657 ],
       [19.77178  ],
       [13.874795 ],
       [24.256111 ],
       [22.33689  ],
       [20.378794 ],
       [15.42

In [14]:
model.predict(X_test).shape # 2차원

(152, 1)

In [15]:
model.predict(X_test).flatten().shape # 1차원

(152,)

In [16]:
# 예측 값과 실제 값의 비교
Y_prediction = model.predict(X_test).flatten() # 1차원으로 변경

for i in range(10):
    label = Y_test[i] # 실제값
    prediction = Y_prediction[i]
    print("실제가격: {:.3f}, 예상가격: {:.3f}, 잔차{:.3f}".format(label, prediction, label-prediction))

실제가격: 22.600, 예상가격: 23.365, 잔차-0.765
실제가격: 50.000, 예상가격: 25.240, 잔차24.760
실제가격: 23.000, 예상가격: 24.272, 잔차-1.272
실제가격: 8.300, 예상가격: 12.595, 잔차-4.295
실제가격: 21.200, 예상가격: 18.163, 잔차3.037
실제가격: 19.900, 예상가격: 20.791, 잔차-0.891
실제가격: 20.600, 예상가격: 20.769, 잔차-0.169
실제가격: 18.700, 예상가격: 22.056, 잔차-3.356
실제가격: 16.100, 예상가격: 16.586, 잔차-0.486
실제가격: 18.600, 예상가격: 7.744, 잔차10.856
