# 정형 데이터 사용 

In [7]:
from __future__ import absolute_import, division, print_function, unicode_literals

import numpy as np
import pandas as pd

!pip install -q tensorflow==2.0.0-alpha0
import tensorflow as tf

from tensorflow.keras import layers
from sklearn.model_selection import train_test_split

# 1. 데이터 다운로드 

In [8]:
URL = 'https://storage.googleapis.com/applied-dl/heart.csv'
dataframe = pd.read_csv(URL)
dataframe.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,1,145,233,1,2,150,0,2.3,3,0,fixed,0
1,67,1,4,160,286,0,2,108,1,1.5,2,3,normal,1
2,67,1,4,120,229,0,2,129,1,2.6,2,2,reversible,0
3,37,1,3,130,250,0,0,187,0,3.5,3,0,normal,0
4,41,0,2,130,204,0,2,172,0,1.4,1,0,normal,0


# 2.  데이터프레임을 훈련 세트, 검증 세트, 테스트 세트로 나누기

In [9]:
train, test = train_test_split(dataframe, test_size=0.2)
train, val = train_test_split(train, test_size=0.2)
print(len(train), '훈련 샘플')
print(len(val), '검증 샘플')
print(len(test), '테스트 샘플')

193 훈련 샘플
49 검증 샘플
61 테스트 샘플


# 3. 데이터 전처리 

#### tf.data를 사용하여 입력 파이프라인 만들기

- tf.data를 사용하여 데이터프레임을 감싸겠습니다. 이렇게 하면 특성 열을 사용하여 판다스 데이터프레임의 열을 모델 훈련에 필요한 특성으로 매핑할 수 있습니다. 아주 큰 CSV 파일(메모리에 들어갈 수 없을 정도로 큰 파일)을 다룬다면 tf.data로 디스크 디렉토리에서 데이터를 읽을 수 있습니다. 이런 내용은 이 튜토리얼에 포함되어 있지 않습니다.

In [10]:
# 판다스 데이터프레임으로부터 tf.data 데이터셋을 만들기 위한 함수
def df_to_dataset(dataframe, shuffle=True, batch_size=32):
  dataframe = dataframe.copy()
  labels = dataframe.pop('target') # 데이터에서 레이블 분리, 레이블 따로 정의
  ds = tf.data.Dataset.from_tensor_slices((dict(dataframe), labels)) # 이부분이 dataset 을 만드는 부분
  if shuffle:
    ds = ds.shuffle(buffer_size=len(dataframe))
  ds = ds.batch(batch_size)
  return ds

In [11]:
batch_size = 32
train_ds = df_to_dataset(train, batch_size=batch_size)
val_ds = df_to_dataset(val, shuffle=False, batch_size=batch_size)
test_ds = df_to_dataset(test, shuffle=False, batch_size=batch_size)

# 4. 특성 층 만들기

In [12]:
feature_columns = []

# 수치형 열
age = tf.feature_column.numeric_column('age')

# 수치형 열
for header in ['trestbps', 'chol', 'thalach', 'oldpeak', 'slope', 'ca']:
  feature_columns.append(tf.feature_column.numeric_column(header))

# 버킷형 열
age_buckets = tf.feature_column.bucketized_column(age, boundaries=[18, 25, 30, 35, 40, 45, 50, 55, 60, 65])
feature_columns.append(age_buckets)

# 범주형 열
thal = tf.feature_column.categorical_column_with_vocabulary_list( #string 데이터를 integer 데이터로 매핑
      key='thal', vocabulary_list=['fixed', 'normal', 'reversible'])
thal_one_hot = tf.feature_column.indicator_column(thal) # 범주형 데이터를 멀티-핫-인코딩
feature_columns.append(thal_one_hot)

# 임베딩 열
thal_embedding = tf.feature_column.embedding_column(thal, dimension=8)
feature_columns.append(thal_embedding)

# 교차 특성 열
crossed_feature = tf.feature_column.crossed_column([age_buckets, thal], hash_bucket_size=1000)
crossed_feature = tf.feature_column.indicator_column(crossed_feature) # 범주형 데이터를 멀티-핫-인코딩
feature_columns.append(crossed_feature)

In [13]:
feature_layer = tf.keras.layers.DenseFeatures(feature_columns)

# 5. 모델 만들기

In [14]:
model = tf.keras.Sequential([
  feature_layer,
  layers.Dense(128, activation='relu'),
  layers.Dense(128, activation='relu'),
  layers.Dense(1, activation='sigmoid')
])

model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(train_ds,
          validation_data=val_ds,
          epochs=5)

W0518 04:05:20.627651  7568 deprecation.py:323] From C:\Users\jsh\Anaconda3\envs\tens2\lib\site-packages\tensorflow\python\feature_column\feature_column_v2.py:3048: VocabularyListCategoricalColumn._num_buckets (from tensorflow.python.feature_column.feature_column_v2) is deprecated and will be removed in a future version.
Instructions for updating:
The old _FeatureColumn APIs are being deprecated. Please use the new FeatureColumn APIs instead.
W0518 04:05:20.630667  7568 deprecation.py:323] From C:\Users\jsh\Anaconda3\envs\tens2\lib\site-packages\tensorflow\python\feature_column\feature_column_v2.py:2758: to_float (from tensorflow.python.ops.math_ops) is deprecated and will be removed in a future version.
Instructions for updating:
Use `tf.cast` instead.
W0518 04:05:20.632638  7568 deprecation.py:323] From C:\Users\jsh\Anaconda3\envs\tens2\lib\site-packages\tensorflow\python\feature_column\feature_column_v2.py:2902: to_int64 (from tensorflow.python.ops.math_ops) is deprecated and will b

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x1c405198048>

In [15]:
loss, accuracy = model.evaluate(test_ds)
print("정확도", accuracy)

정확도 0.8196721
