# Beginner Tutorials - 1. ML basics 
# 4. Classify Structured Data
1. 데이터셋
- 텐서플로와 필요한 라이브러리 임포트하기
- 판다스로 데이터프레임 만들기
- 데이터프레임을 훈련 세트, 검증 세트, 테스트 세트로 나누기
- tf.data를 사용하여 입력 파이프라인 만들기
- 입력 파이프라인 이해하기
- 여러 종류의 특성 열 알아 보기
 - 수치형 열
 - 버킷형 영
 - 범주형 열
 - 임베딩 열
 - 해시 특성 열
 - 교차 특성 열
- 사용할 열 선택하기
 - 특성 층 만들기
- 모델 생성, 컴파일, 훈련
- 그 다음엔

자료 URL : https://www.tensorflow.org/alpha/tutorials/keras/feature_columns<br>
GitHub : https://github.com/tensorflow/docs/blob/master/site/ko/alpha/tutorials/keras/feature_columns.ipynb<br>

정형 데이터(structured data)를 다루는 방법을 소개<br>
케라스를 사용하여 모델을 정의하고 특성 열(feature column)을 사용하여 CSV의 열을 모델 훈련에 필요한 특성으로 매핑<br>
- 판다스(Pandas)를 사용하여 CSV 파일을 읽기
- tf.data를 사용하여 행을 섞고 배치로 나누는 입력 파이프라인(pipeline)을 만들기
- CSV의 열을 feature_column을 사용해 모델 훈련에 필요한 특성으로 매핑하기
- 케라스를 사용하여 모델 구축, 훈련, 평가하기

## 1. 데이터셋 Data Set
클리블랜드(Cleveland) 심장병 재단에서 제공한 작은 데이터셋을 사용하겠습니다. 이 CSV 파일은 수백 개의 행으로 이루어져 있습니다. 각 행은 환자 한 명을 나타내고 각 열은 환자에 대한 속성 값입니다. 이 정보를 사용해 환자의 심장병 발병 여부를 예측해 보겠습니다. 즉 이 데이터셋은 이진 분류 문제입니다.

|    열    |                         설명                        | 특성 타입 | 데이터 타입 |
|:--------:|:---------------------------------------------------:|:---------:|:-----------:|
|    Age   |                         나이                        |   수치형  |     정수    |
|    Sex   |                 (1 = 남성; 0 = 여성)                |   범주형  |     정수    |
|    CP    |            가슴 통증 유형 (0, 1, 2, 3, 4)           |   범주형  |     정수    |
| Trestbpd |            안정 혈압 (병원 입원시 mm Hg)            |   수치형  |     정수    |
|   Chol   |               혈청 콜레스테롤 (mg/dl)               |   수치형  |     정수    |
|    FBS   |    (공복 혈당 > 120 mg/dl) (1 = true; 0 = false)    |   범주형  |     정수    |
|  RestECG |              안정 심전도 결과 (0, 1, 2)             |   범주형  |     정수    |
|  Thalach |                    최대 심박동수                    |   수치형  |     정수    |
|   Exang  |          협심증 유발 운동 (1 = yes; 0 = no)         |   범주형  |     정수    |
|  Oldpeak | 비교적 안정되기까지 운동으로 유발되는 ST depression |   수치형  |     정수    |
|   Slope  |            최대 운동 ST segment의 기울기            |   수치형  |     실수    |
|    CA    |           형광 투시된 주요 혈관의 수 (0-3)          |   수치형  |     정수    |
|   Thal   |    3 = 보통; 6 = 해결된 결함; 7 = 해결가능한 결함   |   범주형  |    문자열   |
|  Target  |          심장병 진단 (1 = true; 0 = false)          |    분류   |     정수    |

## 2. 텐서플로와 필요한 라이브러리 임포트하기

In [1]:
from __future__ import absolute_import, division, print_function, unicode_literals

import numpy as np
import pandas as pd

import tensorflow as tf

from tensorflow import feature_column
from tensorflow.keras import layers
from sklearn.model_selection import train_test_split

## 3. 판다스로 데이터프레임 만들기

In [2]:
URL = 'https://storage.googleapis.com/applied-dl/heart.csv'
dataframe = pd.read_csv(URL)
dataframe.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,1,145,233,1,2,150,0,2.3,3,0,fixed,0
1,67,1,4,160,286,0,2,108,1,1.5,2,3,normal,1
2,67,1,4,120,229,0,2,129,1,2.6,2,2,reversible,0
3,37,1,3,130,250,0,0,187,0,3.5,3,0,normal,0
4,41,0,2,130,204,0,2,172,0,1.4,1,0,normal,0


## 4. 데이터프레임을 훈련 세트, 검증 세트, 테스트 세트로 나누기

In [3]:
train, test = train_test_split(dataframe, test_size=0.2)
train, val = train_test_split(train, test_size=0.2)
print(len(train), '훈련 샘플')
print(len(val), '훈련 샘플')
print(len(test), '훈련 샘플')

193 훈련 샘플
49 훈련 샘플
61 훈련 샘플


## 5. tf.data를 사용하여 입력 파이프라인 만들기
- tf.data : https://www.tensorflow.org/guide/datasets

In [4]:
# 판다스 데이터프레임으로부터 tf.data 데이터셋을 만들기 위한 함수
def df_to_dataset(dataframe, shuffle=True, batch_size=32):
    dataframe = dataframe.copy()
    labels = dataframe.pop('target')
    ds = tf.data.Dataset.from_tensor_slices((dict(dataframe), labels))
    if shuffle:
        ds = ds.shuffle(buffer_size=len(dataframe))
    ds = ds.batch(batch_size)
    return ds

In [5]:
batch_size = 10
train_ds = df_to_dataset(train, batch_size=batch_size)
val_ds = df_to_dataset(val, shuffle=False, batch_size=batch_size)
test_ds = df_to_dataset(test, shuffle=False, batch_size=batch_size)

In [6]:
train_ds

<BatchDataset shapes: ({age: (None,), sex: (None,), cp: (None,), trestbps: (None,), chol: (None,), fbs: (None,), restecg: (None,), thalach: (None,), exang: (None,), oldpeak: (None,), slope: (None,), ca: (None,), thal: (None,)}, (None,)), types: ({age: tf.int32, sex: tf.int32, cp: tf.int32, trestbps: tf.int32, chol: tf.int32, fbs: tf.int32, restecg: tf.int32, thalach: tf.int32, exang: tf.int32, oldpeak: tf.float64, slope: tf.int32, ca: tf.int32, thal: tf.string}, tf.int32)>

In [7]:
val_ds

<BatchDataset shapes: ({age: (None,), sex: (None,), cp: (None,), trestbps: (None,), chol: (None,), fbs: (None,), restecg: (None,), thalach: (None,), exang: (None,), oldpeak: (None,), slope: (None,), ca: (None,), thal: (None,)}, (None,)), types: ({age: tf.int32, sex: tf.int32, cp: tf.int32, trestbps: tf.int32, chol: tf.int32, fbs: tf.int32, restecg: tf.int32, thalach: tf.int32, exang: tf.int32, oldpeak: tf.float32, slope: tf.int32, ca: tf.int32, thal: tf.string}, tf.int32)>

## 6. 입력 파이프라인 이해하기

In [8]:
for feature_batch, label_batch in train_ds.take(1):
    print('전체 특성:', list(feature_batch.keys()))
    print('나이 특성의 배치:', feature_batch['age'])
    print('타깃의 배치:', label_batch)

전체 특성: ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal']
나이 특성의 배치: tf.Tensor([70 59 44 54 62 62 58 58 41 44], shape=(10,), dtype=int32)
타깃의 배치: tf.Tensor([0 0 0 0 1 0 1 1 0 0], shape=(10,), dtype=int32)


## 7. 여러 종류의 특성 열 알아보기 
- 수치형 열
- 버킷형 영
- 범주형 열
- 임베딩 열
- 해시 특성 열
- 교차 특성 열

In [9]:
example_batch = next(iter(train_ds))[0]
example_batch

{'age': <tf.Tensor: id=88, shape=(10,), dtype=int32, numpy=array([70, 59, 44, 54, 62, 62, 58, 58, 41, 44])>,
 'sex': <tf.Tensor: id=96, shape=(10,), dtype=int32, numpy=array([1, 1, 1, 1, 1, 0, 1, 1, 1, 1])>,
 'cp': <tf.Tensor: id=91, shape=(10,), dtype=int32, numpy=array([4, 4, 2, 3, 2, 4, 4, 4, 3, 4])>,
 'trestbps': <tf.Tensor: id=100, shape=(10,), dtype=int32, numpy=array([130, 138, 120, 125, 120, 140, 114, 150, 130, 110])>,
 'chol': <tf.Tensor: id=90, shape=(10,), dtype=int32, numpy=array([322, 271, 220, 273, 281, 394, 318, 270, 214, 197])>,
 'fbs': <tf.Tensor: id=93, shape=(10,), dtype=int32, numpy=array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])>,
 'restecg': <tf.Tensor: id=95, shape=(10,), dtype=int32, numpy=array([2, 2, 0, 2, 2, 2, 1, 2, 2, 2])>,
 'thalach': <tf.Tensor: id=99, shape=(10,), dtype=int32, numpy=array([109, 182, 170, 152, 103, 157, 140, 111, 168, 177])>,
 'exang': <tf.Tensor: id=92, shape=(10,), dtype=int32, numpy=array([0, 0, 0, 0, 0, 0, 0, 1, 0, 0])>,
 'oldpeak': <tf.Tensor:

In [10]:
# 특성 열을 만들고 배치 데이터를 변환하는 함수
def demo(feature_column):
    feature_layer = layers.DenseFeatures(feature_column)
    print(feature_layer(example_batch).numpy())

### 7-1 수치형 열

In [11]:
age = feature_column.numeric_column('age')
demo(age)

W0410 15:34:22.276187 29360 deprecation.py:323] From C:\Users\la\Anaconda3\envs\tf20\lib\site-packages\tensorflow\python\feature_column\feature_column_v2.py:2758: to_float (from tensorflow.python.ops.math_ops) is deprecated and will be removed in a future version.
Instructions for updating:
Use `tf.cast` instead.


[[70.]
 [59.]
 [44.]
 [54.]
 [62.]
 [62.]
 [58.]
 [58.]
 [41.]
 [44.]]


### 7-2 버킷형 열
수치 값의 구간을 나누어 이를 기반으로 범주형으로 변환

In [12]:
age_buckets = feature_column.bucketized_column(age, boundaries=[18, 25, 30, 35, 40, 45, 50, 55, 60, 65])
demo(age_buckets)

W0410 15:34:22.286162 29360 deprecation.py:323] From C:\Users\la\Anaconda3\envs\tf20\lib\site-packages\tensorflow\python\feature_column\feature_column_v2.py:2902: to_int64 (from tensorflow.python.ops.math_ops) is deprecated and will be removed in a future version.
Instructions for updating:
Use `tf.cast` instead.


[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]]


### 7-3 범주형 열
문자열을 먼저 수치형으로 매핑

범주형 열(categorical column)을 사용하여 문자열을 원-핫 벡터로 표현할 수 있습니다. <br>
문자열 목록은 categorical_column_with_vocabulary_list를 사용하여 리스트로 전달하거나 categorical_column_with_vocabulary_file을 사용하여 파일에서 읽을 수 있습니다.<br>

In [13]:
thal = feature_column.categorical_column_with_vocabulary_list(
      'thal', ['fixed', 'normal', 'reversible'])

thal_one_hot = feature_column.indicator_column(thal)
demo(thal_one_hot)

W0410 15:34:22.298129 29360 deprecation.py:323] From C:\Users\la\Anaconda3\envs\tf20\lib\site-packages\tensorflow\python\feature_column\feature_column_v2.py:4307: IndicatorColumn._variable_shape (from tensorflow.python.feature_column.feature_column_v2) is deprecated and will be removed in a future version.
Instructions for updating:
The old _FeatureColumn APIs are being deprecated. Please use the new FeatureColumn APIs instead.
W0410 15:34:22.299127 29360 deprecation.py:323] From C:\Users\la\Anaconda3\envs\tf20\lib\site-packages\tensorflow\python\feature_column\feature_column_v2.py:4362: VocabularyListCategoricalColumn._num_buckets (from tensorflow.python.feature_column.feature_column_v2) is deprecated and will be removed in a future version.
Instructions for updating:
The old _FeatureColumn APIs are being deprecated. Please use the new FeatureColumn APIs instead.


[[0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 1. 0.]]


### 7-4 임베딩 열

임베딩 열(embedding column)을 사용하면 이런 제한을 극복할 수 있습니다. 고차원 원-핫 벡터로 데이터를 표현하는 대신 임베딩 열을 사용하여 저차원으로 데이터를 표현합니다

In [14]:
thal_embedding = feature_column.embedding_column(thal, dimension=8)
demo(thal_embedding)

[[-0.2734836  -0.08321542  0.13479663  0.41503316  0.15263756  0.13632473
   0.11052724 -0.59210783]
 [-0.2734836  -0.08321542  0.13479663  0.41503316  0.15263756  0.13632473
   0.11052724 -0.59210783]
 [-0.2734836  -0.08321542  0.13479663  0.41503316  0.15263756  0.13632473
   0.11052724 -0.59210783]
 [-0.2734836  -0.08321542  0.13479663  0.41503316  0.15263756  0.13632473
   0.11052724 -0.59210783]
 [-0.2959007   0.5067462  -0.15840763  0.46426463 -0.16977131  0.49167076
  -0.5576239   0.16952242]
 [-0.2734836  -0.08321542  0.13479663  0.41503316  0.15263756  0.13632473
   0.11052724 -0.59210783]
 [ 0.616075    0.1666535  -0.3988557   0.47071666  0.13319986  0.18761985
   0.00210618 -0.43637002]
 [-0.2959007   0.5067462  -0.15840763  0.46426463 -0.16977131  0.49167076
  -0.5576239   0.16952242]
 [-0.2734836  -0.08321542  0.13479663  0.41503316  0.15263756  0.13632473
   0.11052724 -0.59210783]
 [-0.2734836  -0.08321542  0.13479663  0.41503316  0.15263756  0.13632473
   0.11052724 -0.

### 7-5 해시 특성 열
입력의 해시(hash) 값을 계산한 다음 hash_bucket_size 크기의 버킷 중 하나를 선택하여 문자열을 인코딩합니다. 이 열을 사용할 때는 어휘 목록을 제공할 필요가 없고 공간을 절약하기 위해 실제 범주의 개수보다 훨씬 작게 해시 버킷(bucket)의 크기를 정할 수 있습니다.

In [15]:
thal_hashed = feature_column.categorical_column_with_hash_bucket('thal', hash_bucket_size=1000)
demo(feature_column.indicator_column(thal_hashed))

W0410 15:34:22.323063 29360 deprecation.py:323] From C:\Users\la\Anaconda3\envs\tf20\lib\site-packages\tensorflow\python\feature_column\feature_column_v2.py:4362: HashedCategoricalColumn._num_buckets (from tensorflow.python.feature_column.feature_column_v2) is deprecated and will be removed in a future version.
Instructions for updating:
The old _FeatureColumn APIs are being deprecated. Please use the new FeatureColumn APIs instead.


[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


### 7-6 교차 특성 열

In [16]:
crossed_feature = feature_column.crossed_column([age_buckets, thal], hash_bucket_size=1000)
#demo(feature_column.indicator_column(crossed_feature)) #OverflowError

## 8. 사용할 열 선택하기

In [17]:
feature_columns=[]

# 수치형 열
for header in ['age', 'trestbps','chol','thalach','oldpeak','slope','ca']:
    feature_columns.append(feature_column.numeric_column(header))

# 버킷형 열  
age_buckets = feature_column.bucketized_column(age, boundaries=[18, 25, 30, 35, 40, 45, 50, 55, 60, 65])
feature_columns.append(age_buckets)

# 범주형 열
thal = feature_column.categorical_column_with_vocabulary_list(
      'thal', ['fixed', 'normal', 'reversible'])
thal_one_hot = feature_column.indicator_column(thal)
feature_columns.append(thal_one_hot)

# 임베딩 열
thal_embedding = feature_column.embedding_column(thal, dimension=8)
feature_columns.append(thal_embedding)

"""
# 교차 특성 열 # OverflowError
crossed_feature = feature_column.crossed_column([age_buckets, thal], hash_bucket_size=1000)
crossed_feature = feature_column.indicator_column(crossed_feature)
feature_columns.append(crossed_feature)
"""

'\n# 교차 특성 열 # OverflowError\ncrossed_feature = feature_column.crossed_column([age_buckets, thal], hash_bucket_size=1000)\ncrossed_feature = feature_column.indicator_column(crossed_feature)\nfeature_columns.append(crossed_feature)\n'

### 8-1 특성 층 만들기

In [18]:
feature_columns

[NumericColumn(key='age', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=None),
 NumericColumn(key='trestbps', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=None),
 NumericColumn(key='chol', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=None),
 NumericColumn(key='thalach', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=None),
 NumericColumn(key='oldpeak', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=None),
 NumericColumn(key='slope', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=None),
 NumericColumn(key='ca', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=None),
 BucketizedColumn(source_column=NumericColumn(key='age', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=None), boundaries=(18, 25, 30, 35, 40, 45, 50, 55, 60, 65)),
 IndicatorColumn(categorical_column=VocabularyListCategoricalColumn(key='thal', vocabulary_list=('fixed', 'normal', 'reversi

In [19]:
feature_layer = tf.keras.layers.DenseFeatures(feature_columns)

In [20]:
batch_size=32
train_ds = df_to_dataset(train, batch_size=batch_size)
val_ds = df_to_dataset(val, shuffle=False, batch_size=batch_size)
test_ds = df_to_dataset(test, shuffle=False, batch_size=batch_size)

## 9. 모델 생성, 컴파일, 훈련

In [21]:
model = tf.keras.Sequential([
  feature_layer,
  layers.Dense(128, activation='relu'),
  layers.Dense(128, activation='relu'),
  layers.Dense(1, activation='sigmoid')
])

model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(train_ds, 
          validation_data=val_ds, 
          epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x1e739beeb70>

In [22]:
loss, accuracy = model.evaluate(test_ds)

