# tf.data

- 머신러닝에서 문제를 해결할 때 많은 시간이 데이터를 다루는 데 소요된다.
- 기존의 텐서플로에서 데이터를 처리하는 방식은 tf.placeholder, feed_dict였음
- tf.data의 기능으로 좀 더 편리하게 구현해보자.

In [16]:
import os
import tensorflow as tf
import numpy as np

from tensorflow.keras import preprocessing # 전처리를 도와주는 모듈

In [17]:
samples = ['너 오늘 이뻐 보인다', 
           '나는 오늘 기분이 더러워', 
           '끝내주는데, 좋은 일이 있나봐', 
           '나 좋은 일이 생겼어', 
           '아 오늘 진짜 짜증나', 
           '환상적인데, 정말 좋은거 같아']

label = [[1], [0], [1], [1], [0], [1]]

In [61]:
MAX_LEN = 4

In [113]:
tokenizer = preprocessing.text.Tokenizer()
tokenizer.fit_on_texts(samples)
sequences = tokenizer.texts_to_sequences(samples)
sequences = preprocessing.sequence.pad_sequences(sequences, maxlen=MAX_LEN, padding='post')
word_index = tokenizer.word_index

In [114]:
print('수치화된 텍스트 데이터: \n', sequences)
print('각 단어의 인덱스: \n', word_index)
print('라벨: \n', label)

수치화된 텍스트 데이터: 
 [[ 4  1  5  6]
 [ 7  1  8  9]
 [10  2  3 11]
 [12  2  3 13]
 [14  1 15 16]
 [17 18 19 20]]
각 단어의 인덱스: 
 {'오늘': 1, '좋은': 2, '일이': 3, '너': 4, '이뻐': 5, '보인다': 6, '나는': 7, '기분이': 8, '더러워': 9, '끝내주는데': 10, '있나봐': 11, '나': 12, '생겼어': 13, '아': 14, '진짜': 15, '짜증나': 16, '환상적인데': 17, '정말': 18, '좋은거': 19, '같아': 20}
라벨: 
 [[1], [0], [1], [1], [0], [1]]


### tf.data를 활용해서 처리하기

In [48]:
dataset = tf.data.Dataset.from_tensor_slices((sequences, label))
iterator = dataset.make_one_shot_iterator() # 데이터를 하나씩 사용할 수 있게 만드는 iterator
next_data = iterator.get_next() # get_next 함수를 사용하면 데이터가 하나씩 나오게 되는 구조

In [51]:
# try / except 구문을 사용하지 않으면 범위가 넘어갔다는 에러메세지가 발생함
with tf.Session() as sess:
    while True:
        try:
            print(sess.run(next_data))
        except tf.errors.OutOfRangeError:
            break

(array([4, 1, 5, 6], dtype=int32), array([1], dtype=int32))
(array([7, 1, 8, 9], dtype=int32), array([0], dtype=int32))
(array([10,  2,  3, 11], dtype=int32), array([1], dtype=int32))
(array([12,  2,  3, 13], dtype=int32), array([1], dtype=int32))
(array([14,  1, 15, 16], dtype=int32), array([0], dtype=int32))
(array([17, 18, 19, 20], dtype=int32), array([1], dtype=int32))


In [74]:
# batch size만큼 한번에 불러온다.
BATCH_SIZE = 2

In [73]:
dataset = tf.data.Dataset.from_tensor_slices((sequences, label))
dataset = dataset.batch(BATCH_SIZE)
iterator = dataset.make_one_shot_iterator()
next_data = iterator.get_next()

with tf.Session() as sess:
    while True:
        try:
            print(sess.run(next_data))
        except tf.errors.OutOfRangeError:
            break

(array([[4, 1, 5, 6],
       [7, 1, 8, 9]], dtype=int32), array([[1],
       [0]], dtype=int32))
(array([[10,  2,  3, 11],
       [12,  2,  3, 13]], dtype=int32), array([[1],
       [1]], dtype=int32))
(array([[14,  1, 15, 16],
       [17, 18, 19, 20]], dtype=int32), array([[0],
       [1]], dtype=int32))


In [81]:
# Shuffle 기능으로 데이터를 섞어서 출력하기
dataset = tf.data.Dataset.from_tensor_slices((sequences, label))
# shuffle의 인자는 데이터의 전체 길이를 넣어주면 됨
dataset = dataset.shuffle(len(sequences))
iterator = dataset.make_one_shot_iterator()
next_data = iterator.get_next()

with tf.Session() as sess:
    while True:
        try:
            print(sess.run(next_data))
        except tf.errors.OutOfRangeError:
            break

(array([4, 1, 5, 6], dtype=int32), array([1], dtype=int32))
(array([7, 1, 8, 9], dtype=int32), array([0], dtype=int32))
(array([12,  2,  3, 13], dtype=int32), array([1], dtype=int32))
(array([17, 18, 19, 20], dtype=int32), array([1], dtype=int32))
(array([10,  2,  3, 11], dtype=int32), array([1], dtype=int32))
(array([14,  1, 15, 16], dtype=int32), array([0], dtype=int32))


In [82]:
# 반복해서 데이터 불러오기
EPOCH = 2

In [100]:
dataset = tf.data.Dataset.from_tensor_slices((sequences, label))
# dataset = dataset.shuffle(len(sequences)) 설정하면 셔플데이터를 여러번 가져온다.
dataset = dataset.repeat(EPOCH)

iterator = dataset.make_one_shot_iterator()
next_data = iterator.get_next()

with tf.Session() as sess:
    while True:
        try:
            print(sess.run(next_data))
        except tf.errors.OutOfRangeError:
            break

(array([4, 1, 5, 6], dtype=int32), array([1], dtype=int32))
(array([7, 1, 8, 9], dtype=int32), array([0], dtype=int32))
(array([10,  2,  3, 11], dtype=int32), array([1], dtype=int32))
(array([12,  2,  3, 13], dtype=int32), array([1], dtype=int32))
(array([14,  1, 15, 16], dtype=int32), array([0], dtype=int32))
(array([17, 18, 19, 20], dtype=int32), array([1], dtype=int32))
(array([4, 1, 5, 6], dtype=int32), array([1], dtype=int32))
(array([7, 1, 8, 9], dtype=int32), array([0], dtype=int32))
(array([10,  2,  3, 11], dtype=int32), array([1], dtype=int32))
(array([12,  2,  3, 13], dtype=int32), array([1], dtype=int32))
(array([14,  1, 15, 16], dtype=int32), array([0], dtype=int32))
(array([17, 18, 19, 20], dtype=int32), array([1], dtype=int32))


In [101]:
# tf.data의 매핑기능 - 모델에 따라 입력값이 여러개가 될 수 있기 때문에 매핑과정을 거쳐야함

In [102]:
def mapping_fn(X, Y=None):
    input = {'x': X}
    label = Y
    return input, label
dataset = tf.data.Dataset.from_tensor_slices((sequences, label))
dataset = dataset.map(mapping_fn)
iterator = dataset.make_one_shot_iterator()
next_data = iterator.get_next()

with tf.Session() as sess:
    while True:
        try:
            print(sess.run(next_data))
        except tf.errors.OutOfRangeError:
            break

({'x': array([4, 1, 5, 6], dtype=int32)}, array([1], dtype=int32))
({'x': array([7, 1, 8, 9], dtype=int32)}, array([0], dtype=int32))
({'x': array([10,  2,  3, 11], dtype=int32)}, array([1], dtype=int32))
({'x': array([12,  2,  3, 13], dtype=int32)}, array([1], dtype=int32))
({'x': array([14,  1, 15, 16], dtype=int32)}, array([0], dtype=int32))
({'x': array([17, 18, 19, 20], dtype=int32)}, array([1], dtype=int32))


In [106]:
# 입력값 2개일 때 예시
def mapping_fn(X1, X2, Y=None):
    input = {'x1': X1, 'x2': X2}
    label = Y
    return input, label
dataset = tf.data.Dataset.from_tensor_slices((sequences, sequences, label))
dataset = dataset.map(mapping_fn)
iterator = dataset.make_one_shot_iterator()
next_data = iterator.get_next()

with tf.Session() as sess:
    while True:
        try:
            print(sess.run(next_data))
        except tf.errors.OutOfRangeError:
            break

({'x1': array([4, 1, 5, 6], dtype=int32), 'x2': array([4, 1, 5, 6], dtype=int32)}, array([1], dtype=int32))
({'x1': array([7, 1, 8, 9], dtype=int32), 'x2': array([7, 1, 8, 9], dtype=int32)}, array([0], dtype=int32))
({'x1': array([10,  2,  3, 11], dtype=int32), 'x2': array([10,  2,  3, 11], dtype=int32)}, array([1], dtype=int32))
({'x1': array([12,  2,  3, 13], dtype=int32), 'x2': array([12,  2,  3, 13], dtype=int32)}, array([1], dtype=int32))
({'x1': array([14,  1, 15, 16], dtype=int32), 'x2': array([14,  1, 15, 16], dtype=int32)}, array([0], dtype=int32))
({'x1': array([17, 18, 19, 20], dtype=int32), 'x2': array([17, 18, 19, 20], dtype=int32)}, array([1], dtype=int32))


In [107]:
# 배치, 셔플, 반복, 매핑을 한번에 구현해보기

In [115]:
BATCH_SIZE = 3
EPOCH = 2

def mapping_fn(X, Y=None):
    input = {'x': X}
    label = Y
    return input, label

dataset = tf.data.Dataset.from_tensor_slices((sequences, label))
dataset = dataset.map(mapping_fn)
dataset = dataset.shuffle(len(sequences))
dataset = dataset.batch(BATCH_SIZE)
dataset = dataset.repeat(EPOCH)
iterator = dataset.make_one_shot_iterator()
next_data = iterator.get_next()

with tf.Session() as sess:
    while True:
        try:
            print(sess.run(next_data))
        except tf.errors.OutOfRangeError:
            break

({'x': array([[12,  2,  3, 13],
       [10,  2,  3, 11],
       [ 7,  1,  8,  9]], dtype=int32)}, array([[1],
       [1],
       [0]], dtype=int32))
({'x': array([[14,  1, 15, 16],
       [17, 18, 19, 20],
       [ 4,  1,  5,  6]], dtype=int32)}, array([[0],
       [1],
       [1]], dtype=int32))
({'x': array([[14,  1, 15, 16],
       [ 4,  1,  5,  6],
       [10,  2,  3, 11]], dtype=int32)}, array([[0],
       [1],
       [1]], dtype=int32))
({'x': array([[17, 18, 19, 20],
       [ 7,  1,  8,  9],
       [12,  2,  3, 13]], dtype=int32)}, array([[1],
       [0],
       [1]], dtype=int32))
