In [2]:
import tensorflow as tf 
# tf.data
# Tensorflow에서 데이터 전용 처리 함수 & 클래스가 모여있는 package
# 대용량의 데이터를 처리할 때, 이런 데이터를 머신러닝의 입력으로 사용할 때
# 해당 package 안의 함수와 class를 이용하면 좋아요!

# tf.data package안에 있는 여러개의 함수와 class 중 
# 가장 중요한 class는 Dataset이에요!
# => 여러개의 데이터를 읽어들이는 파이프라인 객체를 생성하기 위해 사용해요!
# Dataset 자체가 Data를 가지고 있는데 아니에요!
# 데이터를 가져오는 방법과 규칙을 정의하는 class에요!

# Dataset에 대해서 알아보기 전에
# 먼저 tf.Tensor라는 것에 대해서 먼저 알아야 해요!
# tf.Tensor는 Tensorflow에서 데이터를 표현하는 가장 기본적인 자료구조.
# 지금까지 외부데이터를 ndarray로 만들어서 Tensorflow Model에 입력으로
# 넣었어요! 그러면 Tensorflow Model 내에서는 이 데이터가 Tensor로 변환되서 사용되요!

# 그럼 numpy의 ndarray를 기반으로 pandas의 DataFrame을 만들어서 사용했듯이
# numpy의 ndarray를 기반으로 tf.Tensor를 만들어서 사용하는 건가요?
# 아니에요! 두개는 완전히 다른거에요! 단, 서로 변환은 가능해요!

# tf.Tensor
# 1. 다차원 배열
# 2. 데이터 타입도 존재 (np.float32 => tf.float32)
# 3. 행렬연산을 지원(np.add() => tf.add())
# 4. GPU 메모리 지원(반대로 ndarray는 CPU 메모리만 사용가능)
# 5. ndarray로 변환하려면 어떻게 해야하나요 => .numpy()

In [9]:
# tf.Tensor를 생성하는 방법
import numpy as np
import tensorflow as tf

# 1차원 Tensor 생성
# np.array([1, 2, 3])
tensor1 = tf.constant([1, 2, 3])
print(tensor1) # tf.Tensor([1 2 3], shape=(3,), dtype=int32)
print(tensor1.numpy()) # [1 2 3]

# 2차원 Tensor 생성
tensor2 = tf.constant([[1, 2], [3, 4]])
print(tensor2)
# tf.Tensor(
# [[1 2]
#  [3 4]], shape=(2, 2), dtype=int32)

# tf.zeros()
tensor3 = tf.zeros([2,3])
print(tensor3)
# tf.Tensor(
# [[0. 0. 0.]
#  [0. 0. 0.]], shape=(2, 3), dtype=float32)

# tf.range()
tensor4 = tf.range(0, 10, 2)
print(tensor4) # tf.Tensor([0 2 4 6 8], shape=(5,), dtype=int32)

# tf.random.normal() (표준정규분포)
tensor5 = tf.random.normal([2,3])
print(tensor5)
# tf.Tensor(
# [[ 0.7598582  -0.7730717  -0.53677905]
#  [-0.22217543 -0.7422878  -0.4758832 ]], shape=(2, 3), dtype=float32)

tf.Tensor([1 2 3], shape=(3,), dtype=int32)
[1 2 3]
tf.Tensor(
[[1 2]
 [3 4]], shape=(2, 2), dtype=int32)
tf.Tensor(
[[0. 0. 0.]
 [0. 0. 0.]], shape=(2, 3), dtype=float32)
tf.Tensor([0 2 4 6 8], shape=(5,), dtype=int32)
tf.Tensor(
[[ 0.7598582  -0.7730717  -0.53677905]
 [-0.22217543 -0.7422878  -0.4758832 ]], shape=(2, 3), dtype=float32)


In [11]:
# Tensor의 연산
a = tf.constant([[1, 2], 
                 [3, 4]])
b = tf.constant([[5, 6], 
                 [7, 8]])

# print(a + b)
print(tf.add(a, b))
# tf.Tensor(
# [[ 6  8]
#  [10 12]], shape=(2, 2), dtype=int32)

tf.Tensor(
[[ 6  8]
 [10 12]], shape=(2, 2), dtype=int32)


In [13]:
# tf.constant() Tensor를 만들면 read only에요!
# 이렇게 Tensor를 만들면 상수로 만들어져요!

# 그러면 변수처럼 값을 변화시킬 수 있은 Tensor는 어떻게 만드나요?
# Tensorflow에서는 tf.Variable로 제공해요!
a = tf.Variable([1.0, 2.0, 3.0])
print(a)

a.assign([10, 20, 30])
print(a)

# Tensorflow Model 안에 들어가는 데이터는 tf.Tensor로 만들어져서 사용!
# Tensorflow Model 안에 W, b, filter.. 이런 변하는 변수는 당연히
# tf.Variable 로 만들어져서 사용

<tf.Variable 'Variable:0' shape=(3,) dtype=float32, numpy=array([1., 2., 3.], dtype=float32)>
<tf.Variable 'Variable:0' shape=(3,) dtype=float32, numpy=array([10., 20., 30.], dtype=float32)>


In [14]:
# tf.data.Dataset
# Dataset 생성에는 총 5가지 방법이 있어요!

# 1. from_tensor_slices()
# 입력 데이터의 첫번째 차원을 따라서
# 각 원소별로 하나의 샘플을 만들어
# tf.Tensor로 감싸진 Dataset을 생성해요!
# => 쉽게 말하면, 각원소를 하나의 데이터 샘플로 만들어서
# => 이 데이터 전체를 하나의 Dataset으로 래핑하는 거에요!
# list 혹은 ndarray안의 요소들을 조각내서
# 각 요소를 Tensor로 만들어 차례로 반환하는 Dataset 객체를 생성
my_list = [1, 2, 3, 4, 5]
dataset = tf.data.Dataset.from_tensor_slices(my_list)
for data in dataset:
    print(data)

tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)


In [16]:
x_data = [[1.0, 2.0], 
          [3.0, 4.0], 
          [5.0, 6.0]]
t_data = [0, 1, 0]

dataset = tf.data.Dataset.from_tensor_slices((x_data, t_data))
for data in dataset:
    print(data)

(<tf.Tensor: shape=(2,), dtype=float32, numpy=array([1., 2.], dtype=float32)>, <tf.Tensor: shape=(), dtype=int32, numpy=0>)
(<tf.Tensor: shape=(2,), dtype=float32, numpy=array([3., 4.], dtype=float32)>, <tf.Tensor: shape=(), dtype=int32, numpy=1>)
(<tf.Tensor: shape=(2,), dtype=float32, numpy=array([5., 6.], dtype=float32)>, <tf.Tensor: shape=(), dtype=int32, numpy=0>)


In [18]:
# 2. from_tensors()
# 여러 개의 sample이 아니라 전체를 하나의 tensor로 만들어요!
# 즉, 데이터 1개짜리 Dataset을 만드는 거에요!
# 특성 상 많이 사용되지는 않아요. 기본적인 사용에 제한이 있어요!
# 대신 어떤 특수한 상황에서는 사용하기도 해요!
# 작은 데이터 셋을 만들어서 test용으로 사용할 경우
my_list = [1, 2, 3, 4, 5]

dataset = tf.data.Dataset.from_tensors(my_list)
for data in dataset:
    print(data)

tf.Tensor([1 2 3 4 5], shape=(5,), dtype=int32)


In [22]:
# 3. from_generator()
# Python의 generator 함수를 이용해서
# 이 generator 함수가 생산하는 값을 Tensor로 만들어서 사용하는
# Dataset을 만드는 함수
# 여러이유로 유용하기 때문에 많이 사용
# 대용량의 데이터를 처리하기가 용이
# 데이터를 증강시키기 위해서 사용.
def gen():
    for i in range(5):
        yield i * 2

dataset = tf.data.Dataset.from_generator(
    generator=gen,
    output_signature=tf.TensorSpec(shape=(),
                                   dtype=tf.int32)
)

for data in dataset:
    print(data)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)


In [27]:
def gen():
    for i in range(5):
        yield (i*2, i+1)
        # (0, 1)
        # (2, 2)
        # (4, 3) ...

dataset = tf.data.Dataset.from_generator(
    generator=gen,
    output_signature=tf.TensorSpec(shape=(2,),
                                   dtype=tf.int32)
)

for data in dataset:
    print(data)

tf.Tensor([0 1], shape=(2,), dtype=int32)
tf.Tensor([2 2], shape=(2,), dtype=int32)
tf.Tensor([4 3], shape=(2,), dtype=int32)
tf.Tensor([6 4], shape=(2,), dtype=int32)
tf.Tensor([8 5], shape=(2,), dtype=int32)


In [28]:
def gen():
    for i in range(5):
        yield (i*2, i+1)
        # (0, 1)
        # (2, 2)
        # (4, 3) ...

dataset = tf.data.Dataset.from_generator(
    generator=gen,
    output_signature=(tf.TensorSpec(shape=(),
                                    dtype=tf.int32),
                      tf.TensorSpec(shape=(),
                                    dtype=tf.int32))
)

for data in dataset:
    print(data)

(<tf.Tensor: shape=(), dtype=int32, numpy=0>, <tf.Tensor: shape=(), dtype=int32, numpy=1>)
(<tf.Tensor: shape=(), dtype=int32, numpy=2>, <tf.Tensor: shape=(), dtype=int32, numpy=2>)
(<tf.Tensor: shape=(), dtype=int32, numpy=4>, <tf.Tensor: shape=(), dtype=int32, numpy=3>)
(<tf.Tensor: shape=(), dtype=int32, numpy=6>, <tf.Tensor: shape=(), dtype=int32, numpy=4>)
(<tf.Tensor: shape=(), dtype=int32, numpy=8>, <tf.Tensor: shape=(), dtype=int32, numpy=5>)


In [29]:
# 4. list_files()
# Dataset을 만드는 함수
# 파일 경로 목록을 Dataset으로 만들어요!

dataset = tf.data.Dataset.list_files('./data/cat_dog_small/train/cats/*.jpg')

i = 0
for data in dataset:
    print(data)
    i += 1
    if i % 5 == 0:
        break

tf.Tensor(b'./data/cat_dog_small/train/cats/cat.915.jpg', shape=(), dtype=string)
tf.Tensor(b'./data/cat_dog_small/train/cats/cat.519.jpg', shape=(), dtype=string)
tf.Tensor(b'./data/cat_dog_small/train/cats/cat.929.jpg', shape=(), dtype=string)
tf.Tensor(b'./data/cat_dog_small/train/cats/cat.555.jpg', shape=(), dtype=string)
tf.Tensor(b'./data/cat_dog_small/train/cats/cat.34.jpg', shape=(), dtype=string)


In [30]:
# 5. TFRecordDataset()
# 특수한 목적으로 만들어진 파일을 불러들여서 
# Dataset을 만들때 사용하는 함수에요!
# TFRecord : Tensorflow에서 사용하는 표준 데이터 포맷.

In [31]:
# 총 5개의 방법으로 Dataset을 생성할 수 있어요!
# Data source로부터 다양한 방법으로 데이터를 읽어들여 
# Tensor로 변환해서 데이터를 제공하는 객체
# from_tensor_slices()
# from_tensors()
# from_generator()
# list_files()
# TFRecordDataset()
# ...

# 결국 Data source로부터 Tensor를 얻었어요!
# Dataset은 파이프라인이에요!
# 기능적으로 여러가지를 얻은 Tensor에 적용할 수 있어요!
# 어떤 작업을 더 할 수 있나요?
# 그 작업을 하기 위해서 어떻게 해야 하나요?
# 정해져 있는 함수가 있어요!

In [42]:
# 데이터 처리
# Dataset이 가지고 있는 함수들에 대해서 알아보아요!

# 1. map() : 별도의 함수를 Tensor에 적용해서 Tensor를 변화시킬 수 있어요!
# 가장 대표적인 함수가 map()
def gen():
    for i in range(5):
        yield i * 2, i + 1

dataset = tf.data.Dataset.from_generator(
    generator=gen,
    output_signature=tf.TensorSpec(shape=(2,),
                                   dtype=tf.int32)
)

def my_func(x):
    return x * x

dataset = dataset.map(my_func,
                      num_parallel_calls=tf.data.AUTOTUNE)

for data in dataset:
    print(data)

tf.Tensor([0 1], shape=(2,), dtype=int32)
tf.Tensor([4 4], shape=(2,), dtype=int32)
tf.Tensor([16  9], shape=(2,), dtype=int32)
tf.Tensor([36 16], shape=(2,), dtype=int32)
tf.Tensor([64 25], shape=(2,), dtype=int32)


In [38]:
# 2. batch() : 몇개씩 묶어서 하나의 mini-batch를 만들어요!
def gen():
    for i in range(5):
        yield i * 2

dataset = tf.data.Dataset.from_generator(
    generator=gen,
    output_signature=tf.TensorSpec(shape=(),
                                   dtype=tf.int32)
)

dataset = dataset.batch(2)

for data in dataset:
    print(data)

tf.Tensor([0 2], shape=(2,), dtype=int32)
tf.Tensor([4 6], shape=(2,), dtype=int32)
tf.Tensor([8], shape=(1,), dtype=int32)


In [40]:
def gen():
    for i in range(5):
        yield i * 2, i + 1

dataset = tf.data.Dataset.from_generator(
    generator=gen,
    output_signature=tf.TensorSpec(shape=(2,),
                                   dtype=tf.int32)
)

dataset = dataset.batch(3)

for data in dataset:
    print(data)

tf.Tensor(
[[0 1]
 [2 2]
 [4 3]], shape=(3, 2), dtype=int32)
tf.Tensor(
[[6 4]
 [8 5]], shape=(2, 2), dtype=int32)


In [43]:
def gen():
    for i in range(5):
        yield i * 2, i + 1

dataset = tf.data.Dataset.from_generator(
    generator=gen,
    output_signature=tf.TensorSpec(shape=(2,),
                                   dtype=tf.int32)
)

def my_func(x):
    return x * x

dataset = dataset.map(my_func).batch(3)

for data in dataset:
    print(data)

tf.Tensor(
[[ 0  1]
 [ 4  4]
 [16  9]], shape=(3, 2), dtype=int32)
tf.Tensor(
[[36 16]
 [64 25]], shape=(2, 2), dtype=int32)


In [47]:
# 3. shuffle()
# 데이터의 순서를 섞을 때 사용(학습용 데이터는 섞어주는게 더 학습이 잘되요!)
# vlaidation하거나 test할 때는 데이터를 섞지 않아요!
# buffer_size를 명시해야 해요! 
# buffer_size는 Dataset의 크기만큼 잡아주는게 좋아요!
# 데이터 크기만큼 설정하기 힘들 수도 있어요!
# 이런 경우에는 1000 정도로 설정
def gen():
    for i in range(5):
        yield i * 2

dataset = tf.data.Dataset.from_generator(
    generator=gen,
    output_signature=tf.TensorSpec(shape=(),
                                   dtype=tf.int32)
)

dataset = dataset.shuffle(buffer_size=5)

for data in dataset:
    print(data)

tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)


In [49]:
# 4. repeat()
# 반복해서 데이터를 추출
def gen():
    for i in range(5):
        yield i * 2

dataset = tf.data.Dataset.from_generator(
    generator=gen,
    output_signature=tf.TensorSpec(shape=(),
                                   dtype=tf.int32)
)

dataset = dataset.repeat(2)

for data in dataset:
    print(data)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)


In [96]:
# 5. prefetch()
# GPU 학습과 CPU 데이터 준비를 병렬로 처리하도록 해요.
# 학습의 속도를 굉장히 많이 높여줘요!
# buffer_size 값은 tf.data.AUTOTUNE으로 설정
def gen():
    for i in range(5):
        yield i * 2

dataset = tf.data.Dataset.from_generator(
    generator=gen,
    output_signature=tf.TensorSpec(shape=(),
                                   dtype=tf.int32)
)

dataset = dataset.prefetch(buffer_size=tf.data.AUTOTUNE)

for data in dataset:
    print(data)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)


In [97]:
# 6. cache()
# 디스크에서 읽은 데이터를 메모리에 cache시켜놓고
# 다음번 사용할 때 cache에 있는 데이터를 사용하는 개념.
# 학습의 속도가 굉장히 빨라져요!
# 일단 메모리량에 따라서 달라질 수 있어요!
# 데이터가 epoch마다 변화해야하는 경우에는 cache사용에 주의
# Augmentation이 적용 안될 수 있어요!

In [98]:
# 결과적으로
# dataset은 5가지 방법으로 생성할 수 있구요!
# 6개의 함수를 이용해서 dataset을 활용할 수 있어요!
# map() : 여러 번 나올 수 있어요!
# batch()
# shuffle()
# repeat()
# prefetch()
# cache() : 데이터의 흐름에서 가장 먼저 호출되요!
#           map() 까지 적용시킨 후
#           cache(), shuffle(), batch(), prefetch() 순서
# ...

In [103]:
# 배운 내용을 적용해보아요!
my_list = [1, 2, 3, 4, 5, 6, 7, 8]

dataset = tf.data.Dataset.from_tensor_slices(my_list)

dataset = (dataset.map(lambda x : x * 2,
                      num_parallel_calls=tf.data.AUTOTUNE)
                  .cache()
                  .shuffle(buffer_size=8)
                  .batch(2)
                  .prefetch(buffer_size=9))

for data in dataset:
    print(data)

tf.Tensor([14  6], shape=(2,), dtype=int32)
tf.Tensor([ 2 16], shape=(2,), dtype=int32)
tf.Tensor([10 12], shape=(2,), dtype=int32)
tf.Tensor([4 8], shape=(2,), dtype=int32)


In [None]:
# 여기까지 tf.data.Dataset에 대해서 알아보았어요!
# tf.Tensor부터 시작해서 여러 함수들에 대해서 살펴보았는데..
# 이제 MNIST 예제를 이용해서 ndarray를 이용하지 않고 Dataset을 이용해서
# 우리 model의 입력을 처리해보아요!

In [105]:
# tf.data.Dataset 자체에는 class 비율에 맞게 분리해주는 기능은 따로 없어요!
# 초기에 CSV 파일을 읽어서 sklearn이 가지고 있는 기능을 이용해서
# 데이터를 분리한 다음 Dataset으로 변환
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf
from sklearn.model_selection import train_test_split

# Raw Data Loading
df = pd.read_csv('./data/mnist/train.csv')
display(df.head())

Unnamed: 0,label,pixel0,pixel1,pixel2,pixel3,pixel4,pixel5,pixel6,pixel7,pixel8,...,pixel774,pixel775,pixel776,pixel777,pixel778,pixel779,pixel780,pixel781,pixel782,pixel783
0,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,4,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [109]:
# 데이터 분리
x_data = df.drop('label', axis=1, inplace=False).values
t_data = df['label'].values

x_data_train, x_data_test, t_data_train, t_data_test = \
train_test_split(x_data,
                 t_data,
                 test_size=0.2,
                 stratify=t_data,
                 random_state=42)
x_data_train, x_data_val, t_data_train, t_data_val = \
train_test_split(x_data_train,
                 t_data_train,
                 test_size=0.2,
                 stratify=t_data_train,
                 random_state=42)
print(f'train 데이터의 수 : {len(x_data_train)}')
print(f'val 데이터의 수 : {len(x_data_val)}')
print(f'test 데이터의 수 : {len(x_data_test)}')

train 데이터의 수 : 26880
val 데이터의 수 : 6720
test 데이터의 수 : 8400


In [116]:
# Dataset 생성(3개 만들어야 해요. train, validation, test)
BATCH_SIZE = 32

def make_dataset(x, t, train=False):
    dataset = tf.data.Dataset.from_tensor_slices((x, t))
    dataset = dataset.map(lambda x, t : (tf.cast(x, tf.float32)/255.0, t),
                          num_parallel_calls=tf.data.AUTOTUNE) # 정규화
    dataset.cache()
    if train:
        dataset = dataset.shuffle(buffer_size=len(x))
    dataset = dataset.batch(BATCH_SIZE)
    dataset = dataset.prefetch(tf.data.AUTOTUNE)

    return dataset

train_dataset = make_dataset(x_data_train,
                             t_data_train,
                             train=True)
val_dataset = make_dataset(x_data_val,
                           t_data_val,
                           train=True)
test_dataset = make_dataset(x_data_test,
                            t_data_test,
                            train=True)

In [118]:
# Model 구성
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Flatten, Dense
from tensorflow.keras.layers import Dropout, BatchNormalization
from tensorflow.keras.layers import Activation
from tensorflow.keras.optimizers import Adam

inputs = Input(shape=(784,))
x = Flatten()(inputs)
x = Dense(units=64)(x)
x = BatchNormalization()(x)
x = Activation('relu')(x)
x = Dropout(rate=0.3)(x)
x = Dense(units=128)(x)
x = BatchNormalization()(x)
x = Activation('relu')(x)
x = Dropout(rate=0.3)(x)
x = Dense(units=10, activation='softmax')(x)

model = Model(inputs=inputs, outputs=x)

model.summary()

Model: "model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_1 (InputLayer)        [(None, 784)]             0         
                                                                 
 flatten (Flatten)           (None, 784)               0         
                                                                 
 dense (Dense)               (None, 64)                50240     
                                                                 
 batch_normalization (Batch  (None, 64)                256       
 Normalization)                                                  
                                                                 
 activation (Activation)     (None, 64)                0         
                                                                 
 dropout (Dropout)           (None, 64)                0         
                                                             

In [None]:
model.compile(optimizer=Adam(learning_rate=1e-3),
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(train_dataset,
          epochs=10,
          validation_data=val_dataset,
          verbose=1)
# Epoch 10/10
# 840/840 [==============================] - 19s 22ms/step - 
# loss: 0.1849 - accuracy: 0.9409 - val_loss: 0.1246 - val_accuracy: 0.9598