In [1]:
import numpy as np
import matplotlib.pyplot as plt
import tensorflow_datasets as tfds
import tensorflow as tf
tfds.disable_progress_bar()
physical_devices = tf.config.list_physical_devices('GPU')
print(f'Tensorflow found {len(physical_devices)} GPU.')
tf.config.experimental.set_memory_growth(physical_devices[0], True)

Tensorflow found 1 GPU.


<h1> Dataset에 대해서 알아보자.

기본적으로 Dataset는 한번에 모든 데이터를 메모리에 올리기 힘드니깐 하나씩 스트리밍시키는 방법임. 아마 generater 같은 개념일듯.
여기서는 tensorflow에서 기본적으로 제공하는 데이터세트를 받아서 사용해보자.

<h2><b>첫째로 MNIST 데이터세트를 보자.

In [48]:
(ds_train, ds_test), ds_info = tfds.load('mnist', split=['train', 'test'], shuffle_files=True, as_supervised=True, with_info=True)
# As tuple (as_supervised=True)
# By using as_supervised=True, you can get a tuple (features, label) instead for supervised datasets.

In [51]:
def normalize_img(image, label):
    # Normalize images
    return tf.cast(image, tf.float32)/255.0, label

In [52]:
AUTOTUNE = tf.data.experimental.AUTOTUNE
BATCH_SIZE = 64
ds_train = ds_train.map(normalize_img, num_parallel_calls=AUTOTUNE)  # normalization 프로세스
ds_train = ds_train.cache()
ds_train = ds_train.shuffle(ds_info.splits['train'].num_examples)  # 이게 오히려 맞는 방법인듯.
ds_train = ds_train.batch(BATCH_SIZE)
ds_train = ds_train.prefetch(AUTOTUNE)

ds_test = ds_test.map(normalize_img, num_parallel_calls=AUTOTUNE)
ds_test = ds_test.batch(128)
ds_test = ds_test.prefetch(AUTOTUNE)

In [54]:
model = tf.keras.models.Sequential([
    tf.keras.layers.Input(ds_info.features['image'].shape),
    tf.keras.layers.Conv2D(32, 3, activation='relu'),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(10)
])

model.compile(
    optimizer=tf.optimizers.Adam(lr=0.001),
    loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    metrics=['accuracy']
)

model.fit(ds_train, epochs=5, verbose=2)
model.evaluate(ds_test)

Epoch 1/5
938/938 - 15s - loss: 0.2142 - accuracy: 0.9396
Epoch 2/5
938/938 - 2s - loss: 0.0763 - accuracy: 0.9777
Epoch 3/5
938/938 - 2s - loss: 0.0543 - accuracy: 0.9837
Epoch 4/5
938/938 - 2s - loss: 0.0430 - accuracy: 0.9870
Epoch 5/5
938/938 - 2s - loss: 0.0346 - accuracy: 0.9890


[0.0697445347905159, 0.978600025177002]

아래 코드를 사용해서 데이터세트 예시를 볼 수 있다. -- 이미지 파일만 가능한듯.
tfds.show_examples(mnist_dataset['train'], mnist_info)

<h2><b>여기부터는 IMDB 데이터세트를 보자.

In [57]:
(imdbds_train, immdbds_test), imdb_info = tfds.load(
    'imdb_reviews',
    split=['train', 'test'],
    shuffle_files=True,
    as_supervised=True,
    with_info=True
)

In [58]:
ds_info

tfds.core.DatasetInfo(
    name='mnist',
    full_name='mnist/3.0.1',
    description="""
    The MNIST database of handwritten digits.
    """,
    homepage='http://yann.lecun.com/exdb/mnist/',
    data_path='C:\\Users\\kye09\\tensorflow_datasets\\mnist\\3.0.1',
    download_size=11.06 MiB,
    dataset_size=21.00 MiB,
    features=FeaturesDict({
        'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
    }),
    supervised_keys=('image', 'label'),
    splits={
        'test': <SplitInfo num_examples=10000, num_shards=1>,
        'train': <SplitInfo num_examples=60000, num_shards=1>,
    },
    citation="""@article{lecun2010mnist,
      title={MNIST handwritten digit database},
      author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
      journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
      volume={2},
      year={2010}
    }""",
)

In [59]:
# NLP를 하려면 1. Vocab 만들기 2. Tokenizing(encoding) 3. embedding

In [None]:
tokenizer = tfds.features.text.Tokenizer()

# 1. vocab 만들기
def build_vocabulary():
    '''데이터 세트를 한번 훑으면서 vocab 만들기. 그래도 하나씩만 꺼내오니깐 메모리 덜먹음.'''
    vocabulary = set()
    for text, _ in ds_train:
        vocabulary.update(tokenizer.tokenize(text.numpy().lower()))
    return vocabulary

vocabulary = build_vocabulary()

encoder = tfds.featuers.text.TokenTextencoder(
    vocabulary, oov_token = '<UNK>', lowercase=True, tokenizer=tokenizer
)

def my_encoding(text_tensor, label):
    '''use tensoflow's encoder to process words in text to indices of vocab'''
    return encoder.encode(text_tensor.numpy()), label

# 여기서 my_encoding 함수를 tensorflow graph에 포함시키고 싶다. 왜냐하면 dataset이 하나씩 stream해 주는 것을
# 받아서 process 해야 하는 과정이기 때문. 데이터 전부가 메모리에 올라와 있었다면 이런거 안해도 되지. 
# 다른 방법으로는 그냥 tensorflow에서 주는 encoding, embedding layer 사용해면 된다. 만약 layer로 제공되지 않는 process를 해야한다면 
# 이렇게 해라.

def encode_map(text, label): 
    encoded_text, label = tf.py_function(
        my_encoding, inp=[text, label], Tout=(tf.int64, tf.int64)
    )
    encoded_text.set_shape([None])
    label.set_shape([])  # integer
    return encoded_text, label 

AUTOTUNE = tf.data.experimental.AUTOTUNE

ds_train = ds_train.map(encoded_map, num_parallel_calls=AUTOTUNE).cache()
ds_train = ds_train.shuffle(10_000)
ds_train = ds_train.padded_batch(32, padded_shapes=([None], ()))  # specify which axis to pad.(None part)
ds_train = ds_train.prefetch(AUTOTUNE)

ds_test = ds_test.map(encode_map)
ds_test = ds_test.padded_batch(32, padded_shape=([None], ()))

model = tf.keras.models.Sequential([
    tf.keras.layers.Masking(mask_value=0) # 패딩 파트에 0을 집어넣고 거기는 computation하지 말라고 말해주는 것.
    tf.keras.layers.Embedding(input_dim=len(vocabulary)+2, output_dim=32)  # 왜 +2나고? 1. 패딩에 들어가는 0, 2. OOV(<UNK>) output_dim이 embedding dimension임.
    # 보통 한 300정도 쓴다. 여튼 각 단어마다 32개의 dimension을 부여함.
    tf.keras.layers.GlobalAveragePool1D(), # 이전 레이어에서 나온 32 dim마다 average를 계산해줌
    '''GAP layers perform a more extreme type of dimensionality reduction, 
    where a tensor with dimensions h×w×d is reduced in size to have dimensions 1×1×d. 
    GAP layers reduce each h×w feature map to a single number by simply taking the average of all hw values.'''
    tf.keras.layers.Dense(64, activation = 'relu')
    tf.keras.layers.Dense(1)  # >0 --> positive, <0 --> negative review
])

# 아까는 class가 2개 초과 였으므로 sparse categorical cross entropy사용
# 2개일 때는 binary
model.compile(
    loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
    optimizer=keras.optimizers.Adam(3e-4, clipnorm=1),
    metrics=['accuracy']
)

model.fit(ds_train, epoch=10, verbose=2)
model.evaluate(ds_test)
