In [None]:
import numpy as np
import os
import PIL
import PIL.Image
import tensorflow as tf
import tensorflow_datasets as tfds

## 꽃 데이터 세트 다운로드하기

In [None]:
import pathlib
dataset_url = "https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz"
data_dir = tf.keras.utils.get_file(origin=dataset_url, 
                                   fname='flower_photos', 
                                   untar=True)
data_dir = pathlib.Path(data_dir)

In [None]:
image_count = len(list(data_dir.glob('*/*.jpg')))
print(image_count)

In [None]:
roses = list(data_dir.glob('roses/*'))
PIL.Image.open(str(roses[0]))

# Keras.preprocessing을 사용하여 로드하기

## 데이터세트 만들기 

로더를 위해 일부 매개변수를 정의한다.

In [None]:
batch_size = 32
img_height = 180
img_width = 180

In [None]:
train_ds = tf.keras.preprocessing.image_dataset_from_directory(
  data_dir,
  validation_split=0.2,
  subset="training",
  seed=123,
  image_size=(img_height, img_width),
  batch_size=batch_size)

In [None]:
val_ds = tf.keras.preprocessing.image_dataset_from_directory(
  data_dir,
  validation_split=0.2,
  subset="validation",
  seed=123,
  image_size=(img_height, img_width),
  batch_size=batch_size)

In [None]:
class_names = train_ds.class_names
print(class_names)

## 데이터 시각화

훈련 데이터의 처음 이미지 9개를 시각화한다.

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 10))
for images, labels in train_ds.take(1):
  for i in range(9):
    ax = plt.subplot(3, 3, i + 1)
    plt.imshow(images[i].numpy().astype("uint8"))
    plt.title(class_names[labels[i]])
    plt.axis("off")

이러한 데이터세트를 사용하는 모델을 model.fit에 전달하여 모델을 훈련할 수 있다. 원하는 경우 데이터 셋을 수동으로 반복하고 이미지 배치를 검색할수도 있다.

In [None]:
for image_batch, labels_batch in train_ds:
  print(image_batch.shape)
  print(labels_batch.shape)
  break

image_batch는 형상(32,180,180,3)의 텐서이다. 이것은 형상 180 * 180 * 3의 32개 이미지 배치이다. (마지막 치수는 색상채널 RGB를 나타냄) label_batch는 형상(32,)의 텐서이며 32개의 이미지에 해당하는 레이블이다.

> 참고: 이들 텐서 중 하나에서 .numpy()를 호출하여 numpy.ndarray로 변환할 수 있다.

## 데이터 표준화하기

RGB 채널 값은 [0, 255] 범위에 있다. 신경망에는 이상적이지 않고, 일반적으로 입력값을 작게 만들어야 한다. 여기서는 Rescaling 레이어를 사용하여 값을 [0,1]로 표준화한다.

In [None]:
from tensorflow.keras import layers

normalization_layer = tf.keras.layers.experimental.preprocessing.Rescaling(1./255)

이 레이어를 사용하는 방법은 두가지가 있다. map을 호출하여 데이터 세트에 레이어를 적용할 수도 있다.

In [None]:
normalized_ds = train_ds.map(lambda x, y: (normalization_layer(x), y))
image_batch, labels_batch = next(iter(normalized_ds))
first_image = image_batch[0]
# Notice the pixels values are now in `[0,1]`.
print(np.min(first_image), np.max(first_image))

또는 모델 정의 내에 레이어를 포함하여 배포를 단순화할 수 있다. 여기서는 두번째 접근 방식을 사용할 것이다. 

> 참고 : 이전에 image_dataset_from_directory 의 image_size 인수를 사용하여 이미지 크기를 조정했다. 모델에 크기 조정 논리를 포함하려면 Resizing 레이어를 대신 사용할 수 있다.

## 성능을 위한 데이터 세트 구성하기

버퍼링 된 프리페치를 사용하여 I/O가 차단되지 않고 디스크에서 데이터를 생성할 수 있도록 한다. 데이터를 로드할 때 사용해야 하는 두가지 중요한 메서드가 있다.

.cache()는 첫번째 epoch 동안 디스크에서 이미지를 로드한 후 이미지를 메모리에 유지한다. 이렇게 하면 모델을 훈련하는 동안 데이터 ㅅ세트가 병목 상태가 되지 않는다. 데이터 세트가 너무 커서 메모리에 맞지 않는 경우, 이 메서드를 사용하여 성능이 높은 온디스크 캐시를 생성할 수도 있다.

.prefetch()는 훈련 중에 데이터 전처리 및 모델 실행과 겹친다.



In [None]:
AUTOTUNE = tf.data.experimental.AUTOTUNE

train_ds = train_ds.cache().prefetch(buffer_size=AUTOTUNE)
val_ds = val_ds.cache().prefetch(buffer_size=AUTOTUNE)

## 모델 훈련하기

완전성을 위해 준비한 데이터 세트를 사용하여 간단한 모델을 훈련하는 방법을 보여준다. 이 모델은 어떤 식으로든 조정되지 않았다. 목표는 방금 만든 데이터세트를 사용하여 역학을 보여주는 것이다.

In [None]:
num_classes = 5

model = tf.keras.Sequential([
  layers.experimental.preprocessing.Rescaling(1./255),
  layers.Conv2D(32, 3, activation='relu'),
  layers.MaxPooling2D(),
  layers.Conv2D(32, 3, activation='relu'),
  layers.MaxPooling2D(),
  layers.Conv2D(32, 3, activation='relu'),
  layers.MaxPooling2D(),
  layers.Flatten(),
  layers.Dense(128, activation='relu'),
  layers.Dense(num_classes)
])

In [None]:
model.compile(
  optimizer='adam',
  loss=tf.losses.SparseCategoricalCrossentropy(from_logits=True),
  metrics=['accuracy'])

In [None]:
model.fit(
  train_ds,
  batch_size=batch_size,
  validation_data=val_ds,
  epochs=3
)

# 미세 제어를 위해 tf.data. 사용하기

위의 keras.preprocessing 유틸리티는 이미지의 디레고리에서 tf.data.Dataset을 작성하는 편리한 방법이다. 보다 세밀한 제어를 위해 tf.data을 사용하여 자체 입력 파이프라인을 작성할 수 있다. 이 섹션에서는 이전에 다운로드한 zip 파일 경로부터 시작하여 이를 수행하는 과정을 보자.

In [None]:
list_ds = tf.data.Dataset.list_files(str(data_dir/'*/*'), shuffle=False)
list_ds = list_ds.shuffle(image_count, reshuffle_each_iteration=False)

In [None]:
for f in list_ds.take(5):
  print(f.numpy())

In [None]:
# 파일의 트리 구조를 사용하여 class_names 목록을 컴파일 할 수 있다.

class_names = np.array(sorted([item.name for item in data_dir.glob('*') if item.name != "LICENSE.txt"]))
print(class_names)

In [None]:
val_size = int(image_count * 0.2)
train_ds = list_ds.skip(val_size)
val_ds = list_ds.take(val_size)

In [None]:
# 데이터세트의 길이

print(tf.data.experimental.cardinality(train_ds).numpy())
print(tf.data.experimental.cardinality(val_ds).numpy())

In [None]:
def get_label(file_path):
  # convert the path to a list of path components
  parts = tf.strings.split(file_path, os.path.sep)
  # The second to last is the class-directory
  one_hot = parts[-2] == class_names
  # Integer encode the label
  return tf.argmax(one_hot)

In [None]:
def decode_img(img):
  # convert the compressed string to a 3D uint8 tensor
  img = tf.image.decode_jpeg(img, channels=3)
  # resize the image to the desired size
  return tf.image.resize(img, [img_height, img_width])

In [None]:
def process_path(file_path):
  label = get_label(file_path)
  # load the raw data from the file as a string
  img = tf.io.read_file(file_path)
  img = decode_img(img)
  return img, label

Dataset.map을 이요하여 image, label 쌍의 데이터 세트를 작성한다.

In [None]:
# Set `num_parallel_calls` so multiple images are loaded/processed in parallel.
train_ds = train_ds.map(process_path, num_parallel_calls=AUTOTUNE)
val_ds = val_ds.map(process_path, num_parallel_calls=AUTOTUNE)

In [None]:
for image, label in train_ds.take(1):
  print("Image shape: ", image.numpy().shape)
  print("Label: ", label.numpy())

## 성능을 위한 데이터세트 구성하기

이 데이터 세트로 모델을 훈려하려면 데이터에 대해 다음이 필요하다.

> 잘 섞는다.

> 배치 처리 한다.

> 가능한 빨리 배치를 사용할 수 있어야한다.

이러한 기능은 tf.data API를 사용하여 추가할 수 있다. 

In [None]:
def configure_for_performance(ds):
  ds = ds.cache()
  ds = ds.shuffle(buffer_size=1000)
  ds = ds.batch(batch_size)
  ds = ds.prefetch(buffer_size=AUTOTUNE)
  return ds

train_ds = configure_for_performance(train_ds)
val_ds = configure_for_performance(val_ds)

## 데이터 시각화하기

이 데이터세트를 이전에 작성한 데이터 세트와 유사하게 시각화할 수 있다.

In [None]:
image_batch, label_batch = next(iter(train_ds))

plt.figure(figsize=(10, 10))
for i in range(9):
  ax = plt.subplot(3, 3, i + 1)
  plt.imshow(image_batch[i].numpy().astype("uint8"))
  label = label_batch[i]
  plt.title(class_names[label])
  plt.axis("off")

## 모델 계속 훈련하기

위의 keras.preprocessing에 의해 작성된 것과 유사한 tf.data.Dataset를 수동으로 빌드한다. 모델 훈련을 계속할 수 있다.

In [None]:
model.fit(
  train_ds,
  validation_data=val_ds,
  epochs=3
)

# TensorFlow 데이터세트 사용하기

In [None]:
(train_ds, val_ds, test_ds), metadata = tfds.load(
    'tf_flowers',
    split=['train[:80%]', 'train[80%:90%]', 'train[90%:]'],
    with_info=True,
    as_supervised=True,
)

In [None]:
num_classes = metadata.features['label'].num_classes
print(num_classes)

In [None]:
get_label_name = metadata.features['label'].int2str

image, label = next(iter(train_ds))
_ = plt.imshow(image)
_ = plt.title(get_label_name(label))

In [None]:
train_ds = configure_for_performance(train_ds)
val_ds = configure_for_performance(val_ds)
test_ds = configure_for_performance(test_ds)

#데이터 증강



In [None]:
pip install -q tf-nightly

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf
import tensorflow_datasets as tfds

from tensorflow.keras import layers
from tensorflow.keras.datasets import mnist

# 데이터세트 다운로드


In [None]:
(train_ds, val_ds, test_ds), metadata = tfds.load(
    'tf_flowers',
    split=['train[:80%]', 'train[80%:90%]', 'train[90%:]'],
    with_info=True,
    as_supervised=True,
)

In [None]:
num_classes = metadata.features['label'].num_classes
print(num_classes)

In [None]:
get_label_name = metadata.features['label'].int2str

image, label = next(iter(train_ds))
_ = plt.imshow(image)
_ = plt.title(get_label_name(label))

# Keras 전처리 레이어 사용하기

## 크기 및 배율 조정하기

In [None]:
IMG_SIZE = 180

resize_and_rescale = tf.keras.Sequential([
  layers.experimental.preprocessing.Resizing(IMG_SIZE, IMG_SIZE),
  layers.experimental.preprocessing.Rescaling(1./255)
])

참고 : 위의 배율 조정 레이어는 픽셀 값을 [0,1]로 표준화 한다. 그렇지 않고 [-1,1]로 원하는 경우 rescaling(1./127.5, offset=-1)을 작성한다.

In [None]:
result = resize_and_rescale(image)
_ = plt.imshow(result)

In [None]:
print("Min and max pixel values:", result.numpy().min(), result.numpy().max())

## 데이터 증강

데이터 증강에도 전처리 레이어를 사용할 수 있다.


In [None]:
data_augmentation = tf.keras.Sequential([
  layers.experimental.preprocessing.RandomFlip("horizontal_and_vertical"),
  layers.experimental.preprocessing.RandomRotation(0.2),
])

In [None]:
# Add the image to a batch
image = tf.expand_dims(image, 0)

In [None]:
plt.figure(figsize=(10, 10))
for i in range(9):
  augmented_image = data_augmentation(image)
  ax = plt.subplot(3, 3, i + 1)
  plt.imshow(augmented_image[0])
  plt.axis("off")

## 전처리 레이어를 사용하는 두 가지 옵션

중요한 절충을 통해 이러한 전처리 레이어를 사용할 수 있는 두가지 방법이 있다.

옵션 1 : 전처리 레이어를 모델의 일부로 만든다.

In [None]:
model = tf.keras.Sequential([
  resize_and_rescale,
  data_augmentation,
  layers.Conv2D(16, 3, padding='same', activation='relu'),
  layers.MaxPooling2D(),
  # Rest of your model
])

이 경우 유의해야할 점이 있다.

> 데이터 증강은 나머지 레이어와 동기적으로 기기에 실해오디며 GPU 가속을 이요한다.

> model.save를 사용하여 모델을 내보낼 때 전처리 레이어가 모델의 나머지 부분과 함께 저장된다. 나중에 이 모델을 배포하면 레이어 구성에 따라 이미지가 자동으로 표준화 된다. 이를 통해 서버측 논리를 다시 구현해야하는 노력을 덜 수 있다.

> 참고 : 데이터 증강은 테스트 할 때 비활성화되므로 입력 이미지는 model.fit(model.evaluate 또는 model.predict가 아님) 호출 중에만 증감된다.기

옵션 2 : 데이터 세트에 전처리 레이어 적용하기기

In [None]:
aug_ds = train_ds.map(
  lambda x, y: (resize_and_rescale(x, training=True), y))

이 접근 방식에서는 Dataset.map을 사용하여 증강 이미지 배치를 생성하는 데이터 ㅅ ㅔ트를 만든다. 이경우는

> 데이터 증강은 CPU 에서 비동기적으로 이루어지며 차단되지 않느다. 아래와 같이 Dataset.prefetch를 사용하여 GPU에서 모델 훈련을 데이터 전처리와 중첩할 수 있다.

> 이 경우, 전처리 레이어는 model.save를 호출할 때 모델과 함께 내보내지지 않는다. 저장하기 전에 이 레이어를 모델에 연결하거나 서버측에서 다시 구현해야 한다. 훈련 후, 내보내기 전에 전처리 레이어를 연결할 수 있다.

## 데이터세트에 전처리 레이어 적용하기

위에서 생성한 전처리 레이어로 훈련, 검증 및 테스트 데이터 세트를 구성한다. 또한 병렬 읽기 ㅁ치 버퍼링 된 프리페치를 사용하여 I/O 차단 없이 디스크에서 배치를 생성하여 성능을 높이도록 데이터 세트를 구성한다. 

> 참고 : 데이터 증강은 훈련 세트에만 적용해야한다.

In [None]:
batch_size = 32
AUTOTUNE = tf.data.experimental.AUTOTUNE

def prepare(ds, shuffle=False, augment=False):
  # Resize and rescale all datasets
  ds = ds.map(lambda x, y: (resize_and_rescale(x), y), 
              num_parallel_calls=AUTOTUNE)

  if shuffle:
    ds = ds.shuffle(1000)

  # Batch all datasets
  ds = ds.batch(batch_size)

  # Use data augmentation only on the training set
  if augment:
    ds = ds.map(lambda x, y: (data_augmentation(x, training=True), y), 
                num_parallel_calls=AUTOTUNE)

  # Use buffered prefecting on all datasets
  return ds.prefetch(buffer_size=AUTOTUNE)

In [None]:
train_ds = prepare(train_ds, shuffle=True, augment=True)
val_ds = prepare(val_ds)
test_ds = prepare(test_ds)

## 모델 훈련하기

In [None]:
model = tf.keras.Sequential([
  layers.Conv2D(16, 3, padding='same', activation='relu'),
  layers.MaxPooling2D(),
  layers.Conv2D(32, 3, padding='same', activation='relu'),
  layers.MaxPooling2D(),
  layers.Conv2D(64, 3, padding='same', activation='relu'),
  layers.MaxPooling2D(),
  layers.Flatten(),
  layers.Dense(128, activation='relu'),
  layers.Dense(num_classes)
])

In [None]:
model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])

In [None]:
epochs=5
history = model.fit(
  train_ds,
  validation_data=val_ds,
  epochs=epochs
)

In [None]:
loss, acc = model.evaluate(test_ds)
print("Accuracy", acc)

## 사용자 정의 데이터 증강

첫번째로는 layer.Lambda 레이어를 생성한다. 이것은 간결한 코드를 작성하는 가장 좋은 방버이다.

두번째로는 서브 클래스를 생성하여 새 레이어를 작성한다. 

In [None]:
def random_invert_img(x, p=0.5):
  if  tf.random.uniform([]) < p:
    x = (255-x)
  else:
    x
  return x

In [None]:
def random_invert(factor=0.5):
  return layers.Lambda(lambda x: random_invert_img(x, factor))

random_invert = random_invert()

In [None]:
plt.figure(figsize=(10, 10))
for i in range(9):
  augmented_image = random_invert(image)
  ax = plt.subplot(3, 3, i + 1)
  plt.imshow(augmented_image[0].numpy().astype("uint8"))
  plt.axis("off")

In [None]:
#서브클래스생성

class RandomInvert(layers.Layer):
  def __init__(self, factor=0.5, **kwargs):
    super().__init__(**kwargs)
    self.factor = factor

  def call(self, x):
    return random_invert_img(x)

In [None]:
_ = plt.imshow(RandomInvert()(image)[0])

# tf.image 사용하기

위의 layers.preprocessing 유틸리티는 편리하다. 보다 세밀한 제어를 위해서는 tf.data 및 tf.image를 사용하여 고유한 데이터 증강 파이프라인 또는 레이어를 작성할 수 있다. 

In [None]:
(train_ds, val_ds, test_ds), metadata = tfds.load(
    'tf_flowers',
    split=['train[:80%]', 'train[80%:90%]', 'train[90%:]'],
    with_info=True,
    as_supervised=True,
)

In [None]:
image, label = next(iter(train_ds))
_ = plt.imshow(image)
_ = plt.title(get_label_name(label))

In [None]:
def visualize(original, augmented):
  fig = plt.figure()
  plt.subplot(1,2,1)
  plt.title('Original image')
  plt.imshow(original)

  plt.subplot(1,2,2)
  plt.title('Augmented image')
  plt.imshow(augmented)

## 이미지 뒤집기


In [None]:
flipped = tf.image.flip_left_right(image)
visualize(image, flipped)

## 이미지 회색조로 만들기

In [None]:
grayscaled = tf.image.rgb_to_grayscale(image)
visualize(image, tf.squeeze(grayscaled))
_ = plt.colorbar()

## 이미지 포화시키기

In [None]:
saturated = tf.image.adjust_saturation(image, 3)
visualize(image, saturated)

## 이미지 밝기 변경하기

In [None]:
bright = tf.image.adjust_brightness(image, 0.4)
visualize(image, bright)

## 이미지 중앙 자르기

In [None]:
cropped = tf.image.central_crop(image, central_fraction=0.5)
visualize(image,cropped)

## 이미지 회전하기

In [None]:
rotated = tf.image.rot90(image)
visualize(image, rotated)

## 데이터 세트에 증강 적용하기

In [None]:
def resize_and_rescale(image, label):
  image = tf.cast(image, tf.float32)
  image = tf.image.resize(image, [IMG_SIZE, IMG_SIZE])
  image = (image / 255.0)
  return image, label

In [None]:
def augment(image,label):
  image, label = resize_and_rescale(image, label)
  # Add 6 pixels of padding
  image = tf.image.resize_with_crop_or_pad(image, IMG_SIZE + 6, IMG_SIZE + 6) 
   # Random crop back to the original size
  image = tf.image.random_crop(image, size=[IMG_SIZE, IMG_SIZE, 3])
  image = tf.image.random_brightness(image, max_delta=0.5) # Random brightness
  image = tf.clip_by_value(image, 0, 1)
  return image, label

## 데이터 세트 구성하기

In [None]:
train_ds = (
    train_ds
    .shuffle(1000)
    .map(augment, num_parallel_calls=AUTOTUNE)
    .batch(batch_size)
    .prefetch(AUTOTUNE)
)

In [None]:
val_ds = (
    val_ds
    .map(resize_and_rescale, num_parallel_calls=AUTOTUNE)
    .batch(batch_size)
    .prefetch(AUTOTUNE)
)

In [None]:
test_ds = (
    test_ds
    .map(resize_and_rescale, num_parallel_calls=AUTOTUNE)
    .batch(batch_size)
    .prefetch(AUTOTUNE)
)