In [None]:
#강의 5 - 서로 다른 크기의 컬러 이미지를 데이터로 갖는 CNN

import tensorflow as tf

#data input pipeline = imagedatagenerator로 구축
from tensorflow.keras.preprocessing.image import ImageDataGenerator

#read files & read directory structures
import os

import matplotlib.pyplot as plt
import numpy as np

import logging
logger = tf.get_logger()
logger.setLevel(logging.ERROR)

In [None]:
#tf.keras.preprocessing.image.ImageDataGenerator
# 디스크에서 데이터를 읽는 용도! -> Kaggle(URL)에서 데이터를 다운받고, 
# Colab(구글 클라우드) 로컬 디렉토리에 저장해야 함
# !! Colab에서는 이렇게 클라우드 디렉토리에 데이터 받고 저장하지만, 일반적인 경우엔
# read등으로 그냥 로컬 파일 불러오면 됨 !!
# 구글 드라이브를 같이 쓰면 거기에서 불러올 수도 있음 (Colab)

_URL = 'https://storage.googleapis.com/mledu-datasets/cats_and_dogs_filtered.zip'

# _URL에서 데이터 다운받고 압축 풀어서 zip_dir에 저장함
zip_dir = tf.keras.utils.get_file('cats_and_dogs_filterted.zip', origin=_URL, extract=True)

In [None]:
#zip_dir_base에, zip_dir의 디렉토리를 넣고, 로컬에서 어디에 있는지 프린트함
# Colab에서는, 클라우드 상의 디렉토리가 출력됨

zip_dir_base = os.path.dirname(zip_dir)
!find $zip_dir_base -type d -print

In [None]:
# zip_dir은 각 데이터별(훈련, validation, 고냥이, 강아지별로 다른 디렉토리를 모두 저장함)
# 그래서 이걸 데이터별로 분리하는 과정임

base_dir = os.path.join(os.path.dirname(zip_dir), 'cats_and_dogs_filtered')
train_dir = os.path.join(base_dir, 'train')
validation_dir = os.path.join(base_dir, 'validation')

train_cats_dir = os.path.join(train_dir, 'cats')  # directory with our training cat pictures
train_dogs_dir = os.path.join(train_dir, 'dogs')  # directory with our training dog pictures
validation_cats_dir = os.path.join(validation_dir, 'cats')  # directory with our validation cat pictures
validation_dogs_dir = os.path.join(validation_dir, 'dogs')  # directory with our validation dog pictures

In [None]:
# 데이터별 디렉토리에 있는 파일 개수로, 훈련 및 validation 데이터셋의 데이터 개수를 셈

num_cats_tr = len(os.listdir(train_cats_dir))
num_dogs_tr = len(os.listdir(train_dogs_dir))

num_cats_val = len(os.listdir(validation_cats_dir))
num_dogs_val = len(os.listdir(validation_dogs_dir))

total_train = num_cats_tr + num_dogs_tr
total_val = num_cats_val + num_dogs_val

In [None]:
print('total training cat images:', num_cats_tr)
print('total training dog images:', num_dogs_tr)

print('total validation cat images:', num_cats_val)
print('total validation dog images:', num_dogs_val)
print("--")
print("Total training images:", total_train)
print("Total validation images:", total_val)

In [None]:
# Batch정의, IMG크기 정의

BATCH_SIZE = 100  # Number of training examples to process before updating our models variables
IMG_SHAPE  = 150  # Our training data consists of images with width of 150 pixels and height of 150 pixels

Images must be formatted into appropriately pre-processed floating point tensors before being fed into the network. The steps involved in preparing these images are:

1. Read images from the disk

2. Decode contents of these images and convert it into proper grid format as per   their RGB content

3. Convert them into floating point tensors

4. Rescale the tensors from values between 0 and 255 to values between 0 and 1, as neural networks prefer to deal with small input values.

Fortunately, all these tasks can be done using the class tf.keras.preprocessing.image.ImageDataGenerator.

>> 이미지를 가져오고, 컬러 채널에 따라 3차원(이상)의 픽셀별 그리드를 만들고,
>> 텐서로 바꾼 후, 픽셀별 0~255 값을 0~1로 정규화함
>> 모든 걸 ImageDataGenerator로!

In [None]:
#Generator 정의: 정규화 과정만 있음

train_image_generator      = ImageDataGenerator(rescale=1./255)  # Generator for our training data
validation_image_generator = ImageDataGenerator(rescale=1./255)  # Generator for our validation data

In [None]:
# Flow from directory -> Generator 이용함 : directory, 바꿀 이미지 크기를 정해야 함

train_data_gen = train_image_generator.flow_from_directory(batch_size=BATCH_SIZE,
                                                           directory=train_dir,
                                                           shuffle=True,
                                                           target_size=(IMG_SHAPE,IMG_SHAPE), #(150,150)
                                                           class_mode='binary')

val_data_gen = validation_image_generator.flow_from_directory(batch_size=BATCH_SIZE,
                                                              directory=validation_dir,
                                                              shuffle=False,
                                                              target_size=(IMG_SHAPE,IMG_SHAPE), #(150,150)
                                                              class_mode='binary')

In [None]:
# matplotlib으로 훈련 데이터 그래프 그리기

#next = traindatagen에서 한 개의 batch를 가져옴 (batch = image, label로 구성된 튜플)
sample_training_images, _ = next(train_data_gen) 

# This function will plot images in the form of a grid with 1 row and 5 columns where images are placed in each column.
def plotImages(images_arr):
    fig, axes = plt.subplots(1, 5, figsize=(20,20))
    axes = axes.flatten()
    for img, ax in zip(images_arr, axes):
        ax.imshow(img)
    plt.tight_layout()
    plt.show()
    
    
plotImages(sample_training_images[:5])  # Plot images 0-4

In [None]:
#모델 제작하기
# Conv2D + MaxPooling 4회, 그리고 Flatten -> 512unit의 인풋 Dense
# Output은 softmax쓰고, 라벨 2개인 Dense

model = tf.keras.Sequential([
    
    tf.keras.layers.Conv2D(32, (3, 3), activation = 'relu', 
                           input_shape = (150, 150, 3)),
    tf.keras.layers.MaxPooling2D(2, 2),
    
    tf.keras.layers.Conv2D(64, (3,3), activation='relu'),
    tf.keras.layers.MaxPooling2D(2,2),
    
    tf.keras.layers.Conv2D(128, (3,3), activation='relu'),
    tf.keras.layers.MaxPooling2D(2,2),
    
    tf.keras.layers.Conv2D(128, (3,3), activation='relu'),
    tf.keras.layers.MaxPooling2D(2,2),
    
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(512, activation = 'relu'),
    tf.keras.layers.Dense(2)
    
    
])

In [None]:
#모델 Compilation
#optimizer = adam, loss = softmax를 사용하므로 SparseCategoricalCrossentropy 사용함
#metric = 각 epoch마다 training set accuracy, 그리고 validation set accuracy를 같이 나타내기 위해 사용함

model.compile(optimizer = 'adam',
             loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
             metrics=['accuracy'])

In [None]:
#우리가 제작한 모델 layer별로 parameter 개수까지 한번에 나타내기
# model.summary()

model.summary()

In [None]:
#모델 Training

#model.fit_generator : 우리가 ImageDataGenerator를 쓰고 있기 때문에, 이걸 씀
# validation_data = (이름) : 훈련 데이터 말고도 validation dataset도 쓰고 있으므로, 훈련할 때 같이 기입함

#이전과는 다르게, 훈련 이전 모델 = model, 훈련 이후 모델 = history로 객체 정의함

EPOCHS = 100

history = model.fit_generator(
        
        train_data_gen,
        steps_per_epoch = int(np.ceil(total_train/ float(BATCH_SIZE))),
        
        epochs = EPOCHS,
        
        validation_data = val_data_gen,
        validation_steps = int(np.ceil(total_val / float(BATCH_SIZE)))

)

이대로 훈련하게 되면,
1. training data에 대한 정확도 = 100%
2. validation data에 대한 정확도 = 75% 가 나오게 됨
>> 모델이 훈련 데이터를 외우고 있음! 즉, 실제로 분류하는데 필요한 internal variable이 아니라, 훈련 데이터만을 분류할 수 있도록 (개, 고양이)의 특징이 아니라 훈련 데이터 사진만의 특징까지 넣어 optimizer가 작동하고 있음.

= overfitting이라고 부름

In [None]:
#그래프 그리기

# 훈련한 모델의 데이터 일부 불러오기

acc = history.history['accuracy']
val_acc = history.history['val_accuracy']

loss = history.history['loss']
val_loss = history.history['val_loss']

epochs_range = range(EPOCHS)


# 현재 figure크기 8x8
plt.figure(figsize=(8, 8))

# 1행 2열로 2개 그래프 분리, 1번 그래프 다룸
plt.subplot(1, 2, 1)

#x값, y값, 라벨
plt.plot(epochs_range, acc, label='Training Accuracy')

#한번 더 쓰면, 위 코드랑 아래 코드 그래프가 동시에 하나에 그려진다는 거
plt.plot(epochs_range, val_acc, label='Validation Accuracy')

#그냥 라벨을 따로 모아서 보여주는 거
plt.legend(loc='lower right')
#제목
plt.title('Training and Validation Accuracy')

#오른쪽 그래프(2번 그래프)를 다룬다는 뜻!
plt.subplot(1, 2, 2)
plt.plot(epochs_range, loss, label='Training Loss')
plt.plot(epochs_range, val_loss, label='Validation Loss')
plt.legend(loc='upper right')
plt.title('Training and Validation Loss')
plt.savefig('./foo.png')

#그래프 화면에 띄우기
plt.show()

** 참고
https://soooprmx.com/matplotlib%EC%9D%98-%EA%B8%B0%EB%B3%B8-%EC%82%AC%EC%9A%A9%EB%B2%95-%EB%B0%8F-%EB%8B%A4%EB%A5%B8-%EC%8B%9C%EA%B0%81%ED%99%94-%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC/
matplotlib에서,

figure = 그래프를 그리는 캔버스 역할
plot = 차트(그래프)
axes = 그래프를 부르는 다른 말! subplots()를 쓸 때 주로 등장하게 됨
axis = x, y 범위의 제한값


plt.() = 현재 figure에 그래프를 그리겠다는 뜻
plt.plot(x축에 넣을 배열, y축에 넣을 배열, 그래프 라벨)
plt.subplot(행, 열, 인덱스) --> plt.subplot(1, 2, 1)은, 한 figure 안에 그래프를 1행, 2열로 그리고(즉, 그래프 두 개를 한 화면에 그리고), 그 중에서 1번 인덱스 그래프(즉, 왼쪽 그래프)를 다루고 있다는 의미. plt.subplot(1,2,1)다음에 나오는 plt.plot은 모두 왼쪽 그래프에만 해당되는 코드임.

A, B = plt.subplots(행, 열, sharex=True)
>> plt.subplots는 figure, axes의 쌍을 반환함! 여기서 sharex는 위랑 아래에 있는 그래프가 x축 공유한다는 뜻
A, B = plt.subplots(2, 2) 이렇게 쓰면, 각 그래프를 다룬다는 뜻으로
B[0,0].plot(x값, y값) --> 2행 2열 중 왼쪽 위 그래프에 선 그래프를 그림
B[1, 1].plot --> 2행 2열 중 오른쪽 아래 그래프

그래프를 그려 보면,

10개 정도의 epoch후에 validation accuracy는 일정히 유지되고, 오히려 validation dataset에 대한 loss는 증가함
하지만 훈련 데이터에 대한 정확도는 1에 가까워지고, loss는 0에 가까워짐

>> overfitting!!

해결법?