# Chapter 19. 세상에 없는 얼굴 GAN, 오토 인코더





In [8]:
import sys
import numpy as np
import pandas as pd
import sklearn
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

import tensorflow as tf
from tensorflow.keras.layers import Dense, Dropout, Flatten, Conv2D, MaxPooling2D, Embedding, LSTM, Conv1D, MaxPooling1D, Activation, BatchNormalization, LeakyReLU, UpSampling2D, Reshape, Input
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.models import load_model
from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping
from tensorflow.keras.datasets import mnist, reuters, imdb
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.preprocessing.text import text_to_word_sequence, Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

print(f"python: {sys.version}")
print(f"numpy: {np.__version__}")
print(f"pandas: {pd.__version__}")
print(f"sklearn: {sklearn.__version__}")
print(f"matplotlib: {matplotlib.__version__}")
print(f"seaborn: {sns.__version__}")
print(f"tensorflow: {tf.__version__}")

python: 3.10.12 (main, Nov 20 2023, 15:14:05) [GCC 11.4.0]
numpy: 1.25.2
pandas: 1.5.3
sklearn: 1.2.2
matplotlib: 3.7.1
seaborn: 0.13.1
tensorflow: 2.15.0


## 1. 가짜 제조 공장, 생성자

> DCGAN 기준

생성자(generator)는 가상의 이미지를 만들어 내는 공장

처음에는 랜덤한 픽셀 값으로 채워진 가짜 이미지로 시작해서 판별자의 판별 결과에 따라 지속적으로 업데이트하며 점차 원하는 이미지를 만들어 감

옵티마이저를 사용하는 최적화 과정이나 컴파일 과정이 없음
> 판별과 학습이 이곳 생성자에서 일어나는 것이 아니기 때문

풀링 과정이 없는 대신 패딩 과정이 포함

배치 정규화(Batch Normalization)

> 입력 데이터의 평균이 0, 분산이 1이 되도록 재배치 하는 것.  
> 다음 층으로입력될 값을 일정하게 재배치 하는 역할.  
> 이 과정을 통해 층의 개수가 늘어나도 안정적인 학습을 진행할 수 있음

생성자의 활성화 함수르논 relu, 판별자로 넘겨주기 직전에는 tanh

In [5]:
generator = Sequential()
generator.add(Dense(128*7*7, input_dim=100, activation=LeakyReLU(0.2)))
generator.add(BatchNormalization())
generator.add(Reshape((7, 7, 128)))
generator.add(UpSampling2D())
generator.add(Conv2D(64, kernel_size=5, padding='same'))
generator.add(BatchNormalization())
generator.add(Activation(LeakyReLU(0.2)))
generator.add(UpSampling2D())
generator.add(Conv2D(1, kernel_size=5, padding='same', activation='tanh'))

판별자(discriminator)

- 이 부분은 컨볼루션 신경망의 구조를 그대로 가지고와서 만들면 됨
- 컨볼루션 신경망이란 원래 무언가를 구별하는 데 최적화된 알고리즘이기 때문에 그 목적 그대로 사용하면 되는 것
- 주의할 점은 이 판별자는 가짜인지 진짜인지 판별만 해줄 뿐, 자기 자신이 학습을 해서는 안 된다는 것# 생성자와 판별자 모델을 연결시키는 gan 모델을 만듭니다.
ginput = Input(shape=(100,))
dis_output = discriminator(generator(ginput))
gan = Model(ginput, dis_output)
gan.compile(loss='binary_crossentropy', optimizer='adam')
gan.summary()

In [7]:
discriminator = Sequential()
discriminator.add(Conv2D(64, kernel_size=5, strides=2, input_shape=(28,28,1), padding="same"))
discriminator.add(Activation(LeakyReLU(0.2)))
discriminator.add(Dropout(0.3))
discriminator.add(Conv2D(128, kernel_size=5, strides=2, padding="same"))
discriminator.add(Activation(LeakyReLU(0.2)))
discriminator.add(Dropout(0.3))
discriminator.add(Flatten())
discriminator.add(Dense(1, activation='sigmoid'))
discriminator.compile(loss='binary_crossentropy', optimizer='adam')
discriminator.trainable = False

학습이 진행될수록 생성자가 만든 G(input) 이 실제와 너무나 가까워져서 이것으로 만든 D(G(input)) 과 실제 데이터로 만든 D(X) 를 잘 구분하지 못하게 됨

너무나 유사해진 D(G(input)) 과 D(X) 를 판별자가 더는 구별하지 못하게 되어 정확도가 0.5에 가까워질때 비로소 생성자는 자신의 역할을 다하게 되어 학습은 종료

In [9]:
# 생성자와 판별자 모델을 연결시키는 gan 모델을 만듭니다.
ginput = Input(shape=(100,))
dis_output = discriminator(generator(ginput))
gan = Model(ginput, dis_output)
gan.compile(loss='binary_crossentropy', optimizer='adam')
gan.summary()

Model: "model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_1 (InputLayer)        [(None, 100)]             0         
                                                                 
 sequential_1 (Sequential)   (None, 28, 28, 1)         865281    
                                                                 
 sequential_3 (Sequential)   (None, 1)                 212865    
                                                                 
Total params: 1078146 (4.11 MB)
Trainable params: 852609 (3.25 MB)
Non-trainable params: 225537 (881.00 KB)
_________________________________________________________________


`train_on_batch(x, y)` 함수는 입력 값(x) 와 레이블(y)를 받아서 딱 한 번 학습을 실시해 모델을 업데이트

In [None]:
def gan_train(epoch, batch_size, saving_interval):

  # MNIST 데이터를 불러옵니다.

  (X_train, _), (_, _) = mnist.load_data()  # 앞서 불러온 적 있는 MNIST를 다시 이용합니다. 단, 테스트 과정은 필요 없고 이미지만 사용할 것이기 때문에 X_train만 불러왔습니다.
  X_train = X_train.reshape(X_train.shape[0], 28, 28, 1).astype('float32')
  X_train = (X_train - 127.5) / 127.5  # 픽셀 값은 0에서 255 사이의 값입니다. 이전에 255로 나누어 줄때는 이를 0~1 사이의 값으로 바꾸었던 것인데, 여기서는 127.5를 빼준 뒤 127.5로 나누어 줌으로 인해 -1에서 1사이의 값으로 바뀌게 됩니다.
  # X_train.shape, Y_train.shape, X_test.shape, Y_test.shape

  true = np.ones((batch_size, 1))
  fake = np.zeros((batch_size, 1))

  for i in range(epoch):
          # 실제 데이터를 판별자에 입력하는 부분입니다.
          idx = np.random.randint(0, X_train.shape[0], batch_size)
          imgs = X_train[idx]
          d_loss_real = discriminator.train_on_batch(imgs, true)

          # 가상 이미지를 판별자에 입력하는 부분입니다.
          noise = np.random.normal(0, 1, (batch_size, 100))
          gen_imgs = generator.predict(noise)
          d_loss_fake = discriminator.train_on_batch(gen_imgs, fake)

          # 판별자와 생성자의 오차를 계산합니다.
          d_loss = 0.5 * np.add(d_loss_real, d_loss_fake)
          g_loss = gan.train_on_batch(noise, true)

          print('epoch:%d' % i, ' d_loss:%.4f' % d_loss, ' g_loss:%.4f' % g_loss)

        # 이 부분은 중간 과정을 이미지로 저장해 주는 부분입니다. 이 장의 주요 내용과 관련이 없어
        # 소스 코드만 첨부합니다. 만들어진 이미지들은 gan_images 폴더에 저장됩니다.
          if i % saving_interval == 0:
              #r, c = 5, 5
              noise = np.random.normal(0, 1, (25, 100))
              gen_imgs = generator.predict(noise)

              # Rescale images 0 - 1
              gen_imgs = 0.5 * gen_imgs + 0.5

              fig, axs = plt.subplots(5, 5)
              count = 0
              for j in range(5):
                  for k in range(5):
                      axs[j, k].imshow(gen_imgs[count, :, :, 0], cmap='gray')
                      axs[j, k].axis('off')
                      count += 1
              fig.savefig("./gan_mnist_%d.png" % i)

gan_train(2001, 32, 200)  # 2000번 반복되고, 배치 사이즈는 32,  200번마다 결과가 저장되게 하였습니다.

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
epoch:0  d_loss:0.6899  g_loss:0.4939
epoch:1  d_loss:0.5172  g_loss:0.2053
epoch:2  d_loss:0.5275  g_loss:0.0977
epoch:3  d_loss:0.5063  g_loss:0.1074
epoch:4  d_loss:0.4913  g_loss:0.1745
epoch:5  d_loss:0.4482  g_loss:0.3359
epoch:6  d_loss:0.4314  g_loss:0.5503
epoch:7  d_loss:0.4158  g_loss:0.7112
epoch:8  d_loss:0.4508  g_loss:0.7580
epoch:9  d_loss:0.4582  g_loss:0.7698
epoch:10  d_loss:0.5132  g_loss:0.7685
epoch:11  d_loss:0.5325  g_loss:0.6938
epoch:12  d_loss:0.5662  g_loss:0.6612
epoch:13  d_loss:0.5710  g_loss:0.5414
epoch:14  d_loss:0.4980  g_loss:0.4106
epoch:15  d_loss:0.3987  g_loss:0.3076
epoch:16  d_loss:0.3307  g_loss:0.2387
epoch:17  d_loss:0.2839  g_loss:0.2009
epoch:18  d_loss:0.2490  g_loss:0.1503
epoch:19  d_loss:0.1839  g_loss:0.2345
epoch:20  d_loss:0.1395  g_loss:0.1900
epoch:21  d_loss:0.1609  g_loss:0.1689
epoch:22  d_loss:0.1140  g_loss:0.2223
epoch:23  d_loss:0.11

## 4. 이미지의 특징을 추출하는 오토인코더

오토인코더는 GAN 과 비슷한 결과를 만들지만, 다른 성징을 지니고 있음

GAN 이 세상에 존재하지 않는 완전한 가상의 것을 만들어 내는 반면에, 오토인코더는 입력 데이터의 특징을 효율적으로 담아낸 이미지를 만들어 냄

오토인코더는 어디에 활용할 수 있을지?

- 영상 의학 분야 등 아직 데이터 수가 충분하지 않은 분야

학습 데이터는 현실 세계의 정보를 담고 있어야 하므로, 세상에 존재하지 않는 가상의 것을 집어넣으면 예상치 못한 결과를 가져올 수 있는데, 데이터의 특징을 잘 담아내는 오토 인코더라면 다름

부족한 학습 데이터 수를 효과적으로 늘려 주는 효과를 기대할 수 있음

In [None]:
# MNIST 데이터셋을 불러옵니다.

(X_train, _), (X_test, _) = mnist.load_data()
X_train = X_train.reshape(X_train.shape[0], 28, 28, 1).astype('float32') / 255
X_test = X_test.reshape(X_test.shape[0], 28, 28, 1).astype('float32') / 255

# 생성자 모델을 만듭니다.
autoencoder = Sequential()

# 인코딩 부분입니다.
autoencoder.add(Conv2D(16, kernel_size=3, padding='same', input_shape=(28,28,1), activation='relu'))
autoencoder.add(MaxPooling2D(pool_size=2, padding='same'))
autoencoder.add(Conv2D(8, kernel_size=3, activation='relu', padding='same'))
autoencoder.add(MaxPooling2D(pool_size=2, padding='same'))
autoencoder.add(Conv2D(8, kernel_size=3, strides=2, padding='same', activation='relu'))

# 디코딩 부분입니다.
autoencoder.add(Conv2D(8, kernel_size=3, padding='same', activation='relu'))
autoencoder.add(UpSampling2D())
autoencoder.add(Conv2D(8, kernel_size=3, padding='same', activation='relu'))
autoencoder.add(UpSampling2D())
autoencoder.add(Conv2D(16, kernel_size=3, activation='relu'))
autoencoder.add(UpSampling2D())
autoencoder.add(Conv2D(1, kernel_size=3, padding='same', activation='sigmoid'))

# 전체 구조를 확인합니다.
autoencoder.summary()

In [None]:
# 컴파일 및 학습을 하는 부분입니다.
autoencoder.compile(optimizer='adam', loss='binary_crossentropy')
autoencoder.fit(X_train, X_train, epochs=50, batch_size=128, validation_data=(X_test, X_test))

# 학습된 결과를 출력하는 부분입니다.
random_test = np.random.randint(X_test.shape[0], size=5)  # 테스트할 이미지를 랜덤하게 불러옵니다.
ae_imgs = autoencoder.predict(X_test)                     # 앞서 만든 오토인코더 모델에 집어 넣습니다.

plt.figure(figsize=(7, 2))                         # 출력될 이미지의 크기를 정합니다.

for i, image_idx in enumerate(random_test):        # 랜덤하게 뽑은 이미지를 차례로 나열합니다.
   ax = plt.subplot(2, 7, i + 1)
   plt.imshow(X_test[image_idx].reshape(28, 28))   # 테스트할 이미지를 먼저 그대로 보여줍니다.
   ax.axis('off')
   ax = plt.subplot(2, 7, 7 + i +1)
   plt.imshow(ae_imgs[image_idx].reshape(28, 28))  # 오토인코딩 결과를 다음열에 출력합니다.
   ax.axis('off')
plt.show()