# TF2 API 개요

### TensorFlow2 API 알아보기

가장 간단한 이미지 분류 문제를 풀어가면서 TensorFlow2(Tensorflow V2)를 활용한 모델링을 진행해 보겠다.

TensorFlow2를 활용함에 있어 딥러닝 모델을 다양한 방법으로 작성할 수 있는데요. 이 부분이 처음 TensorFlow 및 딥러닝을 접하시는 분들에게는 큰 허들이 될 수 있다. '하나로 통일해서 하나만 공부하게 해주면 되지, 왜 이렇게 여러 개를 만들어서 고생을 시키지?'라는 생각을 허살 수도 있느데요. 처음에는 헷갈릴 수 있지만, 익숙해지시고 나면 경우에 따라 적합한 모델링 방식을 택해서 사용할 수 있다느 점에서 매우 강력하다고 느낄 수 있을 것이다.

오늘 소개할 TensorFlow2에서 딥러닝 모델을 작성하는 방법에는 크게 3가지가 존재하는데요. 바로 Sequential, Functional, 그리고 Model subclassing이다. 아마 Sequential 모델은 이미 몇 번 사용해 보셔서 정확한 개념을 몰라도 익숙하실 것이다. Functional은 Sequential의 보다 일반화된 개념입니다. 그리고 Subclassing은 클래스로 구현된 기존의 모델을 상속받아 자신만의 모델을 만들어나가는 방식입니다. 세 가지 방법 모두 충분히 숙지하여 자유롭게 활용할 수 있게 되는 것이 중요하다.

#### 1)TensorFlow2 Sequential Model

import tensorflow as tf

from tensorflow import keras

model = keras.Sequential()

model.add(__넣고싶은 레이어__)

model.add(__넣고싶은 레이어__)

model.add(__넣고싶은 레이어__)

model.fit(x, y, epochs=10, batch_size=32)


앞서 자료에서 공부했던 모델은 대부분 위와 같은 형식이었다. model = kears.Sequential() 이라고 선언한 부분이 눈에 띄시나요?

Sequential 모델을 활용하면 손쉽게 딥러닝 모델을 쌓아나갈 수 있다. 입력부터 출력까지 레이어를 그야말로 sequential하게 차곡차곡 add해서 쌓아나가기만 하면 된다. 무엇보다 이 방식은 초보자가 접근하기에 매우 쉽다는 장점이 있다. 그렇지만 모델의 입력과 출력이 여러개인 경우에는 적합하지 않은 모델링 방식이다. Sequential 모델은 반드시 입력 1가지, 출려 1가지를 전체로 한다.

아래 참고 자료에서 Sequential Model로 작성한 모델의 전체 코드를 확인해 준다. 실습 세션에서 해당 모델링을 직접 진행해 볼 예정이다. 

#### TensorFlow2 Function API

import tensorflow as tf

from tensorflow import keras

inputs = keras.Input(shape=(__원하는 입력값 모양__))

x = keras.layers.__넣고싶은 레이어__(관련 파라미터)(input)

x = keras.layers.__넣고싶은 레이어__(관련 파라미터)(x)

outputs = keras.layers.__넣고싶은 레이어__(관련 파라미터)(x)

model = keras.Model(inputs=inputs, outputs=outputs)

model.fit(x,y, epochs=10, batch_size=32)

여기서 위 Sequential Model을 활용하는 것과 다른 점은 바로 keras.Model을 사용한다는 점이다. 그래서 Sequential Model을 쓰는 것보다 더 일반적인 접근인 것이다. Sequential Model이란 사실 keras.Model을 상속받아 확장한 특수 사례에 불과하다. Functional API를 활용하면 앞서 배운 Sequential Model을 활용하는 것보다 더 자유로운 모델링을 진행할 수 있다. Functional이라는 뜻은 뭔가? 함수형으로 모델을 구성한다는 것, 즉 입력과 출력을 규정함으로써 모델 전체를 규정한다는 생각이다. 그래서 이번에는 Input이라는 것을 규정한다. input이 될 수 있는 텐서가 여러 개가 될 수도 있다. 그리고 레이어들을 자유롭게 엮어 출력(output)까지 규정하면 Model이란 바로 inputs와 outputs 만으로 규정된다. 정말 Functional하지 않나요 ?


#### TensorFlow2 Subclassing

import tensorflow as tf

from tensorflow import keras

class CustomModel(keras.Model):

    def __init__(self):
        super(CustomModel, self).__init__()
        self.__정의하고자 하는 레이어__()
        self.__정의하고자 하는 레이어__()
        self.__정의하고자 하는 레이어__()
    
    def call(self, x):
        x = self.__정의하고자 하는 레이어__(x)
        x = self.__정의하고자 하는 레이어__(x)
        x = self.__정의하고자 하는 레이어__(x)
        
        return x
    
model = CustomModel()

model.fit(x,y, epochs=10, batch_size=32)

마지막으로 Subclassing을 활용하면 제일 자유로운 모델리이을 진행할 수 있다. 사실 본질적으로는 Functional한 접근과 차이가 없다. 이것은 keras.Model을 상속받은 모델 클래스를 만드는 것이기 때문이다. 처음 만났던 Sequential Model도 따지고 보면 keras.Model을 상속받은 모델 클래스의 하나일 뿐이다. keras.Model은 위와 같이 __init__() 이라는 메서드 안에서 레이어 구성을 정의한다. 그리고 call()이라는 메서드 안에서 레이어 간 forward propagation을 구현한다. 이것으로 끝이다. 다만, 각 레이어에 대한 깊은 이해가 필요하고 초심자에게 의도치 않은 버그를 유발할 수 있따. 그렇지만, 여러분들이 공부해 나가시면서 복잡한 모델링을 진행하시게 되면 가장 많이 접하게 되실 모델링 스타일이기에 실습 세션에서 다뤄볼 예정이다.

### Tensorflow2 API로 모델 작성하기: MNIST (1) Sequential API 활용

TensorFlow2의 다양한 High-level API에 대해 둘러보았다. 그렇지만 아마도 직접 구현을 해보기 전에는 붕 뜬구름 같은 느낌이다. 그래서 우리는 앞서 본 TensorFlow2의 다양한 High-level API를 활용해서 이미지 문제를 풀어볼 예정이다.

총 2가지의 문제를 3가지 AOI 모두를 활용하여 구현해 볼 예정이고, 이 과정은 최대한 여러분들 스스로 진행하는 것을 목표로 하자.

In [1]:
import tensorflow as tf
from tensorflow import keras
import numpy as np

In [2]:
# 데이터 구성부분
mnist = keras.datasets.mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

x_train=x_train[...,np.newaxis]
x_test=x_test[...,np.newaxis]

print(len(x_train), len(x_test))

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
60000 10000


In [3]:
# Sequential Model을 구성해주세요.
"""
Spec:
1. 32개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
2. 64개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
3. Flatten 레이어
4. 128개의 아웃풋 노드를 가지고, activation function이 relu인 Fully-Connected Layer(Dense)
5. 데이터셋의 클래스 개수에 맞는 아웃풋 노드를 가지고, activation function이 softmax인 Fully-Connected Layer(Dense)
"""

model = keras.Sequential([
    keras.layers.Conv2D(32, 3, activation='relu'),
    keras.layers.Conv2D(64, 3, activation='relu'),
    keras.layers.Flatten(),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dense(10, activation='softmax')
])

In [4]:
# 모델 학습 설정
# 5 epochs 학습에 20분 정도 소요됩니다.
# 잠시 스트레칭하고 휴식을 취해보아요~
# (빠르게 동작 여부만 확인하고 싶으시면 epochs 값을 줄여주세요.)

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 0.0524 - accuracy: 0.9875 - 828ms/epoch - 3ms/step


[0.05244576930999756, 0.987500011920929]

### Tensorflow2 API로 모델 작성하기:MNIST (2) Functional API

이번에도 이전 스텝과 큰 차이가 없는 내용이다. 다만, 이번에는 keras.Model를 직접 활용하여야 하므로, keras.Input으로 정의된 iput 및 output 레이어 구성을 통해 model을 구현하셔야 한다.

In [5]:
import tensorflow as tf
from tensorflow import keras
import numpy as np

In [6]:
mnist = keras.datasets.mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

x_train=x_train[...,np.newaxis]
x_test=x_test[...,np.newaxis]

print(len(x_train), len(x_test))

60000 10000


In [7]:
"""
Spec:
0. (28X28X1) 차원으로 정의된 Input
1. 32개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
2. 64개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
3. Flatten 레이어
4. 128개의 아웃풋 노드를 가지고, activation function이 relu인 Fully-Connected Layer(Dense)
5. 데이터셋의 클래스 개수에 맞는 아웃풋 노드를 가지고, activation function이 softmax인 Fully-Connected Layer(Dense)
"""


inputs = keras.Input(shape=(28, 28, 1))

x = keras.layers.Conv2D(32, 3, activation='relu')(inputs)
x = keras.layers.Conv2D(64, 3, activation='relu')(x)
x = keras.layers.Flatten()(x)
x = keras.layers.Dense(128, activation='relu')(x)
predictions = keras.layers.Dense(10, activation='softmax')(x)

model = keras.Model(inputs=inputs, outputs=predictions)

In [8]:
# 모델 학습 설정
# 5 epochs 학습에 20분 정도 소요됩니다.
# 잠시 스트레칭하고 휴식을 취해보아요~
# (빠르게 동작 여부만 확인하고 싶으시면 epochs 값을 줄여주세요.)

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 0.0521 - accuracy: 0.9878 - 713ms/epoch - 2ms/step


[0.05205900967121124, 0.9878000020980835]

어떻습니까, 이번 스텝의 결과는 이전 스텝과 비교해 큰 차이가 나지 않는다는 것을 확인하셨나요?

### Tensorflow2 API로 모델 작성하기: MNIST (3) Subclassing

마지막으로 Subclassing 방법이다. keras.Model을 상속받은 클래스를 만드는 것이다. __init__() 메서드 안에서 레이어를 선언하고, call() 메서드 안에서 forward propagation을 구현하는 방식임을 기억하자. Functional 방식과 비교하자면, call()의 입력이 Input이고, call()의 리턴값이 Output이 되는 것이다.

In [9]:
import tensorflow as tf
from tensorflow import keras
import numpy as np

In [10]:
# 데이터 구성부분
mnist = keras.datasets.mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

x_train=x_train[...,np.newaxis]
x_test=x_test[...,np.newaxis]

print(len(x_train), len(x_test))

60000 10000


In [11]:
# Subclassing을 활용한 Model을 구성해주세요.
"""
Spec:
0. keras.Model 을 상속받았으며, __init__()와 call() 메서드를 가진 모델 클래스
1. 32개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
2. 64개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
3. Flatten 레이어
4. 128개의 아웃풋 노드를 가지고, activation function이 relu인 Fully-Connected Layer(Dense)
5. 데이터셋의 클래스 개수에 맞는 아웃풋 노드를 가지고, activation function이 softmax인 Fully-Connected Layer(Dense)
6. call의 입력값이 모델의 Input, call의 리턴값이 모델의 Output
"""

class CustomModel(keras.Model):
    def __init__(self):
        super().__init__()
        self.conv1 = keras.layers.Conv2D(32, 3, activation='relu')
        self.conv2 = keras.layers.Conv2D(64, 3, activation='relu')
        self.flatten = keras.layers.Flatten()
        self.fc1 = keras.layers.Dense(128, activation='relu')
        self.fc2 = keras.layers.Dense(10, activation='softmax')
        
    def call(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = self.flatten(x)
        x = self.fc1(x)
        x = self.fc2(x)
        
        return x
        
model = CustomModel()

In [12]:
# 모델 학습 설정
# 5 epochs 학습에 20분 정도 소요됩니다.
# 잠시 스트레칭하고 휴식을 취해보아요~
# (빠르게 동작 여부만 확인하고 싶으시면 epochs 값을 줄여주세요.)

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 0.0536 - accuracy: 0.9874 - 719ms/epoch - 2ms/step


[0.05358916148543358, 0.9873999953269958]

### TensorFlow2 API로 모델 작성 및 학습하기: CIFAR-100 (1)

In [13]:
import tensorflow as tf
from tensorflow import keras

In [14]:
# 데이터 구성부분
cifar100 = keras.datasets.cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print(len(x_train), len(x_test))

Downloading data from https://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz
50000 10000


In [15]:
# Sequential Model을 구성해주세요.
"""
Spec:
1. 16개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
2. pool_size가 2인 MaxPool 레이어
3. 32개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
4. pool_size가 2인 MaxPool 레이어
5. Flatten 레이어
6. 256개의 아웃풋 노드를 가지고, activation function이 relu인 Fully-Connected Layer(Dense)
7. 데이터셋의 클래스 개수에 맞는 아웃풋 노드를 가지고, activation function이 softmax인 Fully-Connected Layer(Dense)
"""

model = keras.Sequential([
    keras.layers.Conv2D(16, 3, activation='relu'),
    keras.layers.MaxPool2D((2,2)),
    keras.layers.Conv2D(32, 3, activation='relu'),
    keras.layers.MaxPool2D((2,2)),
    keras.layers.Flatten(),
    keras.layers.Dense(256, activation='relu'),
    keras.layers.Dense(100, activation='softmax')
])

### Tensorflow2 API로 모델 작성 및 학습하기: CIFAR-100 (2) Functional API 활용

이번에도 이전 스텝과 큰 차이가 없는 내용이다. 다만, 이번에는 keras.Model을 직접 활용하여야 하므로, keras.Input으로 정의된 input 및 output 레이어 구성을 통해 model을 구현하셔야 한다.

In [16]:
import tensorflow as tf
from tensorflow import keras

In [17]:
cifar100 = keras.datasets.cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print(len(x_train), len(x_test))

50000 10000


In [18]:
# Functional API를 활용한 Model을 구성해주세요.
"""
Spec:
0. (32X32X3) 차원으로 정의된 Input
1. 16개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
2. pool_size가 2인 MaxPool 레이어
3. 32개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
4. pool_size가 2인 MaxPool 레이어
5. Flatten 레이어
6. 256개의 아웃풋 노드를 가지고, activation function이 relu인 Fully-Connected Layer(Dense)
7. 데이터셋의 클래스 개수에 맞는 아웃풋 노드를 가지고, activation function이 softmax인 Fully-Connected Layer(Dense)
"""

cifar100 = keras.datasets.cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print(len(x_train), len(x_test))

50000 10000


In [19]:
# 모델 학습 설정
# 5 epochs 학습에 5분 정도 소요됩니다.
# (빠르게 동작 여부만 확인하고 싶으시면 epochs 값을 낮게 설정해주세요.)

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 2.6005 - accuracy: 0.3488 - 697ms/epoch - 2ms/step


[2.6004843711853027, 0.34880000352859497]

### Tensorflow2 API로 모델 작성 및 학습하기: CIFAR-100 (3) Subclassing 활용

마지막으로 Subclassing 방법이다. keras.Model을 상속받은 클래스를 만드는 것이다. init() 메서드 안에서 레이어를 선언하고, call() 메서드 안에서 forward propagation을 구현하는 방식임을 기억해라. Functional 방식과 비교하자면, call()의 입력이 input이고, call()의 리턴값이 Output이 되는 것이다.

여전히 정확도는 40% 미만의 수치일 텐데, 이번 스텝에서는 Subclassing과 함께, 그동안 배웠던 딥러닝 기법을 다양하게 적용해 보는 기회로 삼을 수 있길를 바란다.

In [20]:
import tensorflow as tf
from tensorflow import keras

In [21]:
# 데이터 구성부분
cifar100 = keras.datasets.cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print(len(x_train), len(x_test))

50000 10000


In [22]:
# Subclassing을 활용한 Model을 구성해주세요.
"""
Spec:
0. keras.Model 을 상속받았으며, __init__()와 call() 메서드를 가진 모델 클래스
1. 16개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
2. pool_size가 2인 MaxPool 레이어
3. 32개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
4. pool_size가 2인 MaxPool 레이어
5. Flatten 레이어
6. 256개의 아웃풋 노드를 가지고, activation function이 relu인 Fully-Connected Layer(Dense)
7. 데이터셋의 클래스 개수에 맞는 아웃풋 노드를 가지고, activation function이 softmax인 Fully-Connected Layer(Dense)
8. call의 입력값이 모델의 Input, call의 리턴값이 모델의 Output
"""

class CustomModel(keras.Model):
    def __init__(self):
        super().__init__()
        self.conv1 = keras.layers.Conv2D(16, 3, activation='relu')
        self.maxpool1 = keras.layers.MaxPool2D((2,2))
        self.conv2 = keras.layers.Conv2D(32, 3, activation='relu')
        self.maxpool2 = keras.layers.MaxPool2D((2,2))
        self.flatten = keras.layers.Flatten()
        self.fc1 = keras.layers.Dense(256, activation='relu')
        self.fc2 = keras.layers.Dense(100, activation='softmax')
        
    def call(self, x):
        x = self.conv1(x)
        x = self.maxpool1(x)
        x = self.conv2(x)
        x = self.maxpool2(x)
        x = self.flatten(x)
        x = self.fc1(x)
        x = self.fc2(x)
        
        return x
        
model = CustomModel()

In [23]:
# 모델 학습 설정
# 5 epochs 학습에 5분 정도 소요됩니다.
# (빠르게 동작 여부만 확인하고 싶으시면 epochs 값을 낮게 설정해주세요.)

# 학습 관련 부분을 작성해주세요
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 2.6066 - accuracy: 0.3505 - 689ms/epoch - 2ms/step


[2.6066033840179443, 0.3504999876022339]

### Gradient Tape의 활용

### Automatic differentiation - GradientTape

우리는 조금 전까지 아주 비슷한 테스크 2개를, 본질적으로 큰 차이가 없는 3개의 모델 구성 방법을 활용하여 딥러닝으로 구현해 보았다. 그 동안 완전히 동일하게 구성했던 것은 바로 아래와 같이 구성된 모델 학습 관련 부분이다.


    model.compile(optimizer='adam',

              loss='sparse_categorical_crossentropy',

              metrics=['accuracy'])

    model.fit(x_train, y_train, epochs=5)

Numpy만 가지고 딥러닝을 구현하는 것을 회상해보자. model.fit()이라는 한 줄로 수행 가능한 딥러닝 모델 훈련 과정은 실제로는 어떠했나요 ?

1. Forward Propagation 수행 및 중간 레이어값 저장
2. Loss 값 계산
3. 중간 레이어값 및 Loss를 활용한 체인룰(chain rule) 방식의 역전파(Backward Propagation) 수행
4. 학습 파라미터 업데이트

이상 4단계로 이루어진 train_step을 여러번 반복했다.

이런 과정이 TF2 API에는 model.fit()이라는 메서드 안에 모두 추상화되어 감추어져 있습니다. 

Tensorflow에서 제공하는 tf.GradientTape는 위와 같이 순전파(forward pass)로 진행된 모든 연산의 중간 레이어값을 tape에 기록하고, 이를 이용해 gradient를 계산한 후 tape를 폐기하는 기능 수행한다. 그러면 아래에서는 이전 스텝에서 진행했던 학습을 tf.GradientTape를 이용한 것으로 변형해 보겠습니다. 아래에서 소개할 tf.GradientTape는 이후 그래디언트를 좀 더 고급스럽게 활용하는 다양한 기법을 통해 자주 만나게 될 것이다.

In [24]:
import tensorflow as tf
from tensorflow import keras

# 데이터 구성부분
cifar100 = keras.datasets.cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print(len(x_train), len(x_test))

# 모델 구성부분
class CustomModel(keras.Model):
    def __init__(self):
        super().__init__()
        self.conv1 = keras.layers.Conv2D(16, 3, activation='relu')
        self.maxpool1 = keras.layers.MaxPool2D((2,2))
        self.conv2 = keras.layers.Conv2D(32, 3, activation='relu')
        self.maxpool2 = keras.layers.MaxPool2D((2,2))
        self.flatten = keras.layers.Flatten()
        self.fc1 = keras.layers.Dense(256, activation='relu')
        self.fc2 = keras.layers.Dense(100, activation='softmax')

    def call(self, x):
        x = self.conv1(x)
        x = self.maxpool1(x)
        x = self.conv2(x)
        x = self.maxpool2(x)
        x = self.flatten(x)
        x = self.fc1(x)
        x = self.fc2(x)

        return x

model = CustomModel()

50000 10000


여기까지는 앞에서 다루었던 Subclassing을 활용한 모델 작성법과 전혀 다르지 않다. 달라지는 것은  model.compile(), model.fit()을 통해 손쉽게 진행했던 학습 세팅 및 수행 부분이다.

    model.compile(optimizer='adam',
                  loss='sparse_categorical_crossentropy',
                  metrics=['accuracy'])

위와 같이 모델 학습을 위해 loss, optimizer를 지정해 주면 내부적으로 매 스텝 학습이 진행될 때마다 발생하는 loss 및 그래디언트가 어떻게 학습 파라미터를 업데이트하게 되는 지를 지정해 주는 작업이 mode.compile() 안에서 자동으로 진행되었다. 아래 코드는 tape.gradient()를 통해 매 스텝 학습이 진행될 때마다 발생하는 그래디언트를 추출한 후 optimizer.apply_gradients()를 통해 발생한 그래디언트가 업데이트해야 할 파라미터 model.trainable_variables를 지정해 주는 과정을 기술한 것이다. 

In [25]:
loss_func = tf.keras.losses.SparseCategoricalCrossentropy()
optimizer = tf.keras.optimizers.Adam()

# tf.GradientTape()를 활용한 train_step
def train_step(features, labels):
    with tf.GradientTape() as tape:
        predictions = model(features)
        loss = loss_func(labels, predictions)
        gradients = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))
    return loss

위와 같이 매 스텝 진행되는 학습이 실제 동작이 train_step() 메서드를 구현되었다.

model.fit(x_train, y_train, epochs=5, batch_size=32)

In [26]:
import time
def train_model(batch_size=32):
    start = time.time()
    for epoch in range(5):
        x_batch = []
        y_batch = []
        for step, (x, y) in enumerate(zip(x_train, y_train)):
            x_batch.append(x)
            y_batch.append(y)
            if step % batch_size == batch_size-1:
                loss = train_step(np.array(x_batch, dtype=np.float32), np.array(y_batch, dtype=np.float32))
                x_batch = []
                y_batch = []
        print('Epoch %d: last batch loss = %.4f' % (epoch, float(loss)))
    print("It took {} seconds".format(time.time() - start))

train_model()

Epoch 0: last batch loss = 3.1209
Epoch 1: last batch loss = 2.5510
Epoch 2: last batch loss = 2.3424
Epoch 3: last batch loss = 2.2501
Epoch 4: last batch loss = 2.1251
It took 81.60394239425659 seconds


이 model.fit()으로 위와 같이 한 줄로 간단하게 수행되던 실제 배치 학습 과정은 다름 아니라 매 스텝마다 위에서 구현했던 train_step()가 호출되는 과정으로 바꾸어 구현할 수 있다. model.fit() 호출 시에 결정되는 batch_size만 이번 스텝에서 결정해 주면 된다.

In [27]:
import time
def train_model(batch_size=32):
    start = time.time()
    for epoch in range(5):
        x_batch = []
        y_batch = []
        for step, (x, y) in enumerate(zip(x_train, y_train)):
            x_batch.append(x)
            y_batch.append(y)
            if step % batch_size == batch_size-1:
                loss = train_step(np.array(x_batch, dtype=np.float32), np.array(y_batch, dtype=np.float32))
                x_batch = []
                y_batch = []
        print('Epoch %d: last batch loss = %.4f' % (epoch, float(loss)))
    print("It took {} seconds".format(time.time() - start))

train_model()

Epoch 0: last batch loss = 1.8924
Epoch 1: last batch loss = 1.7606
Epoch 2: last batch loss = 1.7415
Epoch 3: last batch loss = 1.6944
Epoch 4: last batch loss = 1.6067
It took 81.02636909484863 seconds


어떤가? 위에서 구현한 train_model() 메서드가 실은 우리가 그동안 사용했던 model.fit() 메서드와 기능적으로 같다는 것이 확인되는가?

이렇듯 tf.GradientTape()를 활용하면 model.compile()과 model.fit() 안에 감추어져 있던 한 스텝의 학습 단계(위 예제에서는 train_step 메서드)를 끄집어내서 자유롭게 재구성할 수 있게 된다. 그동안 흔히 다루어 왔던 지도학습 방식과 다른 강화학습 또는 GAN(Generative Advasarial Network)의 학습을 위해서는 train_step 메서드의 재구성이 필수적이므로 tf.GradientTape()의 활용법을 꼭 숙지해야 한다.

In [28]:
# evaluation
prediction = model.predict(x_test, batch_size=x_test.shape[0], verbose=1)
temp = sum(np.squeeze(y_test) == np.argmax(prediction, axis=1))
temp/len(y_test)  # Accuracy



0.3321

그래디언트를 활용할 필요가 없는 evaluation 단계는 기존 model.predict() 메서드를 다시 활용하여 보았다. 충분한 성능을 확인할 수 있을 만큼의 학습이 진행된 상태가 아니니 최종 Accuracy 값은 신경 쓰지 않으셔도 무방하다.
