## MNIST

In [6]:
import tensorflow as tf
from tensorflow import keras
import numpy as np

In [3]:
# 데이터 구성부분
mnist = keras.datasets.mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

x_train=x_train[...,np.newaxis]
x_test=x_test[...,np.newaxis]

print(len(x_train), len(x_test))

60000 10000


###  Sequential AIP

In [9]:
#sequential model

model = keras.Sequential([
    #32개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
    keras.layers.Conv2D(32, 3, activation = 'relu'),
    #64개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
    keras.layers.Conv2D(64, 3, activation = 'relu'),
    #Flatten 레이어
    keras.layers.Flatten(),
    #128개의 아웃풋 노드를 가지고, activation function이 relu인 Fully-Connected Layer(Dense)
    keras.layers.Dense(128, activation = 'relu'),
    #데이터셋의 클래스 개수에 맞는 아웃풋 노드를 가지고, activation function이 softmax인 Fully-Connected Layer(Dense)
    keras.layers.Dense(10, activation = 'softmax')
                         ])

In [10]:
model.compile(optimizer = 'adam', loss = 'sparse_categorical_crossentropy', 
             metrics=['accuracy'])
model.fit(x_train, y_train, epochs = 5)
model.evaluate(x_test, y_test, verbose = 2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 2s - loss: 0.0528 - accuracy: 0.9875


[0.0528082475066185, 0.987500011920929]

### Functional API

In [11]:
import tensorflow as tf
from tensorflow import keras
import numpy as np

In [12]:
mnist = keras.datasets.mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

x_train=x_train[...,np.newaxis]
x_test=x_test[...,np.newaxis]

print(len(x_train), len(x_test))

60000 10000


In [14]:
inputs = keras.Input(shape = (28, 28, 1))

x = keras.layers.Conv2D(32, 3, activation = 'relu')(inputs)
x = keras.layers.Conv2D(64, 3, activation = 'relu')(x)
x = keras.layers.Flatten()(x)
x = keras.layers.Dense(128, activation = 'relu')(x)

predictions = keras.layers.Dense(10, activation = 'softmax')(x)

model = keras.Model(inputs = inputs, outputs = predictions)

In [15]:
# 모델 학습 설정

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 0.0669 - accuracy: 0.9853


[0.06688259541988373, 0.9853000044822693]

### Subclassing

In [16]:
import tensorflow as tf
from tensorflow import keras
import numpy as np

In [17]:
# 데이터 구성부분
mnist = keras.datasets.mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

x_train=x_train[...,np.newaxis]
x_test=x_test[...,np.newaxis]

print(len(x_train), len(x_test))

60000 10000


In [18]:
#keras.Model 을 상속받았으며, __init__()와 call() 메소드를 가진 모델 클래스
#32개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
#64개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
#Flatten 레이어
#128개의 아웃풋 노드를 가지고, activation function이 relu인 Fully-Connected Layer(Dense)
#데이터셋의 클래스 개수에 맞는 아웃풋 노드를 가지고, activation function이 softmax인 Fully-Connected Layer(Dense)
#call의 입력값이 모델의 Input, call의 리턴값이 모델의 Output


class CustomModel(keras.Model):
    def __init__(self):
        super().__init__()
        self.conv1 = keras.layers.Conv2D(32, 3, activation='relu')
        self.conv2 = keras.layers.Conv2D(64, 3, activation='relu')
        self.flatten = keras.layers.Flatten()
        self.fc1 = keras.layers.Dense(128, activation='relu')
        self.fc2 = keras.layers.Dense(10, activation='softmax')
        
    def call(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = self.flatten(x)
        x = self.fc1(x)
        x = self.fc2(x)
        
        return x
        
model = CustomModel()

In [19]:
# 모델 학습 설정

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 2s - loss: 0.0448 - accuracy: 0.9878


[0.044782355427742004, 0.9878000020980835]

## CIFAR-100

### Sequential API

In [20]:
import tensorflow as tf
from tensorflow import keras

# 데이터 구성부분
cifar100 = keras.datasets.cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print(len(x_train), len(x_test))

50000 10000


In [21]:
#16개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
#pool_size가 2인 MaxPool 레이어
#32개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
#pool_size가 2인 MaxPool 레이어
#256개의 아웃풋 노드를 가지고, activation function이 relu인 Fully-Connected Layer(Dense)
#데이터셋의 클래스 개수에 맞는 아웃풋 노드를 가지고, activation function이 softmax인 Fully-Connected Layer(Dense)

model = keras.Sequential([
    keras.layers.Conv2D(16, 3, activation='relu'),
    keras.layers.MaxPool2D((2,2)),
    keras.layers.Conv2D(32, 3, activation='relu'),
    keras.layers.MaxPool2D((2,2)),
    keras.layers.Flatten(),
    keras.layers.Dense(256, activation='relu'),
    keras.layers.Dense(100, activation='softmax')
])

In [22]:
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 2.5754 - accuracy: 0.3621


[2.575407028198242, 0.3621000051498413]

### Functional API

In [23]:
import tensorflow as tf
from tensorflow import keras

cifar100 = keras.datasets.cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print(len(x_train), len(x_test))

50000 10000


In [24]:
inputs = keras.Input(shape=(32, 32, 3))

x = keras.layers.Conv2D(16, 3, activation='relu')(inputs)
x = keras.layers.MaxPool2D((2,2))(x)
x = keras.layers.Conv2D(32, 3, activation='relu')(x)
x = keras.layers.MaxPool2D((2,2))(x)
x = keras.layers.Flatten()(x)
x = keras.layers.Dense(256, activation='relu')(x)
predictions = keras.layers.Dense(100, activation='softmax')(x)

model = keras.Model(inputs=inputs, outputs=predictions)

In [25]:
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 2.6579 - accuracy: 0.3401


[2.6578991413116455, 0.3400999903678894]

### Subclassing 

In [26]:
import tensorflow as tf
from tensorflow import keras

# 데이터 구성부분
cifar100 = keras.datasets.cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print(len(x_train), len(x_test))

50000 10000


In [27]:
#keras.Model 을 상속받았으며, __init__()와 call() 메소드를 가진 모델 클래스
#16개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
#pool_size가 2인 MaxPool 레이어
#32개의 채널을 가지고, 커널의 크기가 3, activation function이 relu인 Conv2D 레이어
#pool_size가 2인 MaxPool 레이어
#256개의 아웃풋 노드를 가지고, activation function이 relu인 Fully-Connected Layer(Dense)
#데이터셋의 클래스 개수에 맞는 아웃풋 노드를 가지고, activation function이 softmax인 Fully-Connected Layer(Dense)
#call의 입력값이 모델의 Input, call의 리턴값이 모델의 Output

class CustomModel(keras.Model):
    def __init__(self):
        super().__init__()
        self.conv1 = keras.layers.Conv2D(16, 3, activation='relu')
        self.maxpool1 = keras.layers.MaxPool2D((2,2))
        self.conv2 = keras.layers.Conv2D(32, 3, activation='relu')
        self.maxpool2 = keras.layers.MaxPool2D((2,2))
        self.flatten = keras.layers.Flatten()
        self.fc1 = keras.layers.Dense(256, activation='relu')
        self.fc2 = keras.layers.Dense(100, activation='softmax')
        
    def call(self, x):
        x = self.conv1(x)
        x = self.maxpool1(x)
        x = self.conv2(x)
        x = self.maxpool2(x)
        x = self.flatten(x)
        x = self.fc1(x)
        x = self.fc2(x)
        
        return x
        
model = CustomModel()

In [28]:
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 2.6349 - accuracy: 0.3413


[2.634915828704834, 0.34130001068115234]

## GradientTape
- Tensorflow에서 제공하는 tf.GradientTape는 위와 같이 순전파(forward pass) 로 진행된 모든 연산의 중간 레이어값을 tape에 기록
- 이를 이용해 gradient를 계산한 후 tape를 폐기하는 기능을 수행

In [29]:
import tensorflow as tf
from tensorflow import keras

# 데이터 구성부분
cifar100 = keras.datasets.cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print(len(x_train), len(x_test))

# 모델 구성부분
class CustomModel(keras.Model):
    def __init__(self):
        super().__init__()
        self.conv1 = keras.layers.Conv2D(16, 3, activation='relu')
        self.maxpool1 = keras.layers.MaxPool2D((2,2))
        self.conv2 = keras.layers.Conv2D(32, 3, activation='relu')
        self.maxpool2 = keras.layers.MaxPool2D((2,2))
        self.flatten = keras.layers.Flatten()
        self.fc1 = keras.layers.Dense(256, activation='relu')
        self.fc2 = keras.layers.Dense(100, activation='softmax')

    def call(self, x):
        x = self.conv1(x)
        x = self.maxpool1(x)
        x = self.conv2(x)
        x = self.maxpool2(x)
        x = self.flatten(x)
        x = self.fc1(x)
        x = self.fc2(x)

        return x

model = CustomModel()

50000 10000


In [30]:
loss_func = tf.keras.losses.SparseCategoricalCrossentropy()
optimizer = tf.keras.optimizers.Adam()

# tf.GradientTape()를 활용한 train_step
def train_step(features, labels):
    with tf.GradientTape() as tape:
        predictions = model(features)
        loss = loss_func(labels, predictions)
        gradients = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))
    return loss

- tape.gradient()를 통해 매 스텝 학습이 진행될 때마다 발생하는 그래디언트를 추출한 후 optimizer.apply_gradients()를 통해 발생한 그래디언트가 업데이트해야 할 파라미터 model.trainable_variables를 지정해 주는 과정

In [31]:
import time
def train_model(batch_size=32):
    start = time.time()
    for epoch in range(5):
        x_batch = []
        y_batch = []
        for step, (x, y) in enumerate(zip(x_train, y_train)):
            if step % batch_size == batch_size-1:
                x_batch.append(x)
                y_batch.append(y)
                loss = train_step(np.array(x_batch, dtype=np.float32), np.array(y_batch, dtype=np.float32))
                x_batch = []
                y_batch = []
        print('Epoch %d: last batch loss = %.4f' % (epoch, float(loss)))
    print("It took {} seconds".format(time.time() - start))

train_model()

Epoch 0: last batch loss = 4.6011
Epoch 1: last batch loss = 4.3902
Epoch 2: last batch loss = 4.4476
Epoch 3: last batch loss = 4.2276
Epoch 4: last batch loss = 2.9324
It took 103.44991827011108 seconds


- train_model() 메소드가 실은 우리가 그동안 사용했던 model.fit() 메소드와 기능적으로 같은 것을 알 수 있음.

- tf.GradientTape()를 활용하면 model.compile()과 model.fit() 안에 감추어져 있던 한 스텝의 학습 단계(위 예제에서는 train_step 메소드)를 끄집어내서 자유롭게 재구성할 수 있게 됨.
- 지도학습 방식과 다른 강화학습 또는 GAN(Generative Advasarial Network)의 학습을 위해서는 train_step 메소드의 재구성이 필수적이므로 tf.GradientTape()의 활용법을 꼭 숙지해 두어야 함.

In [32]:
# evaluation
prediction = model.predict(x_test, batch_size=x_test.shape[0], verbose=1)
temp = sum(np.squeeze(y_test) == np.argmax(prediction, axis=1))
temp/len(y_test)  # Accuracy



0.0459

- 그래디언트를 활용할 필요가 없는 evaluation 단계는 기존 model.predict() 메소드를 다시 활용
- 충분한 성능을 확인할 수 있을 만큼의 학습이 진행된 상태가 아니니 최종 Accuracy 값은 신경 쓰지 않아도 무방