# Tensorflow

딥러닝 프레임워크로 Tensorflow를 많이 사용했는데, pyTorch도 있다. pyTorch는 파이써닉하고 직관적인 API 설계와 쉬운 사용 방법이 장점이다. Tensorflow도 이번에 V2가 되면서 파이토치의 장점들을 흡수했고 keras를 표준 API로 삼으면서 강력하게 버전업했다.   
앞으로 계속 사용하게될 tensorflow를 살펴보자

## TensorFlow2 API

tensorflow2는 딥러닝 모델을 작성할 때 다양한 방법이 있다. `Sequential`, `Functional`, `Model Subclassing`이 있다. 예시를 보면서 살펴보자.   

- TensorFlow2 Sequential Model

In [1]:
import tensorflow as tf
from tensorflow import keras

model = keras.Sequential()
model.add(__넣고싶은 레이어__)
model.add(__넣고싶은 레이어__)
model.add(__넣고싶은 레이어__)

model.fit(x, y, epochs=10, batch_size=32)

SyntaxError: invalid syntax (3815898576.py, line 5)

딥러닝 모델을 sequential하게 차곡차곡 add로 쌓아가는 방식이다. 반드시 입력 1가지, 출력 1가지를 전제로 하기 때문에 입출력이 여러 개인 경우에는 적합하지 않은 모델링 방식이다.   
[텐서플로 2.0 시작하기: 초보자용](https://www.tensorflow.org/tutorials/quickstart/beginner)

- TensorFlow2 Functional API

In [None]:
import tensorflow as tf
from tensorflow import keras

inputs = keras.Input(shape=(__원하는 입력값 모양__))
x = keras.layers.__넣고싶은 레이어__(관련 파라미터)(input)
x = keras.layers.__넣고싶은 레이어__(관련 파라미터)(x)
outputs = keras.layers.__넣고싶은 레이어__(관련 파라미터)(x)

model = keras.Model(inputs=inputs, outputs=outputs)
model.fit(x,y, epochs=10, batch_size=32)

`keras.Model`을 사용한다. 사실 `Sequential Model`도 `keras.Model`을 상속받아 확장한 사례이다. 이를 사용하면 `Sequential Model`보다 자유로운 모델링을 진행할 수 있고 함수형으로 모델을 구성할 수 있습니다. 즉 입력과 출력을 규정함으로써 모델 전체를 규정합니다. `input`을 규정하면서 텐서가 여러개 될 수 있고 레이어들을 자유롭게 엮어 output까지 규정하면 이 둘만으로 Model이 규정된다. 다중 입출력을 가지는 모델을 구성할 수 있다.   
[The Keras functional API](https://www.tensorflow.org/guide/keras/functional)

- TensorFlow2 Subclassing

In [None]:
import tensorflow as tf
from tensorflow import keras

class CustomModel(keras.Model):
    def __init__(self):
        super(CustomModel, self).__init__()
        self.__정의하고자 하는 레이어__()
        self.__정의하고자 하는 레이어__()
        self.__정의하고자 하는 레이어__()
    
    def call(self, x):
        x = self.__정의하고자 하는 레이어__(x)
        x = self.__정의하고자 하는 레이어__(x)
        x = self.__정의하고자 하는 레이어__(x)
        
        return x
    
model = CustomModel()
model.fit(x,y, epochs=10, batch_size=32)

제일 자유로운 모델링을 진행할 수 있다. 본질적으로는 `Functional`한 접근과 차이가 없지만 `__init__()`메서드 안에서 레이어 구성을 정의하고 `call()`메서드 안에서 레이어간 `forward propagation`을 구현한다.    
[텐서플로 2.0 시작하기: 전문가용](https://www.tensorflow.org/tutorials/quickstart/advanced)

## MNIST Sequential API 활용하기

In [None]:
import tensorflow as tf
from tensorflow import keras
import numpy as np

In [None]:
mnist = keras.datasets.mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

x_train=x_train[...,np.newaxis]
x_test=x_test[...,np.newaxis]

print(len(x_train), len(x_test))

In [None]:
# 모델 구성
model = keras.Sequential([
    keras.layers.Conv2D(32, 3, activation='relu'),
    keras.layers.Conv2D(64, 3, activation='relu'),
    keras.layers.Flatten(),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dense(10, activation='softmax')
])

In [None]:
# 모델 학습
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

## MNIST Functional API 활용하기

In [2]:
import tensorflow as tf
from tensorflow import keras
import numpy as np

In [3]:
mnist = keras.datasets.mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

x_train=x_train[...,np.newaxis]
x_test=x_test[...,np.newaxis]

print(len(x_train), len(x_test))

60000 10000


In [4]:
inputs = keras.Input(shape=(28, 28, 1))

x = keras.layers.Conv2D(32, 3, activation='relu')(inputs)
x = keras.layers.Conv2D(64, 3, activation='relu')(x)
x = keras.layers.Flatten()(x)
x = keras.layers.Dense(128, activation='relu')(x)
predictions = keras.layers.Dense(10, activation='softmax')(x)

model = keras.Model(inputs=inputs, outputs=predictions)

In [5]:
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 0.0475 - accuracy: 0.9877


[0.04746171087026596, 0.9876999855041504]

## MNIST Subclassing 활용하기

In [6]:
import tensorflow as tf
from tensorflow import keras
import numpy as np

In [7]:
mnist = keras.datasets.mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

x_train=x_train[...,np.newaxis]
x_test=x_test[...,np.newaxis]

print(len(x_train), len(x_test))

60000 10000


In [8]:
class CustomModel(keras.Model):
    def __init__(self):
        super().__init__()
        self.conv1 = keras.layers.Conv2D(32, 3, activation='relu')
        self.conv2 = keras.layers.Conv2D(64, 3, activation='relu')
        self.flatten = keras.layers.Flatten()
        self.fc1 = keras.layers.Dense(128, activation='relu')
        self.fc2 = keras.layers.Dense(10, activation='softmax')
        
    def call(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = self.flatten(x)
        x = self.fc1(x)
        x = self.fc2(x)
        
        return x
        
model = CustomModel()

In [9]:
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 0.0453 - accuracy: 0.9896


[0.0452626496553421, 0.9896000027656555]

## CIFAR-100 Sequntial API 활용하기

In [10]:
import tensorflow as tf
from tensorflow import keras

In [11]:
cifar100 = keras.datasets.cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print(len(x_train), len(x_test))

50000 10000


In [12]:
model = keras.Sequential([
    keras.layers.Conv2D(16, 3, activation='relu'),
    keras.layers.MaxPool2D((2,2)),
    keras.layers.Conv2D(32, 3, activation='relu'),
    keras.layers.MaxPool2D((2,2)),
    keras.layers.Flatten(),
    keras.layers.Dense(256, activation='relu'),
    keras.layers.Dense(100, activation='softmax')
])

In [13]:
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 2.5882 - accuracy: 0.3476


[2.588207960128784, 0.3476000130176544]

## CIFAR-100 Functional API 활용하기

In [14]:
import tensorflow as tf
from tensorflow import keras

In [15]:
cifar100 = keras.datasets.cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print(len(x_train), len(x_test))

50000 10000


In [16]:
inputs = keras.Input(shape=(32, 32, 3))

x = keras.layers.Conv2D(16, 3, activation='relu')(inputs)
x = keras.layers.MaxPool2D((2,2))(x)
x = keras.layers.Conv2D(32, 3, activation='relu')(x)
x = keras.layers.MaxPool2D((2,2))(x)
x = keras.layers.Flatten()(x)
x = keras.layers.Dense(256, activation='relu')(x)
predictions = keras.layers.Dense(100, activation='softmax')(x)

model = keras.Model(inputs=inputs, outputs=predictions)

In [17]:
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)


Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 2.6061 - accuracy: 0.3508


[2.6060843467712402, 0.3508000075817108]

## CIFAR-100 Subclassing API 활용하기

In [18]:
import tensorflow as tf
from tensorflow import keras

In [19]:
cifar100 = keras.datasets.cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print(len(x_train), len(x_test))

50000 10000


In [20]:
class CustomModel(keras.Model):
    def __init__(self):
        super().__init__()
        self.conv1 = keras.layers.Conv2D(16, 3, activation='relu')
        self.maxpool1 = keras.layers.MaxPool2D((2,2))
        self.conv2 = keras.layers.Conv2D(32, 3, activation='relu')
        self.maxpool2 = keras.layers.MaxPool2D((2,2))
        self.flatten = keras.layers.Flatten()
        self.fc1 = keras.layers.Dense(256, activation='relu')
        self.fc2 = keras.layers.Dense(100, activation='softmax')
        
    def call(self, x):
        x = self.conv1(x)
        x = self.maxpool1(x)
        x = self.conv2(x)
        x = self.maxpool2(x)
        x = self.flatten(x)
        x = self.fc1(x)
        x = self.fc2(x)
        
        return x
        
model = CustomModel()

In [22]:
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5)

model.evaluate(x_test,  y_test, verbose=2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
313/313 - 1s - loss: 2.9329 - accuracy: 0.3559


[2.9329421520233154, 0.35589998960494995]

## GradientTape 활용

비슷한 문제 2개를 3개의 모델 구성 방법을 활용해서 딥러닝으로 구현했다. 모델 학습 설정 부분은 완전히 동일하게 구성했다.   
`model.fit()`으로 훈련 과정을 Numpy만 갖고 구현하는 과정을 생각해보자.   
1. Forward Propagation 수행 및 중간 레이어값 저장
2. Loss값 계산
3. 중간 레이어값 및 Loss를 활용한 체인룰(chain rule)방식 역전파(backward propagation) 수행
4. 학습 파라미터 업데이트

위의 4단계로 이루어진 train_step을 여러 번 반복해야한다. TF2 API는 `model.fit()` 메서드에 모두 추상화되어 있다.   

`tf.GradientTape`는 위와 같이 순전파(forward pass)로 진행되는 모든 연산의 중간 레이어값을 tape에 기록하고 이를 이용해 gradient를 계산하고 tape를 폐기하는 기능을 갖고 있다. 학습을 세팅하고 핏을 맞추는 `model.compile()`, `model.fit()` 부분을 중심으로 확인해보자.

In [23]:
import tensorflow as tf
from tensorflow import keras

cifar100 = keras.datasets.cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print(len(x_train), len(x_test))

class CustomModel(keras.Model):
    def __init__(self):
        super().__init__()
        self.conv1 = keras.layers.Conv2D(16, 3, activation='relu')
        self.maxpool1 = keras.layers.MaxPool2D((2,2))
        self.conv2 = keras.layers.Conv2D(32, 3, activation='relu')
        self.maxpool2 = keras.layers.MaxPool2D((2,2))
        self.flatten = keras.layers.Flatten()
        self.fc1 = keras.layers.Dense(256, activation='relu')
        self.fc2 = keras.layers.Dense(100, activation='softmax')

    def call(self, x):
        x = self.conv1(x)
        x = self.maxpool1(x)
        x = self.conv2(x)
        x = self.maxpool2(x)
        x = self.flatten(x)
        x = self.fc1(x)
        x = self.fc2(x)

        return x

model = CustomModel()

50000 10000


In [24]:
# model.compile(optimizer='adam',
#               loss='sparse_categorical_crossentropy',
#               metrics=['accuracy'])

loss_func = tf.keras.losses.SparseCategoricalCrossentropy()
optimizer = tf.keras.optimizers.Adam()

# tf.GradientTape()를 활용한 train_step
def train_step(features, labels):
    with tf.GradientTape() as tape:
        predictions = model(features)
        loss = loss_func(labels, predictions)
        gradients = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))
    return loss

`model.compile()` -> `tape.gradient()`를 통해 해당 기능이 구현되고 있다. 매 스텝 학습이 진행될 때마다 gradient를 추출한 후 `optimizer.apply_gradients()`를 통해 `model.trainable_variables`를 지정해주는 과정이다.

In [25]:
# model.fit(x_train, y_train, epochs=5, batch_size=32)

import time
def train_model(batch_size=32):
    start = time.time()
    for epoch in range(5):
        x_batch = []
        y_batch = []
        for step, (x, y) in enumerate(zip(x_train, y_train)):
            x_batch.append(x)
            y_batch.append(y)
            if step % batch_size == batch_size-1:
                loss = train_step(np.array(x_batch, dtype=np.float32), np.array(y_batch, dtype=np.float32))
                x_batch = []
                y_batch = []
        print('Epoch %d: last batch loss = %.4f' % (epoch, float(loss)))
    print("It took {} seconds".format(time.time() - start))

train_model()

Epoch 0: last batch loss = 3.0828
Epoch 1: last batch loss = 2.6083
Epoch 2: last batch loss = 2.2664
Epoch 3: last batch loss = 2.0935
Epoch 4: last batch loss = 1.9813
It took 78.9842140674591 seconds


`model.fit()`으로 수행되던 학습 과정은 매 스텝마다 위에서 구현한 `train_step()`으로 구현할 수 있다.

`tf.GradientTape()`를 활용하면 `model.compile()`과 `model.fit()` 안에 감추어 있던 학습 단계를 끄집어내서 자유롭게 재구성할 수 있게된다. 지도학습, 강화학습, GAN(Generative Advasarial Network)학습을 위해선 `train_step` 메서드의 재구성이 필수적이므로 꼭 알아두자.

In [26]:
# evaluation
prediction = model.predict(x_test, batch_size=x_test.shape[0], verbose=1)
temp = sum(np.squeeze(y_test) == np.argmax(prediction, axis=1))
temp/len(y_test)  # Accuracy



0.3423

그래디언트를 활용할 필요가 없는 evaluation 단계는 `model.predict()` 메서드를 활용할 수 있다.