간단한 함수의 예를 하나 보겠습니다.

In [1]:
def f(w1, w2):
    return 3 * w1 ** 2 + 2 * w1 * w2

신경망은 보통 수만 개의 파라미터를 가진 매우 복잡한 함수입니다.<br>
손으로 직접 도함수를 계산하는 것은 거의 불가능합니다.

아래 코드는 한 가지 대안입니다.

In [2]:
w1, w2 = 5, 3
eps = 1e-6

In [3]:
(f(w1 + eps, w2) - f(w1, w2)) / eps  # (5, 3)에서 w1에 대한 도함수

36.000003007075065

In [4]:
(f(w1, w2 + eps) - f(w1, w2)) / eps  # (5, 3)에서 w2에 대한 도함수

10.000000003174137

이 방법은 잘 동작하고 구현하기도 쉽습니다.<br>
하지만 근삿값이고 무엇보다도 파라미터마다 적어도 한 번씩은 함수 f()를 호출해야 하므로<br>
대규모 신경망에서는 적용하기 어렵습니다.

대신 자동 미분을 써봅시다.

In [5]:
import tensorflow as tf

w1, w2 = tf.Variable(5.), tf.Variable(3.)
# 아래 코드에서 이 변수와 관련된 모든 연산을 자동으로 기록합니다.
with tf.GradientTape() as tape:
    z = f(w1, w2)

# tape에 두 변수 [w1, w2]에 대한 z의 그레이디언트를 요청합니다.
gradients = tape.gradient(z, [w1, w2])

In [6]:
gradients

[<tf.Tensor: shape=(), dtype=float32, numpy=36.0>,
 <tf.Tensor: shape=(), dtype=float32, numpy=10.0>]

결과가 정확하고 변수가 얼마나 많든지 gradient 메소드는 기록된 계산을 한 번 만에 통과했습니다.<br>
매우 효율적인 방법입니다.

gradient() 메소드가 호출된 후에는 자동으로 테이프가 즉시 지워집니다.<br>
따라서 gradient() 메소드를 두 번 호출하면 예외가 발생합니다.

gradient() 메소드를 계속 호출해야 한다면 지속 가능한 테이프를 만들고 사용이 끝난 후 테이프를 삭제해서 리소스를 해제해야 합니다.

In [7]:
with tf.GradientTape(persistent=True) as tape:
    z = f(w1, w2)

dz_dw1 = tape.gradient(z, w1)
dz_dw2 = tape.gradient(z, w2)

In [8]:
dz_dw1

<tf.Tensor: shape=(), dtype=float32, numpy=36.0>

In [9]:
dz_dw2

<tf.Tensor: shape=(), dtype=float32, numpy=10.0>

In [10]:
del tape

기본적으로 테이프는 변수가 포함된 연산만을 기록합니다.<br>
만약 변수가 아닌 다른 객체에 대한 z의 그레이디언트를 계산하려 하면 None이 반환됩니다.

In [11]:
c1, c2 = tf.constant(5.), tf.constant(3.)
with tf.GradientTape() as tape:
    z = f(c1, c2)

gradients = tape.gradient(z, [c1, c2])
gradients

[None, None]

변수와 상수가 섞여있다면, 변수에 대한 그레이디언트만 반환합니다.

In [12]:
c1, v2 = tf.constant(5.), tf.Variable(3.)
with tf.GradientTape() as tape:
    z = f(c1, v2)

gradients = tape.gradient(z, [c1, v2])
gradients

[None, <tf.Tensor: shape=(), dtype=float32, numpy=10.0>]

하지만 필요한 어떤 텐서라도 감시하여 관련된 모든 연산을 기록하도록 강제할 수 있습니다.

In [13]:
with tf.GradientTape() as tape:
    tape.watch(c1)
    tape.watch(c2)
    z = f(c1, c2)

gradients = tape.gradient(z, [c1, c2])
gradients

[<tf.Tensor: shape=(), dtype=float32, numpy=36.0>,
 <tf.Tensor: shape=(), dtype=float32, numpy=10.0>]

어떤 경우에는 신경망의 일부분에 그레이디언트가 역전파되지 않도록 막을 필요가 있습니다.<br>
이렇게 하려면 tf.stop_gradient() 함수를 사용해야 합니다.

이 함수는 정방향 계산을 할 때는 입력을 반환하고,<br>
역전파 시에는 그레이디언트를 전파하지 않습니다.

In [14]:
def f(w1, w2):
    return 3 * w1 ** 2 + tf.stop_gradient(2 * w1 * w2)

with tf.GradientTape() as tape:
    z = f(w1, w2)  # stop_gradient()가 없을 때와 결과가 같습니다.
    
gradients = tape.gradient(z, [w1, w2])
gradients

[<tf.Tensor: shape=(), dtype=float32, numpy=30.0>, None]

이따금 그레이디언트를 계산할 때 수치적 이슈가 발생할 수 있습니다.<br>
예를 들면 큰 입력에 대한 my_softplus() 함수의 그레이디언트를 계산하면 NaN이 반환됩니다.

In [15]:
def my_softplus(z): # tf.nn.softplus(z) 값을 반환합니다
    return tf.math.log(tf.exp(z) + 1.0)

In [16]:
x = tf.Variable(100.)
with tf.GradientTape() as tape:
    z = my_softplus(x)

tape.gradient(z, [x])

[<tf.Tensor: shape=(), dtype=float32, numpy=nan>]

자동 미분을 사용해 이 함수의 그레이디언트를 계산하는 게 수치적으로 불안정하기 때문입니다.<br>

다행히 이 경우 softplus의 도함수를 해석적으로 구할 수 있습니다.<br>
@tf.custom_gradient 데코레이터를 사용하고<br>
일반 출력과 도함수를 계산하는 함수를 반환하여 텐서플로가 my_softplus() 함수의 그레이디언트를 계산할 때 안전한 함수를 사용하게 만들 수 있습니다.

In [17]:
@tf.custom_gradient
def my_better_softplus(z):
    exp = tf.exp(z)
    def my_softplus_gradients(grad):
        return grad / (1 + 1 / exp)
    return tf.math.log(exp + 1), my_softplus_gradients