In [1]:
import tensorflow as tf

In [2]:
tf.__version__

'2.0.0'

## 그래디언트 테이프(GradientTape)

텐서플로는 자동 미분(주어진 입력 변수에 대한 연산의 그래디언트(gradient)를 계산하는 것)을 위한 tf.GradientTape API를 제공합니다. 

tf.GradientTape는 컨텍스트(context) 안에서 실행된 모든 연산을 테이프(tape)에 "기록"합니다. 

그 다음 텐서플로는 후진 방식 자동 미분(reverse mode differentiation)을 사용해 테이프에 "기록된" 연산의 그래디언트를 계산합니다.



In [30]:
x = tf.ones((2, 2))

with tf.GradientTape() as t:
    t.watch(x)
    y = tf.reduce_sum(x)
    z = tf.multiply(y, y)

# 입력 텐서 x에 대한 z의 도함수
dz_dx = t.gradient(z, x)
for i in [0, 1]:
    for j in [0, 1]:
        assert dz_dx[i][j].numpy() == 8.0

In [31]:
dz_dx

<tf.Tensor: id=101, shape=(2, 2), dtype=float32, numpy=
array([[8., 8.],
       [8., 8.]], dtype=float32)>

### 한번 사용한 것은 더 이상 사용할 수 없습니다.

In [36]:
try :
    t.gradient(z,x)
except Exception as e :
    print(e)

GradientTape.gradient can only be called once on non-persistent tapes.


In [37]:
import collections.abc as abc

In [42]:
for i in dir(tf.GradientTape) :
    if not i.startswith("_") :
        print(i)

batch_jacobian
gradient
jacobian
reset
stop_recording
watch
watched_variables


In [40]:
issubclass(tf.GradientTape, abc.Iterator)

False

In [39]:
issubclass(type(t), abc.Generator)

False

### y에 대한 미분

In [32]:
x = tf.ones((2, 2))

with tf.GradientTape() as t:
    t.watch(x)
    y = tf.reduce_sum(x)
    z = tf.multiply(y, y)
    
dz_dy = t.gradient(z, y)
assert dz_dy.numpy() == 8.0

In [33]:
dz_dy

<tf.Tensor: id=143, shape=(), dtype=float32, numpy=8.0>

## watch이 컨텍스트 관리자 에서 메소드를 호출하여 텐서를 수동

In [14]:
x = tf.constant(3.0)
with tf.GradientTape() as g:
    #print(g.watch(x))
    y = x * x
dy_dx = g.gradient(y, x) # Will compute to 6.0

In [15]:
dy_dx

In [16]:
tf.print(dy_dx)

None


In [18]:
x = tf.constant(3.0)
with tf.GradientTape() as g:
    print(g.watch(x))
    y = x * x
dy_dx = g.gradient(y, x) # Will compute to 6.0

None


In [19]:
dy_dx

<tf.Tensor: id=47, shape=(), dtype=float32, numpy=6.0>

##  GradientTape를 두번 사용해서 고차미분하기

   gradient 메소드를 한번 사용하면 자원이 소실됩니다. 
   고차 미분을 하려면 두번 사용합니다

In [7]:
x = tf.constant(3.0)
with tf.GradientTape() as g:
    g.watch(x)
    with tf.GradientTape() as gg:
        gg.watch(x)
        y = x * x
        dy_dx = gg.gradient(y, x)     # Will compute to 6.0
    d2y_dx2 = g.gradient(dy_dx, x)  # Will compute to 2.0

In [8]:
dy_dx

<tf.Tensor: id=18, shape=(), dtype=float32, numpy=6.0>

In [9]:
d2y_dx2

<tf.Tensor: id=24, shape=(), dtype=float32, numpy=2.0>

##  GradientTape 자원을 연속적으로 사용하기

기본적으로 GradientTape가 보유한 자원은 GradientTape.gradient () 메소드가 호출 되 자마자 해제됩니다. 
동일한 계산에서 여러 그라디언트를 계산하려면 영구 그라디언트 테이프를 만듭니다. 
이렇게하면 테이프 객체가 가비지 수집 될 때 리소스가 해제 될 때 gradient () 메서드를 여러 번 호출 할 수 있습니다.

In [20]:
x = tf.constant(3.0)
with tf.GradientTape(persistent=True) as g:
    g.watch(x)
    y = x * x
    z = y * y
    dz_dx = g.gradient(z, x)  # 108.0 (4*x^3 at x = 3)
    dy_dx = g.gradient(y, x)  # 6.0
#del g  # Drop the reference to the tape



In [21]:
dz_dx

<tf.Tensor: id=57, shape=(), dtype=float32, numpy=108.0>

In [22]:
dy_dx

<tf.Tensor: id=61, shape=(), dtype=float32, numpy=6.0>