## 자동 미분

In [2]:
import tensorflow as tf
import numpy as np

텐서플로의 자동 미분

##### `tf.GradientTape`

tf.GradientTape는 컨텍스트(context) 안에서 실행된 모든 연산을 테이프(tape)에 "기록". 

그 다음 텐서플로는 후진 방식 자동 미분(reverse mode differentiation)을 사용해 테이프에 "기록된" 연산의 그래디언트를 계산합니다.

중간 연산 과정(함수, 연산)을 테이프(tape)에 차곡차곡 기록해주는 Gradient tapes 를 제공합니다.


* Scalar 를 Scalar로 미분

In [22]:
x = tf.Variable(3.0)

with tf.GradientTape() as tape: # tape에 with구문 내의 연산에 관한 모든 것을 저장한다
    y = x**2

1. with tf.GradientTape() as tape: 로 저장할 tape을 지정해주면, 이후의 GradientTape() 문맥 아래에서의 TensorFlow의 연관 연산 코드는 tape에 저장이 됩니다. 

2. with ~ as 구문은 enter / exit 의 함수가 내장된 클래스를 사용해야한다.

    with 구문 시작시 자동으로 enter함수가 실행되어 as 뒤에 지정한 이름으로 tf.GradientTape() 객체를 복사한다.

    with구문이 끝나면 자동으로 exit함수가 발동되며 지정한 이름의 객체를 사용할 수 있게 해주는 방식이다.


3. 이렇게 tape에 저장된 연산 과정 (함수, 연산식) 을 가져다가 TensorFlow는 dx = tape.gradient(loss, x) 로 후진 모드 자동 미분 (Reverse mode automatic differentiation) 방법으로 손실에 대한 x의 미분을 계산합니다. 

    이렇게 계산한 손실에 대한 x의 미분을 역전파(backpropagation)하여 x의 값을 갱신(update)하는 작업을 반복하므로써 변수 x의 답을 찾아가는 학습을 진행합니다. 

In [23]:
## 현재 y = x의 제곱 (x = 3)
y

<tf.Tensor: shape=(), dtype=float32, numpy=9.0>

In [24]:
# dy/dx = 2x --> 미분식
# dy = 2x * dx

dy_dx = tape.gradient(y, x) # -> tape에 저장해놓은 연산식으로 미분해라 / y를 x로 미분해라
dy_dx.numpy()

# -> 다시 실행시키려면 상위 with문을 다시 실행시켜야 결과가 나온다.
# 이유는 with 구문이라 tape이 한번 사용하고 소멸되기 때문이다.

6.0

- 즉, with ~ as 구문은 메모리를 잘 활용하기 위해 객체를 일회성으로 사용하고 메모리를 반환하기 위해 사용하는 것.

- 그래서 tf.GradientTape()를 tape에 담아 한번 사용하고 반환하기 위함이다.

* Scalar를 Vector로 미분

In [34]:
w = tf.Variable(tf.random.normal((3, 2)), name='w')
b = tf.Variable(tf.zeros(2, dtype=tf.float32), name='b')
x = [[1., 2., 3.]]

# persistent=True 는 tape을 일회성이 아니라 계속 사용할수 있는 변수로서 남겨놓겠다
with tf.GradientTape(persistent=True) as tape2: # with 구문내에서 연산해서 tape에 저장
    y = x @ w + b
    loss = tf.reduce_mean(y**2) # 평균제곱오차(MSE) / 원래 (y_hat - y)**2


In [35]:
[dl_dw, dl_db] = tape2.gradient(loss, [w, b]) # loss를 [w,b]로 미분해라 -> 반환 값 2개

[dl_dw, dl_db]

[<tf.Tensor: shape=(3, 2), dtype=float32, numpy=
 array([[ 0.43868804, -0.70962256],
        [ 0.8773761 , -1.4192451 ],
        [ 1.3160641 , -2.1288676 ]], dtype=float32)>,
 <tf.Tensor: shape=(2,), dtype=float32, numpy=array([ 0.43868804, -0.70962256], dtype=float32)>]

In [36]:
# name으로 지정한 딕셔너리로도 계산이 가능하다.
my_vars = {
    'w': w,
    'b': b
}

grad = tape2.gradient(loss, my_vars)
grad['b']

# -> persistent = True 를 했기 때문에 계속 tape 객체를 사용 가능

<tf.Tensor: shape=(2,), dtype=float32, numpy=array([ 0.43868804, -0.70962256], dtype=float32)>

- 자동미분 컨트롤 하기! 

  - 자동미분에서는 `tf.Variable`만 기록 합니다! 
  - A variable + tensor  는 tensor를 반환 -> sclar취급
  - `trainable = False` 조건으로 미분 기록을 제어가능

In [32]:
# A trainable variable
x0 = tf.Variable(3.0, name='x0')

# Not trainable
x1 = tf.Variable(3.0, name='x1', trainable=False)

# Not a Variable: A variable + tensor returns a tensor.
x2 = tf.Variable(2.0, name='x2') + 1.0

# Not a variable
x3 = tf.constant(3.0, name='x3')

with tf.GradientTape() as tape:
    y = (x0**2) + (x1**2) + (x2**2)

grad = tape.gradient(y, [x0, x1, x2, x3])

for g in grad:
    print(g)

tf.Tensor(6.0, shape=(), dtype=float32)
None
None
None


- 기본적으로 편미분이라 생각하자.
- 미분 기록 불가한 변수에 대한 미분 값들은 None을 반환했다. 

#### 기록되고 있는 variable 확인하기

In [33]:
tape.watched_variables()

(<tf.Variable 'x0:0' shape=() dtype=float32, numpy=3.0>,)

In [37]:
tape2.watched_variables()

(<tf.Variable 'w:0' shape=(3, 2) dtype=float32, numpy=
 array([[-2.1501553 ,  0.17153408],
        [ 0.7102437 , -0.07733455],
        [ 0.38945198, -0.24216251]], dtype=float32)>,
 <tf.Variable 'b:0' shape=(2,) dtype=float32, numpy=array([0., 0.], dtype=float32)>)