# Tensorflow 실습 1

python의 딥러닝 라이브러리인 Tensorflow에 대해 알아보자.

## 기초 문법과 예제

  Tensorflow는 graph로 연산을 나타내는 프로그래밍 시스템이다.

  * Graph의 node는 연산, 즉 operation(op)을 수행
  * Graph의 edge는 tensor의 흐름을 나타냄
  * Authograph 및 eager execution을 통해, 'define by run'이 아닌 default로 제공 텐서(Tensor)
  * Numpy의 ndarray와 비슷한 다차원 배열로, tensorflow에서의 데이터를 표현하는 구조
  * 그래프 내 operation에서 tensor가 전달됨

케라스 (Keras)

  * 기존에 존재하는 딥러닝 프레임워크로, 쉽게 이해할 수 있는 코드로 구성되는 것이 특징
  * Tensorflow에서 이를 적극적으로 활용하기로 결정해서 tf.keras라는 고수준 API로 다양한 layer를 사용할 수 있도록 함.



## Tensorflow의 간단한 연산 예시

* add, square, reduce_sum 등 간단한 함수들을 사용 가능
* 연산의 결과는 tf.Tensor로 나오며, input 값의 형태에 따라 자동으로 dtype이 배정됨
* 각각의 tf.Tensor는 shape와 dtype을 가지고 있음.


In [1]:
import tensorflow as tf

# constant tensor
print(tf.constant([3, 7]))

# 더하기
print(tf.add(1, 2)) # scalar 값이면 shape가 안나옴

# vector 더하기
print(tf.add([1, 2], [3, 4]))

# 제곱
print(tf.square(5.0))

# 합
print(tf.reduce_sum([1, 2, 3]))

# 각각 제곱 후 더하기 (연산자 오버로딩(overloading) 지원)
print(tf.square(2) + tf.square(3))

tf.Tensor([3 7], shape=(2,), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor([4 6], shape=(2,), dtype=int32)
tf.Tensor(25.0, shape=(), dtype=float32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(13, shape=(), dtype=int32)


In [2]:
# matrix 곱셈
a = tf.constant([[2],[3]])
b = tf.constant([[3,7]])
x = tf.matmul(a,b)
print(a.shape)
print(b.shape)
print(x)

# tensor shape 
print(x.shape)

# tensor data type
print(x.dtype)

(2, 1)
(1, 2)
tf.Tensor(
[[ 6 14]
 [ 9 21]], shape=(2, 2), dtype=int32)
(2, 2)
<dtype: 'int32'>


##tensorflow와 numpy의 호환성

- list 또는 numpy array를 tf.Tensor로 변환할 때는, tf.convert_to_tensor 사용
- tensorflow 연산은 numpy array를 자동으로 tf.Tensor로 변환하여 사용
- 반대로, numpy 연산은 tf.Tensor를 numpy array로 변환함

In [3]:
import numpy as np

ndarray = np.ones([3, 3])
# .convert_to_tensor 함수는 list, ndarray를 직접 텐서로 변환 
print(tf.convert_to_tensor([[1,2],[3,4]], dtype=tf.float64)) #list를 바로 tensor로 변환
print(tf.convert_to_tensor(ndarray, dtype=tf.int32)) # 위에서 정의한 ndarray를 tensor로 변환

# 텐서플로 연산은 자동적으로 넘파이 배열을 텐서로 변환
tensor = tf.multiply(ndarray, 2)
print(tensor)

# 반대로 넘파이 연산은 자동적으로 텐서를 넘파이 배열로 변환
print(np.add(tensor, 1))

# .numpy() 메서드는 텐서를 넘파이 배열로 변환
print(tensor.numpy())

tf.Tensor(
[[1. 2.]
 [3. 4.]], shape=(2, 2), dtype=float64)
tf.Tensor(
[[1 1 1]
 [1 1 1]
 [1 1 1]], shape=(3, 3), dtype=int32)
tf.Tensor(
[[2. 2. 2.]
 [2. 2. 2.]
 [2. 2. 2.]], shape=(3, 3), dtype=float64)
[[3. 3. 3.]
 [3. 3. 3.]
 [3. 3. 3.]]
[[2. 2. 2.]
 [2. 2. 2.]
 [2. 2. 2.]]


## Variable (변수)
- 학습할 수 있는 parameter를 variable이라는 형태의 텐서로 표현함




In [4]:
# tf.Vaiable()을 통해, input으로 list, numpy array, tensor 등을 넣어주면, variable로 변환
my_variable = tf.Variable(tf.zeros([2, 3]))
print(my_variable)

v = tf.Variable([[2,3],[3,4]])
print(v)

# variable을 수식에 사용하면, 자동적으로 tf.Tensor로 변환되어 값을 표현
w = v + 1
print(w)
print(v)

# variable에 .read_value()를 이용할 경우, 현재 변수 값을 명시적으로 읽어올 수 있음
print(v.read_value())


<tf.Variable 'Variable:0' shape=(2, 3) dtype=float32, numpy=
array([[0., 0., 0.],
       [0., 0., 0.]], dtype=float32)>
<tf.Variable 'Variable:0' shape=(2, 2) dtype=int32, numpy=
array([[2, 3],
       [3, 4]], dtype=int32)>
tf.Tensor(
[[3 4]
 [4 5]], shape=(2, 2), dtype=int32)
<tf.Variable 'Variable:0' shape=(2, 2) dtype=int32, numpy=
array([[2, 3],
       [3, 4]], dtype=int32)>
tf.Tensor(
[[2 3]
 [3 4]], shape=(2, 2), dtype=int32)


In [5]:
# class에 tf.Module 등을 상속할 경우 .variables() 함수로 class가 보유한 변수 목록을 불러올 수 있음
class MyModuleOne(tf.Module):
    def __init__(self):
        self.v0 = tf.Variable(1.0)
        self.vs = [tf.Variable(x) for x in range(2)]

m = MyModuleOne()
print(m.variables)
print(len(m.variables))

(<tf.Variable 'Variable:0' shape=() dtype=float32, numpy=1.0>, <tf.Variable 'Variable:0' shape=() dtype=int32, numpy=0>, <tf.Variable 'Variable:0' shape=() dtype=int32, numpy=1>)
3


## 자동 미분 (gradient tape의 사용법)
- gradient tape를 이용하면, variable에 대한 연산을 순서대로 모두 저장하고 자동으로 gradient를 계산하는 것이 가능
- with 구문 안의 연산을 tape에 저장하면, tape.gradient(target, sources)로 우리가 원하는 형태의 미분 값을 계산할 수 있음

In [6]:
x = tf.Variable(3.0)

with tf.GradientTape() as tape:
  y = x**2

# dy/dy = 2x 
dy_dx = tape.gradient(y, x)
dy_dx.numpy()


6.0

- 위의 미분 값은 scalar 형태이지만, gradient는 tensor형태도 될수 있음
- sources 부분에 list를 넣으면 list가 출력되고, dictionary를 넣으면 dictionary 형태로 출력됨

In [7]:
w = tf.Variable(tf.random.normal((3, 2)), name='w')
b = tf.Variable(tf.zeros(2, dtype=tf.float32), name='b')
x = tf.constant([[1., 2., 3.]])

with tf.GradientTape(persistent=True) as tape:
  y = x @ w + b  ## 참고: tf.matmul(x, w) 와 x @ w 동일함
  loss = tf.reduce_mean(y**2)

[dl_dw, dl_db] = tape.gradient(loss, [w, b])
print(w.shape)
print(dl_dw.shape)

(3, 2)
(3, 2)


In [8]:
my_vars = {
    'w': w,
    'b': b
}
grad = tape.gradient(loss, my_vars)
print(grad)

{'w': <tf.Tensor: shape=(3, 2), dtype=float32, numpy=
array([[ 4.6185956,  3.6943061],
       [ 9.237191 ,  7.3886123],
       [13.855787 , 11.082918 ]], dtype=float32)>, 'b': <tf.Tensor: shape=(2,), dtype=float32, numpy=array([4.6185956, 3.6943061], dtype=float32)>}


## Device
- tensorflow로 설치할 경우 CPU만 사용 가능
- tensorflow-gpu로 설치할 경우 CPU, GPU 모두 사용 가능
- with tf.device("디바이스 종류 및 번호")
위의 코드를 통해, 연산이 실행되는 device를 지정할 수 있음
- 같은 연산일지라도, CPU보다는 GPU에서 훨씬 빠른 속도를 보임
- Colab에서 GPU 설정하기: 런타임 -> 런타임 유형 변경 -> 하드웨어 가속기 GPU로 세팅

In [9]:
import time

def time_matmul(x):
  start = time.time()
  for loop in range(100):
    tf.matmul(x, x)

  result = time.time()-start
  print("100 loops: {:0.2f}ms".format(1000*result))

# CPU에서 강제 실행합니다.
print(tf.config.list_physical_devices('CPU'))
if tf.config.list_physical_devices('CPU'):
  print("On CPU:")
  with tf.device("CPU:0"):
    x = tf.random.uniform([1000, 1000])
    assert x.device.endswith("CPU:0")
    time_matmul(x)

# GPU #0가 이용가능시 GPU #0에서 강제 실행합니다.
print(tf.config.list_physical_devices('GPU'))
if tf.config.list_physical_devices('GPU'):
  print("On GPU:")
  with tf.device("GPU:0"): # Or GPU:1 for the 2nd GPU, GPU:2 for the 3rd etc.
    x = tf.random.uniform([1000, 1000])
    assert x.device.endswith("GPU:0")
    time_matmul(x)

[PhysicalDevice(name='/physical_device:CPU:0', device_type='CPU')]
On CPU:
100 loops: 3481.35ms
[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')]
On GPU:
100 loops: 8.07ms


In [10]:
# To-Do : 손으로 풀었던 문제를 코드로 구현
import numpy as np

# input data X와 정답 Y
X = tf.Variable([[2], [3]], dtype=tf.float32)
Y = tf.Variable([1], dtype=tf.float32)

# 첫번째 layer W_1, 두번째 layer W_2
W_1 = tf.Variable([[0.11, 0.21], [0.12, 0.08]])
W_2 = tf.Variable([[0.14, 0.15]])


In [11]:
# forward 연산

with tf.GradientTape() as tape:
  H_1 = tf.matmul(W_1, X)
  Y_hat = tf.matmul(W_2, H_1)
  Loss = tf.square(Y_hat - Y) * 1/2
  
print("hidden nodes : ", H_1)
print("Y_hat : ", Y_hat)
print("Loss : ", Loss)

hidden nodes :  tf.Tensor(
[[0.85]
 [0.48]], shape=(2, 1), dtype=float32)
Y_hat :  tf.Tensor([[0.19100001]], shape=(1, 1), dtype=float32)
Loss :  tf.Tensor([[0.32724053]], shape=(1, 1), dtype=float32)


In [12]:
# backward 연산 (모델 파라미터에 대해 gradient 계산)
(dLoss_dW_1, dLoss_dW_2) = tape.gradient(Loss, [W_1, W_2])
print(dLoss_dW_1)
print(dLoss_dW_2)

tf.Tensor(
[[-0.22652    -0.33978   ]
 [-0.24270001 -0.36405003]], shape=(2, 2), dtype=float32)
tf.Tensor([[-0.68765 -0.38832]], shape=(1, 2), dtype=float32)


In [13]:
# learning rate 설정
lr = 0.05

# 모델 파라미터 업데이트
W_1 = W_1 - lr * dLoss_dW_1
W_2 = W_2 - lr * dLoss_dW_2

# 업데이트 된 모델로 다시 forward 연산
H_1 = tf.matmul(W_1, X)
Y_hat = tf.matmul(W_2, H_1)
Loss = tf.square(Y_hat - Y) * 1/2

# Y_hat 값이 Y 값에 가까워지고, Loss 값이 작아진 것을 확인할 수 있음  
print("hidden nodes : ", H_1)
print("Y_hat : ", Y_hat)
print("Loss : ", Loss)



hidden nodes :  tf.Tensor(
[[0.923619  ]
 [0.55887747]], shape=(2, 1), dtype=float32)
Y_hat :  tf.Tensor([[0.25574577]], shape=(1, 1), dtype=float32)
Loss :  tf.Tensor([[0.27695718]], shape=(1, 1), dtype=float32)
