# Tensorflow 기초학습

In [1]:
# 텐서플로 동작
import tensorflow as tf

## 텐서의 표현

- 피처 벡터(feature vector): 피처(feature)를 순서대로 나열한 목록
- 행렬은 벡터의 목록을 간결하게 표현하는데, 행렬의 각 열(column)이 피처 벡터이다.
- 텐서플로에서는 행렬을 동일한 길이를 가지는 벡터들의 벡터로 표현한다.


#### 텐서플로에서 행렬을 생성하는 방법

In [2]:
import numpy as np 

# 2 x 2 행렬을 세 가지 방법으로 정의
m1 = [[1.0, 2.0],
      [3.0, 4.0]]

m2 = np.array([[1.0, 2.0],
                [3.0, 4.0]], dtype=np.float32)

m3 = tf.constant([[1.0, 2.0],
                  [3.0, 4.0]])

In [3]:
print(m1)
print(m2)
print(m3)

[[1.0, 2.0], [3.0, 4.0]]
[[1. 2.]
 [3. 4.]]
Tensor("Const:0", shape=(2, 2), dtype=float32)


- m1은 리스트, m2는 넘파이 라이브러리의 ndarray, m3는 텐서플로에서 tf.constant를 이용하여 초기화하는 constant라는 텐서 오브젝트이다.

In [4]:
t1 = tf.convert_to_tensor(m1, dtype=tf.float32)
t2 = tf.convert_to_tensor(m2, dtype=tf.float32)
t3 = tf.convert_to_tensor(m3, dtype=tf.float32)

In [5]:
print(t1)
print(t2)
print(t3)

Tensor("Const_1:0", shape=(2, 2), dtype=float32)
Tensor("Const_2:0", shape=(2, 2), dtype=float32)
Tensor("Const:0", shape=(2, 2), dtype=float32)


### 코드에서 텐서를 정의하는 다른 경우
- tf.constant

In [6]:
# 1 x 2 행렬 정의
m1 = tf.constant([[1., 2.]])

# 2 x 1 행렬 정의
m2 = tf.constant([[1],
                  [2]])

# 랭크-3 텐서 정의
m3 = tf.constant([[[1, 2],
                   [3, 4],
                   [5, 6]],
                  [[7, 8],
                   [9, 10],
                   [11, 12]]])

In [7]:
print(m1)
print(m2)
print(m3)

Tensor("Const_3:0", shape=(1, 2), dtype=float32)
Tensor("Const_4:0", shape=(2, 1), dtype=int32)
Tensor("Const_5:0", shape=(2, 3, 2), dtype=int32)


- 각 Tensor 오브젝트는 고유의 레이블(name), 구조의 차원(shape), 조작하고자 하는 값의 종류를 지정하는 데이터의 형(dtype)을 가진다.

- 위의 경우 이름을 명시적으로 지정하지 않았기 때문에 라이브러리가 자동으로 이름을 생성해 주었다.

## 연산자 생성하기

#### 부정 연산 사용하기


In [8]:
# 임의의 텐서 정의
x = tf.constant([[1, 2]])

# 텐서에 부정 연산을 수행
negMatrix = tf.negative(x)

print(negMatrix)

Tensor("Neg:0", shape=(1, 2), dtype=int32)


- 부정 연산의 결과를 출력한 것이 [[[-1, -2]]] 가 아님

- 부정 연산의 정의를 출력한 것일 뿐, 연산의 실제 평가(실행) 결과를 출력한 것이 아니기 때문이다.

- 출력된 결과는 부정 연산이 이름, 형태, 데이터의 형을 가지는 텐서 클래스

### 유용한 텐서플로 연산자
- 공식문서에서 모든 수학 연산자를 확인 할 수 있다.

- 많이 사용하는 연산자

    - tf.add(x, y) : 동일한 형의 2개의 텐서를 더한다.

    - tf.subtract(x, y) : 동일한 형의 텐서를 뺍니다.

    - tf.multiply(x, y) : 2개의 텐서를 원소별로(element-wise) 곱한다.

    - tf.pow(x, y) : 원소별로 x를 y제곱한다.

    - tf.exp(x) : e는 오일러의 수(2.718...)이며 pow(e, x)와 동일하다.

    - tf.sqrt(x) : pow(x, 0.5)와 동일하다.

    - tf.div(x, y) : 원소별로 x를 y로 나눈다.

    - tf.truediv(x, y) : tf.div와 동일한데, 인자를 실수형으로 형변환한다.

    - tf.floordiv(x, y) : truediv와 동일한데, 최종 값을 반올림하여 정수로 만든다.

    - tf.mod(x, y) : 원소별로 x를 y로 나눈 나머지를 구한다.

## 세션을 이용하여 연산자 실행하기
- 세션(session)은 코드가 어떻게 실행될지 알려주는 소프트웨어 시스템의 환경이라고 할 수 있다.

- 텐서플로에서 세션은 CPU나 GPU 같은 하드웨어 장비가 어떻게 상호 작용하는지 설정한다.

- 연산을 실행하고 계산된 값을 가져오기 위해 텐서플로는 세션이 필요하다.

- 등록된 세션만이 텐서 오브젝트의 값을 채우게 된다.

#### 세션의 사용

In [9]:
x = tf.constant([[1., 2.]])
# 부정 연산
neg_Matrix = tf.negative(x)
# 연산을 실행하기 위해 세션을 시작
with tf.Session() as sess:
    # 세션에 neg_Matrix를 평가하게 한다.
    result = sess.run(neg_Matrix)

print(result)

[[-1. -2.]]


- 제대로된 결과가 출력됨을 확인

- 세션은 코드가 장비의 어디에서 돌아갈지 설정 할 뿐만 아니라 병렬 컴퓨팅을 수행하기 위해 연산을 어떻게 전개해 나갈지도 조정하는 역할을 한다.

- 디버깅 또는 코드를 보여주기 위한 목적으로 쌍방향 환경에서 텐서플로 코드를 실행하는 경우에는 세션이 암묵적으로 eval()을 호출하는 것의 일부이기 때문에 쌍방향 모드로 세션을 생성하는 것이 좀 더 수월하다. 

#### 쌍방향 세션 모드의 사용

In [10]:
# sess 변수가 더 전달될 필요 없도록 쌍방향 세션을 시작
sess = tf.InteractiveSession()

# 임의의 행렬을 정의하고 부정 연산 수행
x = tf.constant([[1., 2.]])
negMatrix = tf.negative(x)

# 세션을 명시하지 않고도 negMatrix를 평가 할 수 있음
result = negMatrix.eval()

print(result)

# 리소스를 비워주기 위해 세션을 닫기
sess.close()


[[-1. -2.]]


### 세션의 설정 세팅하기
- tf.Session()에 옵션 추가하기

#### 세션 로그 만들기

In [11]:
x = tf.constant([[1., 2.]])
negMatrix = tf.negative(x)

# 로그를 생성하기 위해 생성자에 전달되는 옵션과 함께 세션을 시작
with tf.Session(config=tf.ConfigProto(log_device_placement=True)) as sess:
    result = sess.run(negMatrix)

print(result)

Device mapping:

[[-1. -2.]]


- 이 세션 내의 각각의 연산에 대해 어떤 CPU/GPU가 사용되었는지를 출력

- 세션은 그래프 연산을 실행할 뿐만 아니라 placeholder(플레이스홀더), variable(변수), constant(상수)을 입력으로 받을 수 있다.

    - placeholder : 아직 값이 할당되지 않았으나 실행 시에 세션에 의해 초기화되는 값을 의미한다. 일반적으로 우리 모델의 입력과 출력이 플레이스홀더가 된다.

    - variable : 머신러닝 모델의 파라미터처럼 변할 수 있는 값을 의미한다. 반드시 변수는 사용 전에 세션에 의해 초기화되어야 한다.

    - constant : 하이퍼파라미터나 설정값처럼 변하지 않는 값을 의미한다.

## 변수 사용하기

#### 변수 사용하기

In [12]:
sess = tf.InteractiveSession()

# 원데이터
raw_data = [1., 2., 8., -1., 0., 5.5, 6., 13]

# sipke라는 boolean 변수를 생성하여 숫자가 갑자기 증가하는 경우를 탐지
spike = tf.Variable(False)

# 모든 변수들이 초기화되어야 하기 때문에 run()을 호출하여 변수를 초기화
spike.initializer.run()

# 데이터들을 돌면서 5보다 큰 증가가 있는 경우 spike변수를 업데이트
for i in range(1, len(raw_data)):
    if raw_data[i] - raw_data[i-1] > 5:
        # 변수를 업데이트하기 위해 tf.assign(<변수명>, <새로운값>)을 이용하여 변수에 새로운 값을 할당
        updater = tf.assign(spike, True)

        # 변화를 보기 위해 실행
        updater.eval()
    else:
        tf.assign(spike, False).eval()

    print("Spike", spike.eval())
    
sess.close()

Spike False
Spike True
Spike False
Spike False
Spike True
Spike False
Spike True


## 변수를 저장하고 불러오기


#### 변수 저장하기

In [13]:
sess = tf.InteractiveSession()

raw_data = [1., 2., 8., -1., 0., 5.5, 6., 13]

spikes = tf.Variable([False] * len(raw_data), name='spikes')

# 변수 초기화
spikes.initializer.run()

# saver 연산은 변수의 저장과 복구를 가능하게 한다.
# 생성자에 사전을 전달하지 않으면 현재 프로그램 내 모든 변수들을 저장한다.
saver = tf.train.Saver({'spikes':spikes})

for i in range(1, len(raw_data)):
    if raw_data[i] - raw_data[i-1] > 5:
        spikes_val = spikes.eval()
        spikes_val[i] = True
        updater = tf.assign(spikes, spikes_val)
        updater.eval()

# 변수를 디스크에 저장
save_path = saver.save(sess, "./spikes.ckpt")

print(f"spikes data saved in file: {save_path}")

sess.close()

spikes data saved in file: ./spikes.ckpt


- 위의 코드 실행을 통해 몇개의 파일이 생성됨

- 그 중 spikes.ckpt는 압축되어 저장된 바이너리 파일이

- 데이터를 불러오기 위해서는 saver 연산의 restore 함수를 사용해야 함

#### 변수 불러오기

In [14]:
sess = tf.InteractiveSession()

# 저장된 데이터와 동일한 크기와 이름을 가지는 변수를 생성
spikes = tf.Variable([False]*len(raw_data), name='spikes')

# 직접 불러올 것 이기 때문에 초기화할 필요 없음

# 저장된 데이터를 복원하기 위해 saver 연산자를 생성
saver = tf.train.Saver({'spikes':spikes})

try:
    # spikes.ckpt 파일로부터 데이터를 복원
    saver.restore(sess, "./spikes.ckpt")
    print(spikes.eval())
except:
    # 에러 발생 시
    print('file not found')

sess.close()

INFO:tensorflow:Restoring parameters from ./spikes.ckpt
[False False  True False False  True False  True]


## Tensorboard를 이용한 데이터 시각화

### 이동 평균 구현하기

- 지수 평균 알고리즘
    - 이전에 측정한 평균과 현재의 값의 함수로서 현재의 추정 평균을 구하는 방식



- alpha : tf.constant => 상수
- curr_value : placeholder => 변수와 유사하지만 값이 세션으로부터 채워진다.
- prev_avg : variable => 변수

#### 지수 평균 알고리즘

In [15]:
import tensorflow as tf
import numpy as np

# 평균값 10과 표준편차 1을 가지는 100개의 숫자로 구성된 벡터 생성
raw_data = np.random.normal(10, 1, 100)

alpha = tf.constant(0.05)
curr_value = tf.placeholder(tf.float32)
prev_avg = tf.Variable(0.)

update_avg = alpha * curr_value + (1 - alpha) * prev_avg

init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    for i in range(len(raw_data)):
        curr_avg = sess.run(update_avg,
                            feed_dict={curr_value:raw_data[i]})
        sess.run(tf.assign(prev_avg, curr_avg))

        print(raw_data[i], curr_avg)

9.595943380533352 0.47979718
9.688762153605019 0.9402454
9.445273688924129 1.3654968
9.775590320341697 1.7860014
11.179408299446612 2.2556717
10.07559795863741 2.646668
11.233946677837652 3.0760317
8.444118156809928 3.344436
9.206213630690565 3.6375248
8.998322153993549 3.9055648
9.818802740970733 4.2012267
8.619664634779967 4.4221487
10.786032520227193 4.740343
9.239306255548959 4.965291
9.63834107333981 5.198943
9.2484526337897485.4014187
9.121874003314668 5.5874414
11.859790534312046 5.9010587
10.580828626966596 6.135047
9.771829490813207 6.3168864
11.437291293832633 6.5729065
9.490733252032062 6.7187977
8.438788828763352 6.804797
10.255068493547967 6.9773107
12.480182890046065 7.2524543
11.074061463601232 7.443535
9.368500177066746 7.539783
10.98322210835635 7.7119546
8.105634450129442 7.7316384
9.235203489978005 7.8068166
8.476301980275357 7.840291
9.852883390071721 7.940921
9.16034436262111 8.001892
9.960396098957279 8.099817
11.43628437973438 8.266641
9.561457171305022 8.331382


### 이동 평균 시각화하기
- 텐서보드를 이용해서 결과를 시각화 하기

- 과정
    1. 관찰하기를 원하는 노드들에 summary op 처리를 함으로써 해당 노드를 선정한다.
    2. 노드에서 add_summary를 호출하여 데이터를 큐에 쌓아 디스크에 쓰도록 한다.

#### 텐서보드로 모니터링하기

In [16]:
import tensorflow as tf
import numpy as np

raw_data = np.random.normal(10, 1, 100)

alpha = tf.constant(0.05)
curr_value = tf.placeholder(tf.float32)
prev_avg = tf.Variable(0.)

update_avg = alpha * curr_value + (1 - alpha) * prev_avg

# 평균을 위한 요약 노드를 생성
avg_hist = tf.summary.scalar("running_average", update_avg)

# 값들을 위한 요약 노드를 생성
value_hist = tf.summary.scalar("incoming_values", curr_value)

# 한꺼번에 실행하기 편하기 위해 요약을 통합
merged = tf.summary.merge_all()

# writer에 로그 디렉토리 위치를 전달
writer = tf.summary.FileWriter("./logs")

init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    for i in range(len(raw_data)):
        # 통합된 연산과 update_avg 연산을 동시에 실행 
        summary_str, curr_avg = sess.run([merged, update_avg], feed_dict={curr_value: raw_data[i]})
        
        sess.run(tf.assign(prev_avg, curr_avg))
        print(raw_data[i], curr_avg)

        # 요약을 writer에 추가
        writer.add_summary(summary_str, i)


9.091533287930279 0.4545767
8.714602254302132 0.867578
10.08855542340043 1.3286269
9.230721012323752 1.7237315
10.710232475570423 2.1730566
9.59226273873143 2.5440168
9.497588736415183 2.8916955
8.958327477050123 3.1950269
7.900872951226422 3.430319
7.787038602143644 3.648155
11.14782666690125 4.0231385
10.676670472936468 4.355815
11.456150312931102 4.7108316
10.944828087348771 5.022531
10.805238597463225 5.311666
11.26988124224338 5.6095767
8.017274456440925 5.7299614
11.394815931346912 6.013204
10.062483770471301 6.215668
10.195567529363947 6.4146633
9.44130796128982 6.5659957
9.394292967576545 6.7074103
11.290289812061692 6.9365544
10.348333859154591 7.1071434
10.100901407443581 7.256831
9.03783616130702 7.3458815
9.651674551414336 7.4611707
8.360853361588132 7.5061545
11.547455176450878 7.708219
10.08768095418257 7.827192
9.414582759675119 7.9065614
8.551267403261734 7.9387965
10.33366769123393 8.05854
10.725573661376473 8.191892
9.976770315490267 8.281136
9.393493405456177 8.33675

- 텐서보드 실행하기

     tensorboard --logdir=./logs