<a href="https://colab.research.google.com/github/jihyunjeongme/deeplearning-tensflow-3min/blob/master/%5B3%EB%B6%84_%EB%94%A5%EB%9F%AC%EB%8B%9D%5D_4%EC%9E%A5_%EA%B8%B0%EB%B3%B8_%EC%8B%A0%EA%B2%BD%EB%A7%9D_%EA%B5%AC%ED%98%84.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [0]:
# 포유류와 조류를 구분하는 신경망 모델
# 털과 날개의 유무를 바탕으로

import tensorflow as tf
import numpy as np

In [0]:
# 학습에 사용할 데이터 정의
# 털과 날개가 있느냐를 담은 특징 데이터 구성
# 있으면 1, 없으면 0

# [털, 날개]
x_data = np.array(
[[0,0], [1,0], [1,1], [0,0], [0,0], [0,1]])

In [0]:
# 각 개체가 실제 어떤 종류인지를 나타내는 레이블(분류값)데이터를 구성합니다.
# 즉, 포유류인지 조류인지, 아니면 제3의 종류인지를 기록한 실제 결괏괎

In [0]:
# 레이블 데이터는 원-핫 인코딩
# 원-핫 인코딩: 데이터가 가질 수 있는 값들을 일렬로 나열한 배열을 만들고,
# 그중 표현하려는 값을 뜻하는 인덱스의 원소만 1로 표기하고 나머지 원소는 모두 0
# 으로 채우는 표기법

In [0]:
# 각 종류의 인덱스는 기타=0, 포유류=1, 조류=2
# 원-핫 인코딩 형식으로 만들면
# 기타 =  [1,0,0]
# 포유류 = [0,1,0]
# 조류 =  [0,0,1]

In [0]:
# 이를 특징 데이터와 연관 지어 레이블 데이터로 구성하면 다음처럼 만들 수 있음.
y_data = np.array([
    [1,0,0],  # 기타
    [0,1,0],  # 포유류
    [0,0,1],  # 조류
    [1,0,0],
    [1,0,0],
    [0,0,1]
])

In [0]:
# 이렇게 구상한 특징 데이터와 레이블 데이터는 다음과 같은 연관 관계를 갖게 됩니다.
# [털, 날개] -> [기타, 포유류, 조류]
# [0,0] ->    [1,0,0],  # 기타
# [1,0] ->    [0,1,0],  # 포유류
# [1,1] ->    [0,0,1],  # 조류
# [0,0] ->    [1,0,0],  # 기타
# [0,0] ->    [1,0,0],  # 기타
# [0,1] ->    [0,0,1]   # 조류

# 위와 같이 학습 데이터의 정의 완료

In [0]:
# 신경말 모델을 구성
# 특징 X와 레이블 Y와의 관계를 알아내는 모델
# X와 Y에 실측값을 넣어서 학습시킬 것이니 
# X와 Y는 플레이스홀더로 설정

X = tf.placeholder(tf.float32)
Y = tf.placeholder(tf.float32)

In [0]:
# 가중치와 편향 변수 설정
# 신경망은 이 변수들의 값을 여러 가지고 바꿔가면서 X와 Y의 연관 관계를 학습하게 됨

W = tf.Variable(tf.random_uniform([2, 3], -1., 1.))
b = tf.Variable(tf.zeros([3]))

In [0]:
# 가중치 변수 W는 [입력층(특징 수), 출력층(레이블 수)]의 구성인 [2,3]으로 설정
# 편향 변수 b는 레이블 수인 3개의 요소를 가진 변수로 설정


In [0]:
# 이 가중치를 곱하고 편향을 더한 결과를 활성화 함수인 ReLU에 적용하면 신경망 구성은 끝

L = tf.add(tf.matmul(X,W),b)
L = tf.nn.relu(L)

In [0]:
# 뒤에 손실값을 구하는 부분이 남긴 햇지만, 신경망을 구성하는 것은 이게 끝

In [0]:
# 신경망을 통해 나온 출력값을 softmax 함수를 이용하여 사용하기 쉽게 다듬어줌
# softmax 함수는 다음처럼 배열 내의 결괏값들을 전체 합이 1이 되도록 만들어 줌

model = tf.nn.softmax(L)

In [0]:
# 손실 함수(비용함수) 작성
# 손실 함수(비용함수)는 원-핫 인코딩을 이용한 대부분의 모델에서 사용하는 
# 교차 엔트로피 함수 사용
# 교차 엔트로피 값: 예측값과 실제값 사이의 확률 분포 차이를 계산한 값

# 기본코드는 아래와 같음
cost = tf.reduce_mean(-tf.reduce_sum(Y * tf.log(model), axis=1))

In [0]:
# reduce_xxx 함수들은 텐서의 차원을 줄여줍니다.
# 함수 이름의 xxx 부분이 구체적인 차원 축소 방법을 뜻하고
# axis 매개변수로 축소할 차원을 정함
# Ex) reduce_sum(입력 텐서), axis=1) 주어진 텐서의 1번째 차원의 값들을 다 더해
# (값 1개로 만들어서) 그 차원을 없앤다는 뜻

In [34]:
# 이제 학습 시켜보겠습니다.
# 텐서플로가 기본 제공하는 최적화 함수를 사용

# 기본적인 경사하강법으로 최적화
optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.01)
train_op = optimizer.minimize(cost)

# 텐서플로의 세션을 초기화 합니다.
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)

# 앞서 구성한 특징과 레이블 데이터를 이용해 학습을 100번 진행합니다.
for step in range(300):
  sess.run(train_op, feed_dict={X: x_data, Y: y_data})
  
  # 학습 도중 10번에 한 번씩 손실값을 출력해봅니다.
  if (step + 1) % 10 == 0:
    print(step + 1, sess.run(cost, feed_dict={X: x_data, Y: y_data}))

10 1.1014748
20 1.0990072
30 1.0966069
40 1.0942702
50 1.0919948
60 1.0897778
70 1.0876169
80 1.0855094
90 1.0835091
100 1.0828627
110 1.0822195
120 1.0815793
130 1.0809423
140 1.0803083
150 1.0796775
160 1.0790493
170 1.0784243
180 1.0778021
190 1.0771829
200 1.0765663
210 1.0759526
220 1.0753417
230 1.0747335
240 1.074128
250 1.0735253
260 1.0729251
270 1.0723275
280 1.0717325
290 1.0711402
300 1.0705503


In [35]:
# 학습된 결과를 확인 해보는 코드 작성
# 예측값인 model을 바로 출력하면 [0.2 0.7 0.1]과 같이 확률로 나오기 때문에
# 요소 중 가장 큰 값의 인덱스를 찾아주는 argmax 함수를 사용하여 레이블 값 출력

prediction = tf.argmax(model, axis=1)
target = tf.argmax(Y, axis=1)
print('예측값:', sess.run(prediction, feed_dict={X: x_data}))
print('실제값:', sess.run(target, feed_dict={Y: y_data}))

예측값: [0 1 1 0 0 0]
실제값: [0 1 2 0 0 2]


In [36]:
# 정확도 출력
# 전체 학습 데이터에 대한 예측값과 실측값을 tf.equal함수로 비교 한 뒤
# true/false 값으로 나온 결과를 다시 tf.cast 함수를 이용해 0과1로 바꾸어
# 평균을 내면 아래와 같이 간단한 정확도를 구할 수 있음.

is_correct = tf.equal(prediction, target)
accuracy = tf.reduce_mean(tf.cast(is_correct, tf.float32))
print('정확도: %.2f' % sess.run(accuracy * 100, feed_dict={X: x_data,
                                                       Y: y_data}))

정확도: 66.67


In [0]:
# 학습 횟수를 아무리 늘려도 정확도가 크게 높아지지 않음.
# 그 이유는 신경망이 한 층 밖에 안되기 때문, 층 하나만 더 늘리면 쉽게 해결됨

In [0]:
# 4.3 심층 신경망 구현하기

In [0]:
# 다층 신경망을 만드는 것은 매우 간단합니다.
# 앞서 만든 신경망 모델에 가중치와 편향을 추가하기만 하면 됩니다.

# 가중치 [2,10]
W1 = tf.Variable(tf.random_uniform([2, 10], -1., 1.))

# 가중치 [10,3]
W2 = tf.Variable(tf.random_uniform([10, 3], -1., 1.))

# 편향 10
b1 = tf.Variable(tf.zeros([10]))

# 편향 3
b2 = tf.Variable(tf.zeros([3]))

In [0]:
# 그 의미는 아래와 같습니다.

# 가중치
# W1 = [2,10] -> [특징, 은닉층의 뉴런 수]
# W2 = [10,3] -> [은닉층의 뉴런수, 분류 수]

# 편향
# b1 = [10] -> 은닉층의 뉴런수
# b2 = [3] -> 분류수

In [0]:
# 위와 같이, 입력층과 출력층은 각각 특징과 분류 개수로 맞추고,
# 중간의 연결 부분은 맞닿은 층의 뉴런 수와 같도록 맞추면 됩니다.
# 중간의 연결 부분을 은닉층 이라하며
# 은닉층의 뉴런 수는 하이퍼파라미터이니 실험을 통해 가장 적절한 수를 정하면 됨

In [0]:
# 앞절과 마찬가지로 특정 입력값에 첫 번째 가중치와 편향, 그리고 활성화 함수 적용

# 이 가중치를 곱하고 편향을 더한 결과를 활성화 함수인 ReLU에 적용하면 신경망 구성은 끝

L1 = tf.add(tf.matmul(X,W1),b1)
L1 = tf.nn.relu(L1)

In [0]:
# 출력층을 만들기 위해 두 번째 가중치와 편향적용 최종 모델 만듬
# 은닉층에 두 번째 가중치 W2[10,3]와 편향 b2[3]을 적용하면
# 최종적으로 3개의 출력 값을 가지게 됨

model = tf.add(tf.matmul(L1, W2), b2)

In [0]:
# 손실함수 작성
# 텐서플로가 기본 제공하는 교차 엔트로피 함수 이용

cost = tf.reduce_mean(
tf.nn.softmax_cross_entropy_with_logits_v2(labels=Y,
                                          logits=model))

optimizer = tf.train.AdamOptimizer(learning_rate=0.01)
train_op = optimizer.minimize(cost)

In [0]:
# 최적화 함수로 AdamOptimizer 사용
# 사용하는 최적화 함수에 따라 정확도나 학습 속도가 많이 달라질 수 있음.
# AdamOptimizer는 앞서 사용한 GradientDescentOptimizer보다 보편적으로
# 성능이 좋다고 알려져 있음.(하지만 모든 경우에 좋은건 아님)

In [50]:
# 텐서플로의 세션을 초기화 합니다.
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)

# 앞서 구성한 특징과 레이블 데이터를 이용해 학습을 100번 진행합니다.
for step in range(100):
  sess.run(train_op, feed_dict={X: x_data, Y: y_data})
  
  # 학습 도중 10번에 한 번씩 손실값을 출력해봅니다.
  if (step + 1) % 10 == 0:
    print(step + 1, sess.run(cost, feed_dict={X: x_data, Y: y_data}))

10 0.7152521
20 0.54497916
30 0.4173412
40 0.31834006
50 0.24135502
60 0.18144572
70 0.13590573
80 0.10134351
90 0.072951585
100 0.05341724


In [51]:
# 학습된 결과를 확인 해보는 코드 작성
# 예측값인 model을 바로 출력하면 [0.2 0.7 0.1]과 같이 확률로 나오기 때문에
# 요소 중 가장 큰 값의 인덱스를 찾아주는 argmax 함수를 사용하여 레이블 값 출력

prediction = tf.argmax(model, axis=1)
target = tf.argmax(Y, axis=1)
print('예측값:', sess.run(prediction, feed_dict={X: x_data}))
print('실제값:', sess.run(target, feed_dict={Y: y_data}))

예측값: [0 1 2 0 0 2]
실제값: [0 1 2 0 0 2]


In [52]:
# 정확도 출력
# 전체 학습 데이터에 대한 예측값과 실측값을 tf.equal함수로 비교 한 뒤
# true/false 값으로 나온 결과를 다시 tf.cast 함수를 이용해 0과1로 바꾸어
# 평균을 내면 아래와 같이 간단한 정확도를 구할 수 있음.

is_correct = tf.equal(prediction, target)
accuracy = tf.reduce_mean(tf.cast(is_correct, tf.float32))
print('정확도: %.2f' % sess.run(accuracy * 100, feed_dict={X: x_data,
                                                       Y: y_data}))

정확도: 100.00
