# 4.1 인공신경망의 작동 원리

인공신경망은 뇌의 신경 세포인 뉴런의 동작원리에 기초하여 만들어졌다. 뉴런의 기본 원리는 다음과 같다.

`가지돌기(입력) -> 축삭돌기(처리) -> 축삭말단(출력) -> 다음 뉴런의 가지돌기(입력)`

![neuron](images/neuron.png)

입력된 신호는 축삭돌기에서 신호가 약해지거나 해서 출력으로 이어지지 않을 수도 있고, 처음보다 더 강하게 전달될 수도 있다. 인간은 이런 뉴런을 수억개 조합해서 다양한 행동이나 판단을 수행한다. 위의 개념을 이용해서 인공 뉴런을 다음과 같이 만들 수 있다.

`output = ActivationFunction(input * weight + bias)`

이것이 기본적인 인공 뉴런의 구조이다. 이 때, 더 좋은 출력`output`을 얻기 위해서 가중치`weight`와 편향`bias`을 찾아가는 최적화 과정을 학습이라고 한다.

## 활성화 함수 Activation Function

인공 뉴런을 통해 계산된 값을 최종적으로 어떤 값으로 만들지 결정하는 함수를 말한다. 대표적으로 시그모이드`Sigmoid`, 렐루`ReLU`, 쌍곡탄젠트`tanh` 등이 있다. 모양새는 다음과 같다.

![activation-function](images/activation-function.png)

## 신경망의 학습

신경망을 학습시키려면 각 뉴런의 가중치와 편향 값을 일일이 변경해야 하는데, 신경망의 층이 깊어지고 뉴런이 많아질수록 이런 방법으로 학습을 진행하는 것은 현실적으로 불가능에 가깝다. 연구가 진행되고 다음과 같은 기법들이 발견되면서 현재는 큰 신경망에서도 효율적으로 학습이 가능하게 되었다.

- 제한된 볼츠만 머신`Restricted Boltzmann Machine, RBM` 알고리즘
- 드롭아웃`Dropout` 기법
- 렐루`ReLU` 활성화 함수
- 역전파`Backpropagation`

이 중 역전파는 출력으로 나온 결과의 오차를 가지고, 신경망을 거꾸로 올라가면서 가중치와 편향을 다시 계산하고 저장해 나가는 방식이다. 기존의 입력층으로부터 계산해 나가는 기존 방식보다 더 빠르고 정확한 최적화가 가능하다.

> 제한된 볼츠만 머신이나 역전파의 경우 이 책에서는 설명이 거의 없다. 드롭아웃은 뒤에서 다시 설명한다.

텐서플로우에서는 위의 기본적인 개념이 다 구현되어 있기 때문이 따로 개발자가 구현해야 될 내용은 거의 없다.

# 4.2 간단한 분류 모델 구현하기

딥러닝이 가장 많이 쓰이는 분야 중 하나는 이미지의 패턴을 인식하는 분류`Classification`작업이다. 이번 예제에서는 털과 날개가 있느냐를 기준으로 포유류와 조류를 구분하는 신경망 모델을 만들어본다. 개념 이해를 돕기 위해서, 실제 이미지가 아니라 이진 데이터를 활용한다.

## 학습 데이터 정의

In [2]:
import tensorflow as tf
import numpy as np  # 수치해석용 라이브러리, 행렬 조작/연산에 필수, 텐서플로우 내부에서도 긴밀하게 사용

# [털, 날개], 있으면 1, 없으면 0
feature_data = np.array([
    [0, 0],
    [1, 0],
    [1, 1],
    [0, 0],
    [0, 0],
    [0, 1],
])

# 각 개체의 실제 종류를 나타내는 레이블 (이런 식의 표기법을 '원-핫 인코딩'이라고 한다.)
label_data = np.array([
    [1, 0, 0],  # 기타
    [0, 1, 0],  # 포유류
    [0, 0, 1],  # 조류
    [1, 0, 0],
    [1, 0, 0],
    [0, 0, 1],
])

## 신경망 모델 구성

다음으로, 특징 `feature_data`와 레이블 `label_data`의 관계를 알아내는 신경망 모델을 구성해보자.

In [7]:
feature = tf.placeholder(tf.float32)
label = tf.placeholder(tf.float32)

weight = tf.Variable(tf.random_uniform([2, 3], -1., 1.))  # 입력층(특징) 2 * 출력층(레이블) 3
bias = tf.Variable(tf.zeros([3]))  # 출력층(레이블) 3

L = tf.nn.relu(tf.add(tf.matmul(feature, weight), bias))

model = tf.nn.softmax(L)  # 배열 내의 결과 합이 1이 되도록 만들어준다. 전체가 1이면 각각의 값을 확률이라고 생각할 수 있다.

끝이다. 이 신경망을 그림으로 나타내면 다음과 같다.

![artificial-neural-net](images/artificial-neural-net.png)

## 손실 함수

이제 손실 함수를 작성한다. 원-핫 인코딩 방법을 사용한 대부분의 모델에서 사용하는 교차 엔트로피`Cross-Entropy` 함수를 사용한다. 교차 엔트로피는 예측값과 실제값 사이의 확률 분포 차이를 계산한 값이다.

In [8]:
cost = tf.reduce_mean(-tf.reduce_sum(label * tf.log(model), axis=1))

손실 함수의 동작 과정을 자세히 살펴보면 다음과 같이 교차 엔트로피 값을 얻을 수 있다.

![cost-function-1](images/cost-function-1.png)
![cost-function-2](images/cost-function-2.png)
![cost-function-3](images/cost-function-3.png)
![cost-function-4](images/cost-function-4.png)

## 학습

마지막으로 텐서플로우가 제공하는 최적화 함수를 이용해서 학습을 시켜본다.

In [24]:
optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.01)  # 경사하강법
train_op = optimizer.minimize(cost)

# 초기화
init = tf.global_variables_initializer()
session = tf.Session()
session.run(init)

# 100번의 학습 iteration
for step in range(100):
    session.run(train_op, feed_dict={
        feature: feature_data,
        label: label_data,
    })
    
    # 10번마다 손실 출력
    if (step + 1) % 10 == 0:
        print('cost of: ', step + 1, session.run(cost, feed_dict={
            feature: feature_data,
            label: label_data,
        }))

# 예측값과 실제값 출력
prediction = tf.argmax(model, axis=1)  # 가장 큰 출력을 만드는 입력을 리턴
actual = tf.argmax(label, axis=1)
print('prediction value: ', session.run(prediction, feed_dict={
    feature: feature_data,
}))
print('actual value: ', session.run(actual, feed_dict={
    label: label_data,
}))

# 정확도 출력
is_correct = tf.equal(prediction, actual)
accuracy = tf.reduce_mean(tf.cast(is_correct, tf.float32))
print('accuracy: ', session.run(accuracy * 100, feed_dict={
    feature: feature_data,
    label: label_data,
}))

cost of:  10 1.07705
cost of:  20 1.07547
cost of:  30 1.07399
cost of:  40 1.07245
cost of:  50 1.071
cost of:  60 1.0695
cost of:  70 1.06802
cost of:  80 1.06664
cost of:  90 1.06566
cost of:  100 1.06468
prediction value:  [0 1 1 0 0 0]
actual value:  [0 1 2 0 0 2]
accuracy:  66.6667


# 4.3 심층 신경망 구성하기

정확도를 높이기 위해서 신경망의 층을 하나 늘려보자. 새로 늘어난 신경망의 뉴런의 수는 10개로 정해본다.

In [26]:
weight1 = tf.Variable(tf.random_uniform([2, 10], -1., 1.))
weight2 = tf.Variable(tf.random_uniform([10, 3], -1., 1.))

bias1 = tf.Variable(tf.zeros([10]))
bias2 = tf.Variable(tf.zeros([3]))

이 신경망의 연산 과정을 그림으로 나타내면 다음과 같다.

![hidden-layer](images/hidden-layer.png)

10개의 뉴런이 있는 중간 신경망을 은닉층`Hidden Layer`라고 한다. 은닉층의 적절한 뉴런 수도 하이퍼파라메터이므로 실험을 통해 찾아가야 한다.

이제 방금 만든 가중치와 편향으로 뉴런을 구성해보자.

In [55]:
L1 = tf.nn.relu(tf.add(tf.matmul(feature, weight1), bias1))
model = tf.add(tf.matmul(L1, weight2), bias2)  # 왜 여기는 ReLU를 적용하지 않을까? 실제로 적용해보면 성능이 더 떨어짐...

마지막으로 손실 함수를 작성해보자. 이번에도 교차 엔트로피 함수를 사용하지만, 텐서플로우가 제공하는 교차 엔트로피 함수를 이용해보자.

In [44]:
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=label, logits=model))

위에서 작성한 뉴런 구성과 손실 함수를 이용해서 다시 한 번 학습을 진행해보자. 이번에는 최적화 방법으로 경사하강법이 아니라 보편적으로 성능이 더 좋다고 알려진 `AdamOptimizer`를 사용해 본다. 물론 모든 경우에 다 좋은 것은 아니다.

In [54]:
optimizer = tf.train.AdamOptimizer(learning_rate=0.01)
train_op = optimizer.minimize(cost)

# 초기화
init = tf.global_variables_initializer()
session = tf.Session()
session.run(init)

# 100번의 학습 iteration
for step in range(100):
    session.run(train_op, feed_dict={
        feature: feature_data,
        label: label_data,
    })
    
    # 10번마다 손실 출력
    if (step + 1) % 10 == 0:
        print('cost of: ', step + 1, session.run(cost, feed_dict={
            feature: feature_data,
            label: label_data,
        }))

# 예측값과 실제값 출력
prediction = tf.argmax(model, axis=1)  # 가장 큰 출력을 만드는 입력을 리턴
actual = tf.argmax(label, axis=1)
print('prediction value: ', session.run(prediction, feed_dict={
    feature: feature_data,
}))
print('actual value: ', session.run(actual, feed_dict={
    label: label_data,
}))

# 정확도 출력
is_correct = tf.equal(prediction, actual)
accuracy = tf.reduce_mean(tf.cast(is_correct, tf.float32))
print('accuracy: ', session.run(accuracy * 100, feed_dict={
    feature: feature_data,
    label: label_data,
}))

cost of:  10 0.798288
cost of:  20 0.648935
cost of:  30 0.521132
cost of:  40 0.403939
cost of:  50 0.30709
cost of:  60 0.226787
cost of:  70 0.16453
cost of:  80 0.120015
cost of:  90 0.0888051
cost of:  100 0.0672267
prediction value:  [0 1 2 0 0 2]
actual value:  [0 1 2 0 0 2]
accuracy:  100.0
