# 10장. 인공 신경망 소개

많은 인간의 발명품은 자연으로부터 영감을 얻었다. 그렇다면 지능적인 기계에 대해 영감을 얻기 위해서는 뇌의 구조를 살펴보는 것이 합리적일 것이다.

이것이 **인공 신경망 Artificial Neural Networks, ANN**의 핵심 아이디어이다. 그러나 새를 보고 비행기에 대한 영감을 얻었다고 하더라도 비행기의 날개를 펄럭거릴 필요는 없다.

비슷한 원리로 인공 신경망도 생물학적 뉴런에서부터 점점 멀어지고 있으며, 어떤 연구자들은 생물학적으로 국한되지 않도록 생물학적 비교를 모두 버려야 한다고 주장하기도 한다.

(예를 들면, '뉴런' 대신 '유닛'이라고 부른다.)

인공 신경망은 딥러닝의 핵심이다. 수백만 개의 이미지를 분류하거나, 음성 인식 서비스의 성능을 높이거나, 수억 명의 사용자에게 가장 좋은 비디오를 추천해주거나, 바둑 세계챔피언을 이기기 위해 기보를 익히는 등 아주 복잡한 대규모 머신러닝 문제를 다루는 데 적합하다.

이 장에서는 인공 신경망의 초창기 구조를 간단히 소개하는 것으로 시작한다. 그런 다음 **다층 퍼셉트론 Multi-Layer Perceptron, MLP**을 설명하고 MNIST 숫자 분류 문제를 텐서플로를 사용해 구현해본다.

# 1. 생물학적 뉴런에서 인공 뉴런까지

## 1.1 생물학적 뉴런
## 1.2 뉴런을 사용한 논리연산

**인공 뉴런 Artificial Neuron**은 하나 이상의 이진 입력과 하나의 이진 출력을 가진다. 맥컬록과 피츠는 이런 간단한 모델을 가지고 인공 뉴런의 네트워크를 만들어 어떤 논리 명제도 계산할 수 있다는 것을 보였다.

## 1.3 퍼셉트론

**퍼셉트론 Perceptron**은 가장 간단한 인공 신경망 구조 중 하나로 **TLU, Threshold Logic Unit**라는 조금 다른 형태의 인공 뉴런을 기반으로 한다.

입력과 출력이 이진값이 아닌 어떤 숫자고 각각의 입력 연결은 가중치와 연결되어 있다.

TLU는 입력의 가중치 합을 계산하고 ( $ z = w_1x_1 + w_2x_2 + ... + w_nx_n = w^T\times x $), 그런 다음 계산된 합에 **계단 함수 Step Function**를 적용하여 그 결과를 출력한다.

즉, $h_w(x) = step(z) = step(w^T\times x) $ 이다.

퍼셉트론에서 가장 널리 사용되는 계단 함수는 **헤비사이드 계단 함수 Heaviside Step Function**이다. 이따금 부호 함수 Sign Function을 대신 사용하기도 한다.

하나의 TLU는 간단한 선형 이진 분류 문제에 사용할 수 있다. 입력의 선형 조합을 계산해서 그 결과가 임곗값을 넘어서면 양성 클래스를 출력하고 그렇지 않으면 음성 클래스를 출력한다.

예를 들어 하나의 TLU를 이용해 꽃잎의 길이와 너비를 기반으로 붓꽃의 품종을 분류할 수 있다. TLU를 훈련시킨다는 것은 최적의 $w_0, w_1, w_2$를 찾는다는 뜻이다.

퍼셉트론은 층이 하나뿐인 TLU로 구성된다. 각 뉴런은 모든 입력에 연결되어 있으며, 이 연결은 **입력 뉴런 Input Neuron**이라 부르는 특별한 통과 뉴런을 사용해 표현되곤 한다.

이 뉴런은 무엇이 주입되는 입력을 그냥 출력으로 통과시킨다. 보통 거기에 편향 특성이 더해지며 ($x_0 = 1$), 이 편향 특성은 항상 1을 출력하는 특별한 종류의 뉴런인 **편향 뉴런 Bias Neuron**으로 표현된다.

그렇다면 퍼셉트론은 어떻게 훈련될까? 프랑크 로젠블라트가 제안한 퍼셉트론의 훈련 알고리즘은 **헤브의 규칙, Hebb's Rule**으로부터 영감을 많이 받았다. 서로 활성화되는 세포가 서로 연결된다는 규칙으로써, 이는 후에 헤브의 규칙 또는 헤브 학습으로 알려지게 되었다.

즉, 두 뉴런이 동일한 출력을 낼 때마다 그들 사이의 연결 가중치가 증가한다. 퍼셉트론은 네트워크가 만드는 에러를 반영하도록 조금 변형된 규칙을 사용하여 훈련된다.

잘못된 출력을 만드는 연결은 강화시키지 않는데, 조금 더 구체적으로 말하면 퍼셉트론에 한 번에 한 개의 샘플이 주입되면 각 샘플에 대해 예측이 만들어진다.

잘못된 예측을 하는 모든 출력 뉴런에 대해 올바른 예측을 만들 수 있도록 입력에 연결된 가중치를 강화시킨다. 규칙은 아래와 같다.

$$ {w_{i,j}}^{(next step)} = w_{i,j} + \eta(y_j - \hat{y_j})x_i $$

각 출력 뉴런의 결정 경계는 선형이므로 퍼셉트론도 복잡한 패턴을 학습하지 못한다. 하지만 로젠블랴트는 훈련 샘플이 선형적으로 구분될 수 있다면 이 알고리즘이 정답에 수렴한다는 것을 보였다.

이를 **퍼셉트론 수렴 이론 Perceptron Convergence Theorem**이라고 한다.

사이킷런은 하나의 TLU 네트워크를 구현한 Perceptron 클래스를 제공한다. 이 파이썬 클래스도 동일한 방식으로 사용할 수 있는데, 예를 들어 붓꽃 데이터셋에 아래와 같이 적용할 수 있다.

In [1]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron

iris = load_iris()
X = iris.data[:, (2,3)]
y = (iris.target == 0).astype(np.int)

per_clf = Perceptron(random_state=42)
per_clf.fit(X, y)

y_pred = per_clf.predict([[2, 0.5]])

  return f(*args, **kwds)


아마 퍼셉트론 학습 알고리즘이 확률적 경사 하강법과 매우 닮았다고 느꼈을 것이다. 사이킷런의 Perceptron 클래스는 매개변수가 `loss="perceptron"`, `learning_rate="constant"`, `eta0=1`, `penalty=None`인 `SGDClassifier`와 같다.

로지스틱 회귀 분류기와 달리 퍼셉트론은 클래스 확률을 제공하지 않으며 고정된 임곗값을 기준으로 예측을 만든다. 이런 이유로 퍼셉트론보다 로지스틱 회귀가 선호된다.

1969년 퍼셉트론의 여러 약점이 언급되었는데, 실제로 일부 간단한 문제를 풀 수 없다는 것이 입증되었다. (예를 들면 **배타적 논리합 XOR** 분류 문제). 물론 이는 다른 선형분류기도 마찬가지이다. 

하지만 연구자들은 퍼셉트론에 많은 기대를 했었기 때문에 실망도 컸고, 신경망 연구가 쇠약해지는 길이 되었다.

그러나 여러 퍼셉트론을 쌓아올려 일부 제약을 줄일 수 있다는 사실이 밝혀졌다. 이런 인공 신경망을 **다층 퍼셉트론, Multi-Layer Perceptron, MLP**이라 한다.


## 1.4 다층 퍼셉트론과 역전파

다층 퍼셉트론은 (통과) 입력층 하나와 **은닉층 Hidden Layer**이라 불리는 하나 이상의 TLU 층과 마지막 층인 **출력층 Output Layer**으로 구성된다.

출력층을 제외하고 모든 층은 편향 뉴런을 포함하여 다음 층과 완전히 연결되어 있다.인공 신경망의 은닉층이 2개 이상일 때 이를 **심층 신경망, Deep Neural Network, DNN**이라고 한다.

연구자들은 다층 퍼셉트론을 훈련시킬 방법을 찾기 위해 고군분투하다가, 1986년 **역전파 훈련 알고리즘, Backpropagation**을 소개하는 획기적인 논문이 공개되었다.

요즘에는 이를 후진 모드 자동 미분을 사용하는 경사 하강법으로 기술한다.

- 알고리즘은 각 훈련 샘플을 네트워크에 주입하고 연속되는 각 층의 뉴런마다 출력을 계산한다.
- 그런 다음 네트워크의 출력 오차를 계산한다. (기댓값과 네트워크 실제 출력과의 차이)
- 그리고 각 출력 뉴런의 오차에 마지막 은닉층의 뉴런이 얼마나 기여했는지 측정한다.
- 그런 다음 이전 은닉층의 뉴런이 여기에 또 얼마나 기여했는지 측정한다. 이런 식으로 입력층에 도달할 때까지 반복한다.
- 이 역방향 과정은 오차 그래디언트를 후방으로 전파함으로써 네트워크의 모든 연결 가중치에 대한 오차 그래디언트를 효율적으로 계산한다.
- 마지막으로 오차 그래디언트를 네트워크의 모든 연결 가중치에 반영하는 경사 하강법을 적용한다.

즉, 요약하자면
- 각 훈련 샘플에 대한 역전파 알고리즘이 먼저 예측을 만들고 (**정방향 계산**)
- 오차를 측정하고
- 그 다음 역방향으로 각 연결이 오차에 기여한 정도를 측정한다. (**역방향 계산**)
- 마지막으로 이 오차가 감소하도록 가중치를 조금씩 조정한다. (**경사 하강법 스텝**)

이 알고리즘을 잘 작동시키기 위해 저자들은 다중 퍼셉트론 구조에 중요한 변화를 주었는데, 계단 함수를 로지스틱 함수 $\sigma(z) = \frac{1}{1+exp(-z)}$로 바꾼 것이다.

계단 함수에는 수평선밖에 없으니 계산할 그래디언트가 없다. (경사 하강법은 평편한 곳을 이동할 수 없다.)

반면 로지스틱 함수는 어디서든지 0이 아닌 그래디언트가 잘 정의되어 있다. 역전파 알고리즘은 로지스틱 함수 대신 다른 **활성화 함수 Activation Function**와도 사용될 수 있다.

널리 쓰이는 두 개의 다른 활성화 함수는 아래와 같다.

---

- **하이퍼볼릭 탄젠트 함수** (쌍곡 탄젠트 함수)

$tanh(z) = 2\sigma(2z)-1$ 로지스틱 함수처럼 S자 모양이며, 연속이고 미분 가능하다. 하지만 출력 범위가 -1에서 1 사이이다. (로지스틱은 0과 1 사이)

그래서 훈련 초기에 각 층의 출력이 다소 정규화되는 경향이 있다. (즉, 원점 주위로 몰리게 된다.) 이는 종종 빠른 수렴을 도와준다.

- **ReLU 함수**

$ReLU(z) = max(0, z)$ 연속적이지만 z = 0에서 미분 가능하지 않다. (기울기가 갑자기 변해서 경사 하강법이 엉뚱한 곳으로 튈 수 있다.)

그러나 실제로는 잘 작동하고 계산 속도가 빠르다는 장점이 있다. 무엇보다 중요한 점은 출력에 최댓값이 없다는 점이 경사 하강법에 있는 일부 문제를 완화해준다.

---

다층 퍼셉트론은 각 출력이 서로 다른 이진 클래스에 대응되는 분류 문제에 자주 사용된다. 클래스가 배타적일 때 (예를 들면 숫자 이미지 분류의 0에서 9까지 클래스일 때)는 전형적으로 출력층의 활성화 함수를 **소프트맥스 Softmax** 함수로 바꿔준다.

각 뉴런의 출력은 이에 상응하는 클래스의 추정 확률이 된다. 신호가 입력에서 출력으로 한 방향으로만 흐르기 때문에 이런 구조를 **피드포워드 신경망, Feedforward Neural Network, FNN**이라고 한다.

---

**Note.** 생물학적 뉴런이 S자 모양의 시그모이드 활성화 함수를 구현한 것처럼 보여 오랫동안 연구자들은 시그모이드 함수에만 집중하고 있었다. 하지만 일반적으로 ReLU 함수가 인공 신경망에서 더 잘 작동한다는 것이 밝혀졌다. 이것이 생물학적 비유가 오해를 일으킨 사례 중 하나이다.

---

# 2. 텐서플로의 고수준 API로 다층 퍼셉트론 훈련하기

텐서플로로 다층 퍼셉트론(MLP)을 훈련시키는 가장 간단한 방법은 사이킷런과 호환되는 고수준 API인 TF.Learn을 사용하는 것이다. 

`DNNClassifier` 파이썬 클래스는 여러 개의 은닉층과 클래스의 확률 추정을 위한 소프트맥스 출력층으로 구성된 심층 신경망을 매우 쉽게 훈련시켜준다.

예를 들어 다음 코드는 은닉층 2개(각각의 뉴런 수는 300개, 100개)와 10개의 뉴런을 가진 소프트맥스 출력층 하나로 구성된 분류 문제용 심층 신경망을 훈련시킨다.

In [4]:
import tensorflow as tf

In [5]:
(X_train, y_train), (X_test, y_test) = tf.keras.datasets.mnist.load_data()
X_train = X_train.astype(np.float32).reshape(-1, 28*28) / 255.0
X_test = X_test.astype(np.float32).reshape(-1, 28*28) / 255.0
y_train = y_train.astype(np.int32)
y_test = y_test.astype(np.int32)
X_valid, X_train = X_train[:5000], X_train[5000:]
y_valid, y_train = y_train[:5000], y_train[5000:]

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz


In [8]:
feature_cols = [tf.feature_column.numeric_column("X", shape=[28 * 28])]
dnn_clf = tf.estimator.DNNClassifier(hidden_units=[300,100], n_classes=10,
                                     feature_columns=feature_cols)

input_fn = tf.estimator.inputs.numpy_input_fn(
    x={"X": X_train}, y=y_train, num_epochs=40, batch_size=50, shuffle=True)
dnn_clf.train(input_fn=input_fn)

INFO:tensorflow:Using default config.
INFO:tensorflow:Using config: {'_model_dir': 'C:\\Users\\ud803\\AppData\\Local\\Temp\\tmp6h5elv9b', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': allow_soft_placement: true
graph_options {
  rewrite_options {
    meta_optimizer_iterations: ONE
  }
}
, '_keep_checkpoint_max': 5, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': None, '_device_fn': None, '_protocol': None, '_eval_distribute': None, '_experimental_distribute': None, '_service': None, '_cluster_spec': <tensorflow.python.training.server_lib.ClusterSpec object at 0x0000023F3E33E908>, '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1}
INFO:tensorflow:Calling model_fn.
INFO:tensorflow:Done calling model_fn.
INFO:tensorflow:Create Checkp

<tensorflow_estimator.python.estimator.canned.dnn.DNNClassifier at 0x23f3e33e648>

In [7]:
test_input_fn = tf.estimator.inputs.numpy_input_fn(
    x={"X": X_test}, y=y_test, shuffle=False)
eval_results = dnn_clf.evaluate(input_fn=test_input_fn)
eval_results

INFO:tensorflow:Calling model_fn.
INFO:tensorflow:Done calling model_fn.
INFO:tensorflow:Starting evaluation at 2020-03-22T14:14:25Z
INFO:tensorflow:Graph was finalized.
Instructions for updating:
Use standard file APIs to check for files with this prefix.
INFO:tensorflow:Restoring parameters from C:\Users\ud803\AppData\Local\Temp\tmpaydiz5t0\model.ckpt-44000
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
INFO:tensorflow:Finished evaluation at 2020-03-22-14:14:25
INFO:tensorflow:Saving dict for global step 44000: accuracy = 0.9807, average_loss = 0.10352209, global_step = 44000, loss = 13.104063
INFO:tensorflow:Saving 'checkpoint_path' summary for global step 44000: C:\Users\ud803\AppData\Local\Temp\tmpaydiz5t0\model.ckpt-44000


{'accuracy': 0.9807,
 'average_loss': 0.10352209,
 'loss': 13.104063,
 'global_step': 44000}

내부를 들여다보면 `DNNClassifier` 클래스가 `ReLU` 활성화 함수를 기반으로 한 뉴런 층을 만든다.

출력층은 소프트맥스 함수고 비용 함수는 크로스 엔트로피이다.

# 3. 텐서플로의 저수준 API로 심층 신경망 훈련하기

네트워크의 구조를 더 상세히 제어하고 싶다면 텐서플로의 저수준 파이썬 API가 나을지도 모른다.

이 절에서는 저수준 API로 이전과 같은 모델을 만들고 MNIST 데이터셋에서 훈련하기 위해 미니배치 경사 하강법을 구현해본다.

첫 번째 스텝은 텐서플로 계산 그래프를 만드는 구성 단계이고, 두 번째 스텝은 실제로 이 그래프를 실행해 모델을 훈련시키는 실행 단계이다.

## 3.1 구성 단계

먼저 입력과 출력 크기를 지정하고 은닉층의 뉴런 수를 설정한다.

In [9]:
n_inputs = 28*28 #MNIST
n_hidden1 = 300
n_hidden2 = 100
n_outputs = 10

그런 다음 9장에서처럼 플레이스홀더 노드를 사용해 훈련 데이터와 타깃을 표현한다.

X의 크기는 일부분만 정의되는데, 우리가 아는 것은 '첫 번째 차원을 따라 샘플이 있고 두 번째 차원을 따라 특성이 있는' 2D 텐서 (즉, 행렬)라는 점이다.

특성의 수는 28x28 이지만 아직 훈련 배치에 몇 개의 샘플이 포함될지 모른다. 그래서 X의 크기는 (None, n_inputs)가 된다.

비슷하게 y도 샘플당 하나인 1차원 텐서라는 것은 알지만, 지금 시점엔 훈련 배치의 크기를 알 수 없다.

In [10]:
X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X")
y = tf.placeholder(tf.int32, shape=(None), name="y")

이제 두 개의 은닉층과 하나의 출력층을 만들어야 한다. 두 은닉층은 거의 같고 연결된 입력과 뉴런 수만 다르다.

출력층도 매우 비슷한데 ReLU 대신 소프트맥스를 사용한다. 

In [11]:
def neuron_layer(X, n_neurons, name, activation=None):
    with tf.name_scope(name):
        n_inputs = int(X.get_shape()[1])
        stddev = 2 / np.sqrt(n_inputs + n_neurons)
        init = tf.truncated_normal((n_inputs, n_neurons), stddev=stddev)
        W = tf.Variable(init, name="kernel")
        b = tf.Variable(tf.zeros([n_neurons]), name="bias")
        Z = tf.matmul(X, W) + b
        if activation:
            return activation(Z)
        else:
            return Z

코드를 한 줄씩 살펴보자.

- 먼저 층 이름으로 범위를 만든다. 여기에 이 층에서 필요한 모든 계산 노드가 포함된다. 꼭 필요한 줄은 아니지만 노드가 잘 정리되어 있으면 텐서보드에서 보기가 쉽다.
- 입력 행렬의 크기에서 두 번째 차원을 사용해 입력 특성의 수를 구한다.
- 다음 세 줄은 가중치 행렬을 담을 W 변수를 만든다. (종종 커널이라고도 부른다.) 이 행렬은 각 입력과 각 뉴런 사이의 모든 연결 가중치를 담고 있는 2D 텐서이다. 그러므로 크기는 (n_inputs, n_neurons)가 된다. 이 행렬은 표준편차를 따라 절단 정규 분포를 사용해 무작위로 초기화된다. 이 표준편차를 사용하면 알고리즘이 훨씬 빠르게 수렴한다. **경사 하강법 알고리즘이 중단되지 않도록 대칭성을 피하기 위해 모든 은닉층의 가중치는 무작위로 초기화하는 것이 중요하다.**
- 다음 줄은 뉴런마다 하나의 편향을 갖도록 변수 b를 만들고 0으로 초기화한다. (여기서는 대칭 문제가 없다.)
- 그런 다음 Z = XW + b를 계산하기 위한 그래프를 만든다. 이 벡터화된 구현은 층에 있는 모든 뉴런과 배치에 있는 모든 샘플에 대해 입력에 대한 가중치 합에 편향을 더하는 계산을 효율적으로 한 번에 수행한다. XW의 결과인 2D 행렬에 열의 개수와 같은 1D 배열을 더하면 모든 행에 1D 배열이 더해지게 되는데, 이를 **브로드캐스팅**이라고 한다.
- 마지막으로 activation 함수가 지정되어 있으면 활성화가 적용된 값을 반환한다.

In [12]:
with tf.name_scope("dnn"):
    hidden1 = neuron_layer(X, n_hidden1, name="hidden1", activation=tf.nn.relu)
    hidden2 = neuron_layer(hidden1, n_hidden2, name="hidden2", activation=tf.nn.relu)
    logits = neuron_layer(hidden2, n_outputs, name="outputs")

여기서도 이름 범위를 사용해 정리했는데, `logits`는 소프트맥스 활성화 함수로 들어가기 직전의 신경망 출력이 된다.

최적화 작업이 있기 때문에 소프트맥스 계산은 나중에 처리한다.

예상했겠지만 텐서플로에는 표준 신경망 층을 만드는 편리한 함수가 많이 있다. 그래서 앞에서처럼 따로 `neuron_layer()` 함수를 정의할 필요는 없다.

텐서플로의 `tf.layers.dense()` 함수는 모든 입력이 은닉층에 있는 모든 뉴런과 연결된 완전 연결 층 fully connected layer를 만든다.

이 함수는 적절한 초기화 방식을 사용해 kernel과 bias라는 이름으로 가중치와 편향 변수를 만든다.

그리고 `activation` 매개변수로 활성화 함수를 지정할 수 있다. `dense` 함수를 사용하도록 바꾸면 아래와 같이 쓸 수 있다.

In [13]:
with tf.name_scope("dnn"):
    hidden1 = tf.layers.dense(X, n_hidden1, name="hidden1", activation=tf.nn.relu)
    hidden2 = tf.layers.dense(hidden1, n_hidden2, name="hidden2", activation=tf.nn.relu)
    logits = tf.layers.dense(hidden2, n_outputs, name="outputs")

Instructions for updating:
Use keras.layers.dense instead.


이제 신경망 모델이 준비되었으니 훈련에 사용할 비용 함수를 정의해야 한다. 소프트맥스 회귀에서처럼 크로스 엔트로피를 사용한다.

앞서 이야기한 것처럼 크로스 엔트로피는 모델이 타깃 클래스에 대해 낮은 확률을 추정하지 않도록 제약을 가한다. 텐서플로는 크로스 엔트로피를 계산하기 위한 함수를 여러 개 제공한다.

여기서는 `sparse_softmax_cross_entropy_with_logits()` 함수를 사용한다. 이 함수는 로짓(즉, 소프트맥스 활성화 함수로 들어가기 전의 네트워크 출력)을 기반으로 크로스 엔트로피를 계산한다.

그리고 0에서 9 사이의 정수로 된 레이블을 기대한다. 이 함수는 각 샘플에 대한 크로스 엔트로피를 담은 1D 텐서를 반환하고, 텐서플로의 `reduce_mean()` 함수를 사용하여 모든 샘플에 대한 크로스 엔트로피 평균을 계산한다.

In [14]:
with tf.name_scope("loss"):
    xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)
    loss = tf.reduce_mean(xentropy, name="loss")

이제 신경망 모델과 비용 함수가 준비되었으니 `GradientDescentOptimizer`를 사용해 이 비용 함수를 최소화시키도록 모델 파라미터를 조정해나갈 것이다.

In [15]:
learning_rate = 0.01

with tf.name_scope("train"):
    optimizer = tf.train.GradientDescentOptimizer(learning_rate)
    training_op = optimizer.minimize(loss)

구성 단계에서 중요한 마지막 단계는 모델을 평가하는 방법을 지정하는 것이다. 여기서는 간단하게 정확도를 사용해 성능을 측정한다.

먼저 샘플마다 가장 큰 로짓이 타깃 클래스에 해당하는지 여부를 확인해 신경망의 예측이 맞는지 결정한다.

이를 위해 `in_top_k()` 함수를 사용하는데, 이는 불린 값으로 채워진 1D 텐서를 반환하므로 실수형으로 변환하고 평균을 낸다.

이 값이 신경망의 정체 정확도이다.

In [16]:
with tf.name_scope("eval"):
    correct = tf.nn.in_top_k(logits, y, 1)
    accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))

그리고 통상적으로 모든 변수를 초기화하는 노드를 만들고 훈련된 모델 파라미터를 디스크에 저장하기 위한 Saver 객체를 생성한다.

In [17]:
init = tf.global_variables_initializer()
saver = tf.train.Saver()

이것으로 구성 단계를 마쳤다. 40줄 미만의 코드이지만 매우 많은 것이 담겨있다.

- 입력과 출력을 위한 플레이스홀더를 만들었고,
- 뉴런의 층을 구성하는 함수를 만들었고,
- 이 함수를 사용해 심층 신경망을 생성했다.
- 비용 함수와 옵티마이저를 생성하고 마지막에 성능 지표까지 정의했다.

이제 실행을 할 차례이다.

## 3.2 실행 단계

이 단계는 짧고 간단하다. 먼저 데이터셋을 불러들인다.

In [22]:
(X_train, y_train), (X_test, y_test) = tf.keras.datasets.mnist.load_data()
X_train = X_train.astype(np.float32).reshape(-1, 28*28) / 255.0
X_test = X_test.astype(np.float32).reshape(-1, 28*28) / 255.0
y_train = y_train.astype(np.int32)
y_test = y_test.astype(np.int32)
X_valid, X_train = X_train[:5000], X_train[5000:]
y_valid, y_train = y_train[:5000], y_train[5000:]

이제 실행시킬 에포크 횟수와 미니배치 크기를 정의한다.

In [19]:
n_epochs = 40
batch_size = 50

그리고 모델을 훈련시킨다.

In [20]:
def shuffle_batch(X, y, batch_size):
    rnd_idx = np.random.permutation(len(X))
    n_batches = len(X) // batch_size
    for batch_idx in np.array_split(rnd_idx, n_batches):
        X_batch, y_batch = X[batch_idx], y[batch_idx]
        yield X_batch, y_batch

In [23]:
with tf.Session() as sess:
    init.run()
    for epoch in range(n_epochs):
        for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):
            sess.run(training_op, feed_dict={X: X_batch, y: y_batch})
        acc_batch = accuracy.eval(feed_dict={X: X_batch, y: y_batch})
        acc_valid = accuracy.eval(feed_dict={X: X_valid, y: y_valid})
        print(epoch, "배치 데이터 정확도:", acc_batch, "검증 세트 정확도:", acc_valid)
        
    save_path = saver.save(sess, "models/my_model_final.ckpt")

0 배치 데이터 정확도: 0.96 검증 세트 정확도: 0.903
1 배치 데이터 정확도: 0.92 검증 세트 정확도: 0.9222
2 배치 데이터 정확도: 0.94 검증 세트 정확도: 0.9318
3 배치 데이터 정확도: 0.98 검증 세트 정확도: 0.9368
4 배치 데이터 정확도: 0.96 검증 세트 정확도: 0.942
5 배치 데이터 정확도: 0.94 검증 세트 정확도: 0.9496
6 배치 데이터 정확도: 0.98 검증 세트 정확도: 0.953
7 배치 데이터 정확도: 0.96 검증 세트 정확도: 0.9572
8 배치 데이터 정확도: 0.94 검증 세트 정확도: 0.9594
9 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9618
10 배치 데이터 정확도: 0.98 검증 세트 정확도: 0.966
11 배치 데이터 정확도: 0.96 검증 세트 정확도: 0.9666
12 배치 데이터 정확도: 0.98 검증 세트 정확도: 0.9672
13 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9682
14 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.969
15 배치 데이터 정확도: 0.96 검증 세트 정확도: 0.9714
16 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9712
17 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9724
18 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9746
19 배치 데이터 정확도: 0.98 검증 세트 정확도: 0.975
20 배치 데이터 정확도: 0.96 검증 세트 정확도: 0.976
21 배치 데이터 정확도: 0.96 검증 세트 정확도: 0.9746
22 배치 데이터 정확도: 0.96 검증 세트 정확도: 0.9734
23 배치 데이터 정확도: 0.98 검증 세트 정확도: 0.9772
24 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9762
25 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.976
26 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9766
2

이 코드는 텐서플로의 세션을 열고 init 노드를 실행해서 모든 변수를 초기화한다.

그런 다음 바깥쪽 훈련 루프를 실행한다. 매 에포크에서 훈련 데이터의 크기를 미니배치 크기로 나눈 횟수만큼 반복한다.

## 3.3 신경망 사용하기

신경망을 훈련시키고 나면 이를 사용해 예측을 만들 수 있다. 이때 구성 단계는 그대로 재사용할 수 있지만 실행 단계는 다음과 같이 바꿔야 한다.

먼저 모델 파라미터를 읽어들이고, 훈련 데이터와 같은 스케일로 조정한다.

그런 다음 logits 노드를 평가한다. 모든 클래스에 대한 추정 확률을 알고 싶다면 로짓에 softmax() 함수를 적용하면 된다.

하지만 어떤 클래스 하나를 예측하는 것이라면 간단하게 로짓 값이 가장 큰 클래스를 선택하면 된다.