# 10장 인공 신경망 소개

In [13]:
# Common imports
import numpy as np
import os

# to make this notebook's output stable across runs
def reset_graph(seed=42):
    tf.reset_default_graph()
    tf.set_random_seed(seed)
    np.random.seed(seed)

# To plot pretty figures
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12

# Where to save the figures
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "ann"

def save_fig(fig_id, tight_layout=True):
    path = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID, fig_id + ".png")
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format='png', dpi=300)

In [14]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron

iris = load_iris()
X = iris.data[:, (2, 3)]  # 꽃잎의 길이와 너비
y = (iris.target == 0).astype(np.int)

per_clf = Perceptron(random_state=42)
per_clf.fit(X, y)

y_pred = per_clf.predict([[2, 0.5]])



In [15]:
y_pred

array([1])

## 10.2 텐서플로의 고수준 API로 다층 퍼셉트론 훈련하기

In [16]:
import tensorflow as tf

In [18]:
(X_train, y_train), (X_test, y_test) = tf.keras.datasets.mnist.load_data()

In [19]:
X_train = X_train.astype(np.float32).reshape(-1, 28*28) / 255.0
X_test = X_test.astype(np.float32).reshape(-1, 28*28) / 255.0
y_train = y_train.astype(np.int32)
y_test = y_test.astype(np.int32)
X_valid, X_train = X_train[:5000], X_train[5000:]
y_valid, y_train = y_train[:5000], y_train[5000:]

In [23]:
feature_cols = [tf.feature_column.numeric_column("X", shape=[28 * 28])]
dnn_clf = tf.estimator.DNNClassifier(hidden_units=[300,100], n_classes=10,
                                     feature_columns=feature_cols)

INFO:tensorflow:Using default config.
INFO:tensorflow:Using config: {'_model_dir': '/var/folders/1g/rftmf6dn1g5dkx80h4m74syc0000gn/T/tmpo3tv44x1', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': None, '_keep_checkpoint_max': 5, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': None, '_service': None, '_cluster_spec': <tensorflow.python.training.server_lib.ClusterSpec object at 0x10b781278>, '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1}


In [24]:
input_fn = tf.estimator.inputs.numpy_input_fn(
    x={"X": X_train}, y=y_train, num_epochs=40, batch_size=50, shuffle=True)
dnn_clf.train(input_fn=input_fn)

INFO:tensorflow:Calling model_fn.
INFO:tensorflow:Done calling model_fn.
INFO:tensorflow:Create CheckpointSaverHook.
INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
INFO:tensorflow:Saving checkpoints for 1 into /var/folders/1g/rftmf6dn1g5dkx80h4m74syc0000gn/T/tmpo3tv44x1/model.ckpt.
INFO:tensorflow:loss = 114.95188, step = 1
INFO:tensorflow:global_step/sec: 394.756
INFO:tensorflow:loss = 26.389175, step = 101 (0.255 sec)
INFO:tensorflow:global_step/sec: 485.587
INFO:tensorflow:loss = 18.214302, step = 201 (0.205 sec)
INFO:tensorflow:global_step/sec: 483.693
INFO:tensorflow:loss = 5.986426, step = 301 (0.207 sec)
INFO:tensorflow:global_step/sec: 464.138
INFO:tensorflow:loss = 15.497122, step = 401 (0.216 sec)
INFO:tensorflow:global_step/sec: 468.428
INFO:tensorflow:loss = 9.043336, step = 501 (0.213 sec)
INFO:tensorflow:global_step/sec: 486.677
INFO:tensorflow:loss = 3.275099, step = 601 (0.206 sec)
INFO:tensorflow:

INFO:tensorflow:global_step/sec: 480.635
INFO:tensorflow:loss = 0.23383081, step = 8001 (0.208 sec)
INFO:tensorflow:global_step/sec: 498.869
INFO:tensorflow:loss = 1.9241284, step = 8101 (0.201 sec)
INFO:tensorflow:global_step/sec: 495.907
INFO:tensorflow:loss = 0.3451515, step = 8201 (0.202 sec)
INFO:tensorflow:global_step/sec: 491.586
INFO:tensorflow:loss = 0.29091355, step = 8301 (0.203 sec)
INFO:tensorflow:global_step/sec: 471.785
INFO:tensorflow:loss = 0.9153074, step = 8401 (0.212 sec)
INFO:tensorflow:global_step/sec: 461.174
INFO:tensorflow:loss = 3.2988763, step = 8501 (0.217 sec)
INFO:tensorflow:global_step/sec: 484.533
INFO:tensorflow:loss = 0.46341488, step = 8601 (0.206 sec)
INFO:tensorflow:global_step/sec: 494.028
INFO:tensorflow:loss = 1.1164093, step = 8701 (0.202 sec)
INFO:tensorflow:global_step/sec: 516.188
INFO:tensorflow:loss = 1.1223154, step = 8801 (0.194 sec)
INFO:tensorflow:global_step/sec: 468.371
INFO:tensorflow:loss = 1.6284499, step = 8901 (0.214 sec)
INFO:te

INFO:tensorflow:global_step/sec: 460.369
INFO:tensorflow:loss = 0.13587135, step = 16201 (0.218 sec)
INFO:tensorflow:global_step/sec: 492.24
INFO:tensorflow:loss = 0.035015717, step = 16301 (0.203 sec)
INFO:tensorflow:global_step/sec: 484.334
INFO:tensorflow:loss = 0.07064167, step = 16401 (0.206 sec)
INFO:tensorflow:global_step/sec: 486.89
INFO:tensorflow:loss = 0.024519447, step = 16501 (0.206 sec)
INFO:tensorflow:global_step/sec: 493.178
INFO:tensorflow:loss = 0.22345519, step = 16601 (0.203 sec)
INFO:tensorflow:global_step/sec: 406.859
INFO:tensorflow:loss = 0.03552191, step = 16701 (0.246 sec)
INFO:tensorflow:global_step/sec: 483.601
INFO:tensorflow:loss = 0.01463558, step = 16801 (0.207 sec)
INFO:tensorflow:global_step/sec: 340.832
INFO:tensorflow:loss = 0.2144121, step = 16901 (0.294 sec)
INFO:tensorflow:global_step/sec: 367.415
INFO:tensorflow:loss = 0.13045144, step = 17001 (0.272 sec)
INFO:tensorflow:global_step/sec: 368.164
INFO:tensorflow:loss = 0.024027836, step = 17101 (0

INFO:tensorflow:global_step/sec: 434.109
INFO:tensorflow:loss = 0.12870106, step = 24301 (0.230 sec)
INFO:tensorflow:global_step/sec: 485.764
INFO:tensorflow:loss = 0.011723167, step = 24401 (0.206 sec)
INFO:tensorflow:global_step/sec: 476.835
INFO:tensorflow:loss = 0.015193927, step = 24501 (0.210 sec)
INFO:tensorflow:global_step/sec: 447.008
INFO:tensorflow:loss = 0.003528231, step = 24601 (0.224 sec)
INFO:tensorflow:global_step/sec: 448.97
INFO:tensorflow:loss = 0.03557548, step = 24701 (0.223 sec)
INFO:tensorflow:global_step/sec: 464.257
INFO:tensorflow:loss = 0.028250515, step = 24801 (0.215 sec)
INFO:tensorflow:global_step/sec: 458.377
INFO:tensorflow:loss = 0.067026116, step = 24901 (0.219 sec)
INFO:tensorflow:global_step/sec: 476.78
INFO:tensorflow:loss = 0.01741076, step = 25001 (0.209 sec)
INFO:tensorflow:global_step/sec: 450.025
INFO:tensorflow:loss = 0.08320624, step = 25101 (0.222 sec)
INFO:tensorflow:global_step/sec: 393.812
INFO:tensorflow:loss = 0.09732489, step = 25201

INFO:tensorflow:global_step/sec: 394.834
INFO:tensorflow:loss = 0.016659383, step = 32401 (0.253 sec)
INFO:tensorflow:global_step/sec: 340.336
INFO:tensorflow:loss = 0.044323243, step = 32501 (0.295 sec)
INFO:tensorflow:global_step/sec: 400.229
INFO:tensorflow:loss = 0.0060226107, step = 32601 (0.249 sec)
INFO:tensorflow:global_step/sec: 390.822
INFO:tensorflow:loss = 0.109096795, step = 32701 (0.256 sec)
INFO:tensorflow:global_step/sec: 394.942
INFO:tensorflow:loss = 0.087847516, step = 32801 (0.253 sec)
INFO:tensorflow:global_step/sec: 409.401
INFO:tensorflow:loss = 0.10207161, step = 32901 (0.244 sec)
INFO:tensorflow:global_step/sec: 396.085
INFO:tensorflow:loss = 0.015929816, step = 33001 (0.252 sec)
INFO:tensorflow:global_step/sec: 364.557
INFO:tensorflow:loss = 0.0014542032, step = 33101 (0.274 sec)
INFO:tensorflow:global_step/sec: 358.252
INFO:tensorflow:loss = 0.011732868, step = 33201 (0.279 sec)
INFO:tensorflow:global_step/sec: 366.508
INFO:tensorflow:loss = 0.0195713, step =

INFO:tensorflow:global_step/sec: 334.763
INFO:tensorflow:loss = 0.024525363, step = 40501 (0.299 sec)
INFO:tensorflow:global_step/sec: 339.22
INFO:tensorflow:loss = 0.010441951, step = 40601 (0.295 sec)
INFO:tensorflow:global_step/sec: 344.503
INFO:tensorflow:loss = 0.037337158, step = 40701 (0.290 sec)
INFO:tensorflow:global_step/sec: 341.808
INFO:tensorflow:loss = 0.0031625447, step = 40801 (0.293 sec)
INFO:tensorflow:global_step/sec: 338.331
INFO:tensorflow:loss = 0.0033109682, step = 40901 (0.295 sec)
INFO:tensorflow:global_step/sec: 339.028
INFO:tensorflow:loss = 0.002617463, step = 41001 (0.295 sec)
INFO:tensorflow:global_step/sec: 339.368
INFO:tensorflow:loss = 0.0050139464, step = 41101 (0.295 sec)
INFO:tensorflow:global_step/sec: 340.464
INFO:tensorflow:loss = 0.028748997, step = 41201 (0.294 sec)
INFO:tensorflow:global_step/sec: 339.905
INFO:tensorflow:loss = 0.01865207, step = 41301 (0.294 sec)
INFO:tensorflow:global_step/sec: 339.388
INFO:tensorflow:loss = 0.03206126, step 

<tensorflow.python.estimator.canned.dnn.DNNClassifier at 0x10b781160>

In [25]:
test_input_fn = tf.estimator.inputs.numpy_input_fn(
    x={"X": X_test}, y=y_test, shuffle=False)
eval_results = dnn_clf.evaluate(input_fn=test_input_fn)

INFO:tensorflow:Calling model_fn.
INFO:tensorflow:Done calling model_fn.
INFO:tensorflow:Starting evaluation at 2018-07-30-07:37:04
INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Restoring parameters from /var/folders/1g/rftmf6dn1g5dkx80h4m74syc0000gn/T/tmpo3tv44x1/model.ckpt-44000
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
INFO:tensorflow:Finished evaluation at 2018-07-30-07:37:04
INFO:tensorflow:Saving dict for global step 44000: accuracy = 0.9796, average_loss = 0.104513876, global_step = 44000, loss = 13.229605


In [26]:
eval_results

{'accuracy': 0.9796,
 'average_loss': 0.104513876,
 'loss': 13.229605,
 'global_step': 44000}

In [27]:
y_pred_iter = dnn_clf.predict(input_fn=test_input_fn)
y_pred = list(y_pred_iter)
y_pred[0]

INFO:tensorflow:Calling model_fn.
INFO:tensorflow:Done calling model_fn.
INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Restoring parameters from /var/folders/1g/rftmf6dn1g5dkx80h4m74syc0000gn/T/tmpo3tv44x1/model.ckpt-44000
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.


{'logits': array([ -8.205022 ,  -6.533808 ,  -8.937283 ,  -1.8526587, -14.142021 ,
         -8.1129675, -14.956382 ,  18.110773 ,  -5.9473   ,   3.0048811],
       dtype=float32),
 'probabilities': array([3.7255893e-12, 1.9815016e-11, 1.7913422e-12, 2.1379198e-09,
        9.8353578e-15, 4.0848349e-12, 4.3562964e-15, 9.9999976e-01,
        3.5621447e-11, 2.7516569e-07], dtype=float32),
 'class_ids': array([7]),
 'classes': array([b'7'], dtype=object)}

## 10.3 텐서플로의 저수준 API로 심층 신경망 훈련하기

### 10.3.1 구성 단계

입력, 출력크기, 은닉층의 뉴런 수 설정

In [29]:
import tensorflow as tf

n_inputs = 28 * 28 # MNIST
n_hidden1 = 300
n_hidden2 = 100
n_outputs = 10

In [41]:
reset_graph()

X = tf.placeholder(tf.float32, shape=(None, n_inputs), name='X')
y = tf.placeholder(tf.int32, shape=(None), name='y')

In [36]:
def neuron_layer(X, n_neurons, name, activation=None):
    with tf.name_scope(name):
        n_inputs = int(X.get_shape()[1])
        stddev = 2 / np.sqrt(n_inputs + n_neurons)
        init = tf.truncated_normal((n_inputs, n_neurons), stddev=stddev)
        W = tf.Variable(init, name='kernel')
        b = tf.Variable(tf.zeros([n_neurons]), name='bias')
        Z = tf.matmul(X, W) + b
        if activation is not None:
            return activation(Z)
        else:
            return Z

1. 층 이름으로 이름 범위를 만든다.
2. 입력 행렬의 크기에서 두 번째 차원을 사용해 입력 특성의 수를 구한다.
3. 가중치 행렬을 담을 W 변수를 만든다. 입력과 각 뉴런 사이의 연결 가중치를 담고 있는 2D 텐서이니 크기는 (n\_inputs, n\_neurons)가 된다. 이 행렬은 표준편차가 $\frac{2}{\sqrt{n_{inputs}+n_{neurons}}}$ 인 절단 정규 가우시안 분포(truncated normal distribution)을 사용해 무작위로 초기화한다. 이 표준편차를 사용하면 알고리즘이 훨씬 빠르게 수렴한다. 경사 하강법 알고리즘이 중단되지 않돌고 대칭성을 피하기 위해 모든 은닉층의 가중치는 무작위로 초기화하는 것이 중요하다.
4. 뉴런마다 하나의 편향을 갖도록 변수 b를 만들고 0으로 초기화한다.
5. Z = X$\cdot$W + b 를 계산하기 위한 그래프를 만든다. 이 벡터화된 구현은 층에 있는 모든 뉴런과 배치에 있는 모든 샘플에 대해 입력에 대한 가중치 합에 편향을 더하는 계산을 효율적으로 한방에 수행한다.
6. 마지막으로 activation(Z)을 반환하고, 그렇지 않으면 그냥 Z를 반환한다

In [37]:
with tf.name_scope("dnn"):
    hidden1 = neuron_layer(X, n_hidden1, name='hidden1', activation=tf.nn.relu)
    hidden2 = neuron_layer(hidden1, n_hidden2, name='hidden2', activation=tf.nn.relu)
    logits = neuron_layer(hidden2, n_outputs, name='outputs')

logits은 소프트맥스 활성화함수로 들어가기 **직전의** 신경망 출력이다.

텐서플로의 tf.layers.dense() 는 모든 입력이 은닉층에 있는 모든 뉴런과 연결된 완전 연결층(fully connected layer)을 만든다. 이 함수는 적절한 초기화 방식을 사용해 kernel과 bias라는 이름으로 가중치와 편향 변수를 만든다.

In [42]:
with tf.name_scope('dnn'):
    hidden1 = tf.layers.dense(X, n_hidden1, name='hidden1', activation=tf.nn.relu)
    hidden2 = tf.layers.dense(hidden1, n_hidden2, name='hidden2', activation=tf.nn.relu)
    logits = tf.layers.dense(hidden2, n_outputs, name='outputs')

In [44]:
with tf.name_scope('loss'):
    xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)
    loss = tf.reduce_mean(xentropy, name='loss')

In [45]:
learning_rate = 0.01

with tf.name_scope('train'):
    optimizer = tf.train.GradientDescentOptimizer(learning_rate)
    training_op = optimizer.minimize(loss)

평가 방법을 지정한다. 여기서는 간단하게 정확도를 사용해 성능을 측정한다. 먼저 샘플마다 가장 큰 로짓이 타깃 클래스에 해당하는지 여부를 확인해 신경망의 예측이 맞는지 결정한다. 이를 위해 in\_top\_k() 함수를 사용한다. in\_top\_k(predictions, targets, k) 함수는 예측값(predictions)과 타깃 레이블(targets)을 입력받아 타깃 레이블의 예측값이 크기순으로 k번째 안에 들면 True, 그렇지 않으면 False를 반환한다.

In [47]:
with tf.name_scope('eval'):
    correct = tf.nn.in_top_k(logits, y, 1)
    accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))

In [49]:
init = tf.global_variables_initializer()
saver = tf.train.Saver()

### 10.3.2 실행 단계

In [51]:
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets('/tmp/data/')

Instructions for updating:
Please use alternatives such as official/mnist/dataset.py from tensorflow/models.
Instructions for updating:
Please write your own downloading logic.
Instructions for updating:
Please use urllib or similar directly.
Successfully downloaded train-images-idx3-ubyte.gz 9912422 bytes.
Instructions for updating:
Please use tf.data to implement this functionality.
Extracting /tmp/data/train-images-idx3-ubyte.gz
Successfully downloaded train-labels-idx1-ubyte.gz 28881 bytes.
Instructions for updating:
Please use tf.data to implement this functionality.
Extracting /tmp/data/train-labels-idx1-ubyte.gz
Successfully downloaded t10k-images-idx3-ubyte.gz 1648877 bytes.
Extracting /tmp/data/t10k-images-idx3-ubyte.gz
Successfully downloaded t10k-labels-idx1-ubyte.gz 4542 bytes.
Extracting /tmp/data/t10k-labels-idx1-ubyte.gz
Instructions for updating:
Please use alternatives such as official/mnist/dataset.py from tensorflow/models.


# 에포크(epoch) 횟수와 미니배치 크기를 정의하자

In [53]:
n_epochs = 40
batch_size = 50

모델 훈련

In [55]:
def shuffle_batch(X, y, batch_size):
    rnd_idx = np.random.permutation(len(X))
    n_batches = len(X) // batch_size
    for batch_idx in np.array_split(rnd_idx, n_batches):
        X_batch, y_batch = X[batch_idx], y[batch_idx]
        yield X_batch, y_batch

In [56]:
with tf.Session() as sess:
    init.run()
    for epoch in range(n_epochs):
        for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):
            sess.run(training_op, feed_dict={X: X_batch, y: y_batch})
        acc_batch = accuracy.eval(feed_dict={X: X_batch, y: y_batch})
        acc_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid})
        print(epoch, "Batch accuracy:", acc_batch, "Val accuracy:", acc_val)

    save_path = saver.save(sess, "./my_model_final_cp10.ckpt")

0 Batch accuracy: 0.9 Val accuracy: 0.9024
1 Batch accuracy: 0.92 Val accuracy: 0.9254
2 Batch accuracy: 0.94 Val accuracy: 0.9372
3 Batch accuracy: 0.9 Val accuracy: 0.9416
4 Batch accuracy: 0.94 Val accuracy: 0.9472
5 Batch accuracy: 0.94 Val accuracy: 0.9512
6 Batch accuracy: 1.0 Val accuracy: 0.9548
7 Batch accuracy: 0.94 Val accuracy: 0.961
8 Batch accuracy: 0.96 Val accuracy: 0.9622
9 Batch accuracy: 0.94 Val accuracy: 0.9648
10 Batch accuracy: 0.92 Val accuracy: 0.9656
11 Batch accuracy: 0.98 Val accuracy: 0.9666
12 Batch accuracy: 0.98 Val accuracy: 0.9684
13 Batch accuracy: 0.98 Val accuracy: 0.9704
14 Batch accuracy: 1.0 Val accuracy: 0.9694
15 Batch accuracy: 0.94 Val accuracy: 0.9718
16 Batch accuracy: 0.98 Val accuracy: 0.9726
17 Batch accuracy: 1.0 Val accuracy: 0.9728
18 Batch accuracy: 0.98 Val accuracy: 0.9744
19 Batch accuracy: 0.98 Val accuracy: 0.9758
20 Batch accuracy: 1.0 Val accuracy: 0.9748
21 Batch accuracy: 1.0 Val accuracy: 0.9734
22 Batch accuracy: 0.96 Val 

### 10.3.3 신경망 사용하기

In [57]:
with tf.Session() as sess:
    saver.restore(sess, "./my_model_final_cp10.ckpt") # or better, use save_path
    X_new_scaled = X_test[:20]
    Z = logits.eval(feed_dict={X: X_new_scaled})
    y_pred = np.argmax(Z, axis=1)

INFO:tensorflow:Restoring parameters from ./my_model_final_cp10.ckpt


1. 먼저 디스크로부터 모델 파라미터를 읽어 들인다.
2. 분류한려는 새 이미지를 읽는다.
    - 여기서에는 0과 1사이로 훈련 데이터와 같은 스케일로 이미 조정이 되어 있다.
3. logits 노드를 평가한다.
4. 모든 클래스에 대한 추정 확률을 알고 싶다면 로짓에 softmax() 함수를 적용하면 된다. 다만 로짓 값이 가장 큰 클래스를 선택하려면 argmax를 사용한다.

## 10.4 신경망 하이퍼파라미터 튜닝하기

그리드 서치의 경우 오랜 시간이 걸리니 랜덤 탐색이 낫다. 혹은 좋은 하이퍼라라미터 조합을 빠르게 찾아주는 복잡한 알고리즘들을 구현한 오스카 같은 도구를 사용하자.

### 10.4.1 은닉층의 수

은닉층이 하나라도 뉴런의 수가 많으면 복잡한 함수도 모델링할 수 있다. 하지만 심층 신경망이 얕은 신경망보다 **파라미터 효율성**이 훨씬 좋다. 또한 아래쪽 은닉층은 저수준의 구조를 모델링하고 중간 은닉층은 저수준의 구조를 연결하여 중간 수준의 구조를 모델링하고, 위족 은닉층과 춫ㄹ력층은 이런 중간 수준의 구조를 연결하여 고수준의 구조를 모델링한다.

이런 계층 구조는 심층 신경망이 좋은 솔루션으로 빨리 수렴하게끔 도와주고 새로운 데이터에 일반화되는 능력도 향상시켜준다. 가령 사진에서 얼굴을 인식하는 모델을 훈련시키려 한다면 첫 번째 네트워크의 하위층을 재사용하여 훈련을 시작할수 있다. 새로운 신경망의 처음 몇 개 층의 가중치와 편향을 나눗로 초기화하는 대신 첫 번째 신경망의 층에 있는 가중치와 편향 값으로 초기화할 수 있다.

### 10.4.2 은닉층의 뉴런 수

은닉층의 구성 방식은 일반적으로 각 층의 뉴런을 점점 줄여서 깔때기처럼 구성한다. 저수준의 많은 특성이 고수준의 적은 특성으로 합쳐질 수 있기 때문이다. 하지만 요즘은 모든 은닉층에 같은 크기를 사용한다. 예를 들어 모든 은닉층에 150개의 뉴런을 둔다. 즉, 하이퍼파라미터가 층마다 따로 있지 않아서 전체를 통틀어 하나만 조정하면 된다. 층의 개수와 마찬가지로 네트워크가 과대적합이 되기 전까지 점진적으로 뉴런 수를 늘린다. 일반적으로 층의 뉴런 수보다 층 수를 늘리는 쪽이 이득이 더 많다. 하지만 완벽한 뉴런 수를 찾는 것은 매우 어렵다.

실제 필요한 것보다 더 많은 층과 뉴런을 가진 모델을 선택하고, 과대적합되지 않도록 조기 종료기법을 사용하는 방법이 있는데, 이를 '스트래치 팬츠' 방식이라 부른다. 즉, 나에게 맞는 사이즈의 바지를 사는 찾느라 시간을 낭비하는 대신, 그냥 큰 스트레치 팬츠를 사는 것이다.

### 10.4.3 활성화 함수

대부분의 경우 은닉층에 ReLU 활성화 함수를 사용한다. 이 함수는 다른 활성화 함수보다 계산이 조금 더 빠르고, 입력값이 클수록 특정 값에 수렴하지 않는 덕분에 경사 하강법이 평편한 지역에서 심하게 지체되지 않는다. (로지스틱 함수와 하이퍼볼릭 탄젠트 함수는 1에 수렴한다.)

출력층에서는 소프트맥스 활성화 함수가 일반적으로 분류 작업에서 사용된다. 회귀 작업인 경우 활성화 함수를 사용하지 않는다.