# 심층 신경망

## 2개의 층

심층 신경망은 입력층과 출력층 이외에 여러개의 은닉층을 추가한 신경망이다.

> 은닉층 (hidden layer)

은닉층은 입력층과 출력층 사이에 있는 층을 의미한다.

입력층의 뉴런 개수와 출력층의 뉴런 개수는 각각 입력 데이터와 출력 데이터에 의해서 결정된다.

하지만 은닉층의 뉴런 개수를 정하는 기준은 존재하지 않으며, 이 개수를 결정하기 위해서는 많은 경험이 필요하다.

> 활성화 함수 (activation function)

활성화 함수는 출력층의 선형 방정식의 계산 값에 적용하는 함수이다.

출력층에 적용하는 활성화 함수로는 분류 문제인 경우 이진 분류는 시그모이드(sigmoid) 함수, 다중 분류는 소프트맥스(softmax) 함수를 사용한다.

회귀 문제의 경우는 값을 출력하기 때문에 출력층에 활성화 함수를 적용하지 않는다.

은닉층에 적용하는 활성화 함수로는 대표적으로 시그모이드 함수와 렐루(ReLU) 함수가 있다.

은닉층에 활성화 함수를 적용하는 이유는 선형 방정식의 결과 값을 그대로 다음 층으로 넘겨주면 다음 층의 계산과 단순히 합쳐지는 선형적인 산술 계산만 수행하기 때문에 아무런 역할이 없는 것과 마찬가지이기 때문이다.

따라서 은닉층에 활성화 함수를 적용해서 비선형적으로 변형해 주어야 한다.

> 시그모이드 함수 (sigmoid function)

은닉층에서 많이 사용하는 활성화 함수로 시그모이드 함수가 있다.

$$ f(z)=\frac{1}{1+e^{-z}} $$

시그모이드 함수는 출력층의 출력 $z$를 0과 1사이의 값으로 매핑해준다.

In [None]:
from tensorflow import keras
(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz


In [None]:
from sklearn.model_selection import train_test_split

train_scaled = train_input / 255.0
train_scaled = train_scaled.reshape(-1, 28*28)
train_scaled, val_scaled, train_target, test_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42
)

In [None]:
# 시그모이드 활성화 함수를 사용한 은닉층과 소프트맥스 활성화 함수를 사용한 출력층을 생성
dense1 = keras.layers.Dense(100, activation="sigmoid", input_shape=(784,)) # hidden layer
dense2 = keras.layers.Dense(10, activation="softmax") # output layer

## 심층 신경망 만들기

> 심층 신경망 (Deep Neural Network, DNN)

In [None]:
# 위에서 만든 은닉층과 출력층을 추가한 심층 신경망 모델 생성
# 출력층은 반드시 마지막으로 추가해야 한다.
model = keras.Sequential([dense1, dense2])

In [None]:
# 모델의 정보를 출력
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 100)               78500     
                                                                 
 dense_1 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


## 층을 추가하는 다른 방법

In [None]:
model = keras.Sequential([
    keras.layers.Dense(100, activation="sigmoid", input_shape=(784,), name="hidden"),
    keras.layers.Dense(10, activation="softmax", name="output")
], name="패션 MNIST 모델")

In [None]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 hidden (Dense)              (None, 100)               78500     
                                                                 
 output (Dense)              (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [None]:
model = keras.Sequential()
model.add(keras.layers.Dense(100, activation="sigmoid", input_shape=(784,)))
model.add(keras.layers.Dense(10, activation="softmax"))

In [None]:
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_2 (Dense)             (None, 100)               78500     
                                                                 
 dense_3 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [None]:
model.compile(loss="sparse_categorical_crossentropy", metrics="accuracy")
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7fb08ebfa7f0>

## 렐루 함수

> 렐루 함수 (ReLU function)

은닉층에 적용하는 대표적인 활성화 함수로 렐루 함수가 있다.

렐루 함수는 입력 값이 0보다 크면 그대로 출력하고, 0보다 작으면 0을 출력하는 특징이 있다.

$$ f(z)=max(0,z) $$

렐루 함수는 특히 이미지 처리에서 좋은 성능을 낸다고 알려져 있다.

> Flatten

케라스에서는 Flatten 층을 제공한다.

Flatten 층은 배치 차원을 제외하고 입력 데이터를 단순히 일렬로 펼쳐주는 역할을 한다.

reshape() 메서드로 입력 데이터를 직접 펼칠 필요 없이 Flatten 층을 사용하면 input_shape 매개변수를 통해서 입력 데이터의 차원을 짐작할 수 있는 장점이 있다.

Flatten 층은 학습하는 층이 아니므로 매개변수 개수가 없다.

In [None]:
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28, 28)))
model.add(keras.layers.Dense(100, activation="relu"))
model.add(keras.layers.Dense(10, activation="softmax"))

In [None]:
model.summary()

Model: "sequential_7"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten_3 (Flatten)         (None, 784)               0         
                                                                 
 dense_7 (Dense)             (None, 100)               78500     
                                                                 
 dense_8 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [None]:
(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()
train_scaled = train_input / 255.0
train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42
)

In [None]:
model.compile(loss="sparse_categorical_crossentropy", metrics="accuracy")
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f1eba6e4c10>

In [None]:
model.evaluate(val_scaled, val_target)



[0.367693692445755, 0.8775833249092102]

## 옵티마이저

신경망 모델에는 지정해야 할 하이퍼파라미터의 종류가 매우 많다.

옵티마이저는 지정해 주어야하는 많은 하이퍼파라미터 중 하나이다.

compile() 메서드의 optimizer 매개변수를 통해서 지정할 수 있다.

케라스는 기본적으로 미니배치 경사 하강법을 사용하며 미니배치 개수는 32개이다.

fit() 메서드의 batch_size 매개변수를 통해서 미니배치 개수를 지정할 수 있다.

케라스의 compile() 메서드는 optimizer 매개변수의 기본 값으로 'rmsprop'를 사용한다.

케라스는 keras.optimizer 패키지에 다양한 옵티마이저 클래스를 제공한다.

> 기본 경사 하강법 옵티마이저

* SGD 클래스로 기본 경사 하강법 옵티마이저를 사용할 수 있다.
* SGD 클래스의 momentum 매개변수를 0보다 큰 값으로 지정하면 모멘텀 최적화를 사용할 수 있다.
* SGD 클래스의 nesterov 매개변수를 True로 지정하면 네스테로프 모멘텀 최적화를 사용할 수 있다.

> 적응적 학습률 옵티마이저

* RMSprop
* Adagrad
* Adam

최적점에 가까워질수록 학습률을 작게 만드는 것을 적응적 학습률이라고 한다.

적응적 학습률을 사용하는 대표적인 옵티마이저로 RMSprop와 Adagrad가 있다.

또한 모멘텀 최적화와 RMSprop 옵티마이저의 장점을 접목한 Adam 옵티마이저가 있다.


In [None]:
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28, 28)))
model.add(keras.layers.Dense(100, activation="relu"))
model.add(keras.layers.Dense(10, activation="softmax"))

In [None]:
# Adam 옵티마이저를 지정
model.compile(optimizer="adam", loss="sparse_categorical_crossentropy", metrics="accuracy")
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f1eb9b22430>

In [None]:
model.evaluate(val_scaled, val_target)



[0.34464991092681885, 0.8755833506584167]