# 심층 신경망

## 2개의 층

In [1]:
from tensorflow import keras

(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()

In [2]:
from sklearn.model_selection import train_test_split

train_scaled = train_input / 255.0 # 0~1 정규화
train_scaled = train_scaled.reshape(-1, 28*28) # 1차원으로 변경

train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42)

![](https://otexts.com/fppkr/nnet2.png)   

Hidden layer 바로 앞에도 활성화 함수가 있다. 출력층 이후에도 활성화 함수가 있는데 뭐가 다를까?   
출력층 이후 활성화 함수는 종류가 제한되어 있다. 이진 분류는 시그모이드, 다중 분류는 소프트맥스   
은닉층 이후 활성화 함수는 비교적 자유롭다. 대표적으로 시그모이드나 볼 ReLU 함수 등이 있다.   
그렇다면 은닉층 이후에는 왜 사용할까?   
입력층에서 받은 데이터를 은닉층에서 계산하고 나온 수를 비선형적으로 만들기 위해 사용한다.(나는 히든 레이어에서 나온 값을 정규화 한다고 생각함)   
궁금한점 수많은 은닉층 앞에서 매번 사용하는건가?

In [3]:
dense1 = keras.layers.Dense(100, activation='sigmoid', input_shape=(784,))
dense2 = keras.layers.Dense(10, activation='softmax')

## 심층 신경망 만들기

In [4]:
model = keras.Sequential([dense1, dense2])

In [5]:
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 100)               78500     
_________________________________________________________________
dense_1 (Dense)              (None, 10)                1010      
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


type는 지정하지 않으면 dense가 디폴드 값이다. 파라미터의 값은 784개의 픽셀과 100개의 뉴런 개수에 대한 경우의수 + 뉴런마다 갖고있는 절편 총 100개 해서 78500이 나왔다.

## 층을 추가하는 다른 방법

In [6]:
model = keras.Sequential([
    keras.layers.Dense(100, activation='sigmoid', input_shape=(784,), name='hidden'),
    keras.layers.Dense(10, activation='softmax', name='output')], 
    name='패션 MNIST 모델')

In [7]:
model.summary()

Model: "패션 MNIST 모델"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
hidden (Dense)               (None, 100)               78500     
_________________________________________________________________
output (Dense)               (None, 10)                1010      
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [8]:
model = keras.Sequential()
model.add(keras.layers.Dense(100, activation='sigmoid', input_shape=(784,)))
model.add(keras.layers.Dense(10, activation='softmax'))

In [9]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_2 (Dense)              (None, 100)               78500     
_________________________________________________________________
dense_3 (Dense)              (None, 10)                1010      
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [10]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')

model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7fc428290dc0>

## 렐루(ReLU) 함수

In [17]:
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28, 28)))
# Flatten은 말 그대로 픽셀을 일렬로 펼치는 것
model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

In [18]:
model.summary()

Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
flatten_1 (Flatten)          (None, 784)               0         
_________________________________________________________________
dense_6 (Dense)              (None, 100)               78500     
_________________________________________________________________
dense_7 (Dense)              (None, 10)                1010      
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [19]:
(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()

train_scaled = train_input / 255.0

train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42)

In [20]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')

model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7fc44188fc10>

In [21]:
model.evaluate(val_scaled, val_target)



[0.3616044521331787, 0.877916693687439]

## 옵티마이저

은닉층의 개수, 은닉층의 뉴런 개수, 활성화 함수, 층의 종류, 미니배치 사이즈, 에포크, 컴파일의 디폴트인 하강법 RMSprop이 사용됐는데 이들의 하이퍼파라미터 세팅을 옵티마이저라고 한다.

In [22]:
# 확률적 경사하강법 SGD
model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy', metrics='accuracy')

In [23]:
# 위에 있는 코드와 동일하다
sgd = keras.optimizers.SGD()
model.compile(optimizer=sgd, loss='sparse_categorical_crossentropy', metrics='accuracy')

In [24]:
# learning rate도 바꿀 수 있다
sgd = keras.optimizers.SGD(learning_rate=0.1)

In [25]:
# 모멘텀 최적화, 네스테로프 모멘텀 최적화 2번 반복함
sgd = keras.optimizers.SGD(momentum=0.9, nesterov=True)

In [26]:
# 적응적 학습률을 대표하는 adagrad, rmsprop이 있다. 각각 compile의 optimizer에 넣어 사용한다
adagrad = keras.optimizers.Adagrad()
model.compile(optimizer=adagrad, loss='sparse_categorical_crossentropy', metrics='accuracy')

In [27]:
rmsprop = keras.optimizers.RMSprop()
model.compile(optimizer=rmsprop, loss='sparse_categorical_crossentropy', metrics='accuracy')

In [29]:
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28, 28)))
model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

In [30]:
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics='accuracy')

model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7fc440fc8f40>

In [31]:
model.evaluate(val_scaled, val_target)



[0.3374905288219452, 0.878166675567627]