## 6.2 Dropout

overfitting : 학습한 결과가 train data에는 매우 잘 맞지만, train data에 너무 꼭 맞춰져 있어서 그 외의 데이터(ex.test data)에는 잘 맞지 않는 상황

-> Machine Learning에서 매우 중요한 과제! => 이를 해결하기 위한 연구 활발

-> 그 중 가장 효과 좋은 방법 : **Dropout(드롭아웃)**

### Dropout

학습 시 전체 신경망 중 일부만을 사용하도록 하는 것!

-> 학습 단계마다 일부 뉴런을 제거(사용하지 않도록) 

=> 일부 feature가 특정 뉴런들에 고정되는 것을 막음 -> weight의 균형을 잡도록! -> overfitting 방지

but 학습 시 일부 뉴련을 학습 시키지 않음 -> 충분한 학습까지 시간이 좀 더 걸림

In [1]:
import tensorflow as tf
import numpy as np

from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("./mnist/data/", one_hot = True)

X = tf.placeholder(tf.float32, [None, 784])
Y = tf.placeholder(tf.float32, [None, 10])

  from ._conv import register_converters as _register_converters


Instructions for updating:
Please use alternatives such as official/mnist/dataset.py from tensorflow/models.
Instructions for updating:
Please write your own downloading logic.
Instructions for updating:
Please use tf.data to implement this functionality.
Extracting ./mnist/data/train-images-idx3-ubyte.gz
Instructions for updating:
Please use tf.data to implement this functionality.
Extracting ./mnist/data/train-labels-idx1-ubyte.gz
Instructions for updating:
Please use tf.one_hot on tensors.
Extracting ./mnist/data/t10k-images-idx3-ubyte.gz
Extracting ./mnist/data/t10k-labels-idx1-ubyte.gz
Instructions for updating:
Please use alternatives such as official/mnist/dataset.py from tensorflow/models.


In [14]:
keep_prob = tf.placeholder(tf.float32)

W1 = tf.Variable(tf.random_normal([784, 256], stddev=0.01))
L1 = tf.nn.relu(tf.matmul(X, W1))
L1 = tf.nn.dropout(L1, keep_prob)

W2 = tf.Variable(tf.random_normal([256, 256], stddev = 0.01))
L2 = tf.nn.relu(tf.matmul(L1, W2))
L2 = tf.nn.dropout(L2, keep_prob)

W3 = tf.Variable(tf.random_normal([256, 10], stddev = 0.01))
model = tf.matmul(L2, W3)

손글씨 인식 모델에 dropout 적용 -> **tf.nn.dropout** 함수를 사용하기만 하면 됨!

이때, keep_prob은 0.8을 사용해 줄 것임! -> 0.8 : 사용할 뉴런의 비율 의미! (해당 계층의 약 80%의 뉴런만 사용)

**주의**

dropout을 사용하더라도 학습이 끝난 뒤 예측시에는 신경망 전체를 사용해야함! 

-> keep_prob 의 placeholder를 만듦 -> 학습 시 0.8을 넣어 dropout 사용 -> 예측시에는 1을 넣어 신경망 전체를 사용!

In [15]:
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(logits = model, labels = Y))
optimizer = tf.train.AdamOptimizer(0.001).minimize(cost)

init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)

batch_size = 100
total_batch = int(mnist.train.num_examples / batch_size)

for epoch in range(30):
    total_cost = 0
    
    for i in range(total_batch):
        batch_xs, batch_ys = mnist.train.next_batch(batch_size)
        
        _, cost_val = sess.run([optimizer, cost], feed_dict = {X: batch_xs, Y: batch_ys, keep_prob: 0.8})
        
        total_cost += cost_val
        
    print('Epoch: ', '%04d' % (epoch + 1), 
         'Avg. cost = ', '{:.3f}'.format(total_cost/total_batch))

print('최적화 완료!')

is_correct = tf.equal(tf.argmax(model, 1), tf.argmax(Y, 1))
accuracy  = tf.reduce_mean(tf.cast(is_correct, tf.float32))
print('정확도: ', sess.run(accuracy, feed_dict = {X: mnist.test.images, Y : mnist.test.labels, keep_prob: 1}))

Epoch:  0001 Avg. cost =  0.428
Epoch:  0002 Avg. cost =  0.166
Epoch:  0003 Avg. cost =  0.112
Epoch:  0004 Avg. cost =  0.088
Epoch:  0005 Avg. cost =  0.071
Epoch:  0006 Avg. cost =  0.062
Epoch:  0007 Avg. cost =  0.051
Epoch:  0008 Avg. cost =  0.046
Epoch:  0009 Avg. cost =  0.038
Epoch:  0010 Avg. cost =  0.036
Epoch:  0011 Avg. cost =  0.032
Epoch:  0012 Avg. cost =  0.031
Epoch:  0013 Avg. cost =  0.029
Epoch:  0014 Avg. cost =  0.028
Epoch:  0015 Avg. cost =  0.025
Epoch:  0016 Avg. cost =  0.026
Epoch:  0017 Avg. cost =  0.022
Epoch:  0018 Avg. cost =  0.023
Epoch:  0019 Avg. cost =  0.020
Epoch:  0020 Avg. cost =  0.019
Epoch:  0021 Avg. cost =  0.019
Epoch:  0022 Avg. cost =  0.018
Epoch:  0023 Avg. cost =  0.018
Epoch:  0024 Avg. cost =  0.020
Epoch:  0025 Avg. cost =  0.018
Epoch:  0026 Avg. cost =  0.014
Epoch:  0027 Avg. cost =  0.018
Epoch:  0028 Avg. cost =  0.015
Epoch:  0029 Avg. cost =  0.016
Epoch:  0030 Avg. cost =  0.016
최적화 완료!
정확도:  0.9842


위의 설명한 것과 같이 예측할 때는 keep_prob에 1을 넣어 전체 신경망을 사용해 준다.

**더 해보기~**

overfitting을 막아주는 방법으로 가장 유명하고 쉽게 이해할 수 있는 것이 Dropout!

but 최근에는 **Batch Normalization** 많이 사용!

-> overfitting 막아줌 & 학습 속도 높임! ( 원래 overfittng을 위해서가 아닌 학습시 발산/소실 등을 방지하여 학습 속도를 높이기 위해 발명된 기법)

tf.nn.batch_normalization / tf.layers.batch_normalization 함수로 쉽게 적용 가능!

특히 tf.layers 라이브러리(텐서플로의 고수준 API)를 이용하면 매우 간단 

-> tf.layers.batch_normalization(L1, training = is_training)