In [0]:
import tensorflow as tf
import numpy as np
from tensorflow.examples.tutorials.mnist import input_data

# 4. 신경망

신경망은 딥러닝의 기본이 되는 알고리즘입니다. 사람의 뇌에 존재하는 뉴런과 시냅스간의 화학작용을 모델링한것입니다. 인공지능의 암흑기로 잊혀졌었지만 최근 딥러닝이 state-of-the-art 를 보이며 다시 신경망의 중요성이 부각되고 있습니다.



## 4.1 모델

신경망은 깊이, 즉 히든 레이어에 따라 모델이 차이가 나지만 여기서는 가장단순한 형태의 신경망을 로지스틱회귀와 비교하며 살펴봅니다(아래의 모델은 로지스틱회귀와 동일합니다). 

스칼라 x1, x2, x3 3개를 입력으로 하나 스칼라 y룰 출력하는 모델입니다. 이때 y는 0 또는1 인 binary classification의 결과를 나타냅니다. 여기에 대한 모델이 아래의 그림입니다. 로지스틱회귀와 비교했을때 차이점을 생각해 봅시다. 


<img src="https://i.stack.imgur.com/gzrsx.png" width="50%">



위 그림에 대한 이해를 위해 다음과 같은 데이터를 생각해봅시다.

![](https://youngwonseo.github.io/public/deeplearning/neural_network_data_example.PNG)

사람의 성별을 구분하는 모델을 만들기 위해 위 모델을 사용했습니다. x1, x2, x3는 사람의 각각의 특성을 나타내고 y는 남/여 구분에 대한 결과입니다. feature는 키, 몸무게, 나이, 이고 target은 남/여라고 할 수 있습니다.


* X= [x1, x2, x3]
* w = [w1, w2, w3]
* Y = [y]

위의 X,W에 대한 식을 세워보면, 

$$ h_W,_b (x) = Wx + b $$ 


$$
\begin{align}
sigmoid(h_W,_b (x)) & = \frac{1}{1+e^{-Wx + b}}  \\\\\
\end{align}
$$



## 4.2 활성화함수

신경망과 로지스틱회귀의 차이점이 몇가지 존재하지만 그 중 가장 중요한 차이점은 활성화 함수에 있습니다.  


### 4.2.1 계단함수
* 가장 간단한 활성화 함수로 입력에 따라 0 아니면 1을 출력합니다. 하지만 미분 불가능하기 때문에 사용되지 않습니다.

![](https://latex.codecogs.com/gif.latex?h%28x%29%3D%5Cbegin%7Bcases%7D%201%5Cquad%20%28x%3E0%29%20%5C%5C%200%5Cquad%20%28x%5Cle%200%29%20%5Cend%7Bcases%7D)


### 4.2.2 시그모이드
* 0과 1사이를 출력하며 다음과 같은 수식과 다음과 같은 출력을 가집니다.

![](http://cs231n.github.io/assets/nn1/sigmoid.jpeg)


![](https://latex.codecogs.com/gif.latex?h%28x%29%3D%5Cfrac%20%7B%201%20%7D%7B%201&plus;exp%28-x%29%20%7D)


### 4.2.3 하이퍼블릭

* 시스모이드와 같이 0과 1사이를 출력합니다.
> 
![](http://cs231n.github.io/assets/nn1/tanh.jpeg)


### 4.2.4 ReLU

* gradient vanishing 문제를 해결하여 역전파에 최적화된 결과를 출력합니다.
* 이는 역전파 시 미분을 통해 오차를 찾아가는 과정에서 vanishing으로 학습할 값을 잃어버리는 것을 막습니다.
* 참조논문 : http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.165.6419&rep=rep1&type=pdf
* 다음과 같은 수식과 출력을 가집니다.

![](https://latex.codecogs.com/gif.latex?h%28x%29%3D%5Cbegin%7Bcases%7D%20x%5Cquad%20%28x%3E0%29%20%5C%5C%200%5Cquad%20%28x%5Cle%200%29%20%5Cend%7Bcases%7D)


![](http://cs231n.github.io/assets/nn1/relu.jpeg)

## 4.3 비용함수 -  교차 엔트로피 오차(Cross Entropy Error)

![](https://latex.codecogs.com/gif.latex?E%3D-%5Csum%20_%7B%20K%20%7D%5E%7B%20%7D%7B%20%7B%20t%20%7D_%7B%20k%20%7D%5Clog%20%7B%20%7B%20y%20%7D_%7B%20k%20%7D%20%7D%20%7D)

* log는 밑이 e인 자연로그를 의미합니다.
* 정답이 true/false인 경우 t가 1또는 0 이기때문에 교차 엔트로피의 결과는 y의 자연로그이거나 0이 됩니다.
* 다음은 자연 로그에 대한 그래프입니다.

![](https://upload.wikimedia.org/wikipedia/commons/thumb/e/ea/Log.svg/300px-Log.svg.png)

* log함수의 x가 1일때는 0, x가 0에 가까워 질수록 음수로 떨어집니다. 
* 즉 신경망 출력y의 값이 크고 정답이면 0, 정답이 아니면 작은수를 합쳐 부호를 변환하여 오차를 구합니다.

> 신경망의 출력백터의 요소가 (0~1) 범위의 스칼라 조합일 경우를 생각해보면 정답레이블(t=1)일때 y가 1미만일경우, 음수대의 숫자를 자연로그는 반환하기 때문에, 다 더해서 부호반전을 통해 에러를 계산됩니다.


### 비용함수의 역할

* 신경망에서 정확한 가중치(weight)를 구하기 위해서 '정확도'가 아닌 '오차률'(손실함수)을 사용합니다.
* 이유는 신경망 학습(가중치 학습)에서 매개변수의 미분을 계산해서 이동방향을 결정하기 때문입니다.
* 즉 손실함수의 미분값(기울기)의 음,양을 판단해 매개변수를 갱신합니다.. 미분관점에서는 매개변수의 값을 조금 변화시켰을때 손실함수의 결과 값이 이동할 방향을 결정하기 때문입니다..
* 미분값이 0이면 어느 쪽으로 움직여도 손실 함수의 값이 달라지지 않기 때문에 학습이 멈춥니다..
* 만약 정확도를 지표로 삼으면 매개변수의 미분이 대부분의 장소에서 0이 된다. 정확도는 매개변수의 변화에 따라 32%에서 32.0123%과 같은 연속적 변화보다는 33%, 34%와 같은 불연속적인 값으로 튀기 때문에 학습에 대한 최적화가 어렵습니다..
* 이것은 계단함수를 쓰기 않는 이유와 동일합니다..
* 그래서 손실함수의 미분을 이용하여 학습합니다.
* **여기서 핵심포인트는 기울기가 0이 되지 않는 덕분에 신경망이 올바르게 학습할 수 있는것입니다.**

## 4.4 미니배치 학습(mini-batch)

* 실제 학습데이터를 기반으로 손실함수를 구할 때, 데이터가 100개면 100개의 손실함수를 계산해야합니다.
* 아래는 n개의 데이터에 대한 교차 엔트로피 오차 공식힙니다.

![](https://latex.codecogs.com/gif.latex?E%3D-%5Cfrac%20%7B%201%20%7D%7B%20N%20%7D%20%5Csum%20_%7B%20n%20%7D%5E%7B%20%7D%7B%20%5Csum%20_%7B%20k%20%7D%5E%7B%20%7D%7B%20%7B%20t%20%7D_%7B%20nk%20%7Dlog%7B%20y%20%7D_%7B%20nk%20%7D%20%7D%20%7D)


* 데이터가 무수히 많아질 때는 학습 시간등을 고려하여 모든 데이터 중 일부를 무작위로 선택해 학습을 진행합니다.
* 이것이 미니배치입니다.


## 4.5 드롭아웃

드롭아웃은 신경망에서 사용되는 정규화 방법으로 오버피팅되는 현상을 피하게 합니다. 드롭아웃은 특정확률로 레이어간의 weight을 제거합니다. 즉 연결을 끊어 계산결과가 전파되는 것을 막습니다. 당연히 학습할때도 사용되지 않습니다. 


![](https://youngwonseo.github.io/public/deeplearning/dropout.PNG)



## 4.5 신경망 예제

여기서는 신경망을 이용해 손글씨를 구분하는 예제를 보입니다.

![](https://ml4a.github.io/images/figures/mnist_2layers.png)

In [0]:
import tensorflow as tf
import numpy as np
from tensorflow.examples.tutorials.mnist import input_data

def init_weights(shape):
    return tf.Variable(tf.random_normal(shape, stddev=0.01))

def model(X, w_h, w_h2, w_o, p_keep_input, p_keep_hidden): # this network is the same as the previous one except with an extra hidden layer + dropout
    X = tf.nn.dropout(X, p_keep_input)
    h = tf.nn.relu(tf.matmul(X, w_h))

    h = tf.nn.dropout(h, p_keep_hidden)
    h2 = tf.nn.relu(tf.matmul(h, w_h2))

    h2 = tf.nn.dropout(h2, p_keep_hidden)

    return tf.matmul(h2, w_o)

mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
trX, trY, teX, teY = mnist.train.images, mnist.train.labels, mnist.test.images, mnist.test.labels

In [0]:
X = tf.placeholder("float", [None, 784])
Y = tf.placeholder("float", [None, 10])

w_h = init_weights([784, 625])
w_h2 = init_weights([625, 625])
w_o = init_weights([625, 10])

p_keep_input = tf.placeholder("float")
p_keep_hidden = tf.placeholder("float")
py_x = model(X, w_h, w_h2, w_o, p_keep_input, p_keep_hidden)

cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=py_x, labels=Y))
train_op = tf.train.RMSPropOptimizer(0.001, 0.9).minimize(cost)
predict_op = tf.argmax(py_x, 1)

Instructions for updating:
Colocations handled automatically by placer.
Instructions for updating:
Please use `rate` instead of `keep_prob`. Rate should be set to `rate = 1 - keep_prob`.
Instructions for updating:

Future major versions of TensorFlow will allow gradients to flow
into the labels input on backprop by default.

See `tf.nn.softmax_cross_entropy_with_logits_v2`.



In [0]:

# Launch the graph in a session
with tf.Session() as sess:
    # you need to initialize all variables
    tf.global_variables_initializer().run()

    for i in range(100):
        for start, end in zip(range(0, len(trX), 128), range(128, len(trX)+1, 128)):
            sess.run(train_op, feed_dict={X: trX[start:end], Y: trY[start:end],
                                          p_keep_input: 0.8, p_keep_hidden: 0.5})
        print(i, np.mean(np.argmax(teY, axis=1) ==
                         sess.run(predict_op, feed_dict={X: teX, Y: teY,
                                                         p_keep_input: 1.0,
                                                         p_keep_hidden: 1.0})))

0 0.9365
1 0.9604
2 0.9696
3 0.9733
4 0.9753
5 0.9765
6 0.9758
7 0.9777
8 0.9777
9 0.9787
10 0.9798
11 0.9795
12 0.9792
13 0.979
14 0.979
15 0.9814
16 0.9806


KeyboardInterrupt: ignored