# 활성화 함수 추가하기
## 출력 층에 softmax 함수 적용해 보기
- 출력 신경의 활성화 함수를 소프트맥스(softmax)로 변경
$$ 출력층  \to 소프트맥스 활성화 함수 \to 확률$$
$$
 \begin{bmatrix}1.2\\5.1\\2.2\\0.7\\1.1 \end{bmatrix} 
 \to 
 \frac{e^{z_i}}{\textstyle\sum_{j=1}^{K}{e^{z_j}}} 
 \to 
 \begin{bmatrix}0.02\\0.90\\0.05\\0.01\\0.02 \end{bmatrix}
$$



- softmax 확성화 함수는 크로스 ```엔트로피 오차(cross entropy error)``` 함수와 같이 사용되고, ```분류(classification)```에 사용된다

### softmax와 cross entropy
- ```소프트맥스(softmax) 함수```는 출력 층에서 사용되는 활성화 함수로 다중 분류를 위해 주로 사용
- ```소트트맥스(softmax) 함수```는 확률의 총합이 1이 되도록 만든 함수이며 크로스 ```엔트로피 오차 함수```와 같이 사용된다.<br/><br/>
   $E=-{\displaystyle\sum_{k}}{t_klog{O_k}}$ <br/><br/><br/>
- ```평균 제곱 오차 함수```<br/><br/>
   $E = \sum_{k}\frac{1}{2}({o_k-{t_k}})^2$ <br/><br/><br/>
- 평균 제곱 오차 함수는 역전파 시 전파되는 오차가 다음과 같이 예측 값과 목표 값의 차인이다. <br/><Br/>
   $O_{kb} = O_k-t_k$

### 출력 층에 softmax 함수 적용해 보기
#### ReLU와 softmax
  - 은닉층 활성화 함수를 ReLU로 변경

In [1]:
from math import exp, tanh, log


In [2]:
i1, i2 = .05, .10
t1, t2 = 0, 1

w1, w3 = .15, .25
w2, w4 = .20, .30
b1, b2 = .35, .35

w5, w7 = .40, .50
w6, w8 = .45, .55
b3, b4 = .60, .60


In [None]:
for epoch in range(2000000):
    print('epoch = %d' %epoch)
    
    h1 = i1*w1 + i2*w2 +1*b1
    h2 = i1*w3 + i2*w4 +1*b2
    # h1 = 1/(1+exp(-h1))
    # h2 = 1/(1+exp(-h2))
    # h1 = tanh(h1)
    # h2 = tanh(h2)
    h1 = (h1>0)*h1
    h2 = (h2>0)*h2
    
    
    o1 = h1*w5 + h2*w6 + 1*b3
    o2 = h1*w7 + h2*w8 + 1*b4
    o1m = o1 - max(o1, o2) # 소프트맥스 활성화 함수
    o2m = o2 - max(o1, o2) # 소프트맥스 활성화 함수
    o1 = exp(o1m) / (exp(o1m) + exp(o2m)) # 소프트맥스 활성화 함수
    o2 = exp(o2m) / (exp(o1m) + exp(o2m)) # 소프트맥스 활성화 함수
    
    print('o1, o2 = %6.3f, %6.3f' %(o1,o2))
    
    E = -t1*log(o1) + -t2*log(o2) # 크로스 엔트로피 함수
    if E< 0.0001:
        break
    
    o1b, o2b = o1 - t1, o2 - t2
    # nothing for softmax + cross entropy error
    
    h1b, h2b = o1b*w5 + o2b*w7, o1b*w6 + o2b*w8
    h1b, h2b = h1b*(h1>0)*1, h2b*(h2>0)*1
    
    w1b, w3b = i1*h1b, i1*h2b
    w2b, w4b = i2*h1b, i2*h2b
    b1b, b2b = 1*h1b, 1*h2b
    w5b, w7b = h1*o1b, h1*o2b
    w6b, w8b = h2*o1b, h2*o2b
    b3b, b4b = 1*o1b, 1*o2b
    
    lr = 0.01
    
    w1, w3 = w1 - lr*w1b, w3 - lr*w3b
    w2, w4 = w2 - lr*w2b, w4 - lr*w4b
    b1, b2 = b1 - lr*b1b, b2 - lr*b2b
    w5, w7 = w5 - lr*w5b, w7 - lr*w7b
    w6, w8 = w6 - lr*w6b, w8 - lr*w8b
    b3, b4 = b3 - lr*b3b, b4 - lr*b4b


epoch = 0
o1, o2 =  0.481,  0.519
epoch = 1
o1, o2 =  0.478,  0.522
epoch = 2
o1, o2 =  0.475,  0.525
epoch = 3
o1, o2 =  0.471,  0.529
epoch = 4
o1, o2 =  0.468,  0.532
epoch = 5
o1, o2 =  0.465,  0.535
epoch = 6
o1, o2 =  0.462,  0.538
epoch = 7
o1, o2 =  0.459,  0.541
epoch = 8
o1, o2 =  0.456,  0.544
epoch = 9
o1, o2 =  0.453,  0.547
epoch = 10
o1, o2 =  0.450,  0.550
epoch = 11
o1, o2 =  0.447,  0.553
epoch = 12
o1, o2 =  0.444,  0.556
epoch = 13
o1, o2 =  0.441,  0.559
epoch = 14
o1, o2 =  0.439,  0.561
epoch = 15
o1, o2 =  0.436,  0.564
epoch = 16
o1, o2 =  0.433,  0.567
epoch = 17
o1, o2 =  0.430,  0.570
epoch = 18
o1, o2 =  0.427,  0.573
epoch = 19
o1, o2 =  0.424,  0.576
epoch = 20
o1, o2 =  0.422,  0.578
epoch = 21
o1, o2 =  0.419,  0.581
epoch = 22
o1, o2 =  0.416,  0.584
epoch = 23
o1, o2 =  0.413,  0.587
epoch = 24
o1, o2 =  0.411,  0.589
epoch = 25
o1, o2 =  0.408,  0.592
epoch = 26
o1, o2 =  0.405,  0.595
epoch = 27
o1, o2 =  0.403,  0.597
epoch = 28
o1, o2 =  0.400,  0