# Softmax-with-Loss 계층 

**그동안 다룬 내용**
>1. 계산 그래프<sup>(computational graph)</sup>로 연산 표현하기 
>2. 계산 그래프로 역전파 이해
>3. scalar 신호 역전파  
  * 곱셈 계층, 덧셈 계층 
  * 활성화 함수 계층(ReLU, Sigmoid)
  
>4. 배열 신호 역전파 
  * Affine 계층 
  * batch용 Affine 계층 

이제 마지막으로 출력층에서 사용하는 softmax function에 관해 정리함 <br/>

> Softmax 함수는 입력 값을 정규화하여 출력한다(page. 94, 101) 

### 손글씨 숫자 인식에서의 Softmax 계층 

<간소화 이미지>
![간소화이미지](./images/fig_5-28.png)

* 입력 이미지가 Affine 계층과 ReLU 계층을 통과하여 변환 
* 마지막 Softmax 계층에 의해서 10개의 입력이 정규화됨 ($\Sigma$출력 = 1)
> * 이 그림에서 '0'의 점수는 5.3 
> * 이것이 Softmax 계층을 지나 0.008(0.8%)로 변환  


### 참고 
<span style="color:blue">분류할 클래스 개수</span> = 출력 노드 개수 

따라서, 숫자 가짓수가 10개 &rarr; Softmax 계층의 입력도 10개 

#### 각 계층은 세부적으로 다음과 같은 모양임  
![](./images/fig_normalized.png)

## 알아 둘 것 (p.176)

1. 신경망에서 수행하는 작업은 __학습__<sup>learning</sup>과 __추론__<sup>inference</sup> 두 가지임 (p. 95) <br/>

2. 추론할 때: 일반적으로 Softmax 계층 생략 
> * Softmax 계층 앞의 Affine 계층의 출력을 인식 결과로 활용
> * 이를 __점수__<sup>score</sup>라 함 
> * 왜냐면, 신경망 추론에서 답을 하나만 내는 경우 <span style="color:blue">가장 높은 점수만 알면 되니까</span>(= Softmax 계층이 불필요)

3. 신경망을 학습할 때는 Softmax 계층이 필요 
> * 정규화된 데이터로 손실 함수<sup>loss function</sup>을 구하려고 (p. 102, 111)

# Softmax-with-Loss 계층 구현

손실 함수를 포함하여 소프트맥스 계층 구현하기

#### Soft-with-Loss 계층의 계산 그래프 

![](./images/fig_a-5.png)

__Softmax__  <br/>
$y_{k}=\frac{exp(a_k)}{\Sigma exp(a_k)}$  <br/>

__CEE__ <br/>
$E=-\Sigma t_{k}\log y_{k}$

수식 도출 과정은 "부록 A. Softmax-with-Loss 계층의 계싼 그래프 " 참고 

#### 간소화한 Softmax-with-Loss 계층의 계산 그래프 

![](./images/fig_5-30.png)

#### Forward
* 여기서는 3클래스 분류를 가정하고 이전 계층에서 3개의 입력(__점수<sup>score</sup>__)을 받음 
> ($a_{1}$, $a_{2}$, $a_{3}$) <br/>

* Softmax 계층은 입력 ($a_{1}$, $a_{2}$, $a_{3}$)을 정규화하여 ($y_{1}$, $y_{2}$, $y_{3}$)를 출력 <br/>


* CEE 계층은 출력($y_{1}$, $y_{2}$, $y_{3}$)와 정답 레이블 ($t_{1}$, $t_{2}$, $t_{3}$)를 받음 
> 이들 데이터로부터 손실 L을 출력함 

#### Backward
* Softmax 계층의 역전파<sup>backpropagation</sup>는 ($y_{1}-t_{1}$, $y_{2}-t_{2}$, $y_{3}-t_{3}$)라는 '말끔한' 결과를 내놓음 
> 즉, Softmax 계층의 출력과 정답 레이블의 차분임 
   * 신경망의 역전파에서 이러한 차이(=오차)가 앞 계층에 전해지는 것 
  
###### 신경망 학습의 중요한 성질이니까 기억하자 


__그런데__ <br/>

신경망 학습의 목적: 
> 신경망의 출력<sup>(Softmax의 출력)</sup>이 정답 레이블과 가까워지도록 가중치 매개변수의 값을 조정하는 것 

그래서 신경망의 출력($y_{k}$)과 정답 레이블($t_{k}$)간의 오차를 효율적으로 앞 계층에 전달해야함 

#### 그렇다고 봤을 때, 
($y_{1}-t_{1}$, $y_{2}-t_{2}$, $y_{3}-t_{3}$)라는 결과는... 
> 신경망의 현재 출력과 정답 레이블의 오차(error)를 있는 그대로 드러냄 

In [2]:
import numpy as np 
import sys, os 
sys.path.append( os.pardir ) # to import modules from 'common' directory
                            # (Book page. 97)

In [3]:
from common.functions import cross_entropy_error, softmax

In [4]:
class SoftmaxWithLoss: 
    def __init__(self):
        self.loss = None   # 손실 
        self.y    = None   # softmax 출력 
        self.t    = None   # 정답 레이블 (one-hot 벡터) 
        
    def forward(self, x, t):
        self.t    = t 
        self.y    = softmax(x)
        self.loss = cross_entropy_error(self.y, self.t) 
        return self.loss 
    
    def backward(self, dout = 1): 
        batch_size = self.t.shape[0]  
        dx         = (self.y - self.t) / batch_size 
        
        return dx 
    

* "소프트맥스 함수 구현 시 주의점" (p.93) 
* "(배치용) CEE 구현하기" (p. 119)            참고 

역전파 때는 전파하는 값을 배치의 수(batch_size)로 나눔 
> 데이터 1개당 오차를 앞 계층으로 전파함 