# *오차역전파법*

## 6. Affine/Softmax 계층 구현하기

### 1) Affine 계층

- **Affine transformation(어파인변환)**은 신경망의 순전파 때 수행하는 행렬의 곱을 의미
- '2-3 다차원 배열의 계산'을 참고하면 아래와 같은 예를 들 수 있음

In [2]:
X = np.random.rand(2)     #입력
W = np.random.rand(2,3)  #가중치
B = np.random.rand(3)     #편향

print(X.shape, W.shape, B.shape)

Y = np.dot(X,W) +B
print(Y.shape)

(2,) (2, 3) (3,)
(3,)


- 위 예제를 계산그래프로 그리면 아래와 같이 표기 가능
![](image/fig 5-24.png)

- 스칼라 값 대신 행렬을 입력값으로 제공
- X와 Y에 대해 역전파를 수행하면 아래 같은 식을 도출 가능

<br>
$$
\frac{\delta L}{\delta X}\quad = \quad \frac{\delta L}{\delta Y}W^T\\
\frac{\delta L}{\delta W}\quad = \quad X^T\frac{\delta L}{\delta Y}
$$
<br>

- 그림으로 표현 시 다음과 같음
![](image/fig 5-25.PNG)
> ### 위 예제에서 변수의 형상(차원)에 주의

___

### 2) 배치용 Affine 계층

- (2, ) 입력데이터 대신 데이터 N개를 묶어 batch로 순전파 하는 Affine 계층을 계산그래프로 그리면 아래와 같이 표현 가능

![](image/fig 5-27.png)

- 달라진 점은 X의 형상이 (N,2)가 된 것 뿐
- 편향은 N번 반복하여 데이터 각각에 더해짐
- 예를 들면 다음과 같음

In [4]:
X_dot_W = np.array([[0, 0, 0], [10, 10, 10]])
B = np.array([1, 2, 3])

print(X_dot_W)
print()
print(X_dot_W + B)


[[ 0  0  0]
 [10 10 10]]

[[ 1  2  3]
 [11 12 13]]


- 편향의 역전파는 N개 데이터에 대한 미분을 데이터마다 더해서 구함
- 순전파의 편향 덧셈은 각각의 데이터에 더해지므로, 역전파 때는 각 데이터의 역전파 값이 편향의 원소에 모여야 함 (차원)

In [5]:
dY = np.array([[1, 2, 3], [4, 5, 6]])

dB = np.sum(dY, axis = 0)

print(dY)
print()
print(dB)

[[1 2 3]
 [4 5 6]]

[5 7 9]


- 이상의 Affine은 아래와 같이 구현 가능

In [7]:
class Affine:
    def __init__(self, W, b):
        self.W = W
        self.b = b
        self.x = None
        self.dW = None
        self.db = None
    
    
    def forward(self, x):
        self.x = x
        out = np.dot(x, self.W) + self.b
        
        return out
    
    
    def backward(self, dout):
        dx = np.dot(dout, self.W.T)
        self.dW = np.dot(self.x.T, dout)
        self.db = np.sum(dout, axis = 0)
        
        return dx

___
### 3) Softmax-with-Loss 계층

- 출력층의 Softmax에 대해 보기 전에 전체 흐름에 대해 보면 다음과 같음
![](image/fig 5-28.png)
- 위와 같이 Softmax 계층은 입력값을 정규화하여(합이 1) 확률로 출력

> - 신경망에서 수행하는 작업은 **학습**과 **추론**임
> - 추론도 위에서 정규화 하지 않은 점수까지의 추론과 확률 추론으로 나눠 볼 수 있음
> - 답을 하나만 내는 경우 Softmax 계층은 필요 없음
> - 하지만 신경망 학습에 있어 Softmax 계층은 필수

- Softmax 계층 구현에 손실 함수인 Cross-Entropy-Error까지 포함하면 Softmax-with-Loss 계층 구현 가능
- 아래의 계산 그래프로 표현 가능하며;
![](image/fig 5-29.png)
- 간소화된 계산그래프는 아래처럼 표현 가능
![](image/fig 5-30.png)

> - 그림과 같이 Softmax 계층은 입력$(a_1, a_2, a_3)$를 정규화 하여 $(y_1, y_2, y_3)$를 출력
> - Cross Entropy Error 계층은 $(y_1, y_2, y_3)$과 정답레이블$(t_1, t_2, t_3)$를 받고, 손실$L$을 출력
> - ## 중요한 것은 Softmax의 역전파가 $(y_1-t_1, y_2-t_2, y_3-t_3)$이란 깔끔한 결과 출력
> - ## 신경망의 역전파에서는 '정답과 출력의 오차'가 앞 계층에 전해지는 중요한 성질 보유

- 예를 들면 정답 레이블이 (0, 1, 0)일때 Softmax가 (0.3, 0.2, 0.5)를 출력한 경우 출력의 확률은 겨우 20%에 불과
- 해당 계층의 역전파는 (0.3, -0.8, 0.5)라는 큰 오차를 전파하고, 학습 정도도 증가
- 반대로 Softmax가 (0.01, 0.99, 0)을 출력한 경우 역전파로 보내는 오차는 (0.01, -0.01, 0)으로 학습 정도도 작아짐

<br>
- Softmax-with-Loss를 구현하면 아래와 같음

In [8]:
class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None  #손실
        self.y = None     #Softmax 출력
        self.t = None     #정답 레이블(원-핫 벡터)
        
        
    def forward(self, x, t):
        self.t = t
        self.y = softmax(x)    #함수 정의 필요 "2-5-2 소프트맥스 함수 구현시 주의점"
        self.loss = cross_entropy_error(self.y, self.t)    #함수 정의 필요 "3-2-4 (배치용) 교차 엔트로피 오차 구현하기"
        return self.loss
    
    
    def backward(self, dout = 1):
        batch_size = self.t.shape[0]
        dx = (self.y - self.t) / batch_size
        
        return dx