In [1]:
# coding:utf-8
import numpy as np
import sys, os 
sys.path.append( os.pardir )

# 배치용(batch) Affine 계층 

(page, 174) <br/>
앞에서 설명한 Affine 계층은 입력 데이터 **X** 하나만을 고려한 상홤임 (= 1차원 배열)

### 배치 처리 and 미니배치 학습 
>* 배치 처리    (p.102) => 입력 데이터 한번에 넣기  <br/> 
>* 미니배치 학습(p.115) => 모든 훈련 데이터에 대한 손실 함수 다루기 <br/>
[https://blog.naver.com/cheeryun/221380230376]

#### 배치용 Affine 계층의 계산 그래프 

![](./images/fig_5-27.png)

배치 처리 전과 비교했을 때, 수식이 바뀌진 않았음 <br/>

다만, 행렬 곱셈을 이용하기 때문에 대응하는 차원의 원소 수에 유의해야함 

### Forward

이 예에서는 데이터가 2개(N = 2)로 가정됨 

In [2]:
X_dot_W = np.array([[0, 0, 0], [10, 10, 10] ] )  # X*Y의 shape (N, 3)예시 
B       = np.array([1, 2, 3])                    # Bias matrix 

In [6]:
print("XW = ", X_dot_W)
print("B = ", B)

XW =  [[ 0  0  0]
 [10 10 10]]
B =  [1 2 3]


In [5]:
print("Y = ", X_dot_W + B )                             # 브로드캐스팅 연산 

Y =  [[ 1  2  3]
 [11 12 13]]


[브로드캐스팅 연산](https://blog.naver.com/cheeryun/221259007518)

순전파의 편향(**B**) 덧셈은 각각의 데이터 (1번째 데이터, 2번째 데이터, ...)에 더해짐. <br/>
>브로드캐스팅 연산으로 구현함 

### Backward 

계산 그래프의 3번 식을 봤을 때, <br>
역전파 때는 각 데이터의 역전파 값이 편향의 원소에 모여야 함 

In [7]:
dY = np.array([[1, 2, 3,], [4, 5, 6] ] )    # 예시 
print("dY = ", dY)

dY =  [[1 2 3]
 [4 5 6]]


dY : $\frac{\partial L}{\partial \mathbf{Y}}$  
* 역전파 예시

In [8]:
dB = np.sum(dY, axis = 0 )  
print(dB)

[5 7 9]


axis = 0  
* 0번째 축에 대해서 (세로로)

$\frac{\partial L}{\partial \mathbf{B}}$ = $[\; \Sigma 원소1 \;\; \Sigma 원소2  \;\; \Sigma 원소3 \;]$

> $ \Sigma 원소1$ : 각 데이터의 첫 번째 원소에 해당하는 역전파 신호들의 합

mini-batch 학습에서도 손실함수를 구할 때 <br/>
각 데이터에 대한 손실함수를 모두 더해서 평균냄 

**common/layers.py** 파일의 Affine 구현은 입력 데이터가 텐서(=4차원 배열)인 경우도 고려함 

In [9]:
class Affine:
    def __init__(self, W, b):      # 생성자: (W, b)를 가지고 객체 초기화 
        self.W = W                 # 인스턴스 변수(.W)에 초기값 W을 할당 
        self.b = b 
        
        self.x = None 
        self.original_X_shape = None  
        
        # 가중치(W)와 편향(b) 매개변수의 미분 
        self.dW = None 
        self.db = None 
        
    #순전파 
    def forward(self, X):
        # 텐서 대응 
        self.original_X_shape = X.shape 
        X = X.reshape( X.shape[0], -1 )
        self.X = X                                 # 인스턴스 변수에 저장 
        
        out = np.dot(self.X, self,W) + self.b     # Y = XW + B  브로드캐스팅 연산 수행 
        
        return out 
    
    
    #역전파 
    def backward(self, dout):
        dx = np.dot(dout, self.W.T)              # 전치 속성: <array 객체>.T 
        self.dW = np.dot(self.x.T, dout)
        self.db = np.sum(dout, axis=0)          # 편향의 역전파  
        
        dx = dx.reshape(*self.original_X_shape) # 입력 데이터 모양 변경 (텐서 대응)
        
        return dx  

**Test**

In [18]:
X = np.array([[1,3, 5], [7, 9, 10] ])
print(X)
print("\n")
print(X.shape)
print("\n")
print(X.shape[0])

[[ 1  3  5]
 [ 7  9 10]]


(2, 3)


2


In [23]:
X.reshape( 3, -1)     # .reshape(2, -1)

array([[ 1,  3],
       [ 5,  7],
       [ 9, 10]])

.reshape(3, -1)
> New shape(3, -1) : Row 3 , Column unknown