# Affine / Softmax レイヤの実装

## Affineレイヤ

バッチ処理などで行列の積を使ったので、その計算を行うAffineレイヤを作成する

![Affine](../draw.io/images.drawio-2-Affine.svg)



## バッチ版Affineレイヤ

バッチ版の場合、入力$X$の要素数が増えたり減ったりする。がバイアス$B$の要素数は固定なので、このバイアス$B$の逆要素をどうやって計算するのかがカギとなる。

例えば、入力$x$のデータ数は10個だとしても、バイアス$b$は1個で、結果$y$は10個である。  
しかし逆伝播は、入力$x$は10個に戻るが、バイアス$b$は1個に戻らなければならない。

まず順伝播の計算から。

In [1]:
import sys, os
sys.path.append(os.path.abspath(os.path.join('..', 'sample')))
import numpy as np

X_dot_W = np.array([[0, 0, 0,], [10, 10, 10]])
B = np.array([1, 2, 3])

print(X_dot_W)

[[ 0  0  0]
 [10 10 10]]


In [2]:
X_dot_W + B

array([[ 1,  2,  3],
       [11, 12, 13]])

ここから、逆伝播を考える。

バイアス$B$は、入力$X$のそれぞれの要素に対して加算される。そのため、逆伝播の値がバイアスの要素に集約される必要がある。

まず、逆伝播による、前のノードの値を$dY$、計算したデータが2個だとすると

In [3]:
dY = np.array([[1, 2, 3], [4, 5, 6]])
print(dY)

[[1 2 3]
 [4 5 6]]


次に、$dY$をバイアス$B$からの逆伝播として、$dY$の結果を集約する。  
データは2個だが、そのデータ内のそれぞれの要素の合計を求める。

In [4]:
dB = np.sum(dY, axis=0)
print(dB)

[5 7 9]


In [5]:
class Affine:
    def __init__(self, W, b):
        """
        重みとバイアスを初期化します
        Attributes
        ----------
        W : numpy.array
            重み
        b : numpy.array
            バイアス
        x : numpy.array
            順伝播で入力されるx
        original_x_shape : numpy.array
            xのデータ数
        dW : numpy.array
            Wからの逆伝搬
        db : numpy.array
            bからの逆伝播
        """
        self.W =W
        self.b = b
        
        self.x = None
        self.original_x_shape = None
        # 重み・バイアスパラメータの微分
        self.dW = None
        self.db = None

    def forward(self, x):
        """
        順伝播の計算をします
        
        Parameters
        ----------
        x : numpy.array
            入力1

        Returns
        -------
        out : numpy.array
            計算結果
        """
        # テンソル対応
        self.original_x_shape = x.shape
        x = x.reshape(x.shape[0], -1)
        self.x = x

        out = np.dot(self.x, self.W) + self.b

        return out

    def backward(self, dout):
        """
        逆伝播の計算をします(乗算)
        
        Parameters
        ----------
        dout : int
            逆伝播で上流から伝わってきた微分

        Returns
        -------
        dx : int
            入力2の微分
        dy : int
            入力1の微分
        """
        dx = np.dot(dout, self.W.T)
        self.dW = np.dot(self.x.T, dout)
        self.db = np.sum(dout, axis=0)
        
        dx = dx.reshape(*self.original_x_shape)  # 入力データの形状に戻す（テンソル対応）
        return dx