In [2]:
class RNN:
    def __init__(self, Wx, Wh, b):
        self.params = [Wx, Wh, b]
        self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]
        self.cache = None # 역전파 계산 때 사용할 x, h_prev, h_next 담음

    def forward(self, x, h_prev):
        Wx, Wh, b = self.params
        # h_t
        t = np.matmul(h_prev,Wh) + np.matmul(x, Wx) + b
        # tahn
        h_next = np.tahn(t)
        # 데이터 저장
        self.cache = (x, h_prev, h_next)
        return h_next

    def backward(self, dh_next):
        Wx, Wh, b = self.params
        x, h_prev, h_next = self.cache

        dt = dh_next * (1 - h_next ** 2)
        db = np.sum(dt, axis=0)
        dWh = np.matmul(h_prev.T, dt)
        dh_prev = np.matmul(dt, Wh.T)
        dWx = np.matmul(x.T, dt)
        dx = np.matmul(dt, Wx.T)

        self.grads[0][...] = dWx
        self.grads[1][...] = dWh
        self.grads[2][...] = db

        return dx, dh_prev

In [1]:
class TimeRNN:
    def __init__(self, Wx, Wh, b, stateful=False):
        '''
        초기화 인수 : 가중치, 편향, stateful(True일 때, 은닉 상태 유지/이전 h 인계-순전파)
                                           (False일 때, 은닉 상태를 영행렬로 초기화)
        인스턴스 변수 : layers, h(forward 은닉 상태 보관/인계), dh
                              - h: forward() 메서드를 불렀을 때 마지막 RNN 계층의 은닉 상태를 저장
                              - dh: backward()를 불렀을 때 하나 앞 블록의 은닉 상태의 기울기를 저장한다.
        '''
        self.params = [Wx, Wh, b]
        self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]
        self.layers = None

        self.h, self.dh = None, None # recurrent
        self.stateful = stateful

    # 은닉 상태 설정
    def set_state(self, h):
        self.h = h

    # 은닉 상태 초기화
    def reset_state(self):
        self.h = None

    def forward(self, xs): # xs는 T개 분량의 시계열 데이터를 하나로 모은 것
        Wx, Wh, b = self.params
        N, T, D = xs.shape # (미니배치, T개 시계열, 입력벡터차원)
        D, H = Wx.shape # (입력벡터차원, hidden)
        
        self.layers = []
        # 출력값 담을 그릇! = 입력xs shape
        hs = np.empty((N, T, H), dtype='f') # 32bit

        if not self.stateful or self.h is None: # 은닉상태유지x거나 처음 초기화
            self.h = np.zeros((N, H), dtype='f')

        # Recurrent Neural Network 생성 : 각 t 시점에서 은닉 상태 계산
        for t in range(T):
            layer = RNN(*self.params) # 초기화 인수 (Wx, Wh, b)
            self.h = layer.forward(xs[:, t, :], self.h) # 인수 (x, h_prev)
            hs[:, t, :] = self.h # 출력값
            self.layers.append(layer) # 저장!

        return hs 

    def backward(self, dhs): # hs는 출력값
        Wx, Wh, b = self.params
        N, T, H = dhs.shape # 출력
        D, H = Wx.shape # (input, hidden)

        # 하류로 흘려보낼 xs 기울기 그릇!
        dxs = np.empty((N, T, D), dtype='f')
        dh = 0 # 이전 시각 hidden state 기울기, Truncated BPTT
        grads = [0, 0, 0] # Truncated BPTT

        # RNN 계층 역전파 시작
        for t in reversed(range(T)):
            layer = self.layer[t]
            dx, dh = layer.backward(dhs[:, t, :] + dh) # 합산된 기울기, dh는 그냥 저장용
            dxs[:, t, :] = dx # 하류로 흘려보낼 마지막 역전파 결과

            for i, grad in enuerate(layer.grads):
                grads[i] = grad

        # self.grads에 저장
        for i, grad in enumerate(grads):
            self.grads[i][...] = grad        
        self.dh = dh # 저장용
            
        return dxs

In [2]:
class TimeAffine:
    def __init__(self, W, b):
        self.params = [W, b]
        self.grads = [np.zeros_like(W), np.zeros_like(b)]
        self.x = None

    def forward(self, x):
        # T개의 Affine 계층 각각 계산 -> 행렬로 한번에!
        N, T, D = x.shape
        W, b = self.params
        # x = (N,T,D) -> (N*T,D) 2차원 dot위해
        rx = x.reshape(N*T, -1)
        # affine
        out = np.dot(rx, W) + b
        self.x = x # 역전파 때
        # 다시 (N,T,D)
        return out.reshape(N, T, -1)

    def backward(self, dout):
        x = self.x
        N, T, D = x.shape
        W, b = self.params

        dout = dout.reshape(N*T, -1)
        rx = x.reshape(N*T, -1)

        db = np.sum(dout, axis=0)
        dW = np.dot(rx.T, dout)
        dx = np.dot(dout, W.T)
        dx = dx.reshape(*x.shape)

        self.grads[0][...] = dW
        self.grads[1][...] = db

        return dx

In [None]:
class TimeSoftmaxWithLoss:
    def __init__(self):
        self.params, self.grads = [], []
        self.cache = None
        self.ignore_label = -1

    def forward(self, xs, ts): # logit, label
        N, T, V = xs.shape

        if ts.ndim == 3:  # 정답 레이블이 원핫 벡터인 경우 (N,T,V)
            ts = ts.argmax(axis=2) # 정답 인덱스로

        mask = (ts != self.ignore_label)

        # 배치용과 시계열용을 정리(reshape)
        xs = xs.reshape(N * T, V)
        ts = ts.reshape(N * T)
        mask = mask.reshape(N * T)

        ys = softmax(xs)
        ls = np.log(ys[np.arange(N * T), ts])
        ls *= mask  # ignore_label에 해당하는 데이터는 손실을 0으로 설정
        loss = -np.sum(ls)
        loss /= mask.sum()

        self.cache = (ts, ys, mask, (N, T, V))
        return loss

    def backward(self, dout=1):
        ts, ys, mask, (N, T, V) = self.cache

        dx = ys
        dx[np.arange(N * T), ts] -= 1
        dx *= dout
        dx /= mask.sum()
        dx *= mask[:, np.newaxis]  # ignore_label에 해당하는 데이터는 기울기를 0으로 설정

        dx = dx.reshape((N, T, V))

        return dx
