## 역전파로 학습시키면 무조건 해결되는 것?
- 딥러닝의 부흥이 늦어진 이유는 무엇일까?

## 기울기 소실 문제
- 기울기 소실(Vanishing Gradient) : 역전파를 계층이 많아질수록 학습이 잘 되지 않는다.

## 소실의 원인 : Sigmoid 함수
- Sigmoid 함수의 미분이 거듭 곱해지면서 **앞쪽 계층의 Gradient 값이 매우 작아진다.**
![1.jpg](attachment:1.jpg)

## 활성 함수의 개선 : Hyperbolic Tangent
![2.jpg](attachment:2.jpg)
- Sigmoid를 위아래로 늘려 문제를 해결하고자 하였다.
- **하지만 계층이 깊어지면 여전히 기울기 소실 문제가 발생한다.**

## 활성함수의 개선 - Recitifed Linear Unit(ReLU)
![3.jpg](attachment:3.jpg)
- 양수라면 입력이 관계없이 동일한 미분 값이 나오게 하여 기울기 소실 문제를 해결함
- 간단하지만 뛰어난 결과를 보이면서 **딥러닝의 기본 활성함수로 자리잡음**

## 아니 솔직히 왜 어렵게 활성함수를 쓰는거지? 그냥 Linear 쓰면 안 되나?
- 여러 Linear한 계층을 곱해주는 것은 사실 하나의 가중치로 대응할 수 있어 곱연산의 의미가 사라짐
- 따라서 계층간 특징을 넣어주어 계층간 구분이 되도록(곱연산이 가능하도록) 만들어준 것임
- 활성 함수에 non-Linear한 특징을 넣어주어 계층 곱이 가능토록 함

## 다양한 ReLU의 변형
![4.jpg](attachment:4.jpg)
- Leaky ReLU : 값이 음수가 되면 미세하게나마 값을 가지게 됨
  - off되는 뉴런들이 많아지는 경우 사용하는 부분이 있음
- ELU : ReLU에 exp 함수를 도입함
  - exp 부분에 특별한 모양(가우시안 형태 등)을 만들고 싶을 때 사용할 수 있음
- ReLU6 : 하드웨어 최적화를 위해 특정 범위 안에서만 값을 가지도록 함(임베디드)
- 다양한 변형 함수들이 있으나, **특별한 이유가 없으면 보통 ReLU를 사용한다.**

## 수치 미분을 이용한 심층 신경망 학습

In [1]:
#import module
import time
import numpy as np

In [2]:
#유틸리티 함수
epsilon=0.0001
def _t(x):#행렬 변환 함수
    return np.transpose(x)
def _m(A,B):#행렬 곱 함수
    return np.matmul(A,B)
def sigmoid(x):#sigmoid 함수
    return 1/(1+np.exp(-x))
def mean_squared_error(h,y):#오차항 함수
    return 1/2*np.mean(np.square(h-y))

In [3]:
#Dense Layer 구현(Fully-connected)
class Dense:
    def __init__(self,W,b,a):
        self.W=W #가중치
        self.b=b #바이어스
        self.a=a #활성함수
        
        self.dW=np.zeros_like(self.W)#W와 같은 자료형을 가진 dW 생성
        self.db=np.zeros_like(self.b)#b와 같은 자료형을 가진 db 생성
    def __call__(self,x):
        return self.a(_m(_t(self.W),x)+self.b)

In [9]:
#심층신경망 구현
class DNN:
    def __init__(self, hidden_depth, num_neuron,num_input,num_output,activation=sigmoid):
        def init_var(i,o):
            return np.random.normal(0.0,0.01,(i,o)),np.zeros((o,))#bias 벡터 초기화
        self.sequence=list()
        
        #First hidden layer
        W,b=init_var(num_input,num_neuron)
        self.sequence.append(Dense(W,b,activation))
        
        # Hidden layer
        for _ in range(hidden_depth-1):
            W,b=init_var(num_neuron,num_neuron)
            self.sequence.append(Dense(W,b,activation))
            
        # Output layer
        W,b=init_var(num_neuron,num_output)
        self.sequence.append(Dense(W,b,activation))
    def __call__(self,x):
        for layer in self.sequence:
            x=layer(x)
        return x
    
    def calc_gradient(self,x,y,loss_func):#numerical gradient 계산 부분
        def get_new_sequence(layer_index,new_layer):#새로운 시퀀스를 만드는 함수
            new_sequence=list()
            for i,layer in enumerate(self.sequence):
                if i==layer_index:#현재 인덱스와 같다면 새로운 레이어 교체
                    new_sequence.append(new_layer)
                else:
                    new_sequence.append(layer)
            return new_sequence
        
        def eval_sequence(x,sequence):
            for layer in sequence:
                x=layer(x)
            return x
        
        loss=loss_func(self(x),y)#self(x)로 call 한 번 때림
        
        for layer_id, layer in enumerate(self.sequence):
            #모든 weight, bias에 대하여 엡실론이 포함된 조정값 추가
            for w_i,w in enumerate(layer.W):#행에 대한 반복
                for w_j,ww in enumerate(w):#열에 대한 반복. ww는 스칼라값임
                    W=np.copy(layer.W)
                    W[w_i][w_j]=ww+epsilon
                    
                    new_layer=Dense(W,layer.b,layer.a)
                    new_seq=get_new_sequence(layer_id,new_layer)
                    h=eval_sequence(x,new_seq)
                    
                    num_grad=(loss_func(h,y)-loss)/epsilon
                    #numerical gradient의 정의 : (f(x+eps)-f(x))/eps
                    layer.dW[w_i][w_j]=num_grad
            for b_i, bb in enumerate(layer.b):
                b=np.copy(layer.b)
                b[b_i]=bb+epsilon
                    
                new_layer=Dense(layer.W,b,layer.a)
                new_seq=get_new_sequence(layer_id,new_layer)
                h=eval_sequence(x,new_seq)
                    
                num_grad=(loss_func(h,y)-loss)/epsilon
                layer.dW[w_i][w_j]=num_grad
        
        return loss

In [10]:
#경사하강 학습법
def gradient_descent(network, x,y,loss_obj, alpha=0.01):
    loss=network.calc_gradient(x,y,loss_obj)
    for layer in network.sequence:
        layer.W+=-alpha*layer.dW
        layer.b+=-alpha*layer.db
    return loss

In [12]:
#동작 테스트
x=np.random.normal(0.0,1.0,(10,))
y=np.random.normal(0.0,1.0,(2,))#임의의 학습 데이터셋

dnn=DNN(hidden_depth=10, num_neuron=32, num_input=10,num_output=2,activation=sigmoid)

t=time.time()
for epoch in range(100):#100번 반복 수행
    loss=gradient_descent(dnn,x,y,mean_squared_error,0.01)
    print('Epoch {}: Test loss {}'.format(epoch,loss))
print('{} seconds elapsed'.format(time.time()-t))

Epoch 0: Test loss 2.7811874563437313
Epoch 1: Test loss 2.7669202406057227
Epoch 2: Test loss 2.7527389566748646
Epoch 3: Test loss 2.7386542607354807
Epoch 4: Test loss 2.7246763893709285
Epoch 5: Test loss 2.710815118245434
Epoch 6: Test loss 2.697079725884804
Epoch 7: Test loss 2.683478962801371
Epoch 8: Test loss 2.6700210261047292
Epoch 9: Test loss 2.6567135396367725
Epoch 10: Test loss 2.6435635395850867
Epoch 11: Test loss 2.6305774654304486
Epoch 12: Test loss 2.61776115601811
Epoch 13: Test loss 2.605119850468456
Epoch 14: Test loss 2.592658193591671
Epoch 15: Test loss 2.580380245425287
Epoch 16: Test loss 2.568289494480271
Epoch 17: Test loss 2.55638887426824
Epoch 18: Test loss 2.5446807826649542
Epoch 19: Test loss 2.5331671036673487
Epoch 20: Test loss 2.521849231113312
Epoch 21: Test loss 2.5107280939434125
Epoch 22: Test loss 2.499804182611499
Epoch 23: Test loss 2.489077576271566
Epoch 24: Test loss 2.478547970402413
Epoch 25: Test loss 2.468214704563108
Epoch 26: Te

- 5개의 층을 최적화하는 데 35초가 걸렸다.
- 10개의 층을 최적화하는 데 111초가 걸렸다.(약 4배)

## 역전파 학습법을 이용한 심층 신경망

In [4]:
#import module
import time
import numpy as np

In [5]:
#유틸리티 함수
def _t(x):# 직교 행렬 산출
    return np.transpose(x)
def _m(A,B):# 두 행렬의 곱연산
    return np.matmul(A,B)

In [12]:
# Sigmoid 구현
class Sigmoid:
    def __init__(self):
        self.last_o=1 #마지막 구현 부분은 1로
    def __call__(self,x):
        self.last_o=1.0/(1.0+np.exp(-x)) #역전파 과정에서 사용하는 변수이기 때문에 저장
        return self.last_o
    def grad(self):# sigmoid(x)(1-sigmoid(x))
        return self.last_o*(1.0-self.last_o)

In [7]:
# Mean Squared Error 구현
class MeanSquaredError:# 1/2 * mean((h-y)^2) 를 미분 : h-y
    def __init__(self):
        self.dh=1
        self.last_diff=1
    def __call__(self, h,y):
        self.last_diff=h-y
        return 1/2 * np.mean(np.square(self.last_diff))
    def grad(self):
        return self.last_diff

In [31]:
# Dense Layer 구현(Fully-Connected Layer)
class Dense:
    def __init__(self, W, b, a_obj):
        self.W=W
        self.b=b
        self.a=a_obj()
        #인스턴스화를 레이어마다 해주는 이유 : 각각의 마지막 출력을 따로 가져야 한다
        
        self.dW=np.zeros_like(self.W)
        self.db=np.zeros_like(self.b)
        self.dh=np.zeros_like(_t(self.W))
        
        self.last_x=np.zeros((self.W.shape[0],))
        self.last_h=np.zeros((self.W.shape[1],))
        
    def __call__(self, x):
        self.last_x=x
        self.last_h=_m(_t(self.W),x)+self.b
        return self.a(self.last_h)
    
    def grad(self): # dy/dh=W
        return self.W*self.a.grad()
    
    def grad_W(self,dh):
        grad=np.ones_like(self.W)
        grad_a=self.a.grad()
        for j in range(grad.shape[1]):#출력 레이어 하나하나마다의 기울기를 구해야 함
            grad[:,j]=dh[j]*grad_a[j]*self.last_x
            #  dy/dw=x
        return grad
    
    def grad_b(self,dh):#dy/db=1
        return dh*self.a.grad()

In [32]:
# DNN 구현
class DNN:
    def __init__(self, hidden_depth, num_neuron, input, output, activation=Sigmoid):
        def init_var(i, o):
            return np.random.normal(0.0, 0.01, (i, o)), np.zeros((o,))

        self.sequence = list()
        # First hidden layer
        W, b = init_var(input, num_neuron)
        self.sequence.append(Dense(W, b, activation))

        # Hidden Layers
        for index in range(hidden_depth):
            W, b = init_var(num_neuron, num_neuron)
            self.sequence.append(Dense(W, b, activation))

        # Output Layer
        W, b = init_var(num_neuron, output)
        self.sequence.append(Dense(W, b, activation))

    def __call__(self, x):
        for layer in self.sequence:
            x = layer(x)
        return x

    def calc_gradient(self, loss_obj):
        loss_obj.dh=loss_obj.grad()
        self.sequence.append(loss_obj)#loss func의 미분값을 저장
        
        #back-prop loop
        for i in range(len(self.sequence)-1,0,-1):#마지막에서부터 시작하여 앞으로 진행되는 루프문 작성
            l1=self.sequence[i]
            l0=self.sequence[i-1]
            # ex : 첫번째 루프에서는 l1은 손실함수, l0은 output layer가 됨
            l0.dh=_m(l0.grad(),l1.dh)
            l0.dW=l0.grad_W(l1.dh)
            l0.db=l0.grad_b(l1.dh)
            #타고 오면서 모든 값들을 미분하게 되는 코드
        
        self.sequence.remove(loss_obj)#잠깐 저장했던 손실 레이어 삭제

In [33]:
# 경사하강 학습법
def gradient_descent(network, x, y, loss_obj, alpha=0.01):
    loss = loss_obj(network(x), y)  # Forward inference 정방향 계산
    network.calc_gradient(loss_obj)  # Back-propagation 역전파 계산부분
    for layer in network.sequence:
        layer.W += -alpha * layer.dW
        layer.b += -alpha * layer.db
    return loss

In [35]:
# 동작 테스트
x = np.random.normal(0.0, 1.0, (10,))
y = np.random.normal(0.0, 1.0, (2,))

t = time.time()
dnn = DNN(hidden_depth=100, num_neuron=32, input=10, output=2, activation=Sigmoid)
loss_obj = MeanSquaredError()
for epoch in range(100):
    loss = gradient_descent(dnn, x, y, loss_obj, alpha=0.01)
    print('Epoch {}: Test loss {}'.format(epoch, loss))
print('{} seconds elapsed.'.format(time.time() - t))

Epoch 0: Test loss 0.0395489599373136
Epoch 1: Test loss 0.03910373494629832
Epoch 2: Test loss 0.03866357636353707
Epoch 3: Test loss 0.038228449371469485
Epoch 4: Test loss 0.03779831835637652
Epoch 5: Test loss 0.037373146952621616
Epoch 6: Test loss 0.03695289808612255
Epoch 7: Test loss 0.03653753401701995
Epoch 8: Test loss 0.036127016381511626
Epoch 9: Test loss 0.03572130623282544
Epoch 10: Test loss 0.03532036408130584
Epoch 11: Test loss 0.034924149933593406
Epoch 12: Test loss 0.03453262333087838
Epoch 13: Test loss 0.03414574338621286
Epoch 14: Test loss 0.03376346882086856
Epoch 15: Test loss 0.03338575799972995
Epoch 16: Test loss 0.03301256896571449
Epoch 17: Test loss 0.03264385947321481
Epoch 18: Test loss 0.032279587020558845
Epoch 19: Test loss 0.03191970888148722
Epoch 20: Test loss 0.031564182135647975
Epoch 21: Test loss 0.031212963698111364
Epoch 22: Test loss 0.03086601034790902
Epoch 23: Test loss 0.03052327875560298
Epoch 24: Test loss 0.030184725509892263
Epo

- **속도가 개빠르다**
- 다만 Nuerical이든 Back-Propagation이든 Sigmoid를 사용한 모델은 레이어의 깊이가 깊어질수록 Vanishing Gradient가 있음을 알 수 있었다.