# 신경망 종류

>### 1. DNN (Deep)
>  - 선형회귀
>
>### 2. CNN (Convolution) 
>  - 필터(이미지 에서 잘 사용됨)
>
>### 3. RNN (Recurrent)
>  - 순환 신경망 (자연어처리, 순서 처리)

# DNN (Deep Neural Network)

## 신경망 구성요소



### Train(학습) 프로세스
![image-2.png](attachment:image-2.png)

## 참고 이미지
![image.png](attachment:image.png)

### 학습 단계 및 역할
1. 모델: 추론
    - batch size 단위로 추론한다.
2. 손실함수(Loss Function): 모델이 추론한 것과 정답간의 Loss(손실-오차)의 평균을 구한다.
3. 옵티마이저(Optimizer): 손실함수가 구한 Loss를 기반으로 모델의 파라미터들(weight)을 업데이트한다.

- <span style='background-color:#fff5b1'><span style='font-size:1.1em;font-weight:bold'>층(Layer)</span>: 모델이 추론하기 위한 각 단계를 정의
- <span style='font-size:1.1em;font-weight:bold'>손실함수(loss function)</span>: 모델의 예측결과와 Ground truth(실제정답) 사이의 차이를 계산
- <span style='font-size:1.1em;font-weight:bold'>optimizer</span>: 파라미터(가중치)를 업데이트하여 모델의 성능을 최적화

## <span style='background-color:#fff5b1'>유닛/노드/뉴런 (Unit, Node, Neuron)
- 입력 Feature들을 입력받아 처리 후 출력하는 데이터 처리 모듈 
    - Input -> Output
- 입력 값에 Weight(가중치)를 곱하고 bias(편향)을 더한 결과를 Activation 함수에 넣어 최종 결과를 출력하는 계산을 처리한다
>- <span style='background-color:#fff5b1'>Dense에서 나온 결과값 Z를 Activation함수(비선형 함수)에 넣는다. 
>- <span style='background-color:#fff5b1'>비선형 = 층(layer)별로 다른 처리.
>- <span style='background-color:#fff5b1'>비선형 함수를 사용하는 이유: 각 층마다 다른 형태(처리)를 갖추기 위해서이다.
>- <span style='background-color:#fff5b1'>유닛이 여러개인 이유: 각 layer마다 다른 작업을 하는데 혼자서는 무리이니 여러개의 unit으로 협업을 해서 처리해라.
> - weigh의 개수는 앞 layer의 output 개수이다

- 마지막 layer의 값의 개수는 문제에서 구하고자하는 개수의 개수와 일치해야 함으로 정해져있다. 
    
    ![image.png](attachment:image.png)
    - **Input vector(입력값)**: $\large\mathbb x=(x_1, x_2, x_3)^T$
    - **Weights(가중치)**: $\large\mathbb w = (w_1, w_2, w_3)^T$
    - **Bias(편향)**: $\large b \in \mathbb R$
    - **Activation function(활성함수)**: $\large\sigma(\cdot)$
        - 선형결합한 결과를 비선형화 시키는 목적
        - 다양한 비선형 함수들을 사용한다.

       <center> $\LARGE z=w_1 x_1 + w_2 x_2 + w_3 x_3 + b \Leftrightarrow z = \mathbb w^T \mathbb x + b$ <br><br>
       $\LARGE a=\sigma( z)$  

### 추가 메모

- DNN 은 LinearRegressoion을 계산한다.
- 모델은 layer 층으로 구성, layer은 unit으로 구성.
- layer도 Output이 나오는 하나의 함수이고, unit도 Output이 나오는 하나의 함수이다.

- W*X + B
- X = input, W = weight , B =  bias

- keras.layers.Flatten() : 1차원으로 변환해준다. (Dens에 적용시키기 위해선 1차원으로 변경해야함.) 
- keras.layers.Dens()
-----------------------
- 만약 (28, 28) 배열인 데이터를 Flatten()을 거치면 784개의 1차원 배열로 변환이되고, 그 값을 Dense에 넣어 

### -------------------------------------------

## <span style='background-color:#fff5b1'>레이어/층(Layer)
- 네트워크 모델의 각 처리단계를 정의한 것.
    - 실제 처리를 담당하는 Unit들을 모아놓은 구조

- <span style='background-color:#fff5b1'>**Input Layer(입력층)**
    - 입력값들을 받아 Hidden Layer에 전달하는 노드들로 구성된 Layer.
    - 입력 데이터의 shape을 설정하는 역할을 한다.
    - 문제의 따라 활성함수나 유닛의 개수는 정해져 있다.

- <span style='background-color:#fff5b1'>**Output Layer(출력층)**
    - 모델의 최종 예측결과를 출력하는 노드들로 구성된 Layer
    - <span style='background-color:#fff5b1'>마지막 layer의 값의 개수는 문제에서 구하고자하는 개수의 개수와 일치해야 함으로 정해져있다. 
     - 문제의 따라 활성함수나 유닛의 개수는 정해져 있다.

- <span style='background-color:#fff5b1'>**Hidden Layer(은닉층)**
    - Input Layer와 Output Layer사이에 존재하는 Layer.
    - 튜닝의 대상이다.
    - <span style='background-color:#fff5b1'>activation 함수는 보통 **ReLU** 를 많이 사용한다.</span>

- 대부분 Layer들은 학습을 통해 최적화할 <span style='background-color:#fff5b1'>**Paramter를 가짐**</span>
    - Dropout, Pooling Layer와 같이 Parameter가 없는 layer도 있다.

- Layer들의 연결한 것을 <span style='background-color:#fff5b1'>**<font size=5>Network</font>**</span> 라고 한다.
    - 딥러닝은 Layer들을 깊게 쌓은 것을 말한다.(여러 Layer들을 연결한 것)

- 목적, 구현 방식에 따라 다양한 종류의 Layer들이 있다.
    - <span style='background-color:#fff5b1'>**Fully Connected Layer (Dense layer)**
        - 추론 단계에서 주로 사용
    - <span style='background-color:#fff5b1'>**Convolution Layer**
        - 이미지 Feature extraction으로 주로 사용
    - <span style='background-color:#fff5b1'>**Recurrent Layer** 
        - Sequential(순차) 데이터의 Feature extraction으로 주로 사용
    - <span style='background-color:#fff5b1'>**Embedding Layer**
        - Text 데이터의 Feature extraction으로 주로 사용

- **API** 
    - https://keras.io/api/layers/
    - https://www.tensorflow.org/api_docs/python/tf/keras/layers

## 모델 (Network)
- Layer를 연결한 것이 Deep learning 모델다.
- 이전 레이어의 출력을 input으로 받아 처리 후 output으로 출력하는 레이어들을 연결한다.
- <span style='background-color:#fff5b1'>적절한 network **구조(architecture)** 를 찾는 것은 공학적이기 보다는 **경험적(Art)** 접근이 필요하다.</span>

![image-2.png](attachment:image-2.png)
- **API**
    - https://keras.io/api/models/
    - https://www.tensorflow.org/api_docs/python/tf/keras/models

## 활성 함수 (Activation Function)
- 각 유닛이 입력과 **Weight간에** 가중합을 구한 뒤 **출력결과를** 만들기 위해 거치는 함수
- 같은 층(layer)의 모든 유닛들은 같은 활성 함수를 가진다.
- **출력 레이어**의 경우 출력하려는 문제에 맞춰 활성함수를 결정한다.
- **은닉층 (Hidden Layer)** 의 경우 비선형성을 주어 각 Layer가 처리하는 일을 분리하는 것을 목적으로 한다.
    - 비선형함수를 사용하지 않으면 Layer들을 여러개 추가하는 의미가 없어진다. 
    - **ReLU** 함수를 주로 사용한다. 
    - 보통 layer를 만들때는 규칙적으로 만든다.
    - 한 모델에 사용하는 활성 함수는 하나로 통일시 한다.

### 주요 활성함수(Activation Function)

- ### <span style='background-color:#fff5b1'>Sigmoid (logistic function)</span>
    ![image-2.png](attachment:image-2.png)
    
    - $$\large \sigma(z) = \frac 1 {1+e^{-z}}$$
    - 출력값의 범위
        - $0<sigmoid(z)<1$
    - 한계
        - 초기 딥러닝의 hidden layer(은닉층)의 activation function(활성함수)로 많이 사용 되었다.
        - <span style='background-color:#fff5b1'>층을 깊게 쌓을 경우 **기울기 소실(Gradient Vanishing)** 문제를 발생시켜 학습이 안되는 문제가 있다.</span>
    - <span style='background-color:#fff5b1'>**Binary classification(이진 분류)**</span>를 위한 네트워크의 <span style='background-color:#fff5b1'>**Output layer(출력층)의 활성함수로 사용된다.**</span>
        - 모델이 positive(1)의 확률을 출력결과로 추론하도록 할 경우 사용. (unit개수 1, activation함수 sigmoid)
        - 위와 같은 한계때문에 hidden layer(은닉층)의 activation function(활성함수)로는 잘 사용되지 않는다.

> **<font size=5>기울기 소실(Gradient Vanishing) 문제란</font>**
> - 최적화 과정에서 gradient가 0이 되어서 Bottom Layer의 가중치들이 학습이 안되는 현상
>     - <span style='background-color:#fff5b1'>Bottom Layer: **Input Layer**(입력층)에 가까이 있는 Layer들. </span>
>     - <span style='background-color:#fff5b1'>Top layer: **Output Layer**(출력층)에 가까이 있는 Layer들.</span>

> - 히든 layer에 활성함수가 많을 시 기울기 손실이 발생할 수 있다.

- ### <span style='background-color:#fff5b1'>Hyperbolic tangent
![image.png](attachment:image.png)

    - $$\large  tanh(z) = \cfrac{e^{z} - e^{-z}}{{e^{z} + e^{-z}}}$$
    - 출력값의 범위
        - $-1<tanh(z)<1$
    - Output이 0을 중심으로 분포하므로 sigmoid보다 학습에 효율 적이다.
    - 기울기 소실(Gradient Vanishing) 문제를 발생시킨다.
    

- ### <span style='background-color:#fff5b1'>ReLU(Rectified Linear Unit)
![image-2.png](attachment:image-2.png)
    $$\large  ReLU(z)=max(0,z)$$
    - 기울기 소실(Gradient Vanishing) 문제를 어느정도 해결
    - <span style='background-color:#fff5b1'> ** 0이하의 값(z <= 0)들에 대해 뉴런이 죽는 단점이 있다. ** </span> (Dying ReLU)

- ### <span style='background-color:#fff5b1'>Leaky ReLU</span>
    ![image-4.png](attachment:image-4.png)
    <br><br>
     $$\large  LeakyReLU(z)=max(\alpha z,z)\\
     0< \alpha <1$$
    <br><br>
    - <span style='background-color:#fff5b1'>**ReLU의 Dying ReLU 현상을 해결하기 위해 나온 함수** </span>
    - 음수 z를 0으로 반환하지 않고 alpah (0 ~ 1 사이 실수)를 곱해 반환한다. 
    - 보통 ReLU를 사용한다. 그러다 값이 잘 안 나오면 Leaky ReLU를 사용한다.

- ### <span style='background-color:#fff5b1'>Softmax</span>
    $$\large  Softmax(z_j) = \frac{exp(z_j)}{\sum_{k=1}^K exp(z_k)}\\ \:j=1,2, \ldots, K$$
    - **Multi-class classification(다중 분류)를 위한 네트워크의 Output layer(출력층)의 활성함수로 주로 사용된다.** 
        - 은닉층의 활성함수로 사용하지 않는다.
    - Layer의 unit들의 출력 값들을 정규화 하여 각 class에 대한 확률값으로 변환한다.
        - 출력노드들의 값은 0 ~ 1사이의 실수로 변환되고 그 값들의 총합은 1이 된다.
    


- **API**
    - https://keras.io/api/layers/activations/
    - https://www.tensorflow.org/api_docs/python/tf/keras/activations

In [3]:
print(1, 10)
print(np.exp(1), np.exp(10))

1 10
2.718281828459045 22026.465794806718


In [4]:
s = np.exp(1) + np.exp(10) # 분모 계산
np.exp(1)/s, np.exp(10)/s # 0의 확률, 1의 확률

(0.0001233945759862317, 0.9998766054240137)

In [5]:
1/11, 10/11

(0.09090909090909091, 0.9090909090909091)

- ## <span style='background-color:#fff5b1'>output layer</span>

>    - 이진 분류일때는 Sigmoid
>    - 다중 분류일때는 SoftMax

![image.png](attachment:image.png)

## <span style='background-color:#fff5b1'>손실함수(Loss function, 비용함수)</span>
- Model이 출력한 예측값(prediction) $\hat y^{(i)}$와 실제 데이터(output) $y^{(i)}$의 차이를 계산하는 함수
- 네트워크 모델을 훈련하는 동안 Loss 함수가 계산한 Loss값(손실)이 최소화 되도록 파라미터(가중치와 편향)을 업데이트한다.
    - 즉 Loss함수는 최적화 시작이 되는 값이다.
- 네트워크 모델이 해결하려는 문제의 종류에 따라 다른 Loss함수를 사용한다.

- <font size="5" color="red">해결하려는 문제의 종류에 따라 표준적인 Loss function이 있다.</font>

In [None]:
import numpy as np

np.log(1), -np.log(0.500001), -np.log(0.49), -np.log(0.00000001)

> - log 1 => 0 (손실 없음)
> - log(0)에 가까울 수록 값이 기하급수적으로 상승하며, 0 ~ 1 사이 중 1이 아닌 값은 음수 값이 나온다 => '-log' 사용할 것. 

- ## <span style='background-color:#fff5b1'>Classification (분류)
    - cross entropy (log loss) 사용
> $$
 \large log(모델이\,출력한\,정답에\,대한\,확률)
 $$

- ### <span style='background-color:#fff5b1'>Binary classification</span> (이진 분류)
    - 두 개의 클래스를 분류
        - <span style='background-color:#fff5b1'>모델이 양성(1)의 확률을 출력하여 Threshold 보다 **작으면 0**, **크면 1로** label을 예측</span>
    - 예) 문장을 입력하여 긍정/부정 구분
    - Output Layer의 unit 개수를 1로 하고 activation 함수로 sigmoid를 사용하여 positive(1)의 확률로 예측 결과를 출력하도록 모델을 정의 한 경우 **binary_crossentropy**를 loss function으로 사용한다.
    
    - $$\large Loss(\hat y^{(i)} ,y^{(i)}) = - y^{(i)} log(\hat y^{(i)} ) - (1- y^{(i)}) log (1-\hat y^{(i)} )$$
    
    $y^{(i)}$: 실제 값(Ground Truth), $\hat y^{(i)}$: 예측확률

log의 안에 들어갈 값은 !! 정답일 확률을 넣는다.

log(1-^y) = 0 // log(정답 확률)

log(^y) = 1 // ^y 는 모델의 예측값

- ### <span style='background-color:#fff5b1'>Multi-class classification</span> (다중 클래스 분류)
    - 두 개 이상의 클래스를 분류 
        - 여러개 중 하나
    - 예) 이미지를 0,1,2,...,9로 구분
    - <span style='background-color:#fff5b1'>**categorical_crossentropy**</span>를 loss function으로 사용 
    - $$\large Loss(\hat y_c^{(i)} ,y^{(i)}) = - \sum_{c=1}^C y_c^{(i)} log(\hat y_c^{(i)} ) $$

    $y^{(i)}$: 실제 값(Ground Truth), $\hat y_c^{(i)}$: class별 예측확률

## <span style='background-color:#fff5b1'>요약
> - Binary classification (이진분류) 일때는 => binary_crossentropy
> - Multi-class classification (다중분류) 일때는 => categorical_crossentropy


- ### <span style='background-color:#fff5b1'>Regression (회귀)
    - 연속형 값을 예측 
    - 예) 주가 예측 
    - <span style='background-color:#fff5b1'>**Mean squared error**</span>를 loss function으로 사용 
        - "mse" 로 지정
    - $$\large Loss(\hat y^{(i)} ,y^{(i)}) = \frac  1 2 (\hat y^{(i)} - y^{(i)})^2$$
    
    $y^{(i)}$: 실제 값(Ground Truth), $\hat y^{(i)}$: 예측 값

- **API**
    - https://keras.io/api/losses/
    - https://www.tensorflow.org/api_docs/python/tf/keras/losses

## <span style='background-color:#fff5b1'>평가지표 (Metrics)</span>
- 모델의 성능을 평가하는 지표
- 손실함수(Loss Function)와 차이
    - 손실함수는 모델을 학습할 때 가중치 업데이트를 위한 오차를 구할 때 사용한다.
    - 평가지표 함수는 모델의 성능이 확인하는데 사용한다. 

- **API**
    - https://keras.io/api/metrics/
    - https://www.tensorflow.org/api_docs/python/tf/keras/metrics

## <span style='background-color:#fff5b1'>문제별 출력레이어 Activation 함수, Loss 함수

문제형태|Activation함수|Loss 함수
 :- | :- | :-
이진분류(Binary Classification)|sigmoid| binary_crossentropy
다중분류(Multi-class Classification)|softmax| categorical_crossentropy<br>sparse_categorical_crossentropy
회귀(Regression)|None|MSE

> - sigmoid는 양성의 확율을 넣는다.
> - binary_crossentropy 이때 unit의 수는 1개만 넣는다.

# <span style='background-color:#fff5b1'>Optimizer (최적화 방법)

- Training시 모델 네트워크의 parameter를 데이터에 맞춰 최적화 하는 알고리즘
    - <span style='background-color:#fff5b1'>**Deep Learning은 경사하강법(Gradient Descent)**</span> 와 <span style='background-color:#fff5b1'>**오차 역전파(back propagation)**</span> 알고리즘을 기반으로 파라미터들을 최적화한다.

## <span style='background-color:#fff5b1'>Gradient Decent (경사하강법)</span>
- ### 최적화 
    - 모델 네트워크가 출력한 결과와 실제값(Ground Truth)의 차이를 정의하는 함수를 **Loss function(손실함수, 비용함수)** 라고 한다.
    - Training 시 Loss function이 출력하는 값을 줄이기 위해 파라미터(weight, bias)를 update 과정을 **최적화(Optimization)** 이라고 한다.
- ### Gradient Decent(경사하강법)
    - 최적화를 위해 파라미터들에 대한 Loss function의 Gradient값을 구해 Gradient의 반대 방향으로 일정크기 만큼 파라미터들을 업데이트 하는 것을 경사하강법이라고 한다.
        
$$\large W_{new} = W-\alpha\frac{\partial}{\partial {W}}Loss(W)\\W: 파라미터\: \alpha:학습률$$


## 오차 역전파(Back Propagation) 

- 딥러닝 학습시 파라미터를 최적화 할 때 추론한  <span style='background-color:#fff5b1'>**역방향으로 loss를 전달하여**</span> 단계적으로 파라미터들을 업데이트한다.
    - Loss에서부터(뒤에서부터) 한계단씩 미분해 gradient 값을 구하고 이를 Chain rule(연쇄법칙)에 의해 곱해가면서 파라미터를 최적화한다.
    - 출력에서 입력방향으로 계산하여 역전파(Back propagation)라고 한다.
        - 추론의 경우 입력에서 출력 방향으로 계산하며 이것은  <span style='background-color:#fff5b1'>**순전파(Forward propagation)이라고 한다.**</span>

### 계산 그래프 (Computational Graph)
- 복잡한 계산 과정을 자료구조의 하나인 그래프로 표현한 것
    - 딥러닝 모델이 구현된 방식
- 그래프는 노드(Node)와 엣지(Edge)로 구성됨.
    - 노드: 연산을 정의  <span style='background-color:#fff5b1'>**(연산이 들어감)**</span>
    - 엣지: 데이터가 흘러가는 방향  <span style='background-color:#fff5b1'>**(값이 들어감)**</span>

### 계산 그래프의 예
- 슈퍼에서 1개에 100원인 사과를 2개 샀을 때 지불할 금액은 어떻게 될까? 단 부가세는 10% 부과된다.

![image.png](attachment:image.png)

### 계산 그래프 절차 및 특장점
- 계산 그래프를 사용한 문제 풀이 절차
    - 계산 그래프를 구성
    - 계산 방향을 결정
        -  <span style='background-color:#fff5b1'>계산 시작에서 계산 결과 방향으로 순서대로 계산: **순전파(Forward propagation)**
        -  <span style='background-color:#fff5b1'>계산 결과에서 계산 시작 역방향으로 계산: **역전파(Back propagation)** => 미분할때 사용!!
-  <span style='background-color:#fff5b1'>**특징/장점**
    - **국소적 계산**을 통해 결과를 얻는다.
        - 각 노드의 계산은 자신과 관계된 정보(입력 값들)만 가지고 계산한 뒤 그 결과를 다음으로 출력한다.
    - 복잡한 계산을 단계적으로 나눠 처리하므로 문제를 단순하게 만들어 계산할 수 있다.
        - **딥러닝에서 역전파를 이용해 각 가중치 업데이트를 위한 미분(기울기) 계산을 효율적으로 할 수 있게 된다.**
    -  <span style='background-color:#fff5b1'>중간 계산결과를 보관할 수 있다.

        

> - 계산하는 단계는 많아지지만 각각의 단계의 계산은 단순화 된다.

## 합성함수의 미분
- **<font size='5'>합성함수 : 여러 함수로 구성된 함수</font>**
$$
\large z = (x+y)^2\\
\large z = t^2\\
\large t=x+y
$$

- **<font size='5'>연쇄 법칙(Chain Rule)</font>**
    - 합성함수의 미분은 합성함수를 구성하는 각 함수의 미분의 곱으로 나타낼 수 있다.
$$
\large\cfrac{\partial z}{\partial x} = \cfrac{\partial z}{\partial t} \cfrac{\partial t}{\partial x} \\
\cfrac{\partial z}{\partial t} = 2t,\;\cfrac{\partial t}{\partial x} = 1 \\
\large\cfrac{\partial z}{\partial x}=2t \times 1 = 2(x+y)
$$

### 연쇄 법칙과 계산 그래프

In [None]:
t = x+y
z = t**2
--------
역방향
=>z 미분
=> t에 대해서 z alqns

결과적으로 x가 바뀔때  

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

- ### $W_{11}$을 업데이트 하기 위한 미분값은?
$$
\large\frac{\partial}{\partial {W_{11}}}{Loss} = ????
$$

![image.png](attachment:image.png)

![image.png](attachment:image.png)

- **순전파(forward propagation): 추론**
- **역전파(back propagation): 학습시 파라미터(weight) 업데이트**

## 파라미터 업데이트 단위

- **Batch Gradient Decent (배치 경사하강법)**
    - Loss를 계산할 때 전체 학습데이터를 사용해 그 평균값을 기반으로 파라미터를 최적화한다.
    - 많은 계산량이 필요해서 **속도가 느리다.** 학습 데이터가 클 경우 **메모리가 부족할 수 있다.**
    > - batch의 의미는 전체를 다 사용한다의 의미이다.

- **Mini Batch Stochastic Gradient Decent (미니배치 확률적 경사하강법)** => 운빨 경사하강법
    - Loss를 계산할 때 전체 데이터를 다 사용하지 않고 지정한 데이터 양(batch size) 만큼 마다 계산해 파라미터를 업데이트 한다.
    - 계산은 빠른 장점이 있지만 최적값을 찾아 가는 방향이 **불안정** 하여 **부정확** 하다. 그러나 반복 횟수를 늘리면 Batch 방식과 유사한 결과로 수렴한다.
    - **만약 CPU나 GPU의 spec이 좋다면, step의 양은 가능한한 크면 클수록 좋다.**

> **스텝(Step)**:  한번 파라미터를 업데이트하는 단위


 ## 정리
> - Batch GD
>    - 1 step => 전체사용 
>    - 단점: 계산량 증가, 메모리 부족
>    - 장점: 학습이 안정적이다.

> - Stochastic GD
>    - 1 step => 1개 사용 
>    - 단점: 이상치에 취약, 학습이 불안전
>    - 장범: 계산량이 적음, 미모리 부족X

> - Mini Batch Stochastic GD
>     - 전체중 일부 Data만 사용


![image.png](attachment:image.png)

- MB
    - 1 step data 개수
- GD
    - 방식

## SGD를 기반으로 한 주요 옵티마이저
- 방향성을 개선한 최적화 방법
    - Momentum
    - NAG(Nesterov Accelerated Gradient)
- 학습률을 개선한 최적화 방법
    - Adagrad
    - RMSProp
- 방향성 + 학습률 개선 최적화 방법
    - Adam

![image.png](attachment:image.png)
<center>[출처] https://www.slideshare.net/yongho/ss-79607172</center>

- **API**
    - https://keras.io/api/optimizers/
    - https://www.tensorflow.org/api_docs/python/tf/keras/activations
    

In [None]:
- 자주 사용하는 옵티마이저
    - Adam
    - RMSPop
    - Mometum

# 비선형 활성함수 적용 여부에 따른 결과 확인