# Deep Learning

## 딥러닝이란?

<img src="https://res.cloudinary.com/talend/image/upload/w_1600/q_auto/qlik/glossary/augmented-analytics/seo-hero-machine-learning-vs-ai_kls4c0.png" width="700" height="400"/>

<img src="https://miro.medium.com/v2/resize:fit:2902/format:webp/1*hkYlTODpjJgo32DoCOWN5w.png" width="700" height="400"/>

- AI의 한 분야
- 인간의 두뇌에서 영감을 얻은 방식으로 데이터를 처리하도록 컴퓨터를 가르치는 학습 방식
- 딥러닝 이전에 불가하였던 그림, 텍스트, 사운드 및 기타 데이터의 복잡한 패턴을 인식하여 보다 정확한 모델 생성 가능
- 이는 **컴퓨팅 파워의 증가**와도 연관이 깊음
- 딥러닝의 핵심은 **복잡한 패턴**을 찾는 것으로 ***데이터의 패턴이 단순한 경우 딥러닝을 사용하는 것이 오히려 독이 될 수 있음***


## 딥러닝과 머신러닝과의 차이

<img src="https://cdn.gttkorea.com/news/photo/202306/5448_6001_923.jpg" width="600" height="300"/>

- 딥러닝과 머신러닝의 가장 큰 차이는 feature engineering에 있음
- 전통적인 통계 기법이나 머신러닝 등에서는 모델링 전 설명변수(종속변수)와 관계성이 <br>
  높은 변수를 직접 선별하거나 생성하는 작업을 거쳐야만 했음
  - 이는 모델링 작업에서 많은 리소스 소비
- 딥러닝에서는 데이터를 모델에 넣으면, 모델에서 유의한 설명변수를 찾아낼 수 있음

## 딥러닝의 구성요소

<img src="https://miro.medium.com/v2/resize:fit:1156/format:webp/1*ToPT8jnb5mtnikmiB42hpQ.png" width="600" height="300"/>

딥러닝은 크게 아래의 요소로 구분되며 **두 개 이상의 hidden layer**를 가지는 경우를 딥러닝이라고 부름

<br>

**입력 계층 (Input Layer)** <br>
- 데이터를 입력하는 노드
- 노드 하나가 특성(feature)의 수

<br>

**은닉 계층 (Hidden Layer)**
- 입력 계층에서 데이터를 처리하여 신경망의 hidden layer로 전달
- 은닉 계층은 서로 다른 수준에서 정보를 처리하고 새 정보를 수신할 때마다 동작을 조정(update)
- 데이터의 복잡도나 모델 구성에 따라 hidden layer의 수는 천차만별

<br>

**출력 계층 (Output Layer)**
- 데이터를 출력하는 노드
- 분류 문제에서는 정답의 갯수 만큼 노드 존재 <br>
    ex) yes 또는 no라는 답을 출력하는 딥 러닝 모델은 출력 계층에 2개 노드 존재
- 회귀 문제에서는


## 딥러닝의 단점

1. **Black Box**
- 모델 학습 결과를 설명하거나 이해할 수 없음 (그냥 받아들여야 함)
- 설명이 요구되는 분야에서는 치명적인 약점 <br>
  ex) 대출 승인 거절 시, 거절에 대한 이유를 알 수 없음

<br>

2. Data Requirements
- 모델 학습을 위해 **다량의 고품질 데이터** 필요 <br>
- 모델의 복잡도 대비 데이터 수가 부족하면 과적합 발생

<br>

3. Computation
- 모델 학습을 위해서 gpu 등 사용
- 모델이 복잡해져감에 따라 더 많은 리소스를 사용
- 일부 모델은 수 주를 학습하는 경우도 존재

<br>

4. Architecture Design
- 딥 러닝은 아키텍처를 정의하는 데 많은 시간을 필요 <br>
  ex) 모델이 몇 개의 레이어를 가질지, 어떤 유형의 레이어를 가져야 하는지, 어떤 활성화 함수를 사용해야 하는지 등
- 데이터의 특징을 적절하게 반영하지 못하는 아키텍처에서 좋은 퍼포먼스가 나오지 못함

## 딥러닝 프레임워크
파이썬에서는 딥러닝을 사용할 수 있는 다양한 프레임워크 존재
  - Tensorflow (Google)
  - Pytorch (Facebook)
  - MXNet (Apache)

<br>

일반적으로는 Tensorflow와 Pytorch를 사용
  - Tensorflow: 배포 관점에서 우위, Customize가 일부 불편
  - Pytorch: 연구 관점에서 우위, Customize가 용이

In [3]:
import torch

In [6]:
torch.rand(32, 20, 128)  # batch_size, seq_len, dim

tensor([[[0.6286, 0.8263, 0.0284,  ..., 0.1953, 0.7698, 0.5585],
         [0.6597, 0.8929, 0.5985,  ..., 0.3256, 0.2965, 0.7933],
         [0.5645, 0.3219, 0.4595,  ..., 0.8822, 0.4023, 0.2130],
         ...,
         [0.2068, 0.5485, 0.9253,  ..., 0.4670, 0.1534, 0.0187],
         [0.9657, 0.1855, 0.7336,  ..., 0.5491, 0.7857, 0.6152],
         [0.5420, 0.2534, 0.6782,  ..., 0.5159, 0.4720, 0.6904]],

        [[0.5814, 0.0814, 0.9047,  ..., 0.7644, 0.9424, 0.4151],
         [0.0491, 0.6602, 0.7032,  ..., 0.1185, 0.5430, 0.5576],
         [0.3511, 0.5721, 0.3816,  ..., 0.7435, 0.8418, 0.8337],
         ...,
         [0.3323, 0.4192, 0.8478,  ..., 0.1424, 0.5160, 0.2799],
         [0.4443, 0.6993, 0.1452,  ..., 0.5368, 0.8824, 0.4310],
         [0.8468, 0.1164, 0.8002,  ..., 0.6162, 0.0048, 0.8556]],

        [[0.9442, 0.2972, 0.3832,  ..., 0.3010, 0.5388, 0.4950],
         [0.1683, 0.6623, 0.8077,  ..., 0.3827, 0.2251, 0.6651],
         [0.7937, 0.0934, 0.3754,  ..., 0.4982, 0.5126, 0.

## 딥러닝의 학습 방법

### Loss Function (손실함수, 목적함수)

<img src="https://miro.medium.com/v2/resize:fit:720/format:webp/1*199FRpu1Q4isjnpCbs6hQQ.jpeg" width="600" height="300"/>

모델 예측 값과 실제 정답의 차이를 비교하기 위한 함수로 학습 중에 모델의 성능을 확인하기 위한 함수로써 최적화(Optimization)를 위해 **최소화**하는 것이 목적인 함수

목적에 따라 다양한 종류의 loss 존재

- 회귀
    - MAE (Mean Absolute Error) $$ \frac {1}{n} \Sigma_{i=1}^n|\hat{y_i} - y_i| $$
        - 이상치에 덜 예민
    - MSE (Mean Squared Error) $$ \frac {1}{n} \Sigma_{i=1}^n(\hat{y_i} - y_i)^2 $$
        - 오차가 커질수록 loss가 빠르게 증가
        - 이상치에 예민
    - RMSE (Root Mean Squared Error) $$ \sqrt{\frac {1}{n} \Sigma_{i=1}^n(\hat{y_i} - y_i)^2} $$

- 분류
    - BCE (Binary Cross-Entropy) $$ -\frac{1}{n} \Sigma^n_{i=1}{y_i*log(\hat{y_i}) + (1-y_i)*log(1-\hat{y_i})} $$
        - 이진 분류 문제에서 사용
        - $ \hat{y} $의 값은 0과 1사이의 확률 값 (logit)
        - $ \hat{y} $이 1에 가까우면 True일 확률이 크고, 0에 가까우면 False 확률이 큼
    - CE (Categorical Cross_Entropy) $$ -\frac{1}{n} \Sigma^n_{i=1}\Sigma^C_{i=1} y_{ic} * log(\hat{y_{ic}})\ \ \ \text{where c: num of class} $$ 
        - class의 수가 3 개 이상일 때 사용
        - $ \hat{y} $의 값은 0과 1사이의 확률 값 (logit)
        - $ y $는 one-hot encoding된 상태


### Gradient Descent (경사하강법)

<img src="https://www.jeremyjordan.me/content/images/2018/02/Screen-Shot-2018-02-24-at-11.47.09-AM.png" width="600" height="300"/>

**비용 함수(Cost Function)의 비용을 최소화** 하는 파라미터를 찾는 알고리즘 <br>
위의 그림에서 최솟값을 찾아갈 때 어떻게 찾아갈지에 대한 방법 <br>
학습 시 얼마 만큼 이동할 것인가를 **learning rate ($\alpha$), 학습률** 라고 부름 <br>

    너무 작은은 learning rate는 느린 수렴 유발 및 local minia 문제 야기
    너무 큰 learning rate는 gradient explode 유발

<br>

**Local Minima** <br>

<img src="https://vitalflux.com/wp-content/uploads/2020/09/local-minima-vs-global-minima-1.png" width="600" height="300"/>

우리가 최소화하고자 하는 목적함수에서 국소적 최솟값을 갖는 것을 local minima라고 부름 <br>
local minima를 global minima로 인식하여 학습이 종료되는 경우가 발생할 수 있음 <br>

### Optimizer (최적화 알고리즘)

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FAH58V%2FbtqDyD7qEj4%2FK7hDnh5zzjfgwkI9wWTmeK%2Fimg.png" width="700" height="300"/>

목적함수를 최소화시키기 위한 알고리즘 <br>
위에 기술된 내용 외에도 다양한 알고리즘이 존재하나 대다수 **Adam** 사용 <br>

#### Batch Gradient Descent (GD)

<img src="https://velog.velcdn.com/images%2Fyelim421%2Fpost%2Ff661eaa4-f2ea-4df6-88b2-9234f065a8d6%2Fimage.png" width="300" height="200"/>

전체 데이터셋을 사용하여 비용 함수의 기울기를 계산

<br>

<b>Equation</b>:

$\theta_j := \theta_j - \eta \frac{\partial}{\partial \theta_j}J(\theta) $

#### Stochastic Gradient Descent (SGD)

<img src="https://velog.velcdn.com/images%2Fyelim421%2Fpost%2F0c873df1-a8d5-451d-94b4-dc11d9c8f3d6%2Fimage.png" width="300" height="200"/>

한 번에 하나 또는 일부의 훈련 샘플을 사용하여 그라디언트를 계산하고 매개 변수를 업데이트 <br>
계산 비용을 절감하며, 비선형 최적화 문제에 대한 솔루션을 빠르게 근사 <br>

#### mini-Batch Gradient Descent

<img src="https://velog.velcdn.com/images%2Fyelim421%2Fpost%2F372d0704-d5b8-45b4-a7c9-61e9c060a37c%2Fimage.png" width="300" height="200"/>


전체 학습 데이터를 mini-batch로 나누어 gradient descent 진행

#### Momentum

<img src="https://velog.velcdn.com/images%2Fyelim421%2Fpost%2F366fa59a-cd67-4545-b56c-69f4aa0c1ac4%2Fimage.png" width="300" height="200"/>


물리의 속도 개념을 도입하여 기울기 방향으로 가속화된 움직임을 보임

<br>

<b>Equation</b>:

$\nu_j := \alpha\nu_j - \eta \frac{\partial}{\partial \theta_j}J(\theta) $, where $\alpha$: momentum factor <br>
$\theta_j = \theta_j + \nu_j$ <br>

#### AdaGrad

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FBoGBQ%2Fbtq0qAPFDtU%2FdP4jbshcOtjK2SgBIWlQlK%2Fimg.png" width="300" height="200"/>

학습 진행 중 learning rate를 감소시키는 방법 (처음에는 크게 학습하다가 점점 작게 학습) <br>
각 매개변수 별로 learning rate를 adaptive하게 조절

<br>

<b>Equation</b>:

$h_j = h_j + \frac{\partial}{\partial \theta_j}J(\theta) \odot \frac{\partial}{\partial \theta_j}J(\theta) $ <br>
$\theta_j = \theta_j - \eta \frac{1}{\sqrt{h}} \frac{1}{\partial \theta_j}J(\theta)$ <br>

#### RMSProp

과거 기울기의 제곱을 더하여 학습을 진행하는 AdaGrad의 단점을 보완한 기법 <br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;AdaGrad는 학습이 충분히 진행되면 갱신량이 0에 근사하여 파라미터가 갱신되지 않는 일이 발생 <br>
먼 과거의 기울기는 조금, 가까운 과거의 기울기는 많이 반영하는 지수이동평균법 사용 <br>

<br>

<b>Equation</b>:

$h_{i, j} = \rho h_{i, j} + (1 - \rho) \frac{\partial}{\partial \theta_j}J(\theta_i) \odot \frac{\partial}{\partial \theta_j}J(\theta_i) $ <br>
$\theta_j = \theta_j - \eta \frac{1}{\sqrt{h}} \frac{1}{\partial \theta_j}J(\theta)$ <br>

#### Adam

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FrWQXG%2Fbtq0zcMR6wE%2FnbuT43rcJL9aR8Ory8xZS1%2Fimg.png" width="300" height="200"/>

Momentum + RMSProp

<br>

<b>Equation</b>:

1st momentum: $m_j = \beta_1 m_j + (1 - \beta_1) \frac{\partial}{\partial \theta_j} J(\theta)$ <br>
2nd momentum: $v_j = \beta_2 v_j + (1 - \beta_2) \left(\frac{\partial}{\partial \theta_j} J(\theta)\right)^2$ <br>
Bias correction: $ \hat{m}_j = \frac{m_j}{1 - \beta_1^t} $, $ \hat{v}_j = \frac{v_j}{1 - \beta_2^t} $ <br>
Update: $ \theta_j = \theta_j - \eta \frac{\hat{m}_j}{\sqrt{\hat{v}_j} + \epsilon}$




### BackPropagation (역전파)

<img src="https://media.licdn.com/dms/image/D5612AQGNjUevxbUE_A/article-cover_image-shrink_720_1280/0/1677211887007?e=2147483647&v=beta&t=cwgMLvP3kROyG-XNVzrNO6mBV52uHeNYLKFjPDcuhUI" width="600" height="300"/>

인공 신경망이 순전파 과정을 진행하여 예측값과 실제값의 오차를 계산 <br>
이후 경사 하강법을 사용하여 가중치 업데이트를 진행하는데 이 과정을 역전파라고 부름 <br>

<br>

아래 순전파와 역전파의 예에서 사용되는 activation은 sigmoid

sigmoid: $f(x)$ = $ {\displaystyle {\frac {1}{1+e^{-x}}}={\frac {e^{x}}{1+e^{x}}}}$ 

$ {\begin{aligned}{\frac {\mathrm {d} }{\mathrm {d} x}}f(x)&={\frac {e^{x}\cdot (1+e^{x})-e^{x}\cdot e^{x}}{(1+e^{x})^{2}}}\\&={\frac {e^{x}}{(1+e^{x})^{2}}}\\&=\left({\frac {e^{x}}{1+e^{x}}}\right)\left({\frac {1}{1+e^{x}}}\right)\\&=\left({\frac {e^{x}}{1+e^{x}}}\right)\left(1-{\frac {e^{x}}{1+e^{x}}}\right)\\&=f(x)\left(1-f(x)\right)\end{aligned}} $

<br>

**Forward Propagation (순전파)**

![](https://wikidocs.net/images/page/37406/backpropagation_2.PNG)

모델 입력부터 output까지의 과정 

$z_{1}=w_{1}x_{1} + w_{2}x_{2}=0.3 \text{×} 0.1 + 0.25 \text{×} 0.2= 0.08$ <br>
$z_{2}=w_{3}x_{1} + w_{4}x_{2}=0.4 \text{×} 0.1 + 0.35 \text{×} 0.2= 0.11$

$h_{1}=sigmoid(z_{1}) = 0.51998934$ <br>
$h_{2}=sigmoid(z_{2}) = 0.52747230$

$z_{3}=w_{5}h_{1}+w_{6}h_{2} = 0.45 \text{×} h_{1} + 0.4 \text{×} h_{2} = 0.44498412$ <br>
$z_{4}=w_{7}h_{1}+w_{8}h_{2} = 0.7 \text{×} h_{1} + 0.6 \text{×} h_{2} = 0.68047592$

$o_{1}=sigmoid(z_{3})=0.60944600$ <br>
$o_{2}=sigmoid(z_{4})=0.66384491$ 

$E_{o1}=\frac{1}{2}(target_{o1}-output_{o1})^{2}=0.02193381$ <br>
$E_{o2}=\frac{1}{2}(target_{o2}-output_{o2})^{2}=0.00203809$

$E_{total}=E_{o1}+E_{o2}=0.02397190$

<br>

**Backward Propagation (역전파)** <br>

![](https://wikidocs.net/images/page/37406/backpropagation_3.PNG)

loss 계산 이후 parameter가 업데이트되는 과정 <br>
$w_5$의 가중치 업데이트를 위해서는 아래의 식 계산 <br>

$\frac{∂E_{total}}{∂w_{5}} = \frac{∂E_{total}}{∂o_{1}} \text{×} \frac{∂o_{1}}{∂z_{3}} \text{×} \frac{∂z_{3}}{∂w_{5}}$

$\frac{∂E_{total}}{∂o_{1}}=2 \text{×} \frac{1}{2}(target_{o1}-output_{o1})^{2-1} \text{×} (-1) + 0$

$\frac{∂E_{total}}{∂o_{1}}=-(target_{o1}-output_{o1})=-(0.4-0.60944600)=0.20944600$

$\frac{∂o_{1}}{∂z_{3}}=o_{1}\text{×}(1-o_{1})=0.60944600(1-0.60944600)=0.23802157$

$\frac{∂z_{3}}{∂w_{5}}=h_{1}=0.51998934$

$\frac{∂E_{total}}{∂w_{5}} = 0.20944600 \text{×} 0.23802157 \text{×} 0.51998934 = 0.02592286$

$w_{5}^{+}=w_{5}-α\frac{∂E_{total}}{∂w_{5}}=0.45- 0.5 \text{×} 0.02592286=0.43703857$

<br>

![](https://wikidocs.net/images/page/37406/backpropagation_4.PNG)

이후 위와 동일한 연산으로 첫 번째 $w_1 \sim w_4$에 대해서 업데이트 진행

In [27]:
torch.manual_seed(0)
X = torch.randint(0, 10, (1, 4), dtype=torch.float32)
A1 = torch.rand(4, 5)
h1 = X@A1 # intercept
A2 = torch.rand(5, 3)
h2 = h1@A2
A3 = torch.rand(3, 2)
h3 = h2@A3
h3
print(A3)

tensor([[0.7423, 0.5263],
        [0.2437, 0.5846],
        [0.0332, 0.1387]])


In [26]:
learning_rate = 1e-3
gradient_loss = 1.2
A3 -= learning_rate*gradient_loss
print(A3)

tensor([[0.7411, 0.5251],
        [0.2425, 0.5834],
        [0.0320, 0.1375]])

### Activation Function (활성화함수)

<font style="font-size:20px"> Affine Transformation</font> <p>

<img src="https://blog.kakaocdn.net/dn/J4OoB/btrM0mVSwuL/z3QA8bQK5kmBMJr8qZmvxK/img.gif" width="500" height="250"/>

직선과 평형성을 유지하는 변환 <br>
Affine 변환의 식은 일반적으로 $Wx + b$이며 이는 선형 변환에 translation(절편) 항이 추가된 변환
변환에 의해 모든 점이 이동하게 되며, 이경우 변환의 역할을 공간을 변형시키는 행위라고도 생각할 수있음 <br>
    -> 공간의 변형으로 기존 공간에서는 불가능 했던 작업을 가능하게 할 수 있을 것이라는 기대

<br>

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FsHi41%2FbtrM4RAYfiK%2FGwq4hqLHs19b7Zocymmp9k%2Fimg.png" width="500" height="250"/>

위의 예에서 original space에서 색을 구분할 수 있는 직선은 존재하지 않음 <br>
하지만 공간을 변형하면, 하나의 선분으로 색을 구분할 수 있는 직선을 찾을 수 있음 <br>

<br>

<font style="font-size:20px"> Affine Transformation과 Deep Learning </font> <p>

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcvHNEe%2FbtrMWeqUO3A%2FW6zKm5hoi2Vdqq9IhLfpcK%2Fimg.png" width="500" height="250"/>

딥러닝의 각 퍼셉트론(노드)의 가중치는 Wx+b와 나타낼 수 있으며 이를 위의 변환이라고 볼 수 있음 <br>
변환 전에 직선으로 구분 불가했던 각 단어의 영역이 변환 후에는 직선으로 쉽게 구분 가능 <br>

<br>
<br>

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbJpa9b%2FbtrMUMaOsRf%2Fl4EZRDQUVzLX2SPaALDY50%2Fimg.png" width="500" height="250"/>

하지만 단순 affine transformation 만으로 공간 내의 모든 값을 구분할 수 없음 <br>
위의 예를 보면 변환 이후에 색을 구분할 수 있는 직선을 찾을 수 없음 <br>

<br>
<br>

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbhJwZr%2FbtrM3aOlIOE%2F155I6mjMdMIVanvN6oduBK%2Fimg.png" width="500" height="250"/>

따라서 위와 같이 변환된 공간에 어떠한 적절한 함수가 있어서 우측 그림과 같이 정리해줄 수 있다면 색을 구분할 수 있는 하나의 직선을 찾을 수 있음 <br>

<br>
<br>

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FmqGSf%2FbtrM3at2fBT%2FE5pB1gpZv7UPUsubxFI1qk%2Fimg.png" width="500" height="250"/>

실제로 위의 함수는 $max(0, x)$의 식은 ReLU 함수를 이용하여 얻을 수 있음 <br>
**Affine 변환에서 부족한 부분을 활성화 함수를 통하여 표현** <br>
이로 더 복잡한 경계면을 표현할 수 있고, 이로 더 복잡한 문제 해결 가능성 제공 <br>

<br>
<br>

<img src="https://blog.kakaocdn.net/dn/vSQuk/btrMZDctFNy/K9uXwX1zHcYPtxUWcq8Lmk/img.gif" width="300" height="250"/>

실제로 위의 그림은 tanh 함수가 적용된 것으로 공간이 급격히 왜곡되는 부분에서 활성화 함수가 적용된 것 <br>

<br>
<br>
<br>

<font style="font-size:20px"> 노드 수가 공간에 미치는 영향 </font> <p>

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fq3R6r%2FbtrMXkLaCUK%2FDtMnLTrJfE8LKwAffriRKK%2Fimg.png" width="500" height="300"/>

layer의 unit(node)수가 증가할수록 더욱 복잡하게 경계면을 분리할 수 있음 <br>

<br>
<br>

|unit=4|unit=2|
|-|-|
|<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FINZai%2FbtrMXIrDAW2%2FIzGUZyb3zGKiMGkKZd0KD0%2Fimg.gif" width="500" height="300"/>|<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FzUmiV%2FbtrM0oMYADr%2FR5nxmQWePJh8LIiLFPeepk%2Fimg.gif" width="500" height="300"/>|


좌측과의 경우 공간을 변형시키는 과정이 다름 <br>
최종적으로는 좌측은 직선으로 공간 분리에 성공하지만 우측은 실패 <br>
적은 노드 수보다 많은 노드 수에서 복잡한 결정 경계를 표현할 수 있음을 보임 <br>



#### Activation Functions

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbeswMt%2FbtqYpV2m5DU%2Fvqv8wX4oRhlM99eqhQIRx0%2Fimg.png" width="600" height="300"/>

##### Sigmoid

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/Logistic-curve.svg/640px-Logistic-curve.svg.png" width="300" height="200"/>

<br>

x가 클수록 1에 가까운 숫자로, 작을수록 0에 가까운 숫자로 변환시키는 활성화 함수 <br>
-> 0 ~ 1까지의 비선형 형태로 변경하기 위한 함수 <br>
기울기 소실 문제 발생 <br>
함수의 중심이 0이 아님 <br>


<br>

<b>Equation</b>: $\frac{1}{1+e^{-x}}$

##### Tanh

<img src="https://mathworld.wolfram.com/images/interactive/TanhReal.gif" width="300" height="200"/>

<br>

x가 클수록 1에 가까운 숫자로, 작을수록 -1에 가까운 숫자 출력 <br>
-> -1 ~ 1까지의 비선형 형태로 변경하기 위한 함수 <br>
기울기 소실 문제 발생 <br>


<br>

<b>Equation</b>: $\frac{e^x-e^{-x}}{e^x+e^{-x}}$

##### Rectified Linear Unit (ReLU)

<img src="https://i.imgur.com/gKA4kA9.jpg" width="300" height="200"/>

<br>

입력이 0이상이면 입력을 그대로 출력하고, 0 이하이면 0을 출력 <br>
기울기 계산이 간단 <br>
0보다 작은 값의 손실 문제 발생 <br>

<br>

<b>Equation</b>: $\max(0, x)$

##### Leaky ReLU

<img src="https://production-media.paperswithcode.com/methods/Screen_Shot_2020-05-25_at_3.09.45_PM.png" width="300" height="200"/>

<br>

입력이 0이상이면 입력을 그대로 출력하고, 0 이하이면 낮은 기울기를 출력 <br>
기울기 계산이 간단 <br>
0보다 작은 값의 손실 문제 해결 <br>

<br>

<b>Equation</b>: $\begin{cases} 
                    \max(0, x) & \text{if } x \gt 0 \\
                    ax & \text{if } x \leq 0 
                    \end{cases}$

##### Exponential Linear Unit (ELU)

<img src="https://pytorch.org/docs/stable/_images/ELU.png" width="300" height="200"/>

<br>

입력이 0이상이면 입력을 그대로 출력하고, 0 이하에서도 기울기 출력 <br>
기울기 계산이 간단 <br>

<br>

<b>Equation</b>: $\begin{cases} 
                    x & \text{if } x \gt 0 \\
                    \alpha*(\exp(x)-1) & \text{if } x \leq 0 
                    \end{cases}$

