# CH01.3. **Activation Functions**

> ## **Activation Function**

#### **(1) 정의** : 신경망의 뉴런이 입력 신호의 가중합을 특정 규칙에 따라 변환하여 출력 신호를 생성하는 함수

#### **(2) 역할** : 비선형성 도입을 통해 복잡한 패턴을 학습

#### **(3) 종류** :
##### $ \hspace{0.15cm} $ ① Sigmoid
##### $ \hspace{0.15cm} $ ② Hyperbolic Tangent
##### $ \hspace{0.15cm} $ ③ Softmax
##### $ \hspace{0.15cm} $ ④ Rectified Linear Unit(RELU)
##### $ \hspace{0.15cm} $ ⑤ Leaky Rectified Linear Unit(Leaky RELU)
##### $ \hspace{0.15cm} $ ⑥ Exponential Linear Unit(ELU)
##### $ \hspace{0.15cm} $ ⑦ Swish
##### $ \hspace{0.45cm} \cdots{} $

<b></b>

> ## **Sigmoid**

#### **(1) 정의** : 입력값을 $ \, 0, \, 1 \, $ 사이의 값으로 변환하는 함수
##### $ \hspace{0.15cm} $ ① 함수 : $ \, h(z) = \sigma{}(z) = \frac{1}{1+e^{-z}} \;\; \text{ where } z \in{} \mathbb{R}^{1} $
##### $ \hspace{0.15cm} $ ② 도함수 : $ \, h'(z) = \frac{e^{-z}}{(1+e^{-z})^{2}} \;\; $ ($ \because{} \, $ 분수함수 미분)
##### $ \hspace{2.42cm} = \frac{1}{(1+e^{-z})} \frac{e^{-z}}{(1+e^{-z})} = \frac{1}{(1+e^{-z})} (1-\frac{1}{(1+e^{-z})}) $
##### $ \hspace{2.42cm} = h(z) (1-h(z)) $
#### $ \hspace{0.3cm} $ <img src="../../img/00.2. Activation Functions (1).png" width="40%" height="40%"></img>

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① S자 형태의 곡선 형태
##### $ \hspace{0.15cm} $ ② 입력값이 작거나 클 때 포화(saturation) 현상이 발생

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① 출력 범위가 $ \, 0 $ 에서 $ \, 1 $ 사이기에 확률적 해석이 가능함
##### $ \hspace{0.15cm} $ ② 모든 구간에서 연속이며, 미분이 가능함

#### **(4) 단점** :
##### $ \hspace{0.15cm} $ ① 입력값이 매우 크거나 작을 경우 도함수 값이 $ \, 0 $ 에 가까워져, 깊은 신경망 학습 시 기울기 소실 문제가 발생

##### **(`PLUS`)** 기울기 소실 : 입력값이 너무 크거나 작으면 도함수 값이 $ \, 0 $ 에 가까워져 파라미터 업데이트가 제대로 되지 않는 현상

##### $ \hspace{0.15cm} $ ② 평균 출력이 편향($ \, 0 $ 이 아니라 양수로 치우쳐짐)되어 있어, 가중치 업데이트 시 비대칭적 문제를 야기할 수 있음

<b></b>

> ## **Hyperbolic Tangent**

#### **(1) 정의** : 입력값을 $ \, -1, \, 1 \, $ 사이의 값으로 변환하는 함수
##### $ \hspace{0.15cm} $ ① 함수 : $ \, h(z) = \text{tanh}(z) = \frac{e^{z}-e^{-z}}{e^{z}+e^{-z}} $
##### $ \hspace{0.15cm} $ ② 도함수 : $ \, h'(z) = \frac{(e^{z}-e^{-z})^{'}(e^{z}+e^{-z})-(e^{z}-e^{-z})(e^{z}+e^{-z})^{'}}{(e^{z}+e^{-z})^{2}} $
##### $ \hspace{2.42cm} = \frac{(e^{z}+e^{-z})(e^{z}+e^{-z})-(e^{z}-e^{-z})(e^{z}-e^{-z})}{(e^{z}+e^{-z})^{2}} $
##### $ \hspace{2.42cm} = \frac{4}{(e^{z}+e^{-z})^{2}} $
##### $ \hspace{2.42cm} = \frac{4}{4\text{cosh}^{2}(z)} \;\; $ ($ \because{} \, \text{cosh}(z) = \frac{e^{z}+e^{-z}}{2} $)
##### $ \hspace{2.42cm} = $ **[LATEX]**
##### $ \hspace{2.42cm} = 1 - h(z)^{2} $
#### $ \hspace{0.3cm} $ <img src="../../img/00.2. Activation Functions (2).png" width="40%" height="40%"></img>

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① 입력 데이터의 분포가 대칭적이라면 출력값의 평균이 $ \, 0 $ 임(그렇지 않으면 $ \, 0 $ 에 가까움)
##### $ \hspace{0.15cm} $ ② 입력값이 작거나 클 때 포화(saturation) 현상이 발생
##### $ \hspace{0.15cm} $ ③ **[CONTENTS]**

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① 출력이 $ \, 0 $ 을 중심으로 분포하므로 학습 시 기울기 방향이 균형 있게 전달됨
##### $ \hspace{0.15cm} $ ② (시그모이드보다) 기울기가 큰 편이라 학습 초기 빠른 수렴이 가능한 경우가 많음

#### **(4) 단점** :
##### $ \hspace{0.15cm} $ ① 기울기 소실 문제 존재

<b></b>

> ## **Softmax**

#### **(1) 정의** : 각 클래스의 활성화 값을 확률로 변환하여, 전체 합이 $ \, 1 $이 되도록 정규화하는 함수
##### $ \hspace{0.15cm} $ ① 함수 : $ \, h(z_{i}) = \frac{e^{z^{i}}}{\sum^{n_{y}}_{k=1}e^{z^{k}}} $
##### $ \hspace{0.15cm} $ ② 도함수 : $ \, h'(z_{i}) = \frac{(\sum^{n_{y}}_{k=1}e^{z^{k}})-e^{z^{i}}(\sum^{n_{y}}_{k=1}e^{z^{k}})^{'}}{(\sum^{n_{y}}_{k=1}e^{z^{k}})^{2}} $
##### $ \hspace{2.5cm} = \frac{e^{z^{i}}}{\sum^{n_{y}}_{k=1}e^{z^{k}}}(\delta{}_{ik}-\frac{e^{z^{k}}}{\sum^{n_{y}}_{k=1}e^{z^{k}}}) = \begin{cases} \frac{e^{z^{i}}}{\sum^{n_{y}}_{k=1}e^{z^{k}}}(1-\frac{e^{z^{i}}}{\sum^{n_{y}}_{k=1}e^{z^{k}}}) \;\; \text{ if } \, i = k \\ -\frac{e^{z^{i}}}{\sum^{n_{y}}_{k=1}e^{z^{k}}}\frac{e^{z^{k}}}{\sum^{n_{y}}_{k=1}e^{z^{k}}} \;\;\;\;\;\;\;\;\, \text{ if } \, i \neq{} k \end{cases} $
##### $ \hspace{2.5cm} = \begin{cases} h(z_{i})(1-h(z_{i})) \;\; \text{ if } \, i = k \\ -h(z_{i})h(z_{k}) \;\;\;\;\;\;\;\, \text{ if } \, i \neq{} k \end{cases} $
#### $ \hspace{0.3cm} $ <img src="../../img/00.2. Activation Functions (3).png" width="80%" height="80%"></img>

#### **(`PLUS`)** 도함수의 경우 **[CONTENTS]**

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① **[CONTENTS]**
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① 출력값의 총합이 $ \, 1 $ 이 되어, 산출값에 대해 확률적 해석 가능
##### $ \hspace{0.15cm} $ ② 모든 구간에서 연속이며, 미분이 가능함

#### **(4) 단점** :
##### $ \hspace{0.15cm} $ ① 입력 스케일에 민감하여, 적절한 안정화 기법이 필요함
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**

<b></b>

> ## **Rectified Linear Unit(RELU)**

#### **(1) 정의** : 입력값을 $ \, 0 $ 보다 크면 그대로 출력하고, $ \, 0 $ 이하이면 $ \, 0 $ 을 출력하는 함수
##### $ \hspace{0.15cm} $ ① 함수 : $ \, h(x) = \text{max}(0,\, x) $
##### $ \hspace{0.15cm} $ ② 도함수 : $ \, h'(x) = \begin{cases} 1, \;\; x > 0 \\ 0, \;\; x \leq{} 0 \end{cases} $
#### $ \hspace{0.3cm} $ <img src="../../img/00.2. Activation Functions (4).png" width="40%" height="40%"></img>

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① **[CONTENTS]**
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① 연산 비용이 낮음
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**

#### **(4) 단점** :
##### $ \hspace{0.15cm} $ ① 입력이 음수인 경우 항상 $ \, 0 $ 을 출력하여, 해당 뉴런이 학습 과정에서 전혀 업데이트되지 않을 수 있음 (Dead Neurons)
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**

<b></b>

> ## **Leaky Rectified Linear Unit(Leaky RELU)**

#### **(1) 정의** : 입력이 음수일 때도 작은 기울기를 갖는 RELU의 변형 함수
##### $ \hspace{0.15cm} $ ① 함수 : $ \, h(x) = \text{max}(\alpha{} \cdot{} x,\, x) $
##### $ \hspace{0.15cm} $ ② 도함수 : $ \, h'(x) = \begin{cases} 1, \;\; x > 0 \\ \alpha{}, \;\; x \leq{} 0 \end{cases} $
#### $ \hspace{0.3cm} $ <img src="../../img/00.2. Activation Functions (5).png" width="40%" height="40%"></img>

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① **[CONTENTS]**
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① **[CONTENTS]**
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**

#### **(4) 단점** :
##### $ \hspace{0.15cm} $ ① **[CONTENTS]**
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**

<b></b>

> ## **Exponential Linear Unit(ELU)**

#### **(1) 정의** : 기존 RELU 함수의 음수 영역에서도 지수 함수를 사용하여 부드러운 출력
#### $ \hspace{0.15cm} $ ① 함수 $ \, h(x) = \begin{cases} x, \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; x > 0 \\ \alpha{} \cdot{} ( e^{x} - 1), \;\; x \leq{} 0 \end{cases} $
#### $ \hspace{0.15cm} $ ② 도함수 : $ \, h'(x) = \begin{cases} 1, \;\;\;\;\;\;\;\;\;\;\;\;\;\; x > 0 \\ h(x) + \alpha{}, \;\; x \leq{} 0 \end{cases} $ 
#### $ \hspace{0.3cm} $ <img src="../../img/00.2. Activation Functions (6).png" width="40%" height="40%"></img>

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① **[CONTENTS]**
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① **[CONTENTS]**
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**

#### **(4) 단점** :
##### $ \hspace{0.15cm} $ ① **[CONTENTS]**
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**

<b></b>

> ## **Swish**

#### **(1) 정의** : Sigmoid 함수와 입력값을 곱한 값을 출력하는 함수
##### $ \hspace{0.15cm} $ ① 함수 : $ \, h(x) = x \cdot{} \sigma{}(\beta{} \cdot{} x) = x \cdot{} \frac{1}{1+e^{-\beta{}\cdot{}x}} $
##### $ \hspace{0.15cm} $ ② 도함수 : $ \, h'(x) = f(x) + \sigma{}(\beta{} \cdot{} x)(1 - \beta{} \cdot{} h(x)) = \sigma{}(\beta{} \cdot{} x) + \beta{} \cdot{} x \cdot{} \sigma{}(\beta{}\cdot{}x)(1 - \sigma{}(\beta{} \cdot{} x)) $
##### $ \hspace{0.3cm} $ <img src="../../img/00.2. Activation Functions (7).png" width="40%" height="40%"></img>

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① **[CONTENTS]**
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① **[CONTENTS]**
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**

#### **(4) 단점** :
##### $ \hspace{0.15cm} $ ① **[CONTENTS]**
##### $ \hspace{0.15cm} $ ② **[CONTENTS]**