# CH01.2. **Activation Functions**

> ## **활성화 함수(Activation Function)**

#### **(1) 정의** : 신경망의 노드 별 선형 출력($ Z $)을 특정 규칙에 따라 변환하여 출력하는 함수

#### **(2) 목적** : 비선형성을 적용해 복잡한 패턴을 학습

##### **(`WHY?`)** 비선형성을 적용하지 않는다면 레이어를 아무리 깊게 설정해도 모든 레이어별로 선형결합되어 단층 네트워크가 됨
##### $ \hspace{0.15cm} \Rightarrow{} W^{[l+1]}(W^{[l]}X) = \tilde{W}X $

#### **(3) 종류** :
##### $ \hspace{0.15cm} $ ① 시그모이드(Sigmoid)
##### $ \hspace{0.15cm} $ ② 하이퍼볼릭 탄젠트(Hyperbolic Tangent)
##### $ \hspace{0.15cm} $ ③ 렐루(Rectified Linear Unit;ReLU)
##### $ \hspace{0.15cm} $ ④ 리키 렐루(Leaky Rectified Linear Unit;Leaky ReLU)
##### $ \hspace{0.15cm} $ ⑤ 엘루(Exponential Linear Unit;ELU)
##### $ \hspace{0.15cm} $ ⑥ 겔루(Gaussian Error Linear Unit;GeLU)
##### $ \hspace{0.15cm} $ ⑦ 실루(Sigmoid Linear Unit;Swish;SiLU)
##### $ \hspace{0.3cm} \vdots{} $

<b></b>

> ## **시그모이드(Sigmoid)**

#### **(1) 정의** : 입력값을 $ 0 $과 $ 1 $ 사이의 값으로 출력하는 함수
##### $ \hspace{0.15cm} $ <img src="../../img/01.2. Activation Functions (1).png" width="40%" height="40%"></img>
##### $ \hspace{0.15cm} $ ① 함수 : $ h(z) = \sigma{}(z) = \frac{e^{z}}{1+e^{z}}=\frac{1}{1+e^{-z}} $
##### $ \hspace{0.15cm} $ ② 도함수 : $ h'(z) = \frac{e^{-z}}{(1+e^{-z})^{2}} $
##### $ \hspace{2.42cm} = \frac{1}{(1+e^{-z})} \frac{e^{-z}}{(1+e^{-z})} = \frac{1}{(1+e^{-z})} (1-\frac{1}{(1+e^{-z})}) $
##### $ \hspace{2.42cm} = h(z) (1-h(z)) $

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① 출력 범위 : $ (0, 1) $
##### $ \hspace{0.15cm} $ ② 출력 기댓값 : $ E[h(z)] > 0 \;\; $ (positive-centered)
##### $ \hspace{0.15cm} $ ③ 미분 가능성 : 전구간 미분 가능

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① 출력 범위가 $ 0 $과 $ 1 $ 사이기 때문에 확률적 해석이 가능함

#### **(4) 단점** :
##### $ \hspace{0.15cm} $ ① 입력값이 매우 크거나 작을 경우 도함수 값이 $ 0 $에 가까워져 깊은 신경망 학습 시 기울기 소실 발생

##### **(`PLUS`) 기울기 소실(Gradient Vanishing)** : 역전파 과정에서 지역-미분이 $ 0 $에 가까워져 파라미터 업데이트가 제대로 되지 않는 현상

##### $ \hspace{0.15cm} $ ② 출력 중심(평균)이 $ 0 $이 아니라 양수로 치우쳐져 있어, 그래디언트의 방향이 항상 한 방향으로 치우치는 그래디언트 편향 발생

<b></b>

> ## **하이퍼볼릭 탄젠트(Hyperbolic Tangent)**

#### **(1) 정의** : 입력값을 $ -1 $과 $ 1 $ 사이의 값으로 출력하는 함수
##### $ \hspace{0.15cm} $ <img src="../../img/01.2. Activation Functions (2).png" width="40%" height="40%"></img>
##### $ \hspace{0.15cm} $ ① 함수 : $ h(z) = \text{tanh}(z) = \frac{e^{z}-e^{-z}}{e^{z}+e^{-z}} $
##### $ \hspace{0.15cm} $ ② 도함수 : $ h'(z) = \frac{(e^{z}-e^{-z})^{'}(e^{z}+e^{-z})-(e^{z}-e^{-z})(e^{z}+e^{-z})^{'}}{(e^{z}+e^{-z})^{2}} $
##### $ \hspace{2.42cm} = \frac{(e^{z}+e^{-z})(e^{z}+e^{-z})-(e^{z}-e^{-z})(e^{z}-e^{-z})}{(e^{z}+e^{-z})^{2}} = \frac{(e^{z}+e^{-z})^{2}-(e^{z}-e^{-z})^{2}}{(e^{z}+e^{-z})^{2}} $
##### $ \hspace{2.42cm} = \frac{4}{(e^{z}+e^{-z})^{2}} $
##### $ \hspace{2.42cm} = \frac{4}{4\text{cosh}^{2}(z)} \;\; $ ($ \because{} \, \text{cosh}(z) = \frac{e^{z}+e^{-z}}{2} $)
##### $ \hspace{2.42cm} = \frac{\text{cosh}^{2}(z)-\text{sinh}^{2}(z)}{\text{cosh}^{2}(z)} \;\; $ ($ \because{} \, \text{cosh}^{2}(z) - \text{sinh}^{2}(z) = 1 $)
##### $ \hspace{2.42cm} = 1 - \frac{\text{sinh}^{2}(z)}{\text{cosh}^{2}(z)} $
##### $ \hspace{2.42cm} = 1 - \text{tanh}^{2}(z) $
##### $ \hspace{2.42cm} = 1 - h(z)^{2} $

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① 출력 범위 : $ (-1, 1) $
##### $ \hspace{0.15cm} $ ② 출력 기댓값 : $ E[h(z)] = 0 \;\; $ (zero-centered)
##### $ \hspace{0.15cm} $ ③ 미분 가능성 : 전구간 미분 가능

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① 출력이 $ 0 $을 중심으로 분포하므로 학습 시 기울기 방향이 균형 있게 전달됨

#### **(4) 단점** :
##### $ \hspace{0.15cm} $ ① 입력값이 크거나 작은 경우에는 기울기 소실 발생 가능

<b></b>

> ## **렐루(Rectified Linear Unit;ReLU)**

#### **(1) 정의** : 입력값이 $ 0 $보다 크면 그대로 출력하고, 그렇지 않다면 $ 0 $을 출력하는 함수
##### $ \hspace{0.15cm} $ <img src="../../img/01.2. Activation Functions (4).png" width="40%" height="40%"></img>
##### $ \hspace{0.15cm} $ ① 함수 : $ h(z) = \text{ReLU}(z) = \text{max}(0,\, z) = \begin{cases} x & \text{if } \; x \geq{} 0 \\ 0 & \text{if } \; x < 0 \end{cases} $
##### $ \hspace{0.15cm} $ ② 도함수 : $ h'(z) = \begin{cases} 1 & \text{if } \; z > 0 \\ \text{not define} & \text{if } \; z = 0 \\ 0 & \text{if } \; z < 0 \end{cases} $
##### $ \hspace{2.35cm} \approx{} \begin{cases} 1 & \text{if } \; z \geq{} 0 \\ 0 & \text{if } \; z < 0 \end{cases} $

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① 출력 범위 : $ [0, \infty{}) $
##### $ \hspace{0.15cm} $ ② 출력 기댓값 : $ E[h(z)] > 0 \;\; $ (positive-centered)
##### $ \hspace{0.15cm} $ ③ 미분 가능성 : $ z = 0 $에서 미분 불가능

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① 계산이 매우 간단하기에 연산 효율성이 높음
##### $ \hspace{0.15cm} $ ② 양의 입력에 대해 일정한 기울기를 제공하여, 역전파 시 기울기 소실 문제를 일부 완화

#### **(4) 단점** : 
##### $ \hspace{0.15cm} $ ① 음수 영역에서 미분값이 $ 0 $이므로, 많은 뉴런이 비활성화되어 학습이 멈출 위험 존재 (dying ReLU)
##### $ \hspace{0.15cm} $ ② 출력 평균이 양수에 편향되어 있어, 가중치 업데이트 시 그래디언트 편향 발생

<b></b>

> ## **리키 렐루(Leaky Rectified Linear Unit;Leaky ReLU)**

#### **(1) 정의** : 입력값이 음수일 때도 작은 기울기를 갖는 ReLU의 변형 함수
##### $ \hspace{0.15cm} $ <img src="../../img/01.2. Activation Functions (5).png" width="40%" height="40%"></img>
##### $ \hspace{0.15cm} $ ① 함수 : $ h(z) = \text{max}(\alpha{} \cdot{} z,\, z) \;\; \text{ where } \; 0 \leq{} \alpha{} \leq{} 1 $
##### $ \hspace{0.15cm} $ ② 도함수 : $ h'(z) = \begin{cases} 1 & \text{if } \; z > 0 \\ \text{not define} & \text{if } \; z = 0 \\ \alpha{} & \text{if } \; z < 0 \end{cases} $
##### $ \hspace{2.45cm} \approx{} \begin{cases} 1 & \text{if } \; z \geq{} 0 \\ \alpha{} & \text{if } \; z < 0 \end{cases} $

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① 출력 범위 : $ (-\infty{}, \infty{}) $
##### $ \hspace{0.15cm} $ ② 출력 기댓값 : $ E[h(z)] > 0 \;\; $ (positive-centered)
##### $ \hspace{0.15cm} $ ③ 미분 가능성 : $ z = 0 $에서 미분 불가능

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① 양수 구간에서는 ReLU와 동일하게 작동하고, 음수 구간에서는 작은 기울기($ \alpha{} $)를 유지

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① 음수 영역에서도 기울기를 제공하기에 뉴런이 완전히 죽는 문제를 완화 $ \rightarrow{} $ (ReLU에 비해) 학습이 안정적으로 진행될 가능성이 높음

#### **(4) 단점** :
##### $ \hspace{0.15cm} $ ① $ \alpha{} $는 하이퍼 파라미터이기에 경험적으로 설정해야함 (일반적으로 $ 0.001 \sim{} 0.3 $)

<b></b>

> ## **엘루(Exponential Linear Unit;ELU)**

#### **(1) 정의** : 기존 렐루 함수의 음수 영역에서도 지수 함수를 사용하여 부드러운 출력
##### $ \hspace{0.15cm} $ <img src="../../img/01.2. Activation Functions (6).png" width="40%" height="40%"></img>
##### $ \hspace{0.15cm} $ ① 함수 $ h(z) = \begin{cases} z & \text{if } \; z > 0 \\ \alpha{} \cdot{} ( e^{z} - 1) & \text{if } \; z \leq{} 0 \end{cases} $
##### $ \hspace{0.15cm} $ ② 도함수 : $ h'(z) = \begin{cases} 1 & \text{if } \; z > 0 \\ \alpha{}e^{z} & \text{if } \; z \leq{} 0 \end{cases} $ 

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① 출력 범위 : $ (-\alpha{}, \infty{}) $
##### $ \hspace{0.15cm} $ ② 출력 기댓값 : $ E[h(z)] > 0 \;\; $ (positive-centered)
##### $ \hspace{0.15cm} $ ③ 미분 가능성 : 전구간 미분 가능

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① 출력이 $ 0 $을 중심으로 분포하므로 학습 시 기울기 방향이 균형 있게 전달됨
##### $ \hspace{0.15cm} $ ② 음수 영역에서도 미분값이 $ 0 $이 아니므로 기울기 소실 문제를 줄임

#### **(4) 단점** :
##### $ \hspace{0.15cm} $ ① $ \alpha{} $는 하이퍼 파라미터이기에 경험적으로 설정해야함
##### $ \hspace{0.15cm} $ ② 지수 함수로 인한 오버헤드(overhead;계산시간이 추가로 더 걸리는 문제)가 존재

<b></b>

> ## **겔루(Gaussian Error Linear Units;GELU)**

#### **(1) 정의** : 입력값을 표준 정규분포 누적분포함수(CDF)로 확률적 게이팅하여 부드럽게 비선형 변환하는 함수
#### $ = $ 입력값이 양수일 확률만큼 그 값을 스케일링하는 활성화 함수

##### **(`PLUS`) 확률적 게이팅(Probalistic Gating)** : 입력값을 통과시킬지, 아니면 억제할지 확률로 결정하는 구조

##### $ \hspace{0.15cm} $ <img src="../../img/01.2. Activation Functions (7).png" width="40%" height="40%"></img>
##### $ \hspace{0.15cm} $ ① 함수 : $ h(z) = z \cdot{} \varPhi{} $
##### $ \hspace{2.05cm} \approx{} \frac{1}{2} z \cdot{} \Big[{} 1 + \text{tanh}\big({} \sqrt{\frac{2}{\pi{}}}(z+0.044715z^{3}) \big){} \Big]{} $
##### $ \hspace{2.05cm} \approx{} \frac{1}{2} z \cdot{} \Big[{} 1 + \text{tanh}\big({} \sqrt{\frac{2}{\pi{}}}(z+u) \big){} \Big]{} $
##### $ \hspace{1.225cm} \text{where } \; \varPhi{} = \int^{z}_{-\infty{}} \frac{1}{\sqrt{2\pi{}}}e^{-\frac{k^{2}}{2}} \text{dk}, \;\; u = 0.044715z^{3} $
##### $ \hspace{0.15cm} $ ② 도함수 : $ h'(z) \approx{} \frac{1}{2} \Big[{} 1+\text{tanh}(u) \Big]{} + \frac{1}{2} \Big[{} 1+\text{tanh}^{2}(u) \Big]{} \cdot{} u^{'} $

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① 출력 범위 : $ (-\infty{}, \infty{}) $
##### $ \hspace{0.15cm} $ ② 출력 기댓값 : $ E[h(z)] > 0 \;\; $ (positive-centered)
##### $ \hspace{0.15cm} $ ③ 미분 가능성 : 전구간 미분 가능 (근사식도 smooth함)

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① ReLU보다 부드럽고, $z<0$ 영역에서도 작은 음수 출력이 가능해 정보 손실 완화
##### $ \hspace{0.15cm} $ ② 입력값이 정규 분포이라면 수학적으로 자연스러운 활성화 가능

#### **(4) 단점** :
##### $ \hspace{0.15cm} $ ① $ \varPhi(z) $ 혹은 tanh 근사 계산에 있어 ReLU보다 연산량 증가
##### $ \hspace{0.15cm} $ ② 단순한 형태가 아니라 직관적인 해석이 ReLU 대비 어려움

<b></b>

> ## **실루(Sigmoid Linear Unit;Swish;SiLU)**

#### **(1) 정의** : 입력값에 시그모이드 함수를 곱해 크기에 따라 부드럽게 통과 비율을 조절하는 비선형 함수
##### $ \hspace{0.15cm} $ <img src="../../img/01.2. Activation Functions (8).png" width="40%" height="40%"></img>
##### $ \hspace{0.15cm} $ ① 함수 : $ h(z) = z \cdot{} \sigma{}(\beta{}z) $
##### $ \hspace{1.225cm} \text{where } \; \beta{} \, \text{ is hyper-parameter} $
##### $ \hspace{0.15cm} $ ② 도함수 : $ h'(z) = \sigma{}(\beta{}z) + \beta{}z \cdot{} \sigma{}(\beta{}z) \Big[{} 1 - \sigma{}(\beta{}z) \Big]{} $

#### **(2) 특징** :
##### $ \hspace{0.15cm} $ ① 출력 범위 : $ (-\infty{}, \infty{}) $
##### $ \hspace{0.15cm} $ ② 출력 기댓값 : $ E[h(z)] > 0 \;\; $ (positive-centered)
##### $ \hspace{0.15cm} $ ③ 미분 가능성 : 전구간 미분 가능
##### $ \hspace{0.15cm} $ ④ $ \beta{} $ 조정으로 함수 형태 변형 가능(작으면 선형, 크면 ReLU에 가까움)

#### **(3) 장점** :
##### $ \hspace{0.15cm} $ ① 작은 음수 영역에서도 완전히 0이 되지 않아 정보 손실 완화
##### $ \hspace{0.15cm} $ ② 부드러운 곡선 덕분에 최적화 과정에서 gradient 흐름이 안정적

#### **(4) 단점** :
##### $ \hspace{0.15cm} $ ① 시그모이드 연산이 포함돼 ReLU 대비 연산량 증가
##### $ \hspace{0.15cm} $ ② $ \beta{} $는 하이퍼 파라미터이기에 경험적으로 설정해야함