12_2의 코드에서는 **Activation function으로 Sigmoid function을** 사용하였다.

하지만, 기술적으로는 **미분이 가능하다면** 어떤 함수라도 **Activation function**으로 사용할 수 있다.

이론적으로, **Sigmoid 함수가** 뉴런 개념을 가장 비슷하게 흉내내지만, 만약 입력 $x$가 매우 작은 음수라면, **Vanishing Gradient 문제가** 발생하여 학습이 어려워진다.

**Loss = 0**이라면 **Gradient가 0에 가까워져** Weight가 업데이트되지 않는다.

이 경우, **Local Minimum 등에 갇히게 되거나 학습이 진행되지 않을 수 있다.**

따라서 대신 **tanh 함수를 더 선호한다.**

아래에선 여러 종류에 **Activation Function**에 대해 알아볼 것이다.

먼저 **Logistic function에** 대해 알아보자
- **Logistic functiond은** **Sigmoid function의 특별한 경우이다.**

$z = w^Tx$ 일 때, **Logistic function**은 $\frac{1}{1 + \exp(-z)}$ 으로 구할 수 있다.

In [2]:
import numpy as np

X = np.array([1, 1.4, 2.5]) # W0 절편때문에 X의 첫 번째 원소는 반드시 1이여야 한다.
w = np.array([0.4, 0.3, 0.5])

def net_input(X, w):
    return np.dot(X, w)

def logistic(z):
    return 1.0 / (1.0 + np.exp(-z))

def logistic_activation(X, w):
    z = net_input(X, w)
    return logistic(z)

print('P(y=1|x) = %.3f' % logistic_activation(X, w))

P(y=1|x) = 0.888


**P(y=1|x) = 0.888** 이 결과는 **x가 1번 class에 속할 확률이 88.8%라는** 의미이다.

**이진 분류**에 적합한 **Logistic Regression**은 **다중 클래스 문제에서는 직접 적용하기 어렵다.** 

여러 개의 로지스틱 유닛을 **병렬로 사용하여 다중 클래스 출력을 구성**하면, 각 클래스의 출력이 **독립적인 확률처럼 동작**하게 되어, **전체 확률의 합이 1이 되지 않아** 해석이 어렵다. 

이러한 문제를 해결하기 위해 **소프트맥스(softmax) 함수를 사용하는 다중 클래스 로지스틱 회귀(softmax regression)를** 사용한다.

**tanh**함수의 수식은 이와 같다.
- $\frac{e^x - e^{-x}}{e^x + e^{-x}}$

**sigmoid function**과 비교했을 때, **tanh** 함수는 아래와 같이 나타낼 수 있다.

- **2 x sigmoid(2z) - 1**

**sigmoid function의 결과의 범위가 (0, 1)인 것을 감안하면,** **tanh 함수의 범위는 (-1, 1) 인 것을 확인할 수 있다.**

즉, **tanh** 함수는 **sigmoid** 함수보다 출력 범위를 **2배 넓혀서** 알고리즘의 수렴 범위를 향상시킬 수 있다.

- **이 것은 Vanishing Gradient 문제가 해결되는 것을 의미한다.**

In [7]:
# PyTorch나 Numpy에 tanh를 지원하는 함수가 있다.
import torch

# np.tanh(X)

# torch.tanh(X)

**ReLu** 함수는 max(0, z)로 나타낼 수 있다.

- 즉, 음수 부분을 0으로 대체하는 함수이다.

**sigmoid 함수에서** 출력값이 굉장히 작은 음수라면, **Vanishing Gradient 문제**가 발생한다고 하였는데 이를 방지하면서 **비선형성**을 부여하는 Activation function이다.

In [8]:
# torch.relu() 함수를 이용하여 구현할 수 있다.