# 3.5.1 항등함수와 소프트맥스 함수 구현하기

* 회귀 = 항등함수
* 분류 = 소프트맥스 (다중 분류일 경우)

<p align="center"><img src="3-21.png" width=500></p>

왼쪽 그림은 항등 함수를 표현한 것이고, 오른쪽 그림은 softmax의 표현식이다. 해당 표현식에서도 알 수 있듯이, 출력층의 모든 뉴런은 입력 신호에서 영향을 받는다. 아래 그림은 소프트맥스를 표현한 것이다.

<p align="center"><img src="3-22.png" width=200></p>

아래 코드는 소프트맥스 함수를 구현해가는 과정이다. 이 역시 lib 디렉토리에 저장하여, 언제든지 사용할 수 있게 해두자.

In [3]:
import numpy as np

a = np.array([0.3, 2.9, 4.0])

exp_a = np.exp(a)
exp_a

array([ 1.34985881, 18.17414537, 54.59815003])

In [4]:
sum_exp_a = np.sum(exp_a)
sum_exp_a

74.1221542101633

In [5]:
y = exp_a / sum_exp_a
y

array([0.01821127, 0.24519181, 0.73659691])

In [6]:
def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

# 3.5.2 소프트맥스 함수 구현 시 주의점

소프트맥스 함수는 지수 함수를 사용하는데, 지수 함수는 쉽게 아주 큰 값을 내뱉는다. 그래서 컴퓨터에서 오버플로 문제가 발생하게 된다. 이제 소프트맥스 함수식을 약간 개조하여, 오버플로 문제를 방지해볼 것이다.

<p align="center"><img src="3-22-2.png" width=400></p>

분모와 분자에 C라는 것을 곱해도 결과는 동일하다. 그리고 이를 지수 안으로 옮기는데, 그래서 log값의 더하기 형태로 C가 변하게 된다. 마지막으로 이 로그를 C'로 변환해주면 된다. 여기서 C'에 어떤 값을 대입해도 상관은 없지만, 오버플로를 막을 목적으로 입력값 중 최대값을 이용하는것이 일반적이라고 한다.

In [11]:
a = np.array([1010, 1000, 990])
y = softmax(a)
y

  exp_a = np.exp(a)
  y = exp_a / sum_exp_a


array([nan, nan, nan])

In [12]:
c = np.max(a)
a-c

array([  0, -10, -20])

In [13]:
np.exp(a-c) / np.sum(np.exp(a-c))

array([9.99954600e-01, 4.53978686e-05, 2.06106005e-09])

In [15]:
def softmax(a):
    c = np.max(a)
    
    exp_a = np.exp(a-c)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

# 3.5.3 소프트맥스 함수의 특징

In [16]:
a = np.array([0.3, 2.9, 4.0])
y = softmax(a)
y

array([0.01821127, 0.24519181, 0.73659691])

In [17]:
np.sum(y)

1.0

* 소프트맥스 함수의 출력은 0에서 1 사이이다.
* 출력값들을 모두 더하면 1이 된다.
* 이러한 성질 덕분에, 함수의 출력을 확률로 해석할 수 있다. argmax와 함께 많이 쓴다.

In [20]:
labels = ['dog', 'cat', 'rabbit']
i = np.argmax(y)
print(i)
labels[i]

2


'rabbit'

소프트맥스를 적용해도, 각 원소의 대소관계는 변하지 않는다고 한다. 그래서 학습할 때는 소프트맥스가 필요하나, 추론 단계에서 소프트맥스 함수는 생략해도 결과는 동일하다고 한다. (처음 알았음)

# 3.5.4 출력층의 뉴런 수 정하기

출력층의 뉴련 수는 분류하고자 하는 클래스의 수로 정하면 된다.

<p align="center"><img src="3-23.png" width=600></p>

MNIST는 필기체 글씨 이미지를 학습하는 예제인데, 0부터 9까지의 숫자들을 학습한다. 그래서 출력층의 뉴런 수는 10개가 된다.