# 出力層の設計

ニューラルネットワークは、「分類問題」、「回帰問題」の両方に用いることができる。  
ただし、どちらに用いるかによって出力層の活性化関数を変更する必要がある。  
一般的に、回帰問題では恒等関数を、分類問題ではソフトマックス関数を使う。

恒等関数
---
入力をそのまま出力する。入ってきたものに何も手を加えずに出力する関数。

ソフトマックス関数
---

$ \displaystyle y_k = \frac{\displaystyle exp({a_k})}{ \displaystyle\sum_{i=1}^n exp({a_i})}$

- ソフトマックス関数の分子は入力信号 akの指数部分、分母はすべての入力信号の指数関数の和で構成される

In [1]:
import numpy as np

a = np.array([0.3, 2.9, 4.0])

exp_a = np.exp(a) # 指数関数
print(exp_a)

sum_exp_a = np.sum(exp_a)
print(sum_exp_a)

y = exp_a / sum_exp_a
print(y)

[ 1.34985881 18.17414537 54.59815003]
74.1221542101633
[0.01821127 0.24519181 0.73659691]


In [2]:
def soft_max(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

### ソフトマックス関数の問題点
- 指数関数は桁数が容易に大きくなるためオーバフローの懸念が発生する
- 上記関数をそのまま使うとオーバフローに対応できない

In [3]:
a = np.array([1010, 1000, 990])
np.exp(a) / np.sum(np.exp(a))

  
  


array([nan, nan, nan])

この対策として入力信号の最大の値を引くことでオーバフローを防ぐことができる

In [5]:
c = np.max(a)
print(a - c)

np.exp(a - c) / np.sum(np.exp(a - c))

[  0 -10 -20]


array([9.99954600e-01, 4.53978686e-05, 2.06106005e-09])

In [6]:
def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c) # オーバフロー対策
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

ソフトマックス関数の特徴
---


In [7]:
a = np.array([0.3, 2.9, 4.0])
y = softmax(a)
print(y)
np.sum(y)

[0.01821127 0.24519181 0.73659691]


1.0

- ソフトマックス関数の出力は0~1.0の実数になる
- ソフトマックス関数の出力の総和は1になる

この性質により、ソフトマックス関数の出力を「確率」として解釈することができる

もうひとつの特徴としてソフトマックスは指数関数(y=exp(x))を使用する単調増加の関数であるため、各要素の大小関係は変わらない。

ニューラルネットワークでクラス分類を行う場合、一般的に出力の大きいニューロンに相当するクラスだけを認識結果とする。
ソフトマックス関数を用いても出力の一番大きいニューロンの場所は変わらない。そのためニューラルネットワークで分類を行う際は、出力層のソフトマックス関数を省略することができる。

(指数関数の計算はそれなりにコンピュータの計算が必要になるので、出力層のソフトマックス関数は省略することが一般的)



出力層のニューロンの数
---
- 出力層のニューロンの数は解くべき問題に応じて適宜決める必要がある。
- クラス分類を行う問題では、出力層のニューロンの数は分類したいクラスの数に設定するのが一般的
  - 例えば一つの数字画像を0~9までの数字に分類する問題であれば出力層のニューロンの数は10になる