# ソフトマックス関数

ニューラルネットワークの多分類問題の場合に出力層で利用される関数。ソフトマックス関数を使うことで多クラスに分類ができる。

補足:問題と出力層の関数
* 回帰問題 => 恒等関数
* 2クラス分類問題 => シグモイド関数
* 多クラス分類問題 => ソフトマックス関数

数式は次の通り

$$
\begin{array}{ll}
y_k = \frac {exp(a_k)} {\sum_{i=1}^{n} exp(a_i)}
\\
exp(x): e^x を表す指数関数 \\
\end{array}
$$


In [2]:
import numpy as np

a = np.array([0.3, 2.9, 4.0])

exp_a = np.exp(a) # 指数関数
exp_a

array([  1.34985881,  18.17414537,  54.59815003])

In [3]:
sum_exp_a = np.sum(exp_a) # 指数関数の和
sum_exp_a

74.122154210163302

In [4]:
y = exp_a / sum_exp_a
y

array([ 0.01821127,  0.24519181,  0.73659691])

## ソフトマックス関数の実装上の注意

普通に実装するとオーバーフローが発生してしまうので工夫が必要

In [5]:
a = np.array([1010, 1000, 990])
np.exp(a) / np.sum(np.exp(a)) # ソフトマックス関数の計算すると、オーバーフローをして正しく計算されない

array([ nan,  nan,  nan])

In [10]:
c = np.max(a)  # 1010
diff = a - c # [0, -10, -20]
np.exp(diff) / np.sum(np.exp(diff)) # 最大値との差を取ってから計算するとオーバーフローしない

array([  9.99954600e-01,   4.53978686e-05,   2.06106005e-09])

## ソフトマックス関数の定義

In [11]:
def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c) # オーバーフロー対策
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

## ソフトマックス関数の特徴

ソフトマックス関数の出力は、0〜1の間の実数になります。また、ソフトマックス関数の出力値の総和は1になります。

この性質のため、ソフトマックス関数の出力は、確率として解釈ができます。（確率もすべての事象の総和は1となり、各値は0〜1の間の実数となるため）

In [13]:
a = np.array([0.3, 2.9, 4.0])
y = softmax(a)
print( y )
print( np.sum(y) )

[ 0.01821127  0.24519181  0.73659691]
1.0


## こぼれ話

機械学習では、「学習」と「推論」の２フェイズに分かれています。
ソフトマックス関数は一般的に「学習」フェイズで使われ、「推論」フェイズでは使われません。

理由として、ニューラルネットワークでは、一般的に出力層の最大値のノードを結果として使います。
そのため、ソフトマックス関数を使おうがどうか、最大値のノードは変わらないためであり、また、計算コストもかかるため「推論」フェイズでは使われません。

一方、「学習」フェイズでは、バックプロパゲーションで学習をするために、必要となります。