# 活性化関数まとめ

## 1. 活性化関数(activation function)の比較

・Linear<br>
・softplus<br>
・sigmoid<br>
・ReLU (Rectified Linear Unit)<br>
・Leaky ReLU<br>
・PReLU (Parametrized ReLU)<br>

<img src="04_actfunc/act03.png" height=２350px width=350px>

・Linearは活性化関数をかけない状態 つまり線形分類器<br>
   そのまま(線形分類器)だと、精度が全然出ていない<br>
　 非線形性がニューラルネットに重要ということがわかる<br>
・ReLU系強い。そしてsoft plusもなかなか健闘している。<br>
　 両者の関数系は似ている<br>
・PReLUが、validation accuracyまで見るともっとも優秀<br>
　 意外にLeaky ReLUが力を発揮しきれていない？<br>

<img src="04_actfunc/act04.png" height=650px width=650px>

## 2. ReLU

### ReLUの良さ

・$max(0,x)$ は単純ゆえに早い<br>
・0を作る → スパース性につながる<br>
・$x>0$ の部分では微分値が常に1であるため勾配消失の心配はない<br>

### 参考：線形関数をgoogle play ground で確認する

google play ground で確認する　→
<a href="https://goo.gl/5zbbO3"> http://playground.tensorflow.org/#activation=linear</a>

<img src="04_actfunc/act01_linear.png">

### ReLUをgoogle play ground で確認する

google play ground で確認する　→
<a href="https://goo.gl/dtbHZV"> http://playground.tensorflow.org/#activation=relu</a>
<img src="04_actfunc/act02_relu.png">

## 3. Leaky ReLU

### Leaky ReLUのパラメータと精度

・trainingデータの精度的にはaは小さい方がいい<br>
　 → これは正解データに対して当てはめているだけ、実際は過学習している可能性がある。
  
・大事なのはvalidation accuracyで、実際にそのepochでtrainingしなかったものに対して<br>
どのくらいの効果を発揮するか。

・validation accuracyを見ると、0.0≤a<0.4 あたりで Leaky ReLUを調節すればよさそう。

だが、大幅な精度改善というわけにはいかない

今回は層が一層だから差があまりないのかも。深いそうになってくるとPReLUやLeaky ReLUが過学習を防ぐ方向に活躍してくれるらしい。

<img src="04_actfunc/act05.png">

### keras　の LeakyReLU 実装

keras.layers.advanced_activations.LeakyReLU(alpha=0.3)<br>
ユニットがアクティブでないときに微少な勾配を可能とするRectified Linear Unit<br>
の特別なバージョン<br>

$f = \begin{cases}
    x & (x>0) 
    \\
     \alpha * x  & (x<=0)
  \end{cases}
$


## 4. RReLU(Randomized ReLU)

精度向上に貢献できそうなのが、Randomized ReLU。 

違いは、Leaky ReLUの傾きにランダム性を付与することで、傾きに幅を与えている。

<img src="04_actfunc/act06.png">

<pre>
Randomized Leaky Rectified Linear is the randomized version of leaky ReLU.
It is first proposed and used in Kaggle NDSB Competition.
The highlight of RReLU is that in training process, a_ji is a random number
sampled from a uniform distribution U(l, u). Formally,
we have:
</pre>

$y_{ji} = \begin{cases}
    x_{ji} & (x_{ji}>0)
    \\
     a_{ji}x_{ji}  & (x\leq0)
  \end{cases}
$

(3)
where
$a_{ji} \sim U(l, u)$, $l < u$ and $l, u \in [0, 1) (4)$


## 5. activation functionの実装

In [None]:
'''
activation function
'''
def sigmoid(x):
    return 1. / (1 + numpy.exp(-x))

def dsigmoid(x):
    return x * (1. - x)

def tanh(x):
    return numpy.tanh(x)

def dtanh(x):
    return 1. - x * x

def softmax(x):
    e = numpy.exp(x - numpy.max(x))  # prevent overflow
    if e.ndim == 1:
        return e / numpy.sum(e, axis=0)
    else:  
        return e / numpy.array([numpy.sum(e, axis=1)]).T  # ndim = 2

def ReLU(x):
    return x * (x > 0)

def dReLU(x):
    return 1. * (x > 0)

## 参考文献

keras - Advanced Activationsレイヤー<br>
https://keras.io/ja/layers/advanced-activations/

Empirical Evaluation of Rectified Activations in Convolution Network<br>
https://arxiv.org/pdf/1505.00853.pdf<br>
→Randomized ReLU　の元論文