<a href="https://colab.research.google.com/github/udlbook/udlbook/blob/main/Notebooks/Chap03/3_4_Activation_Functions.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **ノートブック 3.4 -- 活性化関数**

この実習の目的は、異なる活性化関数を実験することです。<br>

以下のセルを順番に実行してください。様々な場所で「TODO」という文字が表示されます。これらの場所では指示に従ってコードを書き、関数を完成させてください。テキストの中には質問も散りばめられています。

間違いを見つけたり、提案がある場合は、udlbookmail@gmail.com までご連絡ください。

In [None]:
# 数学ライブラリをインポート
import numpy as np
# プロットライブラリをインポート
import matplotlib.pyplot as plt

In [None]:
# 浅層ニューラルネットワークをプロット。入力は[0,1]の範囲、出力は[-1,1]の範囲と仮定
# plot_allフラグがtrueに設定されている場合、図3.3のようにすべての中間段階をプロット
def plot_neural(x, y, pre_1, pre_2, pre_3, act_1, act_2, act_3, w_act_1, w_act_2, w_act_3, plot_all=False, x_data=None, y_data=None):

  # フラグが設定されている場合、中間プロットを表示
  if plot_all:
    fig, ax = plt.subplots(3,3)
    fig.set_size_inches(8.5, 8.5)
    fig.tight_layout(pad=3.0)
    ax[0,0].plot(x,pre_1,'r-'); ax[0,0].set_ylabel('事前活性化')
    ax[0,1].plot(x,pre_2,'b-'); ax[0,1].set_ylabel('事前活性化')
    ax[0,2].plot(x,pre_3,'g-'); ax[0,2].set_ylabel('事前活性化')
    ax[1,0].plot(x,act_1,'r-'); ax[1,0].set_ylabel('活性化')
    ax[1,1].plot(x,act_2,'b-'); ax[1,1].set_ylabel('活性化')
    ax[1,2].plot(x,act_3,'g-'); ax[1,2].set_ylabel('活性化')
    ax[2,0].plot(x,w_act_1,'r-'); ax[2,0].set_ylabel('重み付き活性化')
    ax[2,1].plot(x,w_act_2,'b-'); ax[2,1].set_ylabel('重み付き活性化')
    ax[2,2].plot(x,w_act_3,'g-'); ax[2,2].set_ylabel('重み付き活性化')

    for plot_y in range(3):
      for plot_x in range(3):
        ax[plot_y,plot_x].set_xlim([0,1]);ax[plot_x,plot_y].set_ylim([-1,1])
        ax[plot_y,plot_x].set_aspect(0.5)
      ax[2,plot_y].set_xlabel('入力, $x$');
    plt.show()

  fig, ax = plt.subplots()
  ax.plot(x,y)
  ax.set_xlabel('入力, $x$'); ax.set_ylabel('出力, $y$')
  ax.set_xlim([0,1]);ax.set_ylim([-1,1])
  ax.set_aspect(0.5)
  if x_data is not None:
    ax.plot(x_data, y_data, 'mo')
    for i in range(len(x_data)):
      ax.plot(x_data[i], y_data[i],)
  plt.show()

In [None]:
# 1つの入力、1つの出力、3つの隠れユニットを持つ浅層ニューラルネットワークを定義
def shallow_1_1_3(x, activation_fn, phi_0,phi_1,phi_2,phi_3, theta_10, theta_11, theta_20, theta_21, theta_30, theta_31):
  pre_1 = theta_10 + theta_11 * x
  pre_2 = theta_20 + theta_21 * x
  pre_3 = theta_30 + theta_31 * x
  # 図3.3 d-fのように、これらをReLU関数に通して活性化を計算
  act_1 = activation_fn(pre_1)
  act_2 = activation_fn(pre_2)
  act_3 = activation_fn(pre_3)

  w_act_1 = phi_1 * act_1
  w_act_2 = phi_2 * act_2
  w_act_3 = phi_3 * act_3

  y = phi_0 + w_act_1 + w_act_2 + w_act_3

  # 計算したすべてを返す
  return y, pre_1, pre_2, pre_3, act_1, act_2, act_3, w_act_1, w_act_2, w_act_3

In [None]:
# 正規化線形ユニット（ReLU）関数を定義
def ReLU(preactivation):
  activation = preactivation.clip(0.0)
  return activation

まず、ReLU関数を使ってネットワークを実行してみましょう

In [None]:
# パラメータを定義してニューラルネットワークを実行
theta_10 =  0.3 ; theta_11 = -1.0
theta_20 = -1.0  ; theta_21 = 2.0
theta_30 = -0.5  ; theta_31 = 0.65
phi_0 = -0.3; phi_1 = 2.0; phi_2 = -1.0; phi_3 = 7.0

# 入力値の範囲を定義
x = np.arange(0,1,0.01)

# これらの入力値のそれぞれに対してニューラルネットワークを実行
y, pre_1, pre_2, pre_3, act_1, act_2, act_3, w_act_1, w_act_2, w_act_3 = \
    shallow_1_1_3(x, ReLU, phi_0,phi_1,phi_2,phi_3, theta_10, theta_11, theta_20, theta_21, theta_30, theta_31)
# そしてプロット
plot_neural(x, y, pre_1, pre_2, pre_3, act_1, act_2, act_3, w_act_1, w_act_2, w_act_3, plot_all=True)

# シグモイド活性化関数

ReLUは唯一の活性化関数ではありません。長い間、人々はシグモイド関数を使用していました。ロジスティックシグモイド関数は次の式で定義されます：

\begin{equation}
f[z] = \frac{1}{1+\exp{[-10 z ]}}
\end{equation}

（10の係数は標準的ではないことに注意してください -- しかし、これによりReLUの例と同じ軸でプロットできます）

In [None]:
# シグモイド関数を定義
def sigmoid(preactivation):
  # TODO シグモイド関数を実装し、事前活性化から隠れユニットの活性化を計算するコードを書いてください。
  # np.exp()関数を使用してください。
  activation = np.zeros_like(preactivation);

  return activation

In [None]:
# 入力の配列を作成
z = np.arange(-1,1,0.01)
sig_z = sigmoid(z)

# シグモイド関数をプロット
fig, ax = plt.subplots()
ax.plot(z,sig_z,'r-')
ax.set_xlim([-1,1]);ax.set_ylim([0,1])
ax.set_xlabel('z'); ax.set_ylabel('sig[z]')
plt.show()

ニューラルネットワークでこの活性化関数を使った場合に何が起こるか見てみましょう

In [None]:
theta_10 =  0.3 ; theta_11 = -1.0
theta_20 = -1.0  ; theta_21 = 2.0
theta_30 = -0.5  ; theta_31 = 0.65
phi_0 = 0.3; phi_1 = 0.5; phi_2 = -1.0; phi_3 = 0.9

# 入力値の範囲を定義
x = np.arange(0,1,0.01)

# これらの入力値のそれぞれに対してニューラルネットワークを実行
y, pre_1, pre_2, pre_3, act_1, act_2, act_3, w_act_1, w_act_2, w_act_3 = \
    shallow_1_1_3(x, sigmoid, phi_0,phi_1,phi_2,phi_3, theta_10, theta_11, theta_20, theta_21, theta_30, theta_31)
# そしてプロット
plot_neural(x, y, pre_1, pre_2, pre_3, act_1, act_2, act_3, w_act_1, w_act_2, w_act_3, plot_all=True)

おそらく、これが滑らかな曲線を与えることに気づくでしょう。では、なぜこれを使わないのでしょうか？ああ...今は明らかではありませんが、モデルの適合を学ぶときにその理由に辿り着くでしょう。

# ヘビサイド活性化関数

ヘビサイド関数は次のように定義されます：

\begin{equation}
\text{heaviside}[z] = \begin{cases} 0 & \quad z <0 \\ 1 & \quad z\geq 0\end{cases}
\end{equation}

In [None]:
# ヘビサイド関数を定義
def heaviside(preactivation):
  # TODO ヘビサイド関数を実装し、事前活性化から隠れユニットの活性化を計算するコードを書いてください。
  # 実装によっては、ブール配列を0と1の配列に変換する必要があります。これを行うには、.astype(int)を使用してください。
  activation = np.zeros_like(preactivation);


  return activation

In [None]:
# 入力の配列を作成
z = np.arange(-1,1,0.01)
heav_z = heaviside(z)

# ヘビサイド関数をプロット
fig, ax = plt.subplots()
ax.plot(z,heav_z,'r-')
ax.set_xlim([-1,1]);ax.set_ylim([-2,2])
ax.set_xlabel('z'); ax.set_ylabel('heaviside[z]')
plt.show()

In [None]:
theta_10 =  0.3 ; theta_11 = -1.0
theta_20 = -1.0  ; theta_21 = 2.0
theta_30 = -0.5  ; theta_31 = 0.65
phi_0 = 0.3; phi_1 = 0.5; phi_2 = -1.0; phi_3 = 0.9

# 入力値の範囲を定義
x = np.arange(0,1,0.01)

# これらの入力値のそれぞれに対してニューラルネットワークを実行
y, pre_1, pre_2, pre_3, act_1, act_2, act_3, w_act_1, w_act_2, w_act_3 = \
    shallow_1_1_3(x, heaviside, phi_0,phi_1,phi_2,phi_3, theta_10, theta_11, theta_20, theta_21, theta_30, theta_31)
# そしてプロット
plot_neural(x, y, pre_1, pre_2, pre_3, act_1, act_2, act_3, w_act_1, w_act_2, w_act_3, plot_all=True)

これはあらゆる関数を近似できますが、出力は不連続であり、モデル適合についてさらに学ぶときに発見する理由により、使用しない理由もあります。

# 線形活性化関数

活性化関数が線形の場合、ニューラルネットワークは機能しません。例えば、活性化関数が次のような場合に何が起こるかを考えてみてください：

\begin{equation}
\text{lin}[z] = a + bz
\end{equation}

In [None]:
# 線形活性化関数を定義
def lin(preactivation):
  a =0
  b =1
  # 線形関数を計算
  activation = a+b * preactivation
  # 返す
  return activation

In [None]:
# TODO
# 1. 上記の線形活性化関数は入力をそのまま返します: (0+1*z) = z
# コードを実行する前に、描画の10のパネルがどのように見えるか予測してみてください
# 今度は以下のコードを実行して、予測が正しかったかどうか確認してください。これはどのような関数族を表現できますか？

# 2. パラメータ(a,b)を異なる値に変更すると何が起こりますか？
# a=0.5, b=-0.4を試してみてください。関数を更新するためにセルを再実行することを忘れないでください

theta_10 =  0.3 ; theta_11 = -1.0
theta_20 = -1.0  ; theta_21 = 2.0
theta_30 = -0.5  ; theta_31 = 0.65
phi_0 = 0.3; phi_1 = 0.5; phi_2 = -1.0; phi_3 = 0.9

# 入力値の範囲を定義
x = np.arange(0,1,0.01)

# これらの入力値のそれぞれに対してニューラルネットワークを実行
y, pre_1, pre_2, pre_3, act_1, act_2, act_3, w_act_1, w_act_2, w_act_3 = \
    shallow_1_1_3(x, lin, phi_0,phi_1,phi_2,phi_3, theta_10, theta_11, theta_20, theta_21, theta_30, theta_31)
# そしてプロット
plot_neural(x, y, pre_1, pre_2, pre_3, act_1, act_2, act_3, w_act_1, w_act_2, w_act_3, plot_all=True)