<a href="https://colab.research.google.com/github/shizoda/education/blob/main/machine_learning/activation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 活性化関数

`ReLU` のようなものがコード中に書かれているのを見かけていることあると思います。これは何のためにあるのでしょう？

これらは活性化関数 (activation function) といい、ニューラルネットワークにおいて **非線形性** を導入するために使用される関数です。活性化関数を使うことで、モデルが入力と出力の間に存在する複雑な関係を学習することが可能になります。

一般的な活性化関数には以下のものがあります：

- **ReLU（Rectified Linear Unit）**  
 $$
  f(x) = \max(0, x)
$$

- **Sigmoid**  
$$
  f(x) = \frac{1}{1 + e^{-x}}
$$

- **tanh**  
$$
  f(x) = \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}
$$

どんな関数なのか見てみましょう。
**Sigmoid と tanh は自分で実装してください**

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# x軸の値を生成
x = np.linspace(-3, 3, 100)

# 活性化関数の定義
def relu(x):
    return np.maximum(0, x)

def sigmoid(x):
    return np.zeros(len(x)) # 自分で実装してね

def tanh(x):
    return np.zeros(len(x)) # 自分で実装してね

# 活性化関数の出力を計算
y_relu = relu(x)
y_sigmoid = sigmoid(x)
y_tanh = tanh(x)

# グラフの描画
plt.figure(figsize=(8, 6))
plt.plot(x, y_relu, label="ReLU", color="blue", linewidth=2)
plt.plot(x, y_sigmoid, label="Sigmoid", color="green", linewidth=2)
plt.plot(x, y_tanh, label="Tanh", color="red", linewidth=2)

# 軸範囲の設定
plt.xlim(-3, 3)
plt.ylim(-3, 3)

# グリッド、軸、タイトル
plt.axhline(0, color='black', linewidth=0.5, linestyle="--")
plt.axvline(0, color='black', linewidth=0.5, linestyle="--")
plt.grid(alpha=0.3)
plt.title("Activation Functions", fontsize=14)
plt.xlabel("Input (x)", fontsize=12)
plt.ylabel("Output (f(x))", fontsize=12)

# 凡例
plt.legend(fontsize=10)
plt.show()


# 活性化関数の必要性

活性化関数がない場合、ニューラルネットワークは線形変換しか行えなくなります。つまり、各層で行われる処理がすべて線形であるため、層をどれだけ重ねても最終的には1回の線形変換で表現できてしまいます。すると

- 複雑なデータ（非線形なデータパターン）を学習できない
- 画像分類や音声認識、自然言語処理のような高度なタスクに対応できない

といったことになります。

## 活性化関数を挿入する箇所

活性化関数は、各隠れ層の **線形変換（全結合層や畳み込み層）** の直後に挿入するのが一般的です。

- 入力 → 全結合層（線形変換） → 活性化関数 → 次の層
- 入力 → 畳み込み層（線形変換） → 活性化関数 → プーリング層

---

### 線形と非線形

#### 線形とは？
線形とは、データの変換が一次方程式（直線または平面）で表現できることを意味します。  
数学的には、以下の形の方程式で表されます：

$$
y = {\mathbf W} {\mathbf x} + {\mathbf b}
$$

ここで：
- $ {\mathbf W} $ は重み（係数）行列
- $ {\mathbf x} $ は入力データ
- $ {\mathbf b} $ はバイアス項（定数）

線形モデルの特徴：
1. データが直線や平面で分離可能な場合に適している。
2. モデルがシンプルで計算効率が高い。
3. しかし、直線的なデータの関係しか学習できない。

線形モデルの限界：

たとえば、クラスAとクラスBが円形状に分布している場合、直線では分けられません（非線形な分離が必要）。このような場合、線形モデルでは対応できず、非線形性が必要となります。


#### 非線形とは？

非線形とは、データの変換が一次方程式では表現できない、より複雑な関係を持つことを意味します。  
数学的には、次のような関数が含まれる場合を指します：

$$
y = f({\mathbf W} {\mathbf x} + {\mathbf b})
$$

ここで $ f $ は活性化関数（非線形関数）です。

非線形モデルの特徴：
1. 複雑なデータ構造を学習可能。
2. データの分離が直線では難しい場合に適用可能。
3. 層を増やすことで高度な特徴を抽出できる。


----

### 課題：$y=x^3$ の近似

単純な非線形関数 $$y=x^3$$ をニューラルネットワークで近似する回帰問題です。

#### 実験の流れ

- データの生成

入力データ $x$ を [-1, 1] の範囲で均等に分布する100点とする。
出力データ $y$ は $y=x^3$ を用いて計算する。

- モデルの構築

活性化関数を使わない線形モデルは実装済みです。これを用いて結果を確認します。<br />
活性化関数（ReLU）を使った非線形モデルは、以下のコードを参考に自分で実装してください。関連する行はコメントアウトされているので、外して使用してください。

- トレーニング

それぞれのモデルを 10,000 エポックトレーニングする。

- 結果の可視化

活性化関数がある場合とない場合の出力を比較し、真の関数 $y=x^3$ にどれだけ近いかを確認する。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import torch
import torch.nn as nn
import torch.optim as optim

In [None]:
# データの生成
x = np.linspace(-1, 1, 100).reshape(-1, 1)  # 入力 (100点のデータ)
y = x ** 3  # 出力 y = x^3

# PyTorchのテンソルに変換
x_tensor = torch.tensor(x, dtype=torch.float32)
y_tensor = torch.tensor(y, dtype=torch.float32)

# データの可視化
plt.scatter(x, y, label='True function')
plt.legend()
plt.show()

In [None]:
class LinearModel(nn.Module):
    def __init__(self):
        super(LinearModel, self).__init__()
        self.linear = nn.Linear(1, 100)  # 1次元入力 -> 100次元隠れ層
        self.output = nn.Linear(100, 1)  # 100次元 -> 1次元出力

    def forward(self, x):
        x = self.linear(x)  # 線形変換のみ
        x = self.output(x)
        return x

In [None]:
# ここに NonLinearModel クラスを自分で実装してください



In [None]:
# モデル初期化
linear_model = LinearModel()
# nonlinear_model = NonLinearModel()

# 損失関数と最適化アルゴリズム
criterion = nn.MSELoss()  # 平均二乗誤差
optimizer_linear = optim.SGD(linear_model.parameters(), lr=0.01)
# optimizer_nonlinear = optim.SGD(nonlinear_model.parameters(), lr=0.01)

# トレーニング関数
def train_model(model, optimizer, epochs=10000):
    for epoch in range(epochs):
        optimizer.zero_grad()
        predictions = model(x_tensor)
        loss = criterion(predictions, y_tensor)
        loss.backward()
        optimizer.step()

# トレーニング実行
train_model(linear_model, optimizer_linear)
# train_model(nonlinear_model, optimizer_nonlinear)


In [None]:
# モデルの予測
linear_predictions = linear_model(x_tensor).detach().numpy()
# nonlinear_predictions = nonlinear_model(x_tensor).detach().numpy()

# 結果をプロット
plt.scatter(x, y, label='True function', color='lightblue', alpha=0.8)  # Thin light blue scatter
plt.plot(x, linear_predictions, label='Linear model (no activation)', color='red', linewidth=2)  # Red line, thicker
# plt.plot(x, nonlinear_predictions, label='Nonlinear model (with ReLU)', color='green', linewidth=2)  # Green line, thicker
plt.legend()
plt.title("Comparison of Linear and Nonlinear Models")
plt.show()


### 追加の課題

ReLU だけでなく、別の活性化関数に差し替えて試してみてください。特にReLU の亜種にあたるものを自分で探してください。実装方法については PyTorch のドキュメントを参照してください。