# ニューラルネットワークと線形代数
ここでは, ニューラルネットワークの基礎と, それを学ぶのに必要な線形代数を学習する.

## ニューラルネットワークを学ぶのに必要な線形代数の知識
**ベクトル** とは, 1つのデータを表現する数値列である.

$$
\mathbf{x} = \begin{bmatrix}
x_1 \\
x_2 \\
x_3
\end{bmatrix}
$$

このとき, ベクトルの要素は3つあるので, このベクトルの次元は $3$ である.  
**行列** とは, 複数のデータや重みをまとめたものである.

$$
W = \begin{bmatrix}
w_{11} & w_{12} & w_{13} \\
w_{21} & w_{22} & w_{23}
\end{bmatrix}
$$

このとき, この行列は縦方向(行方向)に2つ, 横方向(列方向)に3つなので $2 \times 3$ の行列である.  
行列とベクトルの **積** を次のように考える.

$$
\begin{aligned}
\mathbf{y} &= W \mathbf{x} \\
&= \begin{bmatrix}
w_{11} & w_{12} & w_{13} \\
w_{21} & w_{22} & w_{23}
\end{bmatrix} \begin{bmatrix}
x_1 \\
x_2 \\
x_3
\end{bmatrix} \\
&= \begin{bmatrix}
w_{11} x_1 + w_{12} x_2 + w_{13} x_3 \\
w_{21} x_1 + w_{22} x_2 + w_{23} x_3
\end{bmatrix}
\end{aligned}
$$

例えば, $W, \mathbf{x}$ をそれぞれ

$$
W = \begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix}, \quad \mathbf{x} = \begin{bmatrix}
1 \\
0 \\
-1
\end{bmatrix}
$$

とすると,

$$
\begin{aligned}
\mathbf{y} &= W \mathbf{x} \\
&= \begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix} \begin{bmatrix}
1 \\
0 \\
-1
\end{bmatrix} \\
&= \begin{bmatrix}
1 \times 1 + 2 \times 0 + 3 \times (-1) \\
4 \times 1 + 5 \times 0 + 6 \times (-1)
\end{bmatrix} \\
&= \begin{bmatrix}
-2 \\
-2
\end{bmatrix}
\end{aligned}
$$

となる.  
さらに, 行列同士の積も同様に考える.  
行列 $A, B, C$ を次のようにする.

$$
A = \begin{bmatrix}
-3 & 4 & 1 \\
0 & 7 & 8
\end{bmatrix}, \quad B = \begin{bmatrix}
2 & -1 \\
-6 & 3 \\
0 & 10 \\
1 & 1
\end{bmatrix}, \quad C = \begin{bmatrix}
1 & 1 & -1 & -1 \\
0 & 0 & 1 & 0
\end{bmatrix}
$$

行列積 $BA, CB, CBA$ をそれぞれ $D, E, F$ とすると,

$$
D = BA = \begin{bmatrix}
2 & -1 \\
-6 & 3 \\
0 & 10 \\
1 & 1
\end{bmatrix} \begin{bmatrix}
-3 & 4 & 1 \\
0 & 7 & 8
\end{bmatrix} = \begin{bmatrix}
2 \times (-3) + (-1) \times 0 & 2 \times 4 + (-1) \times 7 & 2 \times 1 + (-1) \times 8 \\
(-6) \times (-3) + 3 \times 0 & (-6) \times 4 + 3 \times 7 & (-6) \times 1 + 3 \times 8 \\
0 \times (-3) + 10 \times 0 & 0 \times 4 + 10 \times 7 & 0 \times 1 + 10 \times 8 \\
1 \times (-3) + 1 \times 0 & 1 \times 4 + 1 \times 7 & 1 \times 1 + 1 \times 8
\end{bmatrix} = \begin{bmatrix}
-6 & 1 & -6 \\
18 & -3 & 18 \\
0 & 70 & 80 \\
-3 & 11 & 9
\end{bmatrix}, \\
E = CB = \begin{bmatrix}
1 & 1 & -1 & -1 \\
0 & 0 & 1 & 0
\end{bmatrix} \begin{bmatrix}
2 & -1 \\
-6 & 3 \\
0 & 10 \\
1 & 1
\end{bmatrix} = \begin{bmatrix}
1 \times 2 + 1 \times (-6) + (-1) \times 0 + (-1) \times 1 & 1 \times (-1) + 1 \times 3 + (-1) \times 10 + (-1) \times 1 \\
0 \times 2 + 0 \times (-6) + 1 \times 0 + 0 \times 1 & 0 \times (-1) + 0 \times 3 + 1 \times 10 + 0 \times 1
\end{bmatrix} = \begin{bmatrix}
-5 & -9 \\
0 & 10
\end{bmatrix}, \\
\begin{aligned}
F &= CBA \\
&= C(BA) = CD = \begin{bmatrix}
1 & 1 & -1 & -1 \\
0 & 0 & 1 & 0
\end{bmatrix} \begin{bmatrix}
-6 & 1 & -6 \\
18 & -3 & 18 \\
0 & 70 & 80 \\
-3 & 11 & 9
\end{bmatrix} \\
&= \begin{bmatrix}
1 \times (-6) + 1 \times 18 + (-1) \times 0 + (-1) \times (-3) & 1 \times 1 + 1 \times (-3) + (-1) \times 70 + (-1) \times 11 & 1 \times (-6) + 1 \times 18 + (-1) \times 80 + (-1) \times 9 \\
0 \times (-6) + 0 \times 18 + 1 \times 0 + 0 \times (-3) & 0 \times 1 + 0 \times (-3) + 1 \times 70 + 0 \times 11 & 0 \times (-6) + 0 \times 18 + 1 \times 80 + 0 \times 9
\end{bmatrix} = \begin{bmatrix}
15 & -83 & -77 \\
0 & 70 & 80
\end{bmatrix} \\
&= (CB)A = EA = \begin{bmatrix}
-5 & -9 \\
0 & 10
\end{bmatrix} \begin{bmatrix}
-3 & 4 & 1 \\
0 & 7 & 8
\end{bmatrix} = \begin{bmatrix}
(-5) \times (-3) + (-9) \times 0 & (-5) \times 4 + (-9) \times 7 & (-5) \times 1 + (-9) \times 8 \\
0 \times (-3) + 10 \times 0 & 0 \times 4 + 10 \times 7 & 0 \times 1 + 10 \times 8
\end{bmatrix} = \begin{bmatrix}
15 & -83 & -77 \\
0 & 70 & 80
\end{bmatrix}
\end{aligned}
$$

となる.

## ニューラルネットワークの基礎
ここからは, 上記で学んだ線形代数の知識をニューラルネットワークに応用し, 実際にニューラルネットワークがどのようなものであるのかを学ぶ.

### ニューラルネットワークを構成する基礎理論
基本的にニューラルネットワークは, $M$ 次元のベクトルを $N$ 次元のベクトルに変換する **線形層** を繋いで作られている.  
層ごとに見ると, 次のようになっている.

$$
\mathbf{y} = W \mathbf{x} + \mathbf{b}
$$

ここで, $\mathbf{x}$ は $M$ 次元のベクトル, $\mathbf{y}$ および $\mathbf{b}$ は $N$ 次元のベクトル, $W$ は $N \times M$ の行列を表す.  
また, $\mathbf{b}$ は **バイアス** と呼ばれる定数項であり, 予測を調整するために置いているものである.  
ニューラルネットワークを構築する上で, 直感的にはこの線形層を何層も重ねることで表現力が高まりそうではある.  
しかし, 行列積の線形性を考えると,

$$
\begin{aligned}
\mathbf{y} &= W_3 (W_2 (W_1 \mathbf{x} + \mathbf{b}_1) + \mathbf{b}_2) + \mathbf{b}_3 \\
&= W_3 W_2 W_1 \mathbf{x} + \mathbf{b} = W \mathbf{x} + \mathbf{b}
\end{aligned}
$$

であるため, 初めから適切な $W$ と $\mathbf{b}$ を1つ用意しておけば層数を多くするメリットが無くなってしまう.  
これは, 線形変換のみで繋いでいることが原因であるため, 線形層の後に非線形な関数を適用すれば良い.  
すなわち,

$$
\mathbf{y} = \mathbf{f}(W \mathbf{x} + \mathbf{b})
$$

という関数 $\mathbf{f}$ を途中で噛ませることを考える.  
この関数のことを **活性化関数** と呼ぶ.  
活性化関数には次のようなものがある.

- **ReLU**
    - $\text{ReLU}(x) = (x)^+ = \max{(0, x)}$  
        ![ReLU](https://docs.pytorch.org/docs/stable/_images/ReLU.png)
- **LeakyReLU**
    - $\text{LeakyReLU}(x) = \max{(0, x)} + \text{negative\_slope} * \min{(0, x)}$  
        ![LeakyReLU](https://docs.pytorch.org/docs/stable/_images/LeakyReLU.png)
- **Tanh**
    - $\text{Tanh}(x) = \tanh{(x)} = \frac{\exp{(x)} - \exp{(-x)}}{\exp{(x)} + \exp{(-x)}}$  
        ![Tanh](https://docs.pytorch.org/docs/stable/_images/Tanh.png)
- **SELU**
    - $\text{SELU}(x) = \text{scale} * ( \max{(0, x)} + \min{(0, \alpha * (\exp{(x)} - 1))} )$  
        where $\alpha = 1.6732632423543772848170429916717, \text{scale} = 1.0507009873554804934193349852946$  
        ![SELU](https://docs.pytorch.org/docs/stable/_images/SELU.png)
- **GELU**
    - $\text{GELU}(x) = 0.5 * x * (1 + \text{Tanh}(\sqrt{\frac{2}{\pi}} * (x + 0.044715 * x^3)))$  
        ![GELU](https://docs.pytorch.org/docs/stable/_images/GELU.png)

さらに, ニューラルネットワークの出力層として, 特に **分類タスク** を行うときには特別な活性化関数を持ってくることがある.

- **Sigmoid**
    - $\text{Sigmoid}(x) = \sigma(x) = \frac{1}{1 + \exp{(-x)}}$  
        ![Sigmoid](https://docs.pytorch.org/docs/stable/_images/Sigmoid.png)
- **Softmax**
    - $\text{Softmax}(x_i) = \frac{\exp{(x_i)}}{\Sigma_j \exp{(x_j)}}$
- **LogSoftmax**
    - $\text{LogSoftmax}(x_i) = \log (\text{Softmax}(x_i)) = \log (\frac{\exp{(x_i)}}{\Sigma_j \exp{(x_j)}})$

ここまでを踏まえて, 簡単な分類タスクを行うための単純なニューラルネットワークを構築してみる.  
[Scikit-Learn](https://scikit-learn.org/stable/) の[ワインのベンチマークデータセット](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html#sklearn.datasets.load_wine)を使い, [PyTorch](https://pytorch.org/) で組んだ3層ニューラルネットワークモデルで予測する流れを作る.

### ニューラルネットワークの実装
まずは必要なライブラリをインポートする.

In [None]:
# 必要なライブラリのインポート
import warnings

import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import torch
from torch import nn, optim
from torch.utils.data import TensorDataset, DataLoader

ノートブックで使用する諸々の設定を先に行う.

In [None]:
# 警告メッセージを非表示にする
warnings.filterwarnings("ignore")

# 乱数シードの設定
seed = 42
torch.manual_seed(seed)
torch.cuda.manual_seed_all(seed)
torch.backends.cudnn.deterministic = True

データをロードし, [pandas](https://pandas.pydata.org/) のデータフレームで表示する.

In [None]:
# データのロード
data = load_wine()

# 説明変数のデータフレームを作成
x_df = pd.DataFrame(data.data, columns=data.feature_names)

# 目的変数のデータフレームを作成
y_df = pd.DataFrame(data.target, columns=["target"])

# 説明変数と目的変数のデータフレームを結合
df = pd.concat([x_df, y_df], axis=1)
df

説明変数は全部で13個ある.  
これらのデータから目的変数の `target` の値を予測する.  
目的変数の値は `[0, 1, 2]` の3種類なので, 3値分類となる.  
ここからデータを学習用と評価用に分割し, 学習用データ(説明変数)に `StandardScaler` を fit させ, 両方変換する.

In [None]:
# データを学習用と評価用に分割
X_train, X_test, y_train, y_test = train_test_split(
    x_df, y_df, test_size=0.20, random_state=seed
)

# 学習用データに StandardScaler を fit させ, 両方変換する
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# NumPy 配列を PyTorch のテンソルに変換する
X_train = torch.tensor(X_train, dtype=torch.float32)
X_test = torch.tensor(X_test, dtype=torch.float32)
y_train = torch.tensor(y_train.values, dtype=torch.long).squeeze()
y_test = torch.tensor(y_test.values, dtype=torch.long).squeeze()

# 学習用データを TensorDataset と DataLoader に変換する
train_dataset = TensorDataset(X_train, y_train)
train_loader = DataLoader(train_dataset, batch_size=16)

データの学習に向けた準備が整ったので, 今度はモデルを構築してみる.  
PyTorch の `nn` モジュールから [Sequential](https://docs.pytorch.org/docs/stable/generated/torch.nn.Sequential.html#torch.nn.Sequential) を使ってネットワークを構築する.

In [None]:
class MyModel(nn.Module):
    def __init__(self):
        # 親クラスのコンストラクタを呼び出す
        super(MyModel, self).__init__()

        # ネットワークの構築
        self.model = nn.Sequential(
            nn.Linear(13, 32),
            nn.ReLU(),
            nn.Linear(32, 16),
            nn.ReLU(),
            nn.Linear(16, 3)
        )

        # 出力層の活性化関数として Softmax 関数を使用
        self.softmax = nn.Softmax(dim=1)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        順伝播を行う関数

        Parameters
        ----------
        x: torch.Tensor
            入力データ

        Returns
        ----------
        x: torch.Tensor
            入力データに対する予測結果
        """
        # 順伝播の計算
        x = self.model(x)

        # Softmax 関数を適用
        x = self.softmax(x)

        return x

モデルのインスタンスを作成し, ネットワークのアーキテクチャを確認する.

In [None]:
# モデルのインスタンスを作成
model = MyModel()
print(model)

ここで, まずは学習を行わずにデータを流して出力結果を確認する.

In [None]:
# 学習を行わずにデータを流して出力結果を確認する
y_preds = []
for x in X_test:
    # バッチサイズ1のデータに変換
    x = x.unsqueeze(0)

    # モデルにデータを入力して予測を実行
    output = model(x)
    y_pred = torch.argmax(output, dim=1).item()
    y_preds.append(y_pred)

これは **順伝播** と言われ, ニューラルネットワークが推論を行うときに順方向に計算を行うことを指す.  
実際に今のまま(学習をさせていない状態)で予測をした結果を表示する.

In [None]:
# 予測と正解の評価指標を表示
print(classification_report(y_test.numpy(), y_preds))

# 予測結果と正解の比較をデータフレームで表示
eval_df = pd.DataFrame({
    "y_true": y_test.numpy(),
    "y_pred": y_preds
})
eval_df

見ての通り, 予測がかなり雑で精度の悪さが目立っている.  
ニューラルネットワークの学習は, 1度予測を行った後に正解データと比較をしてその差分( **誤差** )を逆方向に伝播させることで, ネットワーク内のパラメータを更新する.  
予測と正解を比較して誤差を計算するものを **損失関数** と言い, その誤差を逆方向に伝播させることを **誤差逆伝播** と言う.  
損失関数にも色々種類があるが, 分類タスクでよく使われるものと回帰タスクでよく使われるものについていくつか紹介する.

- 分類
    - **CrossEntropyLoss**
        - https://docs.pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html#torch.nn.CrossEntropyLoss
    - **BCELoss**
        - https://docs.pytorch.org/docs/stable/generated/torch.nn.BCELoss.html#torch.nn.BCELoss
- 回帰
    - **MSELoss**
        - https://docs.pytorch.org/docs/stable/generated/torch.nn.MSELoss.html#torch.nn.MSELoss
    - **HuberLoss**
        - https://docs.pytorch.org/docs/stable/generated/torch.nn.HuberLoss.html#torch.nn.HuberLoss

ここで, 逆伝播で使われる最適化手法をいくつか紹介する.

- **SGD**
    - https://docs.pytorch.org/docs/stable/generated/torch.optim.SGD.html#torch.optim.SGD
- **Adam**
    - https://docs.pytorch.org/docs/stable/generated/torch.optim.Adam.html#torch.optim.Adam
- **LBFDS**
    - https://docs.pytorch.org/docs/stable/generated/torch.optim.LBFGS.html#torch.optim.LBFGS
- **RAdam**
    - https://docs.pytorch.org/docs/stable/generated/torch.optim.RAdam.html#torch.optim.RAdam

今回は分類タスクであり, 簡単なデータなため, 損失関数と最適化手法を以下のように設定する.

- 損失関数
    - CrossEntropyLoss
- 最適化手法
    - SGD

それでは学習ループを作成し, 実際に作ったモデルを学習させてみる.  
また, 学習が正常に行われているか, エポックごとのロスの推移を描画する `plot_data()` 関数を作成する.

In [None]:
def plot_data(train_loss_list: list) -> None:
    """
    学習過程の損失をプロットする関数

    Parameters
    ----------
    train_loss_list: list
        学習過程の損失を格納したリスト

    Returns
    ----------
    None
    """
    # 横軸の設定
    x = [i + 1 for i in range(len(train_loss_list))]

    # 出力画像の設定
    plt.figure(figsize=(18, 12), tight_layout=True)
    plt.title("Training Loss over Epochs", size=15, color="red")
    plt.grid()
    plt.xlabel("Epoch")
    plt.ylabel("Loss")

    # 学習過程の損失をプロット
    plt.plot(x, train_loss_list)

    # グラフの表示
    plt.show()

In [None]:
# 損失関数と最適化手法の設定
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# エポック数の設定
num_epochs = 100

# 学習の実行
train_loss_list = []
for epoch in range(num_epochs):
    # エポックの損失を初期化
    epoch_loss = 0.0

    # ミニバッチ学習の実行
    for inputs, labels in train_loader:
        # 勾配の初期化
        optimizer.zero_grad()

        # 順伝播の計算
        outputs = model(inputs)

        # 損失の計算
        loss = criterion(outputs, labels)

        # 逆伝播の計算
        loss.backward()

        # パラメータの更新
        optimizer.step()

        # エポックの損失を更新
        epoch_loss += loss.item() * inputs.size(0)

    # エポックの平均損失を計算
    epoch_loss /= len(train_loader.dataset)
    train_loss_list.append(epoch_loss)

# 学習過程の損失をプロット
plot_data(train_loss_list)

ロスが徐々に小さくなっていることが確認できる.  
学習が行われていることが分かったので, 再びテストデータで予測を行う.

In [None]:
# 学習後に再度予測を実行
y_preds = []
for x in X_test:
    # バッチサイズ1のデータに変換
    x = x.unsqueeze(0)

    # モデルにデータを入力して予測を実行
    output = model(x)
    y_pred = torch.argmax(output, dim=1).item()
    y_preds.append(y_pred)

# 予測と正解の評価指標を表示
print(classification_report(y_test.numpy(), y_preds))

# 予測結果と正解の比較をデータフレームで表示
eval_df = pd.DataFrame({
    "y_true": y_test.numpy(),
    "y_pred": y_preds
})
eval_df

先ほどとは比べ物にならないほど精度が良くなった.

## 畳み込みニューラルネットワークの基礎
単純なニューラルネットワークについては, Scikit-Learn のワインのデータセットを使った3値分類の実験を通じて理解が深まった.  
今度は画像処理の分野を支える **畳み込みニューラルネットワーク(CNN)** について学ぶ.

### CNN とは
CNN は, 画像の空間構造や局所的パターンを捉えるのに特化したニューラルネットワークである.  
画像を普通のニューラルネットワークで処理しようとすると, 特徴量としてエンコードするために画像をピクセルごとに1次元にフラット化して扱う必要があるため, ピクセル間の空間的な関係が失われてしまう.  
CNN で使われているコアとなる技術は以下の2つである.

- **畳み込み(Convolution)**
    - 小さいウィンドウを画像上でスライドさせながら局所特徴を抽出
    - ウィンドウの重みは学習される
    - エッジや模様などを自動で検出
- **プーリング(Pooling)**
    - 特徴マップを空間的に圧縮
    - 平行移動やノイズへの不変性を獲得
    - 計算量の削減にも寄与

これらのおかげで, ただの全結合の線形層のスタックだけのネットワークより効率的に, かつ特徴量をより正確に学習することができるようになった.

### 基本構造
典型的な CNN は, 大きく次のような「前半」と「後半」に分かれる.

- 前半
    - 特徴抽出部 $\times N$
        - 畳み込み層
        - 活性化関数
        - プーリング層
- 後半
    - 平坦化
    - 線形層
    - Softmax 等の出力層

前半を **エンコーダ** , 後半を **デコーダ** として捉えると他の分野(時系列解析や自然言語処理など)で使われるモデルの解釈がしやすいので, 以後それぞれをそのように呼ぶ.  
畳み込み層では, 入力画像や前層の特徴マップから局所的特徴を抽出する.  
活性化関数には ReLU や LeakyReLU, GELU などが選ばれる.  
プーリング層ではデータの空間次元を圧縮する.  
平坦化では, それまで多次元配列として計算していたものを1次元ベクトルに変換し, 後段の線形層へ接続できるようにする.  
その後は普通のニューラルネットワーク同様に扱う.

### MNIST データセットを用いた簡単な分類
MNIST データセットを用いて簡単な分類タスクを行う CNN モデルを構築する.

In [None]:
# 必要なライブラリのインポート
from torchvision import datasets, transforms
from tqdm import tqdm

まずはデータを用意する.

In [None]:
# データを保存するディレクトリ
data_dir = "./data"

# 学習用データセット
train_dataset = datasets.MNIST(
    root=data_dir, train=True,
    download=True, transform=None
)

# テスト用データセット
test_dataset = datasets.MNIST(
    root=data_dir, train=False,
    download=True, transform=None
)

# データセットの要素数を表示
print(f"学習用データセットの要素数: {len(train_dataset)}")
print(f"テスト用データセットの要素数: {len(test_dataset)}")

# データセットの最初の要素を表示
image, label = train_dataset[0]
print(f"画像のサイズ: {image.size}")
print(f"ラベル: {label}")

# 画像を表示
plt.imshow(image, cmap="gray")
plt.axis("off")
plt.show()

学習用のデータセットは60,000枚, テスト用のデータセットは10,000枚あることが分かった.  
Scikit-Learn のワインのデータセットより膨大な規模のデータセットであることが確認できる.  
また, 各画像データのサイズは `(28, 28)` であり, それぞれ画像内に書かれた文字のラベルが紐づいている.  
今度は学習に向けてデータの前処理を行う.

In [None]:
# 前処理の定義
transform = transforms.Compose(
    [transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))]
)

# 前処理を適用した学習用・テスト用データセット
train_dataset = datasets.MNIST(
    root="./data", train=True,
    download=True, transform=transform
)
test_dataset = datasets.MNIST(
    root="./data", train=False,
    download=True, transform=transform
)

# DataLoader の作成
batch_size = 256
train_loader = DataLoader(
    train_dataset, batch_size=batch_size, shuffle=True
)
test_loader = DataLoader(
    test_dataset, batch_size=batch_size, shuffle=False
)

CNN モデルを構築する.  
今回はエンコーダ部分とデコーダ部分でそれぞれ分けて作り, 最終的にまとめたものを1つのモデルとする.

In [None]:
class CNNEncoder(nn.Module):
    def __init__(self):
        # 親クラスのコンストラクタを呼び出す
        super(CNNEncoder, self).__init__()

        # 畳み込み層とプーリング層の定義
        self.encoder = nn.Sequential(
            nn.Conv2d(1, 16, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
            nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        順伝播を行う関数

        Parameters
        ----------
        x: torch.Tensor
            入力データ

        Returns
        ----------
        x: torch.Tensor
            入力データに対する予測結果
        """
        # 順伝播の計算
        x = self.encoder(x)

        return x


class CNNDecoder(nn.Module):
    def __init__(self):
        # 親クラスのコンストラクタを呼び出す
        super(CNNDecoder, self).__init__()

        # 全結合層の定義
        self.decoder = nn.Sequential(
            nn.Linear(32 * 7 * 7, 128),
            nn.ReLU(),
            nn.Linear(128, 10)
        )

        # 出力層の活性化関数として Softmax 関数を使用
        self.softmax = nn.Softmax(dim=1)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        順伝播を行う関数

        Parameters
        ----------
        x: torch.Tensor
            入力データ

        Returns
        ----------
        x: torch.Tensor
            入力データに対する予測結果
        """
        # テンソルの形状を変換
        x = x.view(x.size(0), -1)

        # 順伝播の計算
        x = self.decoder(x)

        # Softmax 関数を適用
        x = self.softmax(x)

        return x


class CNNModel(nn.Module):
    def __init__(self):
        # 親クラスのコンストラクタを呼び出す
        super(CNNModel, self).__init__()

        # エンコーダ部分とデコーダ部分のインスタンスを作成
        self.encoder = CNNEncoder()
        self.decoder = CNNDecoder()

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        順伝播を行う関数

        Parameters
        ----------
        x: torch.Tensor
            入力データ

        Returns
        ----------
        x: torch.Tensor
            入力データに対する予測結果
        """
        # エンコーダ部分の順伝播の計算
        x = self.encoder(x)

        # デコーダ部分の順伝播の計算
        x = self.decoder(x)

        return x

モデルのインスタンスを作成し, ネットワークのアーキテクチャを確認する.

In [None]:
# モデルのインスタンスを作成
model = CNNModel()
print(model)

ワインデータの実験同様に, ハイパーパラメータを設定して学習を行う.  
前回は, 最適化手法に SGD を選択したが, Adam を使ってみることにする.  
また, 今回は学習ループの中で度々モードを切り替え, テストデータをその時点で評価した結果を保存する.  
そのため, `plot_data()` 関数を少々改良する.

In [None]:
def plot_data_2(train_loss_list: list, test_loss_list: list) -> None:
    """
    学習過程の損失をプロットする関数

    Parameters
    ----------
    train_loss_list: list
        学習用データにおける学習過程の損失を格納したリスト
    test_loss_list: list
        テスト用データにおける学習過程の損失を格納したリスト

    Returns
    ----------
    None
    """
    # 横軸の設定
    x = [i + 1 for i in range(len(train_loss_list))]

    # 出力画像の設定
    plt.figure(figsize=(18, 12), tight_layout=True)
    plt.title("Training Loss over Epochs", size=15, color="red")
    plt.grid()
    plt.xlabel("Epoch")
    plt.ylabel("Loss")

    # 学習過程の損失をプロット
    plt.plot(x, train_loss_list, label="Train Loss", color="blue")
    plt.plot(x, test_loss_list, label="Test Loss", color="orange")

    # グラフの表示
    plt.legend(bbox_to_anchor=(1.01, 1), loc="upper left", borderaxespad=0)
    plt.show()

In [None]:
# 損失関数と最適化手法の設定
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# エポック数の設定
num_epochs = 1000

# DataLoader の辞書
data_loaders = {"train": train_loader, "test": test_loader}

# 学習の実行
train_loss_list = []
test_loss_list = []
with tqdm(range(num_epochs)) as pbar_epoch:
    # エポックごとのループ
    for epoch in pbar_epoch:
        # エポック数の表示
        pbar_epoch.set_description(f"Epoch {epoch + 1}")

        # フェーズごとのループ
        for phase in ["train", "test"]:
            # フェーズに応じてモデルのモードを切り替え
            if phase == "train":
                # モデルを学習モードに設定
                model.train()
            else:
                # モデルを評価モードに設定
                model.eval()

            # エポックの損失を初期化
            epoch_loss = 0.0

            # ミニバッチ学習の実行
            for inputs, labels in data_loaders[phase]:
                # 勾配の初期化
                optimizer.zero_grad()

                # 順伝播の計算
                with torch.set_grad_enabled(phase == "train"):
                    outputs = model(inputs)
                    loss = criterion(outputs, labels)

                    # 学習モードのときのみ逆伝播の計算とパラメータの更新
                    if phase == "train":
                        loss.backward()
                        optimizer.step()

                # エポックの損失を更新
                epoch_loss += loss.item() * inputs.size(0)

            # エポックの平均損失を計算
            epoch_loss /= len(data_loaders[phase].dataset)
            if phase == "train":
                train_loss_list.append(epoch_loss)
            else:
                test_loss_list.append(epoch_loss)

# 学習過程の損失をプロット
plot_data_2(train_loss_list, test_loss_list)