<a href="https://colab.research.google.com/github/yukinaga/gnn/blob/main/section_4/01_mini_batch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#ミニバッチ法の実装
PyTorch GeometricのDataLoaderを使い、訓練データからミニバッチを取り出します。 

## Google ドライブとの連携  
今回はライブラリのサイズが大きく毎回インストールするのが大変なので、Googleドライブに保存します。  
まずは以下のコードを実行し、認証コードを使用してGoogle ドライブをマウントします。

In [None]:
from google.colab import drive
drive.mount("/content/drive/")

Googleドライブ上のパスを指定します。

In [None]:
dir_name = "Live/gnn_live"  # 好きなパスを設定してください
package_path = "/content/drive/MyDrive/" + dir_name + "/packages/"

## PyTorch Geometricのインストール
GNN用のライブラリ「PyTorch Geometric」、および関連ライブラリをGoogle Driveのパスを指定してインストールします。  
既にGoogle Driveにこれらのライブラリがインストール済みであれば、以下のセルのコードを実行する必要はありません。

In [None]:
!pip install --no-cache-dir torch-geometric torch-sparse torch-scatter -t $package_path

Google Driveに保存したパッケージをシステムに追加します。  

In [None]:
import sys

sys.path.append(package_path)  

## データセットの読み込み
よく使われるベンチマーク用データセット、TUDatasetから「MUTAG」を読み込みます。  
MUTAGには、188のグラフが含まれます。  
以下のコードにより、MUTAGのデータセットを読み込みます。  

In [None]:
from torch_geometric.datasets import TUDataset

dataset = TUDataset(root="/tmp/MUTAG", name="MUTAG")

print("グラフの数:", len(dataset))
print("クラスの数:", dataset.num_classes)

data = dataset[0]  # 最初のグラフ
print(data)

グラフの情報を表示するための関数を設定します。

In [None]:
def graph_info(data):

    print("ノードの数:", data.num_nodes)
    print("エッジの数:", data.num_edges)
    print("特徴量の数:", data.num_node_features)
    print("無向グラフか？:", data.is_undirected())
    print("孤立したノードが有るか？:", data.has_isolated_nodes())
    print("自己ループがあるか？:", data.has_self_loops())

    print()

    print("キー: ", data.keys)
    print("各ノードの特徴量")
    print(data["x"])
    print("各ノードのラベル")
    print(data["y"])
    print("各エッジ")
    print(data["edge_index"])

関数を使って、最初のグラフの情報を表示します。  

In [None]:
graph_info(data)

## ミニバッチの取り出し
PyTroch GeometricのDataLoaderを使い、訓練データからランダムにミニバッチ（バッチ）を取り出します。  
ミニバッチには複数のグラフが含まれます。

In [None]:
from torch_geometric.loader import DataLoader

batch_size = 64  # バッチ内のグラフの数
loader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

for batch in loader:
    print("バッチ:", batch)
    print("バッチ内のグラフ数:", batch.num_graphs)
    print()