In [1]:
import torch.nn as nn

class YOLOShapeDetector(nn.Module):
    """
    任意個数の図形（円・三角・四角）を検出するYOLO風の軽量ネットワーク。
    1つの出力セルあたり B個の予測ボックスを出力。
    """

    def __init__(self, S=16, B=2, num_classes=3):
        """
        Args:
            S (int): 出力グリッドの分割数（S x Sセル）
            B (int): 1セルあたりの予測ボックス数
            num_classes (int): クラス数（今回は 3：円・三角・四角）
        """
        super().__init__()
        self.S = S
        self.B = B
        self.num_classes = num_classes
        self.output_dim = B * (1 + 4 + num_classes + 1)  # objectness + bbox + class probs + area

        # 軽量CNNバックボーン
        self.features = nn.Sequential(
            nn.Conv2d(1, 16, 3, padding=1),  # 入力はグレースケール画像 (1, H, W)
            nn.BatchNorm2d(16),
            nn.ReLU(),
            nn.MaxPool2d(2),  # 256x256

            nn.Conv2d(16, 32, 3, padding=1),
            nn.BatchNorm2d(32),
            nn.ReLU(),
            nn.MaxPool2d(2),  # 128x128

            nn.Conv2d(32, 64, 3, padding=1),
            nn.BatchNorm2d(64),
            nn.ReLU(),
            nn.MaxPool2d(2),  # 64x64

            nn.Conv2d(64, 128, 3, padding=1),
            nn.BatchNorm2d(128),
            nn.ReLU(),
            nn.MaxPool2d(2),  # 32x32

            nn.Conv2d(128, 256, 3, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(),
            nn.MaxPool2d(2),  # 16x16 → S=16 に一致
        )

        # 出力層：S×SセルごとにB個の予測（objectness + bbox + class + area）
        self.pred_head = nn.Conv2d(256, self.output_dim, kernel_size=1)

    def forward(self, x):
        """
        入力画像から予測を出力

        Args:
            x (Tensor): [B, 1, H, W] のグレースケール画像

        Returns:
            Tensor: [B, S, S, B, 7 + num_classes] の予測
        """
        feat = self.features(x)  # [B, 256, S, S]
        out = self.pred_head(feat)  # [B, output_dim, S, S]

        B, C, S, S = out.shape
        out = out.permute(0, 2, 3, 1).contiguous()  # [B, S, S, output_dim]

        out = out.view(B, S, S, self.B, -1)  # [B, S, S, B, 6 + num_classes]

        return out

In [4]:
import torch

# モデル構築と重み読み込み
model = YOLOShapeDetector(S=16, B=2, num_classes=3)
model.load_state_dict(torch.load("trained_model.pth", map_location="cpu", weights_only=True))
model.eval()

# ダミー入力（例: 1枚のグレースケール画像 [1, 1, 512, 512]）
dummy_input = torch.randn(1, 1, 512, 512)

# ONNXとして保存
torch.onnx.export(model, dummy_input, "trained_model.onnx",
                  input_names=["input"], output_names=["output"],
                  opset_version=11)
print("ONNX形式で保存完了: shape_detector.onnx")

ONNX形式で保存完了: shape_detector.onnx
