<a href="https://colab.research.google.com/github/fumitaka-kagaya/pytorch-CycleGAN-and-pix2pix/blob/master/Untitled4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Install dependencies
!pip install --quiet gradio==4.44.0 torch torchaudio librosa matplotlib numpy soundfile

import gradio as gr
import torch
import torchaudio
import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np
import io

# ===== 1) 定義：ラベルとモデルクラス =====
LABELS = ["corrosion", "crack", "healthy", "hinge"]

# SimpleAudioCNN（以前作ったモデル構造をここに記述）
import torch.nn as nn
import torch.nn.functional as F

class SimpleAudioCNN(nn.Module):
def __init__(self, num_classes=4):
super(SimpleAudioCNN, self).__init__()
self.conv1 = nn.Conv2d(1, 8, kernel_size=3, stride=1, padding=1)
self.conv2 = nn.Conv2d(8, 16, kernel_size=3, stride=1, padding=1)
self.pool = nn.MaxPool2d(2, 2)
self.fc1 = nn.Linear(16*16*16, 128) # データサイズに合わせて変更
self.fc2 = nn.Linear(128, num_classes)

def forward(self, x):
x = self.pool(F.relu(self.conv1(x)))
x = self.pool(F.relu(self.conv2(x)))
x = x.view(x.size(0), -1)
x = F.relu(self.fc1(x))
x = self.fc2(x)
return x

# ===== 2) 推論関数 =====
def predict_audio(audio_file, model_file):
if audio_file is None:
return "音声ファイルをアップロードしてください", None
if model_file is None:
return "モデルファイル（.pth）をアップロードしてください", None

# 2-1) モデルロード
try:
model = SimpleAudioCNN(num_classes=len(LABELS))
state_dict = torch.load(model_file.name, map_location="cpu")
model.load_state_dict(state_dict)
model.eval()
except Exception as e:
return f"モデルロード失敗: {e}", None

# 2-2) 音声読み込み
try:
waveform, sr = torchaudio.load(audio_file.name)
if waveform.shape[0] > 1:
waveform = torch.mean(waveform, dim=0, keepdim=True)
transform = torchaudio.transforms.MelSpectrogram(sample_rate=sr, n_mels=64)
mel_spec = transform(waveform)
mel_spec = mel_spec.unsqueeze(0) # (1, 1, freq, time)
except Exception as e:
return f"音声読み込み失敗: {e}", None

# 2-3) 推論
with torch.no_grad():
output = model(mel_spec)
pred_idx = torch.argmax(output, dim=1).item()
pred_label = LABELS[pred_idx]

# 2-4) スペクトログラム描画
mel_db = 10 * torch.log10(mel_spec[0][0] + 1e-6)
fig, ax = plt.subplots(figsize=(6,3))
img = librosa.display.specshow(mel_db.numpy(), sr=sr, x_axis='time', y_axis='mel', ax=ax)
ax.set(title="Mel spectrogram")
fig.colorbar(img, ax=ax, format="%+2.f dB")
buf = io.BytesIO()
plt.tight_layout()
plt.savefig(buf, format="png")
plt.close(fig)
buf.seek(0)

return f"推論結果: {pred_label}", buf

# ===== 3) Gradio GUI =====
iface = gr.Interface(
fn=predict_audio,
inputs=[
gr.Audio(type="filepath", label="音声ファイルをアップロード (.wav)"),
gr.File(file_types=[".pth"], label="学習済みモデルファイル (.pth)")
],
outputs=[gr.Textbox(label="推論結果"), gr.Image(label="スペクトログラム")],
title="マンホール打音分類（PyTorchモデル推論）",
description="アップロードした音声を学習済み PyTorch モデルで分類します。外部接続なし、Colab 内安全実行。",
allow_flagging="never"
)

iface.launch(share=False)