In [None]:
# 필요한 라이브러리를 임포트합니다.
import random
import numpy as np
import torch
import torch.nn as nn
import os
from scipy.io import wavfile
from scipy.io import loadmat
import scipy.signal as signal
from python_speech_features import mfcc

# 모든 모듈의 난수 생성기 시드를 고정하는 함수를 정의합니다.
def set_seed(seed_value=42):
    random.seed(seed_value)  # 파이썬 내장 random 모듈
    np.random.seed(seed_value)  # NumPy
    torch.manual_seed(seed_value)  # PyTorch
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    os.environ['PYTHONHASHSEED'] = str(seed_value)

set_seed(42)  # 원하는 시드 값으로 호출

# 모델 클래스 정의
class LSTMSoundClassifier(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes, num_layers=3):
        super(LSTMSoundClassifier, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)
        self.fc1 = nn.Linear(hidden_size, hidden_size * 2)
        self.fc2 = nn.Linear(hidden_size * 2, num_classes)
        self.dropout = nn.Dropout(0.5)

    def forward(self, x):
        h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size)
        c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size)
        out, _ = self.lstm(x, (h0, c0))
        out = self.dropout(out[:, -1, :])
        out = torch.relu(self.fc1(out))
        out = self.fc2(out)
        return out

# 사전 처리 함수 정의
def preprocess_audio(file_path, b, a):
    # WAV 파일 로드
    Fs, input_audio = wavfile.read(file_path)

    # 저주파 필터링 적용
    filtered_audio = signal.lfilter(b, a, input_audio)

    # MFCC 추출
    mfcc_features = mfcc(filtered_audio, samplerate=Fs, numcep=13)

    return mfcc_features

# 디바이스 설정 (CPU 사용)
device = torch.device('cpu')
print(f'Using device: {device}')

# 모델 인스턴스 생성 및 학습된 가중치 불러오기
model_path = '3.23.pth'  # 모델 경로를 실제 경로로 수정하세요.
model = LSTMSoundClassifier(input_size=13, hidden_size=512, num_classes=10, num_layers=3)
model.load_state_dict(torch.load(model_path, map_location=device))
model.to(device)
model.eval()

# 필터 계수 불러오기
filter_path = 'highpass(500).mat'  # 필터 경로를 실제 경로로 수정하세요.
filter_data = loadmat(filter_path)
Coeffs = filter_data['ba'].astype(np.float64)
b = Coeffs[0, :]
a = 1

# 추론할 오디오 파일 경로 설정
test_file_path = 'Atlantic_Puffin_2_TEST.wav'  # 테스트 오디오 파일 경로를 실제 경로로 수정하세요.

# 오디오 파일 사전 처리
test_feature = preprocess_audio(test_file_path, b, a)
test_feature_tensor = torch.tensor([test_feature], dtype=torch.float).to(device)

## 추론 실행
with torch.no_grad():
    output = model(test_feature_tensor)
    probabilities = torch.softmax(output, dim=1)
    predicted_index = probabilities.argmax(dim=1).item()
    predicted_prob = probabilities.max(dim=1).values.item()

    # 라벨 인덱스 매핑 딕셔너리
    index_to_labels = {
        0: 'Velvet_Scoter_Melanitta_fusca',
        1: 'Long_tailed_Duck_Clangula_hyemalis',
        2: 'Leach\'s_Storm_Petrel_Hydrobates_leucorhous',
        3: 'Horned_Grebe_Podiceps_auritus',
        4: 'Great_Bustard_Otis_tarda',
        5: 'European_Turtle_Dove_Streptopelia_turtur',
        6: 'Black_legged_Kittiwake_Rissa_tridactyla',
        7: 'Balearic_Shearwater_Puffinus_mauretanicus',
        8: 'Atlantic_Puffin_Fratercula_arctica',
        9: 'Aquatic_Warbler_Acrocephalus_paludicola'
    }

    predicted_label = index_to_labels[predicted_index]

    print(f"Predicted label: {predicted_label}, Probability: {predicted_prob:.4f}")

Using device: cpu
