## 딥러닝을 이용한 birdcall classification

In [None]:
import random
import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import os

def set_seed(seed_value=42):
    """모든 모듈의 난수 생성기 시드를 고정합니다."""
    random.seed(seed_value)  # 파이썬 내장 random 모듈
    np.random.seed(seed_value)  # NumPy
    torch.manual_seed(seed_value)  # CPU를 위한 PyTorch 함수
    torch.cuda.manual_seed(seed_value)  # GPU를 위한 PyTorch 함수
    torch.cuda.manual_seed_all(seed_value)  # 멀티 GPU를 위한 PyTorch 함수
    torch.backends.cudnn.deterministic = True  # cudnn 알고리즘의 동작을 결정적으로 만듦
    torch.backends.cudnn.benchmark = False
    os.environ['PYTHONHASHSEED'] = str(seed_value)

set_seed(42)  # 원하는 시드 값으로 호출

In [None]:
!pip install python_speech_features

Collecting python_speech_features
  Downloading python_speech_features-0.6.tar.gz (5.6 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: python_speech_features
  Building wheel for python_speech_features (setup.py) ... [?25l[?25hdone
  Created wheel for python_speech_features: filename=python_speech_features-0.6-py3-none-any.whl size=5869 sha256=ad049d8711a4bb8b31889fdbf85ad14f50024b796617738a762d24beeba4be12
  Stored in directory: /root/.cache/pip/wheels/5a/9e/68/30bad9462b3926c29e315df16b562216d12bdc215f4d240294
Successfully built python_speech_features
Installing collected packages: python_speech_features
Successfully installed python_speech_features-0.6


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.io.wavfile import read
from IPython.lib.display import Audio
from scipy.fftpack import fft, ifft
from scipy.io import loadmat
import scipy.signal as sgnl
import scipy.io.wavfile as wav
import sys
import wave
import operator
import scipy
from python_speech_features import mfcc

## 모델 학습


---
데이터셋 준비: MFCC 및 푸리에 변환 결과를 포함하는 데이터셋을 구성합니다.

모델 정의: LSTM이나 CNN 모델을 정의합니다.

모델 학습: 데이터셋을 사용하여 모델을 학습합니다.

추론 및 평가: 학습된 모델을 사용하여 추론을 수행하고 성능을 평가합니다.

라이브러리 설치 및 import

In [None]:
from google.colab import drive
drive.mount('/content/drive')
# 현재 디렉토리 설정
%cd /content/drive/My Drive/birdcall

Mounted at /content/drive
/content/drive/My Drive/birdcall


데이터 설정 및 전처리 mfcc 활용

모델 정의 및 학습

---
lstm 분류 (직접 코드 작성한 것) 따로 참고한 것 x


In [None]:
import torch
import torch.nn as nn
# CUDA 사용 가능 여부 확인 및 디바이스 설정
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f'Using device: {device}')

Using device: cuda


## 음성 데이터 전처리 과정
1. mp3 데이터 wav로 변환
2. 푸리에 변환 및 저주파 필터링
3. MFCC 추출
4. 모델에 input하기 적합한 형태로 변형

# 학습 데이터 세팅

In [None]:
import os
import shutil
import glob
import random

# 현재 디렉토리의 .wav 파일 목록을 가져옵니다.
source_dir = './wav'  # 이곳을 .wav 파일들이 있는 디렉토리 경로로 변경하세요.
train_dir = './train'
val_dir = './val'

# train과 val 디렉토리가 없으면 생성합니다.
os.makedirs(train_dir, exist_ok=True)
os.makedirs(val_dir, exist_ok=True)

# .wav 파일 목록을 불러옵니다.
wav_files = glob.glob(os.path.join(source_dir, '*.wav'))

# 파일 목록을 무작위로 섞습니다.
random.shuffle(wav_files)

# 9:1 비율로 분할합니다.
split_index = int(len(wav_files) * 0.9)
train_files = wav_files[:split_index]
val_files = wav_files[split_index:]

# 파일을 각각의 디렉토리로 이동시킵니다.
for f in train_files:
    shutil.move(f, os.path.join(train_dir, os.path.basename(f)))

for f in val_files:
    shutil.move(f, os.path.join(val_dir, os.path.basename(f)))

print(f'Moved {len(train_files)} files to {train_dir}')
print(f'Moved {len(val_files)} files to {val_dir}')


Moved 697 files to ./train
Moved 78 files to ./val


In [None]:
!pip install pydub

Collecting pydub
  Downloading pydub-0.25.1-py2.py3-none-any.whl (32 kB)
Installing collected packages: pydub
Successfully installed pydub-0.25.1


mp3 파일을 wav파일로 바꿔서 9:1 비율로 train 파일과 val 파일로 나눠서 저장!!

#전처리
---


1. wav 파일 불러와서 파일이름을 통해서 라벨도 같이 생성
2. 푸리에 변환
3. 저주파 필터 로드해서 변환
4. mfcc 특징 추출
5. 모델 학습을 위한 데이터 형태로 변환

In [None]:
import os
import numpy as np
from scipy.io import wavfile, loadmat
from scipy.fft import fft, fftfreq, ifftshift
from scipy.fftpack import fftshift
from python_speech_features import mfcc
import torch
from torch.utils.data import TensorDataset, DataLoader

def apply_fourier_transform(input_audio, Fs):
    N = len(input_audio)
    f_transform = fftshift(fft(input_audio, N))
    frequencies = np.linspace(-Fs/2, Fs/2, N)
    return f_transform, frequencies

import scipy.signal as signal


def apply_lowpass_filter(input_audio, b, a):
    filtered_audio = signal.lfilter(b, a, input_audio)
    return filtered_audio

def extract_mfcc_features(filtered_audio, Fs):
    mfcc_features = mfcc(filtered_audio, Fs)
    return mfcc_features

# 저주파 필터 로드
filter_data = loadmat('./low_filter/NoiseFiltering_LowPass.mat') # load the filter obtained from␣
Coeffs = filter_data['ba'].astype(np.float64) # getting filter coefficients
b = Coeffs[0,:] # first column is b
a = 1

# 라벨과 해당 인덱스를 매핑하는 사전 정의
labels_index = {}

wav_files_dir = './train'  # WAV 파일이 저장된 디렉토리
wav_files = [f for f in os.listdir(wav_files_dir) if f.endswith('.wav')]

features_list = []  # 특성을 저장할 리스트
labels_list = []  # 라벨을 저장할 리스트

for wav_file in wav_files:
    # 라벨 추출 (파일 이름에서 .wav 제거 및 마지막 '_번호' 제거)
    label = '_'.join(wav_file.split('_')[:-1])
    if label not in labels_index:
        labels_index[label] = len(labels_index)
    label_index = labels_index[label]

    file_path = os.path.join(wav_files_dir, wav_file)

    # WAV 파일 로드
    Fs, input_audio = wavfile.read(file_path)

    # 저주파 필터링 적용
    filtered_audio = apply_lowpass_filter(input_audio, b, a)

    # MFCC 추출
    mfcc_features = extract_mfcc_features(filtered_audio, Fs)

    # 리스트에 추가
    features_list.append(mfcc_features)
    labels_list.append(label_index)

# 가장 짧은 길이 계산
min_length = min([len(feat) for feat in features_list])

# 가장 짧은 길이로 모든 특성을 자르기
trimmed_features_list = [feat[:min_length] for feat in features_list]

# 특성과 라벨을 NumPy 배열로 변환
features_array = np.array(trimmed_features_list)
labels_array = np.array(labels_list)

# PyTorch 텐서로 변환
features_tensor = torch.tensor(features_array, dtype=torch.float)
labels_tensor = torch.tensor(labels_array, dtype=torch.long)


# TensorDataset 생성
dataset = TensorDataset(features_tensor, labels_tensor)

# DataLoader 생성
dataloader = DataLoader(dataset, batch_size=4, shuffle=True)

In [None]:
# 검증 데이터 불러오기
val_dir = './val'  # 검증 데이터가 저장된 디렉토리
val_wav_files = [f for f in os.listdir(val_dir) if f.endswith('.wav')]

val_features_list = []  # 검증 데이터의 특성을 저장할 리스트
val_labels_list = []  # 검증 데이터의 라벨을 저장할 리스트

for wav_file in val_wav_files:
    label = '_'.join(wav_file.split('_')[:-1])  # 파일 이름에서 라벨 추출
    if label not in labels_index:  # 라벨이 훈련 데이터셋의 라벨 인덱스에 없으면 스킵
        continue  # 다음 파일로 넘어감

    file_path = os.path.join(val_dir, wav_file)
    # WAV 파일 로드
    Fs, input_audio = wavfile.read(file_path)

    # 저주파 필터링 적용
    filtered_audio = apply_lowpass_filter(input_audio, b, a)

    # MFCC 추출
    mfcc_features = extract_mfcc_features(filtered_audio, Fs)

    label_index = labels_index[label]  # 라벨 이름을 라벨 인덱스로 변환
    val_features_list.append(mfcc_features)  # 추출된 특성을 리스트에 추가
    val_labels_list.append(label_index)  # 라벨 인덱스를 리스트에 추가

# 가장 짧은 길이 계산
min_length = min([len(feat) for feat in val_features_list])

# 가장 짧은 길이로 모든 특성을 자르기
trimmed_val_features_list = [feat[:min_length] for feat in val_features_list]

# 특성과 라벨을 NumPy 배열로 변환
val_features_array = np.array(trimmed_val_features_list)
val_labels_array = np.array(val_labels_list)

# PyTorch 텐서로 변환
val_features_tensor = torch.tensor(val_features_array, dtype=torch.float)
val_labels_tensor = torch.tensor(val_labels_array, dtype=torch.long)

val_dataset = TensorDataset(val_features_tensor, val_labels_tensor)
val_dataloader = DataLoader(val_dataset, batch_size=4, shuffle=True)

# 모델 정의

In [None]:
class LSTMSoundClassifier(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes, num_layers=2):  # num_layers를 3으로 증가
        super(LSTMSoundClassifier, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers

        # LSTM 레이어 정의
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)

        # 추가 완전 연결 레이어 정의
        self.fc1 = nn.Linear(hidden_size, hidden_size * 2)  # hidden_size를 늘린 새로운 완전 연결 레이어
        self.fc2 = nn.Linear(hidden_size * 2, num_classes)  # 최종 출력을 위한 레이어

        # 드롭아웃 추가 (과적합 방지)
        self.dropout = nn.Dropout(0.5)

    def forward(self, x):
        # 초기 은닉 상태와 셀 상태
        h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)
        c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)

        # LSTM 레이어를 통과
        out, _ = self.lstm(x, (h0, c0))

        # 드롭아웃 적용
        out = self.dropout(out[:, -1, :])

        # 완전 연결 레이어를 통과
        out = F.relu(self.fc1(out))
        out = self.fc2(out)

        return out



# 모델 학습

In [None]:
# 모델, 손실 함수, 옵티마이저 초기화
model = LSTMSoundClassifier(input_size=features_tensor.size(2), hidden_size=128, num_classes=len(labels_index)).to(device)
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.AdamW(model.parameters(), lr=0.001)

# 학습
num_epochs = 50

import copy

best_model_wts = copy.deepcopy(model.state_dict())
best_acc = 0.0
patience = 5  # 성능 개선이 없는 에포크 허용 수
patience_counter = 0  # 성능 개선이 없는 에포크 카운터

for epoch in range(num_epochs):
    model.train()
    train_loss = 0.0
    train_correct = 0
    train_total = 0

    for features, labels in dataloader:
        features, labels = features.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = model(features)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        _, predictions = torch.max(outputs, 1)
        train_loss += loss.item()
        train_correct += (predictions == labels).sum().item()
        train_total += labels.size(0)

    model.eval()
    val_loss = 0.0
    val_correct = 0
    val_total = 0

    with torch.no_grad():
        for features, labels in val_dataloader:
            features, labels = features.to(device), labels.to(device)
            outputs = model(features)
            loss = criterion(outputs, labels)

            _, predictions = torch.max(outputs, 1)
            val_loss += loss.item()
            val_correct += (predictions == labels).sum().item()
            val_total += labels.size(0)

    epoch_acc = val_correct / val_total

    # 가장 좋은 모델 저장
    if epoch_acc > best_acc:
        best_acc = epoch_acc
        best_model_wts = copy.deepcopy(model.state_dict())
        patience_counter = 0  # 성능 개선 시 카운터 리셋
    else:
        patience_counter += 1  # 성능 개선이 없으면 카운터 증가

    print(f'Epoch {epoch+1}: Train Loss: {train_loss / len(dataloader):.4f}, Train Accuracy: {train_correct / train_total:.4f}, '
          f'Val Loss: {val_loss / len(val_dataloader):.4f}, Val Accuracy: {val_correct / val_total:.4f}')

    # 조기 종료 조건 확인
    if patience_counter == patience:
        print("Early stopping")
        break

# 최적의 모델로 복원(최고 성능 모델 저장 코드)
model.load_state_dict(best_model_wts)
torch.save(model.state_dict(), 'best_model_1.pth') # 모델 이름 바꿔도 됨.



Epoch 1: Train Loss: 1.8380, Train Accuracy: 0.3587, Val Loss: 1.7607, Val Accuracy: 0.5256
Epoch 2: Train Loss: 1.4044, Train Accuracy: 0.5294, Val Loss: 1.6413, Val Accuracy: 0.5897
Epoch 3: Train Loss: 1.2679, Train Accuracy: 0.5825, Val Loss: 1.6469, Val Accuracy: 0.5769
Epoch 4: Train Loss: 1.1612, Train Accuracy: 0.6169, Val Loss: 1.5533, Val Accuracy: 0.6282
Epoch 5: Train Loss: 1.0877, Train Accuracy: 0.6399, Val Loss: 1.6950, Val Accuracy: 0.6026
Epoch 6: Train Loss: 1.0676, Train Accuracy: 0.6399, Val Loss: 1.6585, Val Accuracy: 0.6154
Epoch 7: Train Loss: 0.9622, Train Accuracy: 0.6514, Val Loss: 1.9607, Val Accuracy: 0.6154
Epoch 8: Train Loss: 0.9337, Train Accuracy: 0.6858, Val Loss: 1.8986, Val Accuracy: 0.6667
Epoch 9: Train Loss: 0.8795, Train Accuracy: 0.6973, Val Loss: 2.0692, Val Accuracy: 0.6795
Epoch 10: Train Loss: 0.8123, Train Accuracy: 0.7288, Val Loss: 1.9306, Val Accuracy: 0.7051
Epoch 11: Train Loss: 0.7968, Train Accuracy: 0.7303, Val Loss: 1.6529, Val Acc

## test 샘플로 새 이름과 그 확률 출력하는 알고리즘!

In [41]:
import torch.nn.functional as F

# 테스트 데이터 샘플 로드
# 저주파 필터링 및 MFCC 추출을 위한 함수 정의
def preprocess_audio(file_path, b, a):
    # WAV 파일 로드
    Fs, input_audio = wavfile.read(file_path)

    # 저주파 필터링 적용
    filtered_audio = apply_lowpass_filter(input_audio, b, a)

    # MFCC 추출
    mfcc_features = mfcc(filtered_audio, samplerate=Fs, numcep=13)

    return mfcc_features

# 테스트 샘플 파일 경로
test_file_path = './test/Turtle_Dove0.wav'

# 테스트 샘플에 대한 전처리 적용
test_feature = preprocess_audio(test_file_path, b, a)

# PyTorch 텐서로 변환
test_feature_tensor = torch.tensor([test_feature], dtype=torch.float).to(device)

# 모델 정의
model = LSTMSoundClassifier(input_size=test_feature_tensor.size(2), hidden_size=128, num_classes=len(labels_index)).to(device)
model.load_state_dict(torch.load('./best_model_1.pth'))
######model.load_state_dict(torch.load('./best_model_1.pth'))
model.eval()  # 추론 모드
threshold = 0.9  # 확률에 대한 임계값 설정

# 테스트 샘플에 대한 추론 수행
with torch.no_grad():
    output = model(test_feature_tensor)  # test_feature_tensor는 전처리된 테스트 데이터
    probabilities = F.softmax(output, dim=1)  # 모델의 출력을 소프트맥스 함수를 통해 확률로 변환
    max_probs, predicted_indices = torch.max(probabilities, dim=1)  # 각 샘플에 대한 최대 확률과 해당 인덱스를 추출

    # 첫 번째 샘플에 대한 처리
    predicted_prob = max_probs.item()  # 첫 번째 샘플의 최대 확률
    predicted_index = predicted_indices.item()  # 첫 번째 샘플의 예측된 클래스 인덱스

    # 임계값보다 낮은 확률을 가진 예측을 '불일치'로 처리
    if predicted_prob < threshold:
        print("불일치")
    else:
        # 예측된 클래스의 이름을 조회
        predicted_label = [label for label, index in labels_index.items() if index == predicted_index][0]
        print(f"Predicted label: {predicted_label}, with probability: {predicted_prob:.4f}")


Predicted label: European_Turtle_Dove_Streptopelia_turtur, with probability: 1.0000


In [42]:
print(predicted_prob)

0.9999676942825317
