데이터셋 내려받기

In [1]:
!pip -q install gdown

In [2]:
# ../dataset/wav 폴더에 저장한다.
!gdown --id "1T2aTpUhdtZbt2G24O6bEIuu7Cwu5KubW" -O ../dataset/wav

Failed to retrieve file url:

	Too many users have viewed or downloaded this file recently. Please
	try accessing the file again later. If the file you are trying to
	access is particularly large or is shared with many people, it may
	take up to 24 hours to be able to view or download the file. If you
	still can't access a file after 24 hours, contact your domain
	administrator.

You may still be able to access the file from the browser:

	https://drive.google.com/uc?id=17OGAwWhe-ww_xgLSmCmROLgvKbpi__aB

but Gdown can't. Please check connections and permissions.


데이터셋 5초 간격 분할

In [2]:
import os
import librosa
import soundfile as sf

def split_and_save(wav_path, output_dir, segment_length=30):

    """
    - wav_path : 로드할 WAV 파일 또는 MP3 파일의 경로
    - output_dir : WAV 파일들을 저장할 디렉토리 경로
    - segment_length : 분할할 세그먼트의 길이 (초 단위, 기본값은 30초)
    """

    # 출력 디렉토리가 존재하지 않으면 생성
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)

    # WAV 파일 또는 MP3 파일 로드합니다.  sr을 None으로 하면 원본 샘플링 레이트를 사용한다는 의미입니다.
    #
    # 리턴값 :
    # y는 오디오의 시계열 데이터가 저장되어 있는 넘파이 배열입니다.
    # sr은 로드된 오디오 파일에 포함된 총 샘플 수를 나타냅니다.
    y, sr = librosa.load(wav_path, sr=None)

    # 샘플의 총 길이 계산
    total_samples = len(y)

    # 전체 오디오를 segment_length 초 단위로 나눈 각 세그먼트의 샘플 수 계산
    segment_samples = segment_length * sr 

    # 지정된 길이 segment_samples로 분할하여 WAV 파일로 저장
    for start_sample in range(0, total_samples, segment_samples):
        end_sample = start_sample + segment_samples
        output_path = f"{output_dir}/segment_{start_sample // segment_samples}.wav"

        # 여기서는 segment로 분할된 오디오 데이터를 WAV 파일로 저장한다.
        sf.write(output_path, y[start_sample:end_sample], sr)


# 사용 예:
# wav_path = "d,system_1.wav"
# output_dir = "../wav_patch/train_1"
# split_and_save(wav_path, output_dir, segment_length=5)

In [6]:
import os
root = '../dataset/wav/'

folder_list = ['_2022_03_16.wav',
               '_2022_03_21.wav',
               '_2022_03_28.wav',
               '_2022_03_30.wav',
               '_2022_04_04.wav',
               '_2022_04_06.wav',
               '_2022_04_11.wav',
               '_2022_04_13.wav',
               '_2022_04_18.wav',
               '_2022_04_20.wav',
               '_2024_05_01.wav',
               '_d_system_1.wav',
               '_d_system_2.wav',
               '_d_system_3.wav']

for folder_name in folder_list:
    raw_path = root + 'raw/' + folder_name
    wav_path = folder_name
    output_dir = root + folder_name.split('.')[0]
    split_and_save(wav_path, output_dir, segment_length=5)