### 라이브러리 추가

### 폴더 생성 

In [2]:
import matplotlib.pyplot as plt
import librosa # 오디오 및 음악 분석을 위한 라이브러리
import librosa.display # 오디오 데이터 시각화

import os # 운영체제와 상호작용
import glob # 디렉토리 와일드카드 파일 목록 찾기
import numpy as np

from tqdm import tqdm
from PIL import Image

# - 새 폴더 생성
def new_folder(folder_name) : 
    
    submission_dir = "./image_extraction_data" # 추출 데이터 저장할 기본 디렉토리
    final_dir = "./final_data" # 최종 데이터 저장 디렉토리
    for dir_type in ["MelSepctorgram", "STFT", "waveshow"] : 
        
        # 음성 데이터 > 이미지 데이터 저장할 서브 디렉토리 생성
        os.makedirs(
            f"{submission_dir}/{dir_type}/{folder_name}" , exist_ok=True
        )
        
        # 이미지 > 전처리 완료 폴더 저장할 서브 디렉토리 생성
        os.makedirs(
            f"{final_dir}/{dir_type}/{folder_name}" , exist_ok=True
        )
        

### 메인코드 

In [None]:
def process_org_waveshow(data_section, folder_name, file_name, aug_mode, mode, sr) : 
    plt.figure(figsize=(12,4)) # plt figsize 12, 4 사이즈 시각화
    librosa.display.waveshow(data_section, color="purple") # librosa의 waveshow 함수를 이용해 원본 데이터 표시, 색상은 보라색
    plt.axis('off')
    plt.savefig(f"./image_extraction_data/{mode}/{folder_name}/{file_name}_{aug_mode}.png", # 이미지를 해당 경로에 저장
               bbox_inches='tight', pad_inches=0)
    plt.close() # 시각화 닫기

    
def process_noise_waveshow(data_section, folder_name, file_name, aug_mode, mode, sr) :
    # - 노이즈를 추가하여 저장하는 함수 noise
    noise = 0.05 * np.random.randn(*data_section.shape) # shape에 맞게 랜덤으로 된 노이즈 생성
    data_noise = data_section + noise # 원본 데이터에 노이즈 추가
    
    plt.figure(figsize=(12,4))
    librosa.display.waveshow(data_noise, color="purple")
    plt.axis('off')
    plt.savefig(f"./image_extraction_data/{mode}/{folder_name}/{file_name}_{aug_mode}.png",
               bbox_inches='tight', pad_inches=0)
    plt.close()
    

def process_stretch_waveshow(data_section, folder_name, file_name, aug_mode, mode, sr) :
    # - 시간을 늘려서 데이터 처리하고 저장하는 함수 stretch
    data_stretch = librosa.effects.time_stretch(data_section, rate=0.8)
    plt.figure(figsize=(12,4))
    librosa.display.waveshow(data_stretch, color="purple")
    plt.axis('off')
    plt.savefig(f"./image_extraction_data/{mode}/{folder_name}/{file_name}_{aug_mode}.png",
               bbox_inches='tight', pad_inches=0)
    plt.close() 

    
def process_org_stft(data_section, folder_name, file_name, aug_mode, mode, sr) :
    # - stft
    stft = librosa.stft(data_section)
    
    # stft -> dB 단위로 변경
    stft_db = librosa.amplitude_to_db(abs(stft))
    
    # stft 
    plt.figure(figsize=(12,4))
    librosa.display.specshow(stft_db, sr=sr, x_axis='time', y_axis='hz')
    plt.axis('off')
    plt.savefig(f"./image_extraction_data/{mode}/{folder_name}/{file_name}_{aug_mode}.png",
               bbox_inches='tight', pad_inches=0)
    plt.close()


def process_noise_stft(data_section, folder_name, file_name, aug_mode, mode, sr) :
    # - noise 
    noise_stft = 0.005 * np.random.randn(*data_section.shape)
    noise_stft_data = data_section + noise_stft
    
    # stft
    stft_noise = librosa.stft(noise_stft_data)
    
    # stft -> dB
    stft_db_noise = librosa.amplitude_to_db(abs(stft_noise))
    
    # stft 
    plt.figure(figsize=(12,4))
    librosa.display.specshow(stft_db_noise, sr=sr, x_axis='time', y_axis='hz')
    plt.axis('off')
    plt.savefig(f"./image_extraction_data/{mode}/{folder_name}/{file_name}_{aug_mode}.png",
               bbox_inches='tight', pad_inches=0)
    plt.close()
    


def process_stretch_stft(data_section, folder_name, file_name, aug_mode, mode, sr) :
    
    # stretching
    rate_stft = 0.8 + np.random.random() * 0.4 # 0.8 ~ 1.2 사이의 랜덤한 비율로 Time stretching
    stretch_data_section = librosa.effects.time_stretch(
        data_section, rate=rate_stft
    )
    
    # stft
    stft_stretch = librosa.stft(stretch_data_section)
    
    # stft -> dB
    stft_db_strtch = librosa.amplitude_to_db(abs(stft_stretch))
    
    # stft
    plt.figure(figsize=(12,4))
    librosa.display.specshow(stft_db_strtch, sr=sr, x_axis='time', y_axis='hz')
    plt.axis('off')
    plt.savefig(f"./image_extraction_data/{mode}/{folder_name}/{file_name}_{aug_mode}.png",
               bbox_inches='tight', pad_inches=0)
    plt.close()
 

def process_org_melspec(data_section, folder_name, file_name, aug_mode, mode, sr) :
    # stft
    stft_mel = librosa.stft(data_section)
    
    # melspectrogram
    mel_spec = librosa.feature.melspectrogram(S=abs(stft_mel))
    
    # dB
    mel_spec_db = librosa.amplitude_to_db(mel_spec, ref=np.max)
    
    plt.figure(figsize=(12,4))
    librosa.display.specshow(mel_spec_db, sr=sr, x_axis='time', y_axis='hz')
    plt.axis('off')
    plt.savefig(f"./image_extraction_data/{mode}/{folder_name}/{file_name}_{aug_mode}.png",
               bbox_inches='tight', pad_inches=0)
    plt.close()


def process_noise_melspec(data_section, folder_name, file_name, aug_mode, mode, sr) : 
     # stft
    stft_noise = librosa.stft(data_section)
    
    # melspectrogram
    mel_spec_noise = librosa.feature.melspectrogram(S=abs(stft_noise))
    
    # dB
    mel_spect_noise_db = librosa.amplitude_to_db(mel_spec_noise, ref=np.max)
    
    # noise
    mel_noise = 0.005 * np.random.randn(*mel_spect_noise_db.shape)
    aug_noise_mel = mel_spect_noise_db + mel_noise 
    
    # dB
    aug_noise_db = librosa.amplitude_to_db(aug_noise_mel, ref=np.max)
    
    # 시각화 
    plt.figure(figsize=(12,4))
    librosa.display.specshow(aug_noise_db, sr=sr, x_axis='time', y_axis='hz')
    plt.axis('off')
    plt.savefig(f"./image_extraction_data/{mode}/{folder_name}/{file_name}_{aug_mode}.png",
               bbox_inches='tight', pad_inches=0)
    plt.close()

def process_stretch_melspec(data_section, folder_name, file_name, aug_mode, mode, sr) : 
    rate_mel = np.random.uniform(low=0.8, high=1.2) # 데이터의 시간을 무작위로 늘림
    stretched_mel = librosa.effects.time_stretch(data_section, rate=rate_mel)
    
    # stft
    stft_mel_stretch = librosa.stft(stretched_mel)
    
    # melspectrogram
    mel_spec_stretch = librosa.feature.melspectrogram(S=abs(stft_mel_stretch))
        
    # dB
    mel_spec_stretch_db = librosa.amplitude_to_db(mel_spec_stretch, ref=np.max)
    
    # 시각화
    plt.figure(figsize=(12,4))
    librosa.display.specshow(mel_spec_stretch_db, sr=sr, x_axis='time', y_axis='hz')
    plt.axis('off')
    plt.savefig(f"./image_extraction_data/{mode}/{folder_name}/{file_name}_{aug_mode}.png",
               bbox_inches='tight', pad_inches=0)
    plt.close()
        
# 모드, 증강
MODES = {
    
    'waveshow' : {
        'org' : process_org_waveshow,
        'noise' : process_noise_waveshow,
        'stretch' : process_stretch_waveshow
    },
    'stft' : {
        'org' : process_org_stft,
        'noise' : process_noise_stft,
        'stretch' : process_stretch_stft,
    },
    'MelSepctorgram' : {
        'org' : process_org_melspec,
        'noise' : process_noise_melspec,
        'stretch' : process_stretch_melspec
    }
}


if __name__ == "__main__" :
    
    # raw data path
    raw_data_path = "./raw_data/"
    # raw_data에 있는 모든 .wav 파일 불러오기
    raw_data_path_list = glob.glob(os.path.join(raw_data_path, "*", "*", "*.wav"))
    
    # aug_mode : org, noise, stretch
    
    mode = "MelSepctorgram"
    aug_mode = "stretch"
    
    for raw_data in tqdm(raw_data_path_list) : 
        if raw_data != './raw_data/raw_data/jazz/jazz.00054.wav' : # 해당 파일 제외
            data, sr = librosa.load(raw_data) # librosa를 이용한 오디오 파일 로드
            
            # folder 
            # def new_folder(folder_name)
            folder_name = raw_data.split("/")[3]
            file_name = raw_data.split("/")[-1]
            file_name = file_name.replace(".wav", "")
            
            new_folder(folder_name)
            
            ### org : 0 ~ 10초 컷한 이미지  / waveshow : 0 ~ 10초 컷한 이미지 
            ### melspec : 0 ~ 10초 컷한 이미지 / stft : 0 ~ 10초 컷 한 이미지 
         
            # 특정 구간 데이터 추출
            start_time = 0
            end_time = 10
            start_sample = sr * start_time
            end_sample = sr * end_time
            data_section = data[start_sample : end_sample]
            
            if mode in MODES and aug_mode in MODES[mode] : # 선택 모드와 증강 모드에 해당하는 함수를 호출하여 처리 수행
                MODES[mode][aug_mode](data_section, folder_name, file_name, aug_mode, mode, sr)
            
            

    

 87%|██████████████████████████████████▊     | 871/1000 [01:43<00:15,  8.28it/s]