# Test Dataset Preprocessing

## 1. Resampling

In [1]:
import os
import json
import librosa
import soundfile as sf
from tqdm import tqdm

def is_json(filename):
    return filename[-4:] == 'json'

def resample_data(root_dir, save_dir):
    len_root_dir = len(root_dir)
    for dirpath, dirnames, filenames in os.walk(root_dir):
        print("Processing:", dirpath)
        num_files = len(filenames)
        with tqdm(total=num_files, desc="Rasampling files in progress") as pbar:
            for filename in filenames:
                if is_json(filename):
                    filepath = os.path.join(dirpath, filename)
                    with open(filepath, "r", encoding="utf-8") as json_file:
                        data = json.load(json_file)
    
                        # wav file (1)
                        wav_filename = filename.replace('.json', '.wav')
                        wav_filepath = dirpath.replace('라벨링', '원천')
                        wav_filepath_SD = os.path.join(wav_filepath, wav_filename)
                        wav_filepath_SN = wav_filepath_SD.replace('SD', 'SN')
                        
                        if os.path.exists(wav_filepath_SD):
                            y_SD, sr = librosa.load(wav_filepath_SD, sr=16000)
                        if os.path.exists(wav_filepath_SN):
                            y_SN, _ = librosa.load(wav_filepath_SN, sr=16000)
                        
                        for i in range(len(data['dialogs'])):
                            # json file
                            text = data["dialogs"][i]["speakerText"]
                            start = int(data["dialogs"][i]["startTime"])
                            end = int(data["dialogs"][i]["endTime"]) + 1
    
                            if end-start > 30: # 30초 이상 음성은 제거한다.
                                continue
    
                            new_data = {
                                "annotations" : {
                                    "note" : text
                                }
                            }
    
                            new_json_path_SD = save_dir + filepath[len_root_dir:-5] + '_' + str(i) + '.json'
                            new_json_path_SN = new_json_path_SD.replace('SD', 'SN')
                            os.makedirs(os.path.split(new_json_path_SD)[0], exist_ok=True)
                            if os.path.exists(wav_filepath_SD):
                                with open(new_json_path_SD, 'w', encoding='utf-8') as file:
                                    json.dump(new_data, file, ensure_ascii=False)
                            if os.path.exists(wav_filepath_SN):
                                with open(new_json_path_SN, 'w', encoding='utf-8') as file:
                                    json.dump(new_data, file, ensure_ascii=False)
    
                            # wav file (2)
                            new_wav_path_SD = save_dir + wav_filepath_SD[len_root_dir:-4] + '_' + str(i) + '.wav'
                            new_wav_path_SN = save_dir + wav_filepath_SN[len_root_dir:-4] + '_' + str(i) + '.wav'
    
                            os.makedirs(os.path.split(new_wav_path_SD)[0], exist_ok=True)
                            if os.path.exists(wav_filepath_SD):
                                sf.write(new_wav_path_SD, y_SD[int(start*16000):int(end*16000 - 1)], sr)
                            if os.path.exists(wav_filepath_SN):
                                sf.write(new_wav_path_SN, y_SN[int(start*16000):int(end*16000 - 1)], sr)
                pbar.update(1)
    print("Done!")

In [2]:
root_directory = "D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터"
save_directory = "D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset"
resample_data(root_directory, save_directory)

Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터


Rasampling files in progress: 100%|█████████████████████████████████████████████████████| 1/1 [00:00<00:00, 999.60it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\01.가전소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\01.가전소음\01.세탁기,건조기


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 766/766 [14:29<00:00,  1.13s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\01.가전소음\02.청소기


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 300/300 [05:33<00:00,  1.11s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\01.가전소음\03.가전소음_기타소음


Rasampling files in progress: 100%|████████████████████████████████████████████████| 1896/1896 [36:37<00:00,  1.16s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 106/106 [02:04<00:00,  1.17s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|████████████████████████████████████████████████████| 98/98 [01:45<00:00,  1.08s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 112/112 [02:06<00:00,  1.13s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 204/204 [03:26<00:00,  1.01s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 608/608 [09:24<00:00,  1.08it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\03.길거리\02.인파


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 108/108 [01:37<00:00,  1.10it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 292/292 [05:07<00:00,  1.05s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|████████████████████████████████████████████████| 1190/1190 [15:31<00:00,  1.28it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|████████████████████████████████████████████████| 1310/1310 [23:19<00:00,  1.07s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 442/442 [06:03<00:00,  1.22it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 296/296 [04:51<00:00,  1.02it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|████████████████████████████████████████████████| 2374/2374 [37:38<00:00,  1.05it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 334/334 [04:13<00:00,  1.32it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 334/334 [04:33<00:00,  1.22it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 556/556 [07:01<00:00,  1.32it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 176/176 [02:04<00:00,  1.42it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 594/594 [07:35<00:00,  1.30it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 526/526 [08:16<00:00,  1.06it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 534/534 [07:45<00:00,  1.15it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 450/450 [07:05<00:00,  1.06it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 404/404 [05:17<00:00,  1.27it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 186/186 [02:04<00:00,  1.49it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 326/326 [04:17<00:00,  1.27it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 154/154 [02:07<00:00,  1.20it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\09.공장\02.조립공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 246/246 [02:48<00:00,  1.46it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 612/612 [10:04<00:00,  1.01it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 704/704 [10:56<00:00,  1.07it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 250/250 [03:56<00:00,  1.06it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 146/146 [02:05<00:00,  1.17it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|████████████████████████████████████████████████| 2758/2758 [29:32<00:00,  1.56it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 11/11 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\01.가전소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 766/766 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\01.가전소음\02.청소기


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 300/300 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\01.가전소음\03.가전소음_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 1896/1896 [00:00<00:00, 1895233.65it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 106/106 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 98/98 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|██████████████████████████████████████████████| 112/112 [00:00<00:00, 111954.73it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 204/204 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 608/608 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\03.길거리\02.인파


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 108/108 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 292/292 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 1190/1190 [00:00<00:00, 1189519.01it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 1310/1310 [00:00<00:00, 1307289.61it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 442/442 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 296/296 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|███████████████████████████████████████████| 2374/2374 [00:00<00:00, 2373606.13it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 334/334 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 334/334 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 556/556 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 176/176 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 594/594 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 526/526 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 534/534 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 450/450 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 404/404 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 186/186 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 326/326 [00:00<00:00, 325480.39it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|██████████████████████████████████████████████| 154/154 [00:00<00:00, 153316.60it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\09.공장\02.조립공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 246/246 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|█████████████████████████████████████████████| 612/612 [00:00<00:00, 1220016.18it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|██████████████████████████████████████████████| 704/704 [00:00<00:00, 703883.20it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|██████████████████████████████████████████████| 250/250 [00:00<00:00, 249839.41it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 146/146 [00:00<00:00, 145871.46it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|███████████████████████████████████████████| 2758/2758 [00:00<00:00, 2758199.91it/s]

Done!





## 1.1. num_files_check

In [13]:
def num_files_check(root_dir):
    for dirpath, dirnames, filenames in os.walk(root_dir):
        print(f"dir_path: {dirpath}")
        print(f"num_files: {len(filenames)}")

In [14]:
root_directory = "D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset"
num_files_check(root_directory)

dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset
num_files: 0
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터
num_files: 0
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation
num_files: 0
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터
num_files: 0
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음
num_files: 0
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\01.세탁기,건조기
num_files: 10554
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\02.청소기
num_files: 4594
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\03.가전소음_기타소음
num_files: 31620
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단
num_files: 0
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\01.바이크
num_files: 1908
dir_path: D:/0

# 2. Transcription

- Reference: `https://blog.naver.com/PostView.nhn?blogId=sooftware&logNo=221821797852`

In [6]:
test1 = "o/ 근데 (70%)/(칠십 퍼센트)가 커 보이긴 하는데 (200)/(이백) 벌다 (140)/(백 사십) 벌면 빡셀걸? b/"
test2 = "근데 (3학년)/(삼 학년) 때 까지는 국가장학금 바+ 받으면서 다녔던 건가?"

# Whisper 전처리는 Reference와 다르므로 약간의 수정이 필요하다.
def bracket_filter(sentence):
    new_sentence = str()
    """
    (left_bracket, right_bracket)
    (0, 0) -> 출력
    (1, 0) -> 출력
    (1, 1) -> 미출력
    (0, 1) -> 미출력
    --> right_bracket을 기준으로 flag 설정
    """
    flag = False
    
    for ch in sentence:
        if ch == ')' and flag == False:
            flag = True
            continue
        if ch == ')' and flag == True:
            flag = False
            continue
        if ch != '(' and flag == False:
            new_sentence += ch
    return new_sentence

test1 = bracket_filter(test1)
test2 = bracket_filter(test2)
print(test1)
print(test2)

o/ 근데 70%가 커 보이긴 하는데 200 벌다 140 벌면 빡셀걸? b/
근데 3학년 때 까지는 국가장학금 바+ 받으면서 다녔던 건가?


In [7]:
import re

def special_filter(sentence):
    SENTENCE_MASK = ['.', '?', ',', '!']
    NOISE = ['o', 'n', 'u', 'b', 'l']
    EXCEPT = ['/', '+', '*', '-', '@', '$', '^', '&', '[', ']', '~', ':', ';']
    new_sentence = str()
    for idx, ch in enumerate(sentence):
        if ch not in SENTENCE_MASK:
            if idx + 1 < len(sentence) and ch in NOISE and sentence[idx+1] == '/':
                continue
        if ch == '#':
            new_sentence += '샵'
        elif ch not in EXCEPT:
            new_sentence += ch

    pattern = re.compile(r'\s\s+')
    new_sentence = re.sub(pattern, ' ', new_sentence.strip())
    return new_sentence

print(special_filter(test1))
print(special_filter(test2))

근데 70%가 커 보이긴 하는데 200 벌다 140 벌면 빡셀걸?
근데 3학년 때 까지는 국가장학금 바 받으면서 다녔던 건가?


In [8]:
import os
import json
import librosa
import soundfile as sf
from tqdm import tqdm

def is_json(filename):
    return filename[-4:] == 'json'

# Whisper 모델의 전사 규칙에 알맞게 변환
def transcription(root_dir):
    len_root_dir = len(root_dir)
    for dirpath, dirnames, filenames in os.walk(root_dir):
        print("Processing:", dirpath)
        num_files = len(filenames)
        with tqdm(total=num_files, desc="Rasampling files in progress") as pbar:
            for filename in filenames:
                if is_json(filename):
                    filepath = os.path.join(dirpath, filename)
                    with open(filepath, "r", encoding="utf-8") as json_file:
                        data = json.load(json_file)
                        text = data["annotations"]["note"]
    
                        # 전사 규칙 처리
                        text = bracket_filter(text)
                        text = special_filter(text)
                        
                        new_data = {
                            "annotations" : {
                                "note" : text
                            }
                        }
                        
                        with open(filepath, 'w', encoding='utf-8') as file:
                            json.dump(new_data, file, ensure_ascii=False)
                pbar.update(1)
                
    print("Done!")

In [9]:
root_directory = "D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset"
transcription(root_directory)

Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\01.세탁기,건조기


Rasampling files in progress: 100%|█████████████████████████████████████████████| 10736/10736 [00:46<00:00, 231.36it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\02.청소기


Rasampling files in progress: 100%|███████████████████████████████████████████████| 4640/4640 [00:08<00:00, 548.87it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\03.가전소음_기타소음


Rasampling files in progress: 100%|█████████████████████████████████████████████| 32044/32044 [01:06<00:00, 483.52it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|███████████████████████████████████████████████| 1950/1950 [00:03<00:00, 551.13it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|███████████████████████████████████████████████| 1738/1738 [00:03<00:00, 527.70it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|███████████████████████████████████████████████| 2110/2110 [00:03<00:00, 557.02it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████| 3372/3372 [00:06<00:00, 554.24it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|███████████████████████████████████████████████| 9066/9066 [00:15<00:00, 580.77it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리\02.인파


Rasampling files in progress: 100%|███████████████████████████████████████████████| 1664/1664 [00:03<00:00, 518.16it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████| 5110/5110 [00:09<00:00, 557.00it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|█████████████████████████████████████████████| 16758/16758 [00:30<00:00, 555.69it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|█████████████████████████████████████████████| 23602/23602 [00:40<00:00, 580.04it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████| 5904/5904 [00:10<00:00, 571.04it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|███████████████████████████████████████████████| 5120/5120 [00:08<00:00, 580.92it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|█████████████████████████████████████████████| 36686/36686 [01:01<00:00, 591.96it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████| 4042/4042 [00:06<00:00, 656.96it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|███████████████████████████████████████████████| 4878/4878 [00:07<00:00, 642.65it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|███████████████████████████████████████████████| 6748/6748 [00:10<00:00, 627.14it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|███████████████████████████████████████████████| 1880/1880 [00:03<00:00, 574.67it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|███████████████████████████████████████████████| 7292/7292 [00:11<00:00, 612.90it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|███████████████████████████████████████████████| 8102/8102 [00:13<00:00, 587.96it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|███████████████████████████████████████████████| 7764/7764 [00:14<00:00, 544.39it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████| 7230/7230 [00:11<00:00, 612.96it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|███████████████████████████████████████████████| 4600/4600 [00:07<00:00, 613.02it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|███████████████████████████████████████████████| 1634/1634 [00:02<00:00, 604.08it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████| 3856/3856 [00:06<00:00, 640.57it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|███████████████████████████████████████████████| 2158/2158 [00:03<00:00, 620.79it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\09.공장\02.조립공정


Rasampling files in progress: 100%|███████████████████████████████████████████████| 2778/2778 [00:04<00:00, 657.20it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████| 9696/9696 [00:13<00:00, 739.76it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|█████████████████████████████████████████████| 10598/10598 [00:10<00:00, 974.09it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|██████████████████████████████████████████████| 3822/3822 [00:03<00:00, 1001.08it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 2102/2102 [00:01<00:00, 1057.77it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|████████████████████████████████████████████| 27040/27040 [00:26<00:00, 1006.26it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1950/1950 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|███████████████████████████████████████████| 1738/1738 [00:00<00:00, 1738540.51it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|███████████████████████████████████████████| 2110/2110 [00:00<00:00, 2110152.94it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 3372/3372 [00:00<00:00, 3369031.23it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|███████████████████████████████████████████| 9066/9066 [00:00<00:00, 2266529.18it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\03.길거리\02.인파


Rasampling files in progress: 100%|███████████████████████████████████████████| 1664/1664 [00:00<00:00, 1664914.56it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 5110/5110 [00:00<00:00, 1703727.62it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|█████████████████████████████████████████| 16758/16758 [00:00<00:00, 2394091.98it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|█████████████████████████████████████████| 23602/23602 [00:00<00:00, 2359920.93it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 5904/5904 [00:00<00:00, 2952918.06it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|███████████████████████████████████████████| 5120/5120 [00:00<00:00, 1705570.37it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|█████████████████████████████████████████| 36686/36686 [00:00<00:00, 2292904.52it/s]

Processing:




 D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 4042/4042 [00:00<00:00, 2020664.69it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|███████████████████████████████████████████| 4878/4878 [00:00<00:00, 1624955.52it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|███████████████████████████████████████████| 6748/6748 [00:00<00:00, 2249317.60it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1880/1880 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|███████████████████████████████████████████| 7292/7292 [00:00<00:00, 1822371.73it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|███████████████████████████████████████████| 8102/8102 [00:00<00:00, 2025526.08it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|███████████████████████████████████████████| 7764/7764 [00:00<00:00, 1941140.69it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 7230/7230 [00:00<00:00, 1807200.11it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|███████████████████████████████████████████| 4600/4600 [00:00<00:00, 2299892.53it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|███████████████████████████████████████████| 1634/1634 [00:00<00:00, 1630619.26it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 3856/3856 [00:00<00:00, 1927450.39it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|███████████████████████████████████████████| 2158/2158 [00:00<00:00, 2154560.35it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\09.공장\02.조립공정


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 2778/2778 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 9696/9696 [00:00<00:00, 3230950.31it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|█████████████████████████████████████████| 10598/10598 [00:00<00:00, 2119046.28it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|███████████████████████████████████████████| 3822/3822 [00:00<00:00, 1909544.95it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 2102/2102 [00:00<00:00, 2103155.30it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|█████████████████████████████████████████| 27040/27040 [00:00<00:00, 2079921.88it/s]

Done!





# 3. Move

In [56]:
import os
import json
import shutil

def is_json(filename):
    return filename[-4:] == 'json'

def is_wav(filename):
    return filename[-3:] == 'wav'

def move(root_dir, num_to_select, save_dir):
    wav_filepath_list = []
    text_list = []
    root_dir_len = len(root_dir)
    for dirpath, dirnames, filenames in os.walk(root_dir):
        print("Processing:", dirpath)
        if len(filenames) < num_to_select:
            files_to_select = filenames
        else:
            files_to_select = random.sample(filenames, num_to_select)
        num_files = len(files_to_select)
        with tqdm(total=num_files, desc="Progression") as pbar:
            n = 0
            for filename in files_to_select:
                if is_json(filename):
                    filepath = os.path.join(dirpath, filename)
                    newpath = filepath.replace(root_dir, save_dir)
    
                    directory, _ = os.path.split(newpath)
                    if not os.path.exists(directory):
                        os.makedirs(directory)
                    
                    shutil.copy(filepath, newpath)

                    filepath = filepath.replace('.json', '.wav')
                    filepath = filepath.replace('라벨링', '원천')
                    newpath = filepath.replace(root_dir, save_dir)

                    directory, _ = os.path.split(newpath)
                    if not os.path.exists(directory):
                        os.makedirs(directory)

                    shutil.copy(filepath, newpath)
                pbar.update(1)
            print(f"Success: {n}/{len(filenames)}")
                    
    print("Done!")

In [57]:
root_directory = "D:\\01 서울시립대학교\\03 5학년 2학기\\03 컴퓨터종합설계\\Saveset"
save_directory = "D:\\01 서울시립대학교\\03 5학년 2학기\\03 컴퓨터종합설계\\Testset"
move(root_directory, 10, save_directory)

Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset


Progression: 100%|███████| 1/1 [00:00<?, ?it/s]


Success: 0/1
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\01.세탁기,건조기


Progression: 100%|█| 10/10 [00:00<00:00, 60.02i

Success: 0/10736





Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\02.청소기


Progression: 100%|█| 10/10 [00:00<00:00, 62.85i


Success: 0/4640
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\03.가전소음_기타소음


Progression: 100%|█| 10/10 [00:00<00:00, 57.87i

Success: 0/32044





Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\01.바이크


Progression: 100%|█| 10/10 [00:00<00:00, 55.47i

Success: 0/1950





Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\02.싸이렌


Progression: 100%|█| 10/10 [00:00<00:00, 41.13i


Success: 0/1738
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\03.경적


Progression: 100%|█| 10/10 [00:00<00:00, 43.65i


Success: 0/2110
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\04.교통수단_기타소음


Progression: 100%|█| 10/10 [00:00<00:00, 43.43i


Success: 0/3372
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리\01.도로변


Progression: 100%|█| 10/10 [00:00<00:00, 54.80i

Success: 0/9066





Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리\02.인파


Progression: 100%|█| 10/10 [00:00<00:00, 27.78i


Success: 0/1664
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리\03.길거리_기타소음


Progression: 100%|█| 10/10 [00:00<00:00, 37.48i


Success: 0/5110
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\01.대화소음


Progression: 100%|█| 10/10 [00:00<00:00, 47.43i


Success: 0/16758
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\02.업소소음


Progression: 100%|█| 10/10 [00:00<00:00, 37.94i


Success: 0/23602
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\03.카페,음식점_기타소음


Progression: 100%|█| 10/10 [00:00<00:00, 52.67i


Success: 0/5904
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\01.전통시장


Progression: 100%|█| 10/10 [00:00<00:00, 25.09i


Success: 0/5120
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Progression: 100%|█| 10/10 [00:00<00:00, 40.27i


Success: 0/36686
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Progression: 100%|█| 10/10 [00:00<00:00, 51.09i

Success: 0/4042





Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\01.지하철플랫폼


Progression: 100%|█| 10/10 [00:00<00:00, 42.73i


Success: 0/4878
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\02.지하철안


Progression: 100%|█| 10/10 [00:00<00:00, 33.89i


Success: 0/6748
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\03.기차안


Progression: 100%|█| 10/10 [00:00<00:00, 31.08i


Success: 0/1880
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\04.버스안


Progression: 100%|█| 10/10 [00:00<00:00, 29.56i


Success: 0/7292
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널\01.기차역대합실


Progression: 100%|█| 10/10 [00:00<00:00, 37.99i


Success: 0/8102
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널\02.버스터미널대합실


Progression: 100%|█| 10/10 [00:00<00:00, 48.73i


Success: 0/7764
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널\03.터미널_기타소음


Progression: 100%|█| 10/10 [00:00<00:00, 41.09i


Success: 0/7230
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장\01.실외공사장


Progression: 100%|█| 10/10 [00:00<00:00, 56.91i

Success: 0/4600





Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장\02.실내공사장


Progression: 100%|█| 10/10 [00:00<00:00, 52.73i

Success: 0/1634





Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장\03.공사장_기타소음


Progression: 100%|█| 10/10 [00:00<00:00, 53.29i

Success: 0/3856





Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\09.공장


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\09.공장\01.가공공정


Progression: 100%|█| 10/10 [00:00<00:00, 57.54i


Success: 0/2158
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\09.공장\02.조립공정


Progression: 100%|█| 10/10 [00:00<00:00, 52.09i


Success: 0/2778
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\09.공장\03.공장_기타소음


Progression: 100%|█| 10/10 [00:00<00:00, 47.98i

Success: 0/9696





Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연\01.빗소리


Progression: 100%|█| 10/10 [00:00<00:00, 32.53i


Success: 0/10598
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연\02.파도


Progression: 100%|█| 10/10 [00:00<00:00, 34.63i


Success: 0/3822
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연\03.일반자연_기타소음


Progression: 100%|█| 10/10 [00:00<00:00, 36.57i


Success: 0/2102
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\11.복합소음


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\라벨링데이터\11.복합소음\01.2가지이상소음원


Progression: 100%|█| 10/10 [00:00<00:00, 53.51i


Success: 0/27040
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\01.가전소음


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/10736
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\01.가전소음\02.청소기


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/4640
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\01.가전소음\03.가전소음_기타소음


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/32044
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\02.교통수단


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\01.바이크


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/1950
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\02.싸이렌


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/1738
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\03.경적


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/2110
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\04.교통수단_기타소음


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/3372
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\03.길거리


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\03.길거리\01.도로변


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/9066
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\03.길거리\02.인파


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/1664
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\03.길거리\03.길거리_기타소음


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/5110
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점\01.대화소음


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/16758
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점\02.업소소음


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/23602
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점\03.카페,음식점_기타소음


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/5904
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\01.전통시장


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]

Success: 0/5120





Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/36686
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/4042
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\01.지하철플랫폼


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/4878
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\02.지하철안


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/6748
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\03.기차안


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/1880
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\04.버스안


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/7292
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\07.터미널


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\07.터미널\01.기차역대합실


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/8102
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\07.터미널\02.버스터미널대합실


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/7764
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\07.터미널\03.터미널_기타소음


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/7230
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\08.공사장


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\08.공사장\01.실외공사장


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/4600
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\08.공사장\02.실내공사장


Progression: 100%|█| 10/10 [00:00<00:00, 9998.3


Success: 0/1634
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\08.공사장\03.공사장_기타소음


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/3856
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\09.공장


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\09.공장\01.가공공정


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/2158
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\09.공장\02.조립공정


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/2778
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\09.공장\03.공장_기타소음


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/9696
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\10.일반자연


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\10.일반자연\01.빗소리


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/10598
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\10.일반자연\02.파도


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/3822
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\10.일반자연\03.일반자연_기타소음


Progression: 100%|█████| 10/10 [00:00<?, ?it/s]


Success: 0/2102
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\11.복합소음


Progression: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:\01 서울시립대학교\03 5학년 2학기\03 컴퓨터종합설계\Saveset\01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원


Progression: 100%|█| 10/10 [00:00<00:00, 9998.3

Success: 0/27040
Done!





# 4. Deduplication

In [25]:
import os
import json
from tqdm import tqdm

def is_json(filename):
    return filename[-4:] == 'json'

def is_wav(filename):
    return filename[-3:] == 'wav'

def deduplicate(root_dir, compare_dir):
    file_list = []
    remove_list = []
    for dirpath, dirnames, filenames in os.walk(compare_dir):
        print("Processing:", dirpath)
        file_list.extend(filenames)
        
    for dirpath, dirnames, filenames in os.walk(root_dir):
        print("Processing:", dirpath)
        for filename in filenames:
            if is_wav(filename): 
                if filename in file_list:
                    file_path = os.path.join(dirpath, filename)
                    os.remove(file_path)
                    remove_list.append(filename)
                    
    print("Done!")
    return remove_list

In [26]:
remove_list = deduplicate('./Testset', './Dataset')
remove_list

Processing: ./Dataset
Processing: ./Dataset\01.데이터
Processing: ./Dataset\01.데이터\2.Validation
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\01.가전소음
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\01.가전소음\01.세탁기,건조기
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\01.가전소음\02.청소기
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\01.가전소음\03.가전소음_기타소음
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\02.교통수단
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\02.교통수단\01.바이크
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\02.교통수단\02.싸이렌
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\02.교통수단\03.경적
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\02.교통수단\04.교통수단_기타소음
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\03.길거리
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\03.길거리\01.도로변
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\03.길거리\02.인파
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\03.길거리\03.길거리_기타소음
Processing: ./Dataset\01.데이터\2.V

['02_06_051879_211114_SD_7.wav',
 '02_06_053417_211119_SD_15.wav',
 '02_06_056205_211122_SD_11.wav',
 '02_06_096863_211112_SN_0.wav',
 '02_08_055400_211121_SN_15.wav',
 '02_02_063954_211124_SN_2.wav',
 '02_02_064005_211124_SD_9.wav',
 '02_04_063012_211117_SD_13.wav',
 '02_04_063029_211117_SD_11.wav',
 '02_04_064274_211125_SD_19.wav',
 '02_04_064722_211126_SN_21.wav',
 '02_06_063694_211123_SN_14.wav',
 '02_06_052665_211116_SD_12.wav',
 '02_06_054332_211120_SN_3.wav',
 '02_07_042605_211109_SD_0.wav',
 '02_08_048785_211120_SD_2.wav',
 '02_01_044620_211105_SD_6.wav',
 '02_01_081166_211112_SD_9.wav',
 '02_07_079854_211108_SN_14.wav',
 '02_08_080426_211110_SD_9.wav',
 '03_01_077504_211119_SN_17.wav',
 '03_01_045589_211110_SD_3.wav',
 '03_02_045937_211111_SN_18.wav',
 '03_02_045948_211111_SD_10.wav',
 '03_04_039318_211025_SD_1.wav',
 '03_04_042501_211107_SN_22.wav',
 '03_04_046212_211114_SN_10.wav',
 '03_04_053728_211119_SN_9.wav',
 '03_06_078220_211119_SD_3.wav',
 '04_01_000730_210806_SD_0.w

In [27]:
len(remove_list)

76

In [28]:
remove_list

['02_06_051879_211114_SD_7.wav',
 '02_06_053417_211119_SD_15.wav',
 '02_06_056205_211122_SD_11.wav',
 '02_06_096863_211112_SN_0.wav',
 '02_08_055400_211121_SN_15.wav',
 '02_02_063954_211124_SN_2.wav',
 '02_02_064005_211124_SD_9.wav',
 '02_04_063012_211117_SD_13.wav',
 '02_04_063029_211117_SD_11.wav',
 '02_04_064274_211125_SD_19.wav',
 '02_04_064722_211126_SN_21.wav',
 '02_06_063694_211123_SN_14.wav',
 '02_06_052665_211116_SD_12.wav',
 '02_06_054332_211120_SN_3.wav',
 '02_07_042605_211109_SD_0.wav',
 '02_08_048785_211120_SD_2.wav',
 '02_01_044620_211105_SD_6.wav',
 '02_01_081166_211112_SD_9.wav',
 '02_07_079854_211108_SN_14.wav',
 '02_08_080426_211110_SD_9.wav',
 '03_01_077504_211119_SN_17.wav',
 '03_01_045589_211110_SD_3.wav',
 '03_02_045937_211111_SN_18.wav',
 '03_02_045948_211111_SD_10.wav',
 '03_04_039318_211025_SD_1.wav',
 '03_04_042501_211107_SN_22.wav',
 '03_04_046212_211114_SN_10.wav',
 '03_04_053728_211119_SN_9.wav',
 '03_06_078220_211119_SD_3.wav',
 '04_01_000730_210806_SD_0.w

In [29]:
remove_list = deduplicate('./Testset_Denoising', './Dataset')

Processing: ./Dataset
Processing: ./Dataset\01.데이터
Processing: ./Dataset\01.데이터\2.Validation
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\01.가전소음
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\01.가전소음\01.세탁기,건조기
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\01.가전소음\02.청소기
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\01.가전소음\03.가전소음_기타소음
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\02.교통수단
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\02.교통수단\01.바이크
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\02.교통수단\02.싸이렌
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\02.교통수단\03.경적
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\02.교통수단\04.교통수단_기타소음
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\03.길거리
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\03.길거리\01.도로변
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\03.길거리\02.인파
Processing: ./Dataset\01.데이터\2.Validation\라벨링데이터\03.길거리\03.길거리_기타소음
Processing: ./Dataset\01.데이터\2.V

In [31]:
len(remove_list)

76

# 5. Construct Dataset

In [36]:
import os
import json

def is_json(filename):
    return filename[-4:] == 'json'

def is_wav(filename):
    return filename[-3:] == 'wav'

def list_files_and_directories(root_dir):
    wav_filepath_list = []
    text_list = []
    root_dir_len = len(root_dir)
    for dirpath, dirnames, filenames in os.walk(root_dir):
        print("Processing:", dirpath)
        num_files = len(filenames)
        with tqdm(total=num_files, desc="Rasampling files in progress") as pbar:
            n = 0
            for filename in filenames:
                if is_json(filename):
                    filepath = os.path.join(dirpath, filename)
                    with open(filepath, "r", encoding="utf-8") as json_file:
                        data = json.load(json_file)
                        text = data["annotations"]["note"]
                    
                    wav_filename = filename.replace('.json', '.wav')
                    wav_filepath = dirpath.replace('라벨링', '원천')
                    wav_filepath = os.path.join(wav_filepath, wav_filename)
                    
                    if os.path.exists(wav_filepath):
                        wav_filepath_list.append(wav_filepath[root_dir_len+1:])
                        text_list.append(text)
                        n += 1
                        
                pbar.update(1)
            print(f"Success: {n}/{len(filenames)}")
                    
    print("Done!")
    return wav_filepath_list, text_list

In [40]:
root_directory = "./Testset"
wav_filepath_list, text_list = list_files_and_directories(root_directory)

Processing: ./Testset


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 1/1 [00:00<?, ?it/s]


Success: 0/1
Processing: ./Testset\01.데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\01.가전소음


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\01.가전소음\01.세탁기,건조기


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 11/11 [00:00<00:00, 1046.77it/s]


Success: 8/11
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\01.가전소음\02.청소기


Rasampling files in progress: 100%|███████████████████████████████████████████████████| 10/10 [00:00<00:00, 951.69it/s]


Success: 10/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\01.가전소음\03.가전소음_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1051.97it/s]


Success: 10/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1110.07it/s]


Success: 5/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1048.60it/s]


Success: 3/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|███████████████████████████████████████████████████| 10/10 [00:00<00:00, 955.18it/s]


Success: 6/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1055.89it/s]


Success: 6/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1052.05it/s]


Success: 9/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\03.길거리\02.인파


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1051.89it/s]


Success: 4/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1175.43it/s]


Success: 8/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1175.96it/s]


Success: 10/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1170.48it/s]


Success: 10/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1051.92it/s]


Success: 8/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|███████████████████████████████████████████████████| 10/10 [00:00<00:00, 951.76it/s]

Success: 7/10





Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1071.29it/s]

Success: 9/10





Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1052.23it/s]


Success: 10/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|███████████████████████████████████████████████████| 10/10 [00:00<00:00, 951.87it/s]


Success: 8/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1052.07it/s]

Success: 10/10





Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1333.18it/s]


Success: 3/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1332.29it/s]


Success: 8/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1256.68it/s]

Success: 10/10





Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1111.02it/s]

Success: 10/10





Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1249.90it/s]


Success: 6/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1666.52it/s]

Success: 8/10





Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1537.50it/s]


Success: 4/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1816.58it/s]

Success: 7/10





Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1817.53it/s]


Success: 8/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\09.공장\02.조립공정


Rasampling files in progress:   0%|                                                             | 0/10 [00:00<?, ?it/s]

Success: 7/10

Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1249.98it/s]



Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1428.58it/s]


Success: 9/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1375.59it/s]


Success: 10/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1249.53it/s]

Success: 8/10





Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1929.92it/s]


Success: 4/10
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1537.22it/s]

Success: 9/10





Processing: ./Testset\01.데이터\2.Validation\원천데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\원천데이터\01.가전소음


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset\01.데이터\2.Validation\원천데이터\01.가전소음\02.청소기


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset\01.데이터\2.Validation\원천데이터\01.가전소음\03.가전소음_기타소음


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset\01.데이터\2.Validation\원천데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\원천데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|████████████████████████████████████████████████████| 5/5 [00:00<00:00, 4999.17it/s]


Success: 0/5
Processing: ./Testset\01.데이터\2.Validation\원천데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 3/3 [00:00<?, ?it/s]


Success: 0/3
Processing: ./Testset\01.데이터\2.Validation\원천데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|████████████████████████████████████████████████████| 6/6 [00:00<00:00, 6003.30it/s]


Success: 0/6
Processing: ./Testset\01.데이터\2.Validation\원천데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 6/6 [00:00<?, ?it/s]


Success: 0/6
Processing: ./Testset\01.데이터\2.Validation\원천데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\원천데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 9/9 [00:00<?, ?it/s]


Success: 0/9
Processing: ./Testset\01.데이터\2.Validation\원천데이터\03.길거리\02.인파


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 4/4 [00:00<?, ?it/s]


Success: 0/4
Processing: ./Testset\01.데이터\2.Validation\원천데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset\01.데이터\2.Validation\원천데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\원천데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset\01.데이터\2.Validation\원천데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset\01.데이터\2.Validation\원천데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 7/7 [00:00<?, ?it/s]


Success: 0/7
Processing: ./Testset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 9/9 [00:00<?, ?it/s]


Success: 0/9
Processing: ./Testset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset\01.데이터\2.Validation\원천데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\원천데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset\01.데이터\2.Validation\원천데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset\01.데이터\2.Validation\원천데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 3/3 [00:00<?, ?it/s]


Success: 0/3
Processing: ./Testset\01.데이터\2.Validation\원천데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]

Success: 0/8





Processing: ./Testset\01.데이터\2.Validation\원천데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\원천데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset\01.데이터\2.Validation\원천데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset\01.데이터\2.Validation\원천데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 6/6 [00:00<?, ?it/s]


Success: 0/6
Processing: ./Testset\01.데이터\2.Validation\원천데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\원천데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset\01.데이터\2.Validation\원천데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 4/4 [00:00<?, ?it/s]


Success: 0/4
Processing: ./Testset\01.데이터\2.Validation\원천데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|████████████████████████████████████████████████████| 7/7 [00:00<00:00, 7000.51it/s]


Success: 0/7
Processing: ./Testset\01.데이터\2.Validation\원천데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\원천데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset\01.데이터\2.Validation\원천데이터\09.공장\02.조립공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 7/7 [00:00<?, ?it/s]


Success: 0/7
Processing: ./Testset\01.데이터\2.Validation\원천데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 9/9 [00:00<?, ?it/s]


Success: 0/9
Processing: ./Testset\01.데이터\2.Validation\원천데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\원천데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset\01.데이터\2.Validation\원천데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset\01.데이터\2.Validation\원천데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 4/4 [00:00<?, ?it/s]


Success: 0/4
Processing: ./Testset\01.데이터\2.Validation\원천데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset\01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 9/9 [00:00<?, ?it/s]

Success: 0/9
Done!





In [41]:
import pandas as pd

# Data
data = {
    'file_name': wav_filepath_list,
    'text': text_list
}

# Dataframe
df = pd.DataFrame(data)

# Save CSV file
df.to_csv('./Testset/metadata.csv', index=False)

In [42]:
df

Unnamed: 0,file_name,text
0,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",그건 모르죠
1,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",어 원 플러스 원이라고 해도 지금 행사니까 원 플러스 원인 거지 만약에 따로 사게 ...
2,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",그래 지금 우리 집사람도 빨리 오고 싶지 나한테 문자로 빨리 갈게 차 끌고 가 이렇...
3,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",그래 아까 나름대로 작전을 잘 짰던 것 같아 만두부터 먹고 그다음에 맛있는 탕수육까...
4,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",아니요. 저희는 지금 베란다가. 좀 좁은 편이라서. 빨래 널 공간이 별로 없거든요....
...,...,...
247,01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원\...,저도 점심 뭐 먹을지 고민이에요. 우리나라 모든 직장인의 고민인 것 같아요. 점심 ...
248,01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원\...,뭐지? 나한테 하는 소린가 혼잔 말인가? 미친 사람인가. 저기요. 혹시 저한테 하신...
249,01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원\...,그런 데가 있어. 그런 데가 있더라고. 그래서 거기를 예쁘게 잘 꾸며놓고 그래가지고...
250,01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원\...,아마도 그날을 위해서 세심하게 계획을 세울 것이야.


In [63]:
import os
import librosa
import shutil
import random
from tqdm import tqdm

def is_json(filename):
    return filename[-4:] == 'json'
    
def is_wav(filename):
    return filename[-3:] == 'wav'

def denoising(root_dir, save_dir):
    len_root_dir = len(root_dir)
    for dirpath, dirnames, filenames in os.walk(root_dir):
        print("Processing:", dirpath)
        num_files = len(filenames)
        if num_files > 120:
            num_files = 120
        with tqdm(total=num_files, desc="Denoising") as pbar:
            filenames = random.sample(filenames, num_files)
            for filename in filenames:
                filepath = os.path.join(dirpath, filename)
                newpath = filepath.replace(root_dir, save_dir)
                directory, _ = os.path.split(newpath)
                if not os.path.exists(directory):
                    os.makedirs(directory)
                if is_wav(filename):
                    # 파일 경로를 포맷팅하여 명령어 문자열을 생성
                    command = f"python ./noise-reduction-master/denoise.py --model=./noise-reduction-master/models/tscn --noisy={filepath} --denoise={newpath}"

                    # 명령어 실행
                    exit_code = os.system(command)
                    
                    # 종료 코드 확인
                    if exit_code != 0:
                        print(f"Error: [Errno {exit_code}]")
                    
                #elif is_json(filename):
                #    shutil.copy(filepath, newpath)
                pbar.update(1)
    print("Done!")

In [64]:
denoising("./Testset", "./Testset_Denoising")

Processing: ./Testset


Denoising: 100%|█| 1/1 [00:00<00:00, 1000.31it/


Processing: ./Testset\01.데이터


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\01.가전소음


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\01.가전소음\01.세탁기,건조기


Denoising: 100%|█| 11/11 [00:00<00:00, 3666.93i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\01.가전소음\02.청소기


Denoising: 100%|█| 10/10 [00:00<00:00, 5000.36i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\01.가전소음\03.가전소음_기타소음


Denoising: 100%|█| 10/10 [00:00<00:00, 5000.36i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\02.교통수단


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\02.교통수단\01.바이크


Denoising: 100%|█| 10/10 [00:00<00:00, 10005.50


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\02.교통수단\02.싸이렌


Denoising: 100%|█| 10/10 [00:00<00:00, 10003.11


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\02.교통수단\03.경적


Denoising: 100%|█| 10/10 [00:00<00:00, 10005.50


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\02.교통수단\04.교통수단_기타소음


Denoising: 100%|█| 10/10 [00:00<00:00, 9998.34i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\03.길거리


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\03.길거리\01.도로변


Denoising: 100%|█| 10/10 [00:00<00:00, 5000.36i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\03.길거리\02.인파


Denoising: 100%|█| 10/10 [00:00<00:00, 4999.77i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\03.길거리\03.길거리_기타소음


Denoising: 100%|█| 10/10 [00:00<00:00, 4999.77i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\01.대화소음


Denoising: 100%|█| 10/10 [00:00<00:00, 5000.36i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\02.업소소음


Denoising: 100%|█| 10/10 [00:00<00:00, 10000.72


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\03.카페,음식점_기타소음


Denoising: 100%|█| 10/10 [00:00<00:00, 10000.72


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\01.전통시장


Denoising: 100%|█| 10/10 [00:00<00:00, 9995.96i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Denoising: 100%|█| 10/10 [00:00<00:00, 10000.72


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Denoising: 100%|█| 10/10 [00:00<00:00, 5000.96i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\01.지하철플랫폼


Denoising: 100%|█| 10/10 [00:00<00:00, 9998.34i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\02.지하철안


Denoising: 100%|█| 10/10 [00:00<00:00, 10000.72


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\03.기차안


Denoising: 100%|█| 10/10 [00:00<00:00, 10000.72


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\04.버스안


Denoising: 100%|█| 10/10 [00:00<00:00, 5000.36i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\07.터미널


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\07.터미널\01.기차역대합실


Denoising: 100%|█| 10/10 [00:00<00:00, 4999.77i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\07.터미널\02.버스터미널대합실


Denoising: 100%|█| 10/10 [00:00<00:00, 10000.72


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\07.터미널\03.터미널_기타소음


Denoising: 100%|█| 10/10 [00:00<00:00, 10000.72


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\08.공사장


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\08.공사장\01.실외공사장


Denoising: 100%|█| 10/10 [00:00<00:00, 10000.72


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\08.공사장\02.실내공사장


Denoising: 100%|█| 10/10 [00:00<00:00, 5000.36i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\08.공사장\03.공사장_기타소음


Denoising: 100%|█| 10/10 [00:00<00:00, 10003.11


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\09.공장


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\09.공장\01.가공공정


Denoising: 100%|█| 10/10 [00:00<00:00, 10000.72


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\09.공장\02.조립공정


Denoising: 100%|█| 10/10 [00:00<00:00, 10000.72


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\09.공장\03.공장_기타소음


Denoising: 100%|█| 10/10 [00:00<00:00, 4999.77i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\10.일반자연


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\10.일반자연\01.빗소리


Denoising: 100%|█| 10/10 [00:00<00:00, 10000.72


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\10.일반자연\02.파도


Denoising: 100%|█| 10/10 [00:00<00:00, 10000.72


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\10.일반자연\03.일반자연_기타소음


Denoising: 100%|█| 10/10 [00:00<00:00, 5000.36i


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\11.복합소음


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\라벨링데이터\11.복합소음\01.2가지이상소음원


Denoising: 100%|█| 10/10 [00:00<00:00, 10000.72


Processing: ./Testset\01.데이터\2.Validation\원천데이터


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\원천데이터\01.가전소음


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기


Denoising: 100%|█| 10/10 [00:57<00:00,  5.74s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\01.가전소음\02.청소기


Denoising: 100%|█| 10/10 [00:56<00:00,  5.66s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\01.가전소음\03.가전소음_기타소음


Denoising: 100%|█| 10/10 [00:56<00:00,  5.68s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\02.교통수단


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\원천데이터\02.교통수단\01.바이크


Denoising: 100%|█| 10/10 [00:56<00:00,  5.66s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\02.교통수단\02.싸이렌


Denoising: 100%|█| 10/10 [00:56<00:00,  5.66s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\02.교통수단\03.경적


Denoising: 100%|█| 10/10 [00:56<00:00,  5.67s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\02.교통수단\04.교통수단_기타소음


Denoising: 100%|█| 10/10 [00:56<00:00,  5.68s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\03.길거리


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\원천데이터\03.길거리\01.도로변


Denoising: 100%|█| 10/10 [00:56<00:00,  5.67s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\03.길거리\02.인파


Denoising: 100%|█| 10/10 [00:56<00:00,  5.68s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\03.길거리\03.길거리_기타소음


Denoising: 100%|█| 10/10 [00:56<00:00,  5.62s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\04.카페,음식점


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\원천데이터\04.카페,음식점\01.대화소음


Denoising: 100%|█| 10/10 [00:56<00:00,  5.64s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\04.카페,음식점\02.업소소음


Denoising: 100%|█| 10/10 [00:55<00:00,  5.59s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\04.카페,음식점\03.카페,음식점_기타소음


Denoising: 100%|█| 10/10 [00:56<00:00,  5.64s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\01.전통시장


Denoising: 100%|█| 10/10 [00:56<00:00,  5.62s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Denoising: 100%|█| 10/10 [00:56<00:00,  5.63s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Denoising: 100%|█| 10/10 [00:58<00:00,  5.82s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\06.지하철,버스


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\원천데이터\06.지하철,버스\01.지하철플랫폼


Denoising: 100%|█| 10/10 [00:55<00:00,  5.60s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\06.지하철,버스\02.지하철안


Denoising: 100%|█| 10/10 [00:55<00:00,  5.59s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\06.지하철,버스\03.기차안


Denoising: 100%|█| 10/10 [00:56<00:00,  5.62s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\06.지하철,버스\04.버스안


Denoising: 100%|█| 10/10 [00:56<00:00,  5.60s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\07.터미널


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\원천데이터\07.터미널\01.기차역대합실


Denoising: 100%|█| 10/10 [00:56<00:00,  5.63s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\07.터미널\02.버스터미널대합실


Denoising: 100%|█| 10/10 [00:56<00:00,  5.64s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\07.터미널\03.터미널_기타소음


Denoising: 100%|█| 10/10 [00:54<00:00,  5.49s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\08.공사장


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\원천데이터\08.공사장\01.실외공사장


Denoising: 100%|█| 10/10 [00:54<00:00,  5.43s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\08.공사장\02.실내공사장


Denoising: 100%|█| 10/10 [00:54<00:00,  5.43s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\08.공사장\03.공사장_기타소음


Denoising: 100%|█| 10/10 [00:54<00:00,  5.42s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\09.공장


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\원천데이터\09.공장\01.가공공정


Denoising: 100%|█| 10/10 [00:54<00:00,  5.41s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\09.공장\02.조립공정


Denoising: 100%|█| 10/10 [00:54<00:00,  5.49s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\09.공장\03.공장_기타소음


Denoising: 100%|█| 10/10 [00:54<00:00,  5.47s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\10.일반자연


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\원천데이터\10.일반자연\01.빗소리


Denoising: 100%|█| 10/10 [00:54<00:00,  5.45s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\10.일반자연\02.파도


Denoising: 100%|█| 10/10 [00:54<00:00,  5.42s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\10.일반자연\03.일반자연_기타소음


Denoising: 100%|█| 10/10 [00:54<00:00,  5.43s/i


Processing: ./Testset\01.데이터\2.Validation\원천데이터\11.복합소음


Denoising: 0it [00:00, ?it/s]


Processing: ./Testset\01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원


Denoising: 100%|█| 10/10 [00:54<00:00,  5.42s/i

Done!





In [43]:
import os
import json
from tqdm import tqdm

def is_json(filename):
    return filename[-4:] == 'json'

def list_files_and_directories(root_dir):
    wav_filepath_list = []
    text_list = []
    root_dir_len = len(root_dir)
    for dirpath, dirnames, filenames in os.walk(root_dir):
        print("Processing:", dirpath)
        num_files = len(filenames)
        with tqdm(total=num_files, desc="Rasampling files in progress") as pbar:
            n = 0
            for filename in filenames:
                if is_json(filename):
                    filepath = os.path.join(dirpath, filename)
                    with open(filepath, "r", encoding="utf-8") as json_file:
                        data = json.load(json_file)
                        text = data["annotations"]["note"]
                    
                    wav_filename = filename.replace('.json', '.wav')
                    wav_filepath = dirpath.replace('라벨링', '원천')
                    wav_filepath = os.path.join(wav_filepath, wav_filename)
                    
                    if os.path.exists(wav_filepath):
                        wav_filepath_list.append(wav_filepath[root_dir_len+1:])
                        text_list.append(text)
                        n += 1
                pbar.update(1)
            print(f"Success: {n}/{len(filenames)}")
                    
    print("Done!")
    return wav_filepath_list, text_list

In [44]:
root_directory = "./Testset_Denoising"
wav_filepath_list, text_list = list_files_and_directories(root_directory)

Processing: ./Testset_Denoising


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 1/1 [00:00<?, ?it/s]


Success: 0/1
Processing: ./Testset_Denoising\01.데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\01.가전소음


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\01.가전소음\01.세탁기,건조기


Rasampling files in progress: 100%|███████████████████████████████████████████████████| 11/11 [00:00<00:00, 956.00it/s]


Success: 8/11
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\01.가전소음\02.청소기


Rasampling files in progress: 100%|███████████████████████████████████████████████████| 10/10 [00:00<00:00, 908.13it/s]


Success: 10/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\01.가전소음\03.가전소음_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████████| 10/10 [00:00<00:00, 951.59it/s]


Success: 10/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1091.13it/s]


Success: 5/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1260.57it/s]


Success: 3/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1090.02it/s]


Success: 6/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1326.35it/s]


Success: 6/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|███████████████████████████████████████████████████| 10/10 [00:00<00:00, 980.05it/s]


Success: 9/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\03.길거리\02.인파


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1142.77it/s]


Success: 4/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1146.36it/s]


Success: 8/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1152.53it/s]


Success: 10/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1332.46it/s]


Success: 10/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1666.59it/s]


Success: 8/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1428.48it/s]


Success: 7/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1242.02it/s]


Success: 9/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1130.27it/s]

Success: 10/10





Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1428.43it/s]


Success: 8/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1230.47it/s]

Success: 10/10





Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1388.34it/s]

Success: 3/10





Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1310.97it/s]


Success: 8/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1218.57it/s]

Success: 10/10





Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1559.74it/s]


Success: 10/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████████| 10/10 [00:00<00:00, 952.06it/s]

Success: 6/10





Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1113.37it/s]


Success: 8/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1688.19it/s]

Success: 4/10





Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1323.63it/s]


Success: 7/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1083.35it/s]

Success: 8/10





Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\09.공장\02.조립공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1427.27it/s]


Success: 7/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1481.88it/s]

Success: 9/10





Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1168.43it/s]

Success: 10/10





Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1531.61it/s]


Success: 8/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 10/10 [00:00<00:00, 1716.09it/s]

Success: 4/10





Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\라벨링데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|███████████████████████████████████████████████████| 10/10 [00:00<00:00, 985.27it/s]


Success: 9/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\01.가전소음


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\01.가전소음\02.청소기


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\01.가전소음\03.가전소음_기타소음


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|████████████████████████████████████████████████████| 5/5 [00:00<00:00, 4996.79it/s]


Success: 0/5
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 3/3 [00:00<?, ?it/s]


Success: 0/3
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 6/6 [00:00<?, ?it/s]


Success: 0/6
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 6/6 [00:00<?, ?it/s]


Success: 0/6
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 9/9 [00:00<?, ?it/s]


Success: 0/9
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\03.길거리\02.인파


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 4/4 [00:00<?, ?it/s]

Success: 0/4





Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|████████████████████████████████████████████████████| 8/8 [00:00<00:00, 8004.40it/s]


Success: 0/8
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 7/7 [00:00<?, ?it/s]


Success: 0/7
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 9/9 [00:00<?, ?it/s]


Success: 0/9
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 3/3 [00:00<?, ?it/s]


Success: 0/3
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 6/6 [00:00<?, ?it/s]


Success: 0/6
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]

Success: 0/0





Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 4/4 [00:00<?, ?it/s]


Success: 0/4
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 7/7 [00:00<?, ?it/s]


Success: 0/7
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\09.공장\02.조립공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 7/7 [00:00<?, ?it/s]


Success: 0/7
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 9/9 [00:00<?, ?it/s]


Success: 0/9
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 10/10 [00:00<?, ?it/s]


Success: 0/10
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 8/8 [00:00<?, ?it/s]


Success: 0/8
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 4/4 [00:00<?, ?it/s]


Success: 0/4
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: ./Testset_Denoising\01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 9/9 [00:00<?, ?it/s]

Success: 0/9
Done!





In [45]:
import pandas as pd

# Data
data = {
    'file_name': wav_filepath_list,
    'text': text_list
}

# Dataframe
df = pd.DataFrame(data)

# Save CSV file
df.to_csv('./Testset_Denoising/metadata.csv', index=False)

In [46]:
df

Unnamed: 0,file_name,text
0,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",그건 모르죠
1,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",어 원 플러스 원이라고 해도 지금 행사니까 원 플러스 원인 거지 만약에 따로 사게 ...
2,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",그래 지금 우리 집사람도 빨리 오고 싶지 나한테 문자로 빨리 갈게 차 끌고 가 이렇...
3,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",그래 아까 나름대로 작전을 잘 짰던 것 같아 만두부터 먹고 그다음에 맛있는 탕수육까...
4,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",아니요. 저희는 지금 베란다가. 좀 좁은 편이라서. 빨래 널 공간이 별로 없거든요....
...,...,...
247,01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원\...,저도 점심 뭐 먹을지 고민이에요. 우리나라 모든 직장인의 고민인 것 같아요. 점심 ...
248,01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원\...,뭐지? 나한테 하는 소린가 혼잔 말인가? 미친 사람인가. 저기요. 혹시 저한테 하신...
249,01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원\...,그런 데가 있어. 그런 데가 있더라고. 그래서 거기를 예쁘게 잘 꾸며놓고 그래가지고...
250,01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원\...,아마도 그날을 위해서 세심하게 계획을 세울 것이야.
