# Preprocessing

## 1. Resampling

In [1]:
import os
import json
import librosa
import soundfile as sf
from tqdm import tqdm

def is_json(filename):
    return filename[-4:] == 'json'

def resample_data(root_dir, save_dir):
    len_root_dir = len(root_dir)
    for dirpath, dirnames, filenames in os.walk(root_dir):
        print("Processing:", dirpath)
        num_files = len(filenames)
        with tqdm(total=num_files, desc="Rasampling files in progress") as pbar:
            for filename in filenames:
                if is_json(filename):
                    filepath = os.path.join(dirpath, filename)
                    with open(filepath, "r", encoding="utf-8") as json_file:
                        data = json.load(json_file)
    
                        # wav file (1)
                        wav_filename = filename.replace('.json', '.wav')
                        wav_filepath = dirpath.replace('라벨링', '원천')
                        wav_filepath_SD = os.path.join(wav_filepath, wav_filename)
                        wav_filepath_SN = wav_filepath_SD.replace('SD', 'SN')
                        
                        if os.path.exists(wav_filepath_SD):
                            y_SD, sr = librosa.load(wav_filepath_SD, sr=16000)
                        if os.path.exists(wav_filepath_SN):
                            y_SN, _ = librosa.load(wav_filepath_SN, sr=16000)
                        
                        for i in range(len(data['dialogs'])):
                            # json file
                            text = data["dialogs"][i]["speakerText"]
                            start = int(data["dialogs"][i]["startTime"])
                            end = int(data["dialogs"][i]["endTime"]) + 1
    
                            if end-start > 30: # 30초 이상 음성은 제거한다.
                                continue
    
                            new_data = {
                                "annotations" : {
                                    "note" : text
                                }
                            }
    
                            new_json_path_SD = save_dir + filepath[len_root_dir:-5] + '_' + str(i) + '.json'
                            new_json_path_SN = new_json_path_SD.replace('SD', 'SN')
                            os.makedirs(os.path.split(new_json_path_SD)[0], exist_ok=True)
                            if os.path.exists(wav_filepath_SD):
                                with open(new_json_path_SD, 'w', encoding='utf-8') as file:
                                    json.dump(new_data, file, ensure_ascii=False)
                            if os.path.exists(wav_filepath_SN):
                                with open(new_json_path_SN, 'w', encoding='utf-8') as file:
                                    json.dump(new_data, file, ensure_ascii=False)
    
                            # wav file (2)
                            new_wav_path_SD = save_dir + wav_filepath_SD[len_root_dir:-4] + '_' + str(i) + '.wav'
                            new_wav_path_SN = save_dir + wav_filepath_SN[len_root_dir:-4] + '_' + str(i) + '.wav'
    
                            os.makedirs(os.path.split(new_wav_path_SD)[0], exist_ok=True)
                            if os.path.exists(wav_filepath_SD):
                                sf.write(new_wav_path_SD, y_SD[int(start*16000):int(end*16000 - 1)], sr)
                            if os.path.exists(wav_filepath_SN):
                                sf.write(new_wav_path_SN, y_SN[int(start*16000):int(end*16000 - 1)], sr)
                pbar.update(1)
    print("Done!")

SyntaxError: invalid syntax (610628051.py, line 18)

In [2]:
root_directory = "D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터"
save_directory = "D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset"
resample_data(root_directory, save_directory)

Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터


Rasampling files in progress: 100%|█████████████████████████████████████████████████████| 1/1 [00:00<00:00, 999.60it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\01.가전소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\01.가전소음\01.세탁기,건조기


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 766/766 [14:29<00:00,  1.13s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\01.가전소음\02.청소기


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 300/300 [05:33<00:00,  1.11s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\01.가전소음\03.가전소음_기타소음


Rasampling files in progress: 100%|████████████████████████████████████████████████| 1896/1896 [36:37<00:00,  1.16s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 106/106 [02:04<00:00,  1.17s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|████████████████████████████████████████████████████| 98/98 [01:45<00:00,  1.08s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 112/112 [02:06<00:00,  1.13s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 204/204 [03:26<00:00,  1.01s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 608/608 [09:24<00:00,  1.08it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\03.길거리\02.인파


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 108/108 [01:37<00:00,  1.10it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 292/292 [05:07<00:00,  1.05s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|████████████████████████████████████████████████| 1190/1190 [15:31<00:00,  1.28it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|████████████████████████████████████████████████| 1310/1310 [23:19<00:00,  1.07s/it]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 442/442 [06:03<00:00,  1.22it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 296/296 [04:51<00:00,  1.02it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|████████████████████████████████████████████████| 2374/2374 [37:38<00:00,  1.05it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 334/334 [04:13<00:00,  1.32it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 334/334 [04:33<00:00,  1.22it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 556/556 [07:01<00:00,  1.32it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 176/176 [02:04<00:00,  1.42it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 594/594 [07:35<00:00,  1.30it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 526/526 [08:16<00:00,  1.06it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 534/534 [07:45<00:00,  1.15it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 450/450 [07:05<00:00,  1.06it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 404/404 [05:17<00:00,  1.27it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 186/186 [02:04<00:00,  1.49it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 326/326 [04:17<00:00,  1.27it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 154/154 [02:07<00:00,  1.20it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\09.공장\02.조립공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 246/246 [02:48<00:00,  1.46it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 612/612 [10:04<00:00,  1.01it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 704/704 [10:56<00:00,  1.07it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 250/250 [03:56<00:00,  1.06it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████| 146/146 [02:05<00:00,  1.17it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\라벨링데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|████████████████████████████████████████████████| 2758/2758 [29:32<00:00,  1.56it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 11/11 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\01.가전소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 766/766 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\01.가전소음\02.청소기


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 300/300 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\01.가전소음\03.가전소음_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 1896/1896 [00:00<00:00, 1895233.65it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 106/106 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|████████████████████████████████████████████████████████████| 98/98 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|██████████████████████████████████████████████| 112/112 [00:00<00:00, 111954.73it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 204/204 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 608/608 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\03.길거리\02.인파


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 108/108 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 292/292 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 1190/1190 [00:00<00:00, 1189519.01it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 1310/1310 [00:00<00:00, 1307289.61it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 442/442 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 296/296 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|███████████████████████████████████████████| 2374/2374 [00:00<00:00, 2373606.13it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 334/334 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 334/334 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 556/556 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 176/176 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 594/594 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 526/526 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 534/534 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 450/450 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 404/404 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 186/186 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 326/326 [00:00<00:00, 325480.39it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|██████████████████████████████████████████████| 154/154 [00:00<00:00, 153316.60it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\09.공장\02.조립공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 246/246 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|█████████████████████████████████████████████| 612/612 [00:00<00:00, 1220016.18it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|██████████████████████████████████████████████| 704/704 [00:00<00:00, 703883.20it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|██████████████████████████████████████████████| 250/250 [00:00<00:00, 249839.41it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 146/146 [00:00<00:00, 145871.46it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/008.소음 환경 음성인식 데이터\01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|███████████████████████████████████████████| 2758/2758 [00:00<00:00, 2758199.91it/s]

Done!





## 1.1. num_files_check

In [13]:
def num_files_check(root_dir):
    for dirpath, dirnames, filenames in os.walk(root_dir):
        print(f"dir_path: {dirpath}")
        print(f"num_files: {len(filenames)}")

In [14]:
root_directory = "D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset"
num_files_check(root_directory)

dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset
num_files: 0
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터
num_files: 0
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation
num_files: 0
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터
num_files: 0
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음
num_files: 0
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\01.세탁기,건조기
num_files: 10554
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\02.청소기
num_files: 4594
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\03.가전소음_기타소음
num_files: 31620
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단
num_files: 0
dir_path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\01.바이크
num_files: 1908
dir_path: D:/0

## 2. Deletion

In [2]:
import os
import random
import shutil
from tqdm import tqdm

def delete_data(directory_path, delete_rate=None, left_num=3000):
    file_list = os.listdir(directory_path)
    if delete_rate != None:
        print(f"directory path: {directory_path}")
        print(f"delete rate: {int(len(file_list)*delete_rate)}/{len(file_list)} ({delete_rate*100}%)")
        print(f"left rate: {len(file_list) - int(len(file_list)*delete_rate)}/{len(file_list)} ({100 - delete_rate*100}%)")
        num_files_to_delete = int(len(file_list)*delete_rate)
    else:
        print(f"directory path: {directory_path}")
        print(f"delete rate: {len(file_list) - left_num}/{len(file_list)}")
        print(f"left rate: {left_num}/{len(file_list)}")
        num_files_to_delete = int(len(file_list) - left_num)

    files_to_delete = random.sample(file_list, num_files_to_delete)
    
    with tqdm(total=num_files_to_delete, desc="Deleting files in progress") as pbar:
        for file_name in files_to_delete:
            file_path = os.path.join(directory_path, file_name)
            if os.path.isfile(file_path):
                os.remove(file_path)
                pbar.update(1)
        print("Deletion completed")

In [3]:
delete_list = ['01.가전소음/01.세탁기,건조기', '01.가전소음/02.청소기', '01.가전소음/03.가전소음_기타소음',
               '02.교통수단/01.바이크', '02.교통수단/02.싸이렌', '02.교통수단/03.경적', '02.교통수단/04.교통수단_기타소음', 
               '03.길거리/01.도로변', '03.길거리/02.인파', '03.길거리/03.길거리_기타소음', 
               '04.카페,음식점/01.대화소음', '04.카페,음식점/02.업소소음', '04.카페,음식점/03.카페,음식점_기타소음', 
               '05.시장,쇼핑몰/01.전통시장', '05.시장,쇼핑몰/02.복합쇼핑몰', '05.시장,쇼핑몰/03.시장,쇼핑몰_기타소음', 
               '06.지하철,버스/01.지하철플랫폼', '06.지하철,버스/02.지하철안', '06.지하철,버스/03.기차안', '06.지하철,버스/04.버스안', 
               '07.터미널/01.기차역대합실', '07.터미널/02.버스터미널대합실', '07.터미널/03.터미널_기타소음', 
               '08.공사장/01.실외공사장', '08.공사장/02.실내공사장', '08.공사장/03.공사장_기타소음', 
               '09.공장/01.가공공정', '09.공장/02.조립공정', '09.공장/03.공장_기타소음', 
               '10.일반자연/01.빗소리', '10.일반자연/02.파도', '10.일반자연/03.일반자연_기타소음', 
               '11.복합소음/01.2가지이상소음원']

In [4]:
len(delete_list)

33

In [5]:
for i in range(len(delete_list)-1):
    delete_data(f"D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/{delete_list[i]}", None, 1000)
delete_data(f"D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/{delete_list[-1]}", None, 3000)

directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/01.가전소음/01.세탁기,건조기
delete rate: 8150/9150
left rate: 1000/9150


Deleting files in progress: 100%|██████████████████████████████████████████████████| 8150/8150 [03:03<00:00, 44.30it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/01.가전소음/02.청소기
delete rate: 3594/4594
left rate: 1000/4594


Deleting files in progress: 100%|██████████████████████████████████████████████████| 3594/3594 [01:25<00:00, 42.18it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/01.가전소음/03.가전소음_기타소음
delete rate: 30620/31620
left rate: 1000/31620


Deleting files in progress: 100%|████████████████████████████████████████████████| 30620/30620 [14:58<00:00, 34.09it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/02.교통수단/01.바이크
delete rate: 908/1908
left rate: 1000/1908


Deleting files in progress: 100%|████████████████████████████████████████████████████| 908/908 [00:18<00:00, 48.32it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/02.교통수단/02.싸이렌
delete rate: 712/1712
left rate: 1000/1712


Deleting files in progress: 100%|████████████████████████████████████████████████████| 712/712 [00:14<00:00, 47.75it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/02.교통수단/03.경적
delete rate: 1090/2090
left rate: 1000/2090


Deleting files in progress: 100%|██████████████████████████████████████████████████| 1090/1090 [00:21<00:00, 51.81it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/02.교통수단/04.교통수단_기타소음
delete rate: 2330/3330
left rate: 1000/3330


Deleting files in progress: 100%|██████████████████████████████████████████████████| 2330/2330 [00:51<00:00, 45.50it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/03.길거리/01.도로변
delete rate: 7918/8918
left rate: 1000/8918


Deleting files in progress: 100%|██████████████████████████████████████████████████| 7918/7918 [03:18<00:00, 39.97it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/03.길거리/02.인파
delete rate: 648/1648
left rate: 1000/1648


Deleting files in progress: 100%|████████████████████████████████████████████████████| 648/648 [00:12<00:00, 52.07it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/03.길거리/03.길거리_기타소음
delete rate: 4032/5032
left rate: 1000/5032


Deleting files in progress: 100%|██████████████████████████████████████████████████| 4032/4032 [01:36<00:00, 41.60it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/04.카페,음식점/01.대화소음
delete rate: 15548/16548
left rate: 1000/16548


Deleting files in progress: 100%|████████████████████████████████████████████████| 15548/15548 [07:06<00:00, 36.49it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/04.카페,음식점/02.업소소음
delete rate: 22310/23310
left rate: 1000/23310


Deleting files in progress: 100%|████████████████████████████████████████████████| 22310/22310 [10:45<00:00, 34.58it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/04.카페,음식점/03.카페,음식점_기타소음
delete rate: 4788/5788
left rate: 1000/5788


Deleting files in progress: 100%|██████████████████████████████████████████████████| 4788/4788 [01:51<00:00, 42.97it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/05.시장,쇼핑몰/01.전통시장
delete rate: 4068/5068
left rate: 1000/5068


Deleting files in progress: 100%|██████████████████████████████████████████████████| 4068/4068 [01:33<00:00, 43.60it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/05.시장,쇼핑몰/02.복합쇼핑몰
delete rate: 35208/36208
left rate: 1000/36208


Deleting files in progress: 100%|████████████████████████████████████████████████| 35208/35208 [16:17<00:00, 36.03it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/05.시장,쇼핑몰/03.시장,쇼핑몰_기타소음
delete rate: 2976/3976
left rate: 1000/3976


Deleting files in progress: 100%|██████████████████████████████████████████████████| 2976/2976 [01:06<00:00, 44.63it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/06.지하철,버스/01.지하철플랫폼
delete rate: 3826/4826
left rate: 1000/4826


Deleting files in progress: 100%|██████████████████████████████████████████████████| 3826/3826 [01:25<00:00, 44.56it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/06.지하철,버스/02.지하철안
delete rate: 5670/6670
left rate: 1000/6670


Deleting files in progress: 100%|██████████████████████████████████████████████████| 5670/5670 [02:11<00:00, 43.23it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/06.지하철,버스/03.기차안
delete rate: 844/1844
left rate: 1000/1844


Deleting files in progress: 100%|████████████████████████████████████████████████████| 844/844 [00:16<00:00, 52.14it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/06.지하철,버스/04.버스안
delete rate: 6188/7188
left rate: 1000/7188


Deleting files in progress: 100%|██████████████████████████████████████████████████| 6188/6188 [02:25<00:00, 42.42it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/07.터미널/01.기차역대합실
delete rate: 6976/7976
left rate: 1000/7976


Deleting files in progress: 100%|██████████████████████████████████████████████████| 6976/6976 [02:51<00:00, 40.76it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/07.터미널/02.버스터미널대합실
delete rate: 6644/7644
left rate: 1000/7644


Deleting files in progress: 100%|██████████████████████████████████████████████████| 6644/6644 [02:38<00:00, 42.04it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/07.터미널/03.터미널_기타소음
delete rate: 6142/7142
left rate: 1000/7142


Deleting files in progress: 100%|██████████████████████████████████████████████████| 6142/6142 [02:24<00:00, 42.54it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/08.공사장/01.실외공사장
delete rate: 3508/4508
left rate: 1000/4508


Deleting files in progress: 100%|██████████████████████████████████████████████████| 3508/3508 [01:20<00:00, 43.57it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/08.공사장/02.실내공사장
delete rate: 606/1606
left rate: 1000/1606


Deleting files in progress: 100%|████████████████████████████████████████████████████| 606/606 [00:12<00:00, 49.41it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/08.공사장/03.공사장_기타소음
delete rate: 2768/3768
left rate: 1000/3768


Deleting files in progress: 100%|██████████████████████████████████████████████████| 2768/2768 [01:00<00:00, 45.45it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/09.공장/01.가공공정
delete rate: 1110/2110
left rate: 1000/2110


Deleting files in progress: 100%|██████████████████████████████████████████████████| 1110/1110 [00:17<00:00, 63.27it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/09.공장/02.조립공정
delete rate: 1742/2742
left rate: 1000/2742


Deleting files in progress: 100%|██████████████████████████████████████████████████| 1742/1742 [00:26<00:00, 65.33it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/09.공장/03.공장_기타소음
delete rate: 8536/9536
left rate: 1000/9536


Deleting files in progress: 100%|██████████████████████████████████████████████████| 8536/8536 [02:24<00:00, 58.90it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/10.일반자연/01.빗소리
delete rate: 9456/10456
left rate: 1000/10456


Deleting files in progress: 100%|██████████████████████████████████████████████████| 9456/9456 [02:34<00:00, 61.36it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/10.일반자연/02.파도
delete rate: 2760/3760
left rate: 1000/3760


Deleting files in progress: 100%|██████████████████████████████████████████████████| 2760/2760 [00:40<00:00, 67.63it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/10.일반자연/03.일반자연_기타소음
delete rate: 1078/2078
left rate: 1000/2078


Deleting files in progress: 100%|██████████████████████████████████████████████████| 1078/1078 [00:15<00:00, 70.48it/s]


Deletion completed
directory path: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/11.복합소음/01.2가지이상소음원
delete rate: 23624/26624
left rate: 3000/26624


Deleting files in progress: 100%|███████████████████████████████████████████████| 23624/23624 [02:45<00:00, 142.33it/s]

Deletion completed





## 2.1. Selection SD without SN

In [8]:
import os
import random
import shutil
from tqdm import tqdm

def delete_SN_data(directory_path):
    file_list = os.listdir(directory_path)
    with tqdm(total=len(file_list), desc="Deleting files in progress") as pbar:
        for file_name in file_list:
            file_path = os.path.join(directory_path, file_name)
            if "SD" in file_path:
                pbar.update(1)
                continue
            if os.path.isfile(file_path):
                os.remove(file_path)
                pbar.update(1)
        print("Deletion completed")

In [9]:
delete_list = ['01.가전소음/01.세탁기,건조기', '01.가전소음/02.청소기', '01.가전소음/03.가전소음_기타소음',
               '02.교통수단/01.바이크', '02.교통수단/02.싸이렌', '02.교통수단/03.경적', '02.교통수단/04.교통수단_기타소음', 
               '03.길거리/01.도로변', '03.길거리/02.인파', '03.길거리/03.길거리_기타소음', 
               '04.카페,음식점/01.대화소음', '04.카페,음식점/02.업소소음', '04.카페,음식점/03.카페,음식점_기타소음', 
               '05.시장,쇼핑몰/01.전통시장', '05.시장,쇼핑몰/02.복합쇼핑몰', '05.시장,쇼핑몰/03.시장,쇼핑몰_기타소음', 
               '06.지하철,버스/01.지하철플랫폼', '06.지하철,버스/02.지하철안', '06.지하철,버스/03.기차안', '06.지하철,버스/04.버스안', 
               '07.터미널/01.기차역대합실', '07.터미널/02.버스터미널대합실', '07.터미널/03.터미널_기타소음', 
               '08.공사장/01.실외공사장', '08.공사장/02.실내공사장', '08.공사장/03.공사장_기타소음', 
               '09.공장/01.가공공정', '09.공장/02.조립공정', '09.공장/03.공장_기타소음', 
               '10.일반자연/01.빗소리', '10.일반자연/02.파도', '10.일반자연/03.일반자연_기타소음', 
               '11.복합소음/01.2가지이상소음원']

In [10]:
for i in range(len(delete_list)-1):
    delete_SN_data(f"D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/{delete_list[i]}")
delete_SN_data(f"D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/{delete_list[-1]}")

Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 163.71it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 161.91it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 134.49it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 156.40it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 172.79it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 174.64it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 168.16it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 166.52it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 172.68it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 170.50it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 159.39it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 151.15it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 163.77it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 168.73it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 137.89it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 179.75it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 189.55it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 186.24it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 203.19it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 172.10it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 162.09it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 175.61it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 177.35it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 187.47it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 196.73it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 186.00it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 219.93it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 197.42it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 188.78it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 172.70it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 188.93it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 189.50it/s]


Deletion completed


Deleting files in progress: 100%|█████████████████████████████████████████████████| 3000/3000 [00:16<00:00, 179.94it/s]

Deletion completed





# 3. Transcription

- Reference: `https://blog.naver.com/PostView.nhn?blogId=sooftware&logNo=221821797852`

In [6]:
test1 = "o/ 근데 (70%)/(칠십 퍼센트)가 커 보이긴 하는데 (200)/(이백) 벌다 (140)/(백 사십) 벌면 빡셀걸? b/"
test2 = "근데 (3학년)/(삼 학년) 때 까지는 국가장학금 바+ 받으면서 다녔던 건가?"

# Whisper 전처리는 Reference와 다르므로 약간의 수정이 필요하다.
def bracket_filter(sentence):
    new_sentence = str()
    """
    (left_bracket, right_bracket)
    (0, 0) -> 출력
    (1, 0) -> 출력
    (1, 1) -> 미출력
    (0, 1) -> 미출력
    --> right_bracket을 기준으로 flag 설정
    """
    flag = False
    
    for ch in sentence:
        if ch == ')' and flag == False:
            flag = True
            continue
        if ch == ')' and flag == True:
            flag = False
            continue
        if ch != '(' and flag == False:
            new_sentence += ch
    return new_sentence

test1 = bracket_filter(test1)
test2 = bracket_filter(test2)
print(test1)
print(test2)

o/ 근데 70%가 커 보이긴 하는데 200 벌다 140 벌면 빡셀걸? b/
근데 3학년 때 까지는 국가장학금 바+ 받으면서 다녔던 건가?


In [7]:
import re

def special_filter(sentence):
    SENTENCE_MASK = ['.', '?', ',', '!']
    NOISE = ['o', 'n', 'u', 'b', 'l']
    EXCEPT = ['/', '+', '*', '-', '@', '$', '^', '&', '[', ']', '~', ':', ';']
    new_sentence = str()
    for idx, ch in enumerate(sentence):
        if ch not in SENTENCE_MASK:
            if idx + 1 < len(sentence) and ch in NOISE and sentence[idx+1] == '/':
                continue
        if ch == '#':
            new_sentence += '샵'
        elif ch not in EXCEPT:
            new_sentence += ch

    pattern = re.compile(r'\s\s+')
    new_sentence = re.sub(pattern, ' ', new_sentence.strip())
    return new_sentence

print(special_filter(test1))
print(special_filter(test2))

근데 70%가 커 보이긴 하는데 200 벌다 140 벌면 빡셀걸?
근데 3학년 때 까지는 국가장학금 바 받으면서 다녔던 건가?


In [8]:
import os
import json
import librosa
import soundfile as sf
from tqdm import tqdm

def is_json(filename):
    return filename[-4:] == 'json'

# Whisper 모델의 전사 규칙에 알맞게 변환
def transcription(root_dir):
    len_root_dir = len(root_dir)
    for dirpath, dirnames, filenames in os.walk(root_dir):
        print("Processing:", dirpath)
        num_files = len(filenames)
        with tqdm(total=num_files, desc="Rasampling files in progress") as pbar:
            for filename in filenames:
                if is_json(filename):
                    filepath = os.path.join(dirpath, filename)
                    with open(filepath, "r", encoding="utf-8") as json_file:
                        data = json.load(json_file)
                        text = data["annotations"]["note"]
    
                        # 전사 규칙 처리
                        text = bracket_filter(text)
                        text = special_filter(text)
                        
                        new_data = {
                            "annotations" : {
                                "note" : text
                            }
                        }
                        
                        with open(filepath, 'w', encoding='utf-8') as file:
                            json.dump(new_data, file, ensure_ascii=False)
                pbar.update(1)
                
    print("Done!")

In [9]:
root_directory = "D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset"
transcription(root_directory)

Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\01.세탁기,건조기


Rasampling files in progress: 100%|█████████████████████████████████████████████| 10554/10554 [00:11<00:00, 903.14it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\02.청소기


Rasampling files in progress: 100%|███████████████████████████████████████████████| 4594/4594 [00:04<00:00, 935.31it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\03.가전소음_기타소음


Rasampling files in progress: 100%|█████████████████████████████████████████████| 31620/31620 [00:33<00:00, 955.16it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|██████████████████████████████████████████████| 1908/1908 [00:01<00:00, 1077.43it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|██████████████████████████████████████████████| 1712/1712 [00:01<00:00, 1003.78it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|███████████████████████████████████████████████| 2090/2090 [00:02<00:00, 998.10it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 3330/3330 [00:03<00:00, 1035.34it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|███████████████████████████████████████████████| 8918/8918 [00:09<00:00, 962.29it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리\02.인파


Rasampling files in progress: 100%|██████████████████████████████████████████████| 1648/1648 [00:01<00:00, 1068.39it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 5032/5032 [00:04<00:00, 1039.90it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|████████████████████████████████████████████| 16548/16548 [00:16<00:00, 1007.75it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|█████████████████████████████████████████████| 23310/23310 [00:25<00:00, 918.54it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████| 5788/5788 [00:06<00:00, 917.25it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|███████████████████████████████████████████████| 5068/5068 [00:05<00:00, 935.91it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|█████████████████████████████████████████████| 36208/36208 [00:38<00:00, 930.52it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████| 3976/3976 [00:04<00:00, 945.29it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|███████████████████████████████████████████████| 4826/4826 [00:05<00:00, 900.93it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|███████████████████████████████████████████████| 6670/6670 [00:07<00:00, 929.42it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|███████████████████████████████████████████████| 1844/1844 [00:01<00:00, 981.92it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|███████████████████████████████████████████████| 7188/7188 [00:07<00:00, 973.98it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|███████████████████████████████████████████████| 7976/7976 [00:08<00:00, 910.23it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|███████████████████████████████████████████████| 7644/7644 [00:07<00:00, 974.12it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████| 7142/7142 [00:07<00:00, 957.30it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|███████████████████████████████████████████████| 4508/4508 [00:04<00:00, 952.62it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|███████████████████████████████████████████████| 1606/1606 [00:01<00:00, 959.21it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████| 3768/3768 [00:04<00:00, 939.38it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|███████████████████████████████████████████████| 2110/2110 [00:02<00:00, 951.39it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\09.공장\02.조립공정


Rasampling files in progress: 100%|███████████████████████████████████████████████| 2742/2742 [00:02<00:00, 938.71it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████████| 9536/9536 [00:09<00:00, 976.80it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|█████████████████████████████████████████████| 10456/10456 [00:10<00:00, 969.27it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|███████████████████████████████████████████████| 3760/3760 [00:04<00:00, 933.69it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 2078/2078 [00:02<00:00, 1031.23it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|████████████████████████████████████████████| 26624/26624 [00:26<00:00, 1000.26it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\01.가전소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1000/1000 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\01.가전소음\02.청소기


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1003182.01it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\01.가전소음\03.가전소음_기타소음


Rasampling files in progress: 100%|████████████████████████████████████████████| 1000/1000 [00:00<00:00, 665445.66it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1003902.35it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1003182.01it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1000/1000 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1003422.01it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1000/1000 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\03.길거리\02.인파


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1004623.71it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1003182.01it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1000/1000 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|████████████████████████████████████████████| 1000/1000 [00:00<00:00, 665445.66it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1002942.13it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1000/1000 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1003422.01it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1003422.01it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1004142.69it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1003902.35it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1990652.11it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1002223.18it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1000/1000 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1000/1000 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1003422.01it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1000/1000 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1002702.37it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1000/1000 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1002702.37it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\09.공장\02.조립공정


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1000/1000 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1000/1000 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1000/1000 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|████████████████████████████████████████████████████████| 1000/1000 [00:00<?, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|███████████████████████████████████████████| 1000/1000 [00:00<00:00, 1002462.72it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|███████████████████████████████████████████| 3000/3000 [00:00<00:00, 3007388.15it/s]

Done!





In [None]:
root_directory = "D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/01.데이터/2.Validation/원천데이터/01.가전소음"
transcription(root_directory)

# 4. Construct Dataset

In [11]:
import os
import json

def is_json(filename):
    return filename[-4:] == 'json'

def list_files_and_directories(root_dir):
    wav_filepath_list = []
    text_list = []
    root_dir_len = len(root_dir)
    for dirpath, dirnames, filenames in os.walk(root_dir):
        print("Processing:", dirpath)
        num_files = len(filenames)
        with tqdm(total=num_files, desc="Rasampling files in progress") as pbar:
            n = 0
            for filename in filenames:
                if is_json(filename):
                    filepath = os.path.join(dirpath, filename)
                    with open(filepath, "r", encoding="utf-8") as json_file:
                        data = json.load(json_file)
                        text = data["annotations"]["note"]
                    
                    wav_filename = filename.replace('.json', '.wav')
                    wav_filepath = dirpath.replace('라벨링', '원천')
                    wav_filepath = os.path.join(wav_filepath, wav_filename)
                    
                    if os.path.exists(wav_filepath):
                        wav_filepath_list.append(wav_filepath[root_dir_len+1:])
                        text_list.append(text)
                        n += 1
                pbar.update(1)
            print(f"Success: {n}/{len(filenames)}")
                    
    print("Done!")
    return wav_filepath_list, text_list

In [12]:
root_directory = "D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset"
wav_filepath_list, text_list = list_files_and_directories(root_directory)

Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████████| 1/1 [00:00<?, ?it/s]


Success: 0/1
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\01.세탁기,건조기


Rasampling files in progress: 100%|████████████████████████████████████████████| 10554/10554 [00:07<00:00, 1474.05it/s]


Success: 508/10554
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\02.청소기


Rasampling files in progress: 100%|██████████████████████████████████████████████| 4594/4594 [00:03<00:00, 1492.89it/s]


Success: 492/4594
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\01.가전소음\03.가전소음_기타소음


Rasampling files in progress: 100%|████████████████████████████████████████████| 31620/31620 [00:20<00:00, 1519.16it/s]


Success: 500/31620
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|██████████████████████████████████████████████| 1908/1908 [00:01<00:00, 1561.46it/s]


Success: 502/1908
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|██████████████████████████████████████████████| 1712/1712 [00:01<00:00, 1501.86it/s]


Success: 510/1712
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|██████████████████████████████████████████████| 2090/2090 [00:01<00:00, 1468.26it/s]


Success: 508/2090
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 3330/3330 [00:02<00:00, 1550.06it/s]


Success: 502/3330
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|██████████████████████████████████████████████| 8918/8918 [00:05<00:00, 1549.28it/s]


Success: 508/8918
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리\02.인파


Rasampling files in progress: 100%|██████████████████████████████████████████████| 1648/1648 [00:01<00:00, 1561.37it/s]


Success: 488/1648
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 5032/5032 [00:03<00:00, 1464.37it/s]


Success: 502/5032
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|████████████████████████████████████████████| 16548/16548 [00:10<00:00, 1508.23it/s]


Success: 512/16548
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|████████████████████████████████████████████| 23310/23310 [00:15<00:00, 1512.43it/s]


Success: 510/23310
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 5788/5788 [00:04<00:00, 1439.17it/s]


Success: 487/5788
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|██████████████████████████████████████████████| 5068/5068 [00:03<00:00, 1433.65it/s]


Success: 486/5068
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|████████████████████████████████████████████| 36208/36208 [00:24<00:00, 1472.81it/s]


Success: 477/36208
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 3976/3976 [00:02<00:00, 1680.60it/s]


Success: 504/3976
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|██████████████████████████████████████████████| 4826/4826 [00:02<00:00, 1652.21it/s]


Success: 496/4826
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|██████████████████████████████████████████████| 6670/6670 [00:03<00:00, 1717.79it/s]


Success: 496/6670
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|██████████████████████████████████████████████| 1844/1844 [00:01<00:00, 1590.69it/s]


Success: 507/1844
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|██████████████████████████████████████████████| 7188/7188 [00:04<00:00, 1651.27it/s]


Success: 514/7188
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████| 7976/7976 [00:04<00:00, 1715.54it/s]


Success: 495/7976
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████| 7644/7644 [00:04<00:00, 1704.74it/s]


Success: 489/7644
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 7142/7142 [00:04<00:00, 1725.24it/s]


Success: 486/7142
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████| 4508/4508 [00:02<00:00, 1751.82it/s]


Success: 486/4508
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████| 1606/1606 [00:00<00:00, 1666.40it/s]


Success: 482/1606
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 3768/3768 [00:02<00:00, 1833.22it/s]


Success: 507/3768
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|██████████████████████████████████████████████| 2110/2110 [00:01<00:00, 1872.77it/s]


Success: 509/2110
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\09.공장\02.조립공정


Rasampling files in progress: 100%|██████████████████████████████████████████████| 2742/2742 [00:01<00:00, 1770.49it/s]


Success: 486/2742
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 9536/9536 [00:04<00:00, 1918.59it/s]


Success: 510/9536
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|████████████████████████████████████████████| 10456/10456 [00:05<00:00, 1886.79it/s]


Success: 507/10456
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|██████████████████████████████████████████████| 3760/3760 [00:01<00:00, 1948.05it/s]


Success: 487/3760
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 2078/2078 [00:01<00:00, 2033.72it/s]


Success: 488/2078
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\라벨링데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|████████████████████████████████████████████| 26624/26624 [00:14<00:00, 1854.12it/s]


Success: 1528/26624
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\01.가전소음


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 508/508 [00:00<?, ?it/s]


Success: 0/508
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\01.가전소음\02.청소기


Rasampling files in progress: 100%|██████████████████████████████████████████████| 492/492 [00:00<00:00, 493683.63it/s]


Success: 0/492
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\01.가전소음\03.가전소음_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 500/500 [00:00<?, ?it/s]


Success: 0/500
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\01.바이크


Rasampling files in progress: 100%|██████████████████████████████████████████████| 502/502 [00:00<00:00, 503597.37it/s]


Success: 0/502
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\02.싸이렌


Rasampling files in progress: 100%|██████████████████████████████████████████████| 510/510 [00:00<00:00, 511867.68it/s]


Success: 0/510
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\03.경적


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 508/508 [00:00<?, ?it/s]


Success: 0/508
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\02.교통수단\04.교통수단_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 502/502 [00:00<?, ?it/s]


Success: 0/502
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\03.길거리


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\03.길거리\01.도로변


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 508/508 [00:00<?, ?it/s]


Success: 0/508
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\03.길거리\02.인파


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 488/488 [00:00<?, ?it/s]


Success: 0/488
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\03.길거리\03.길거리_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 502/502 [00:00<?, ?it/s]


Success: 0/502
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점\01.대화소음


Rasampling files in progress: 100%|█████████████████████████████████████████████| 512/512 [00:00<00:00, 1021152.47it/s]


Success: 0/512
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점\02.업소소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 510/510 [00:00<?, ?it/s]


Success: 0/510
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\04.카페,음식점\03.카페,음식점_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 487/487 [00:00<00:00, 487966.09it/s]


Success: 0/487
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\01.전통시장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 486/486 [00:00<?, ?it/s]


Success: 0/486
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\02.복합쇼핑몰


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 477/477 [00:00<?, ?it/s]


Success: 0/477
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\05.시장,쇼핑몰\03.시장,쇼핑몰_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 504/504 [00:00<?, ?it/s]


Success: 0/504
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\01.지하철플랫폼


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 496/496 [00:00<?, ?it/s]


Success: 0/496
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\02.지하철안


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 496/496 [00:00<?, ?it/s]


Success: 0/496
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\03.기차안


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 507/507 [00:00<?, ?it/s]


Success: 0/507
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\06.지하철,버스\04.버스안


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 514/514 [00:00<?, ?it/s]


Success: 0/514
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\07.터미널


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\07.터미널\01.기차역대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████| 495/495 [00:00<00:00, 496337.67it/s]


Success: 0/495
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\07.터미널\02.버스터미널대합실


Rasampling files in progress: 100%|██████████████████████████████████████████████| 489/489 [00:00<00:00, 491143.36it/s]


Success: 0/489
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\07.터미널\03.터미널_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 486/486 [00:00<00:00, 487663.10it/s]


Success: 0/486
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\08.공사장


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\08.공사장\01.실외공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████| 486/486 [00:00<00:00, 487779.79it/s]


Success: 0/486
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\08.공사장\02.실내공사장


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 482/482 [00:00<?, ?it/s]


Success: 0/482
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\08.공사장\03.공사장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 507/507 [00:00<00:00, 508856.69it/s]


Success: 0/507
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\09.공장


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\09.공장\01.가공공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 509/509 [00:00<?, ?it/s]


Success: 0/509
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\09.공장\02.조립공정


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 486/486 [00:00<?, ?it/s]


Success: 0/486
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\09.공장\03.공장_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 510/510 [00:00<?, ?it/s]


Success: 0/510
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\10.일반자연


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\10.일반자연\01.빗소리


Rasampling files in progress: 100%|██████████████████████████████████████████████| 507/507 [00:00<00:00, 508734.96it/s]


Success: 0/507
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\10.일반자연\02.파도


Rasampling files in progress: 100%|██████████████████████████████████████████████████████████| 487/487 [00:00<?, ?it/s]


Success: 0/487
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\10.일반자연\03.일반자연_기타소음


Rasampling files in progress: 100%|██████████████████████████████████████████████| 488/488 [00:00<00:00, 489669.94it/s]


Success: 0/488
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\11.복합소음


Rasampling files in progress: 0it [00:00, ?it/s]


Success: 0/0
Processing: D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset\01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원


Rasampling files in progress: 100%|███████████████████████████████████████████| 1528/1528 [00:00<00:00, 1532862.12it/s]

Success: 0/1528
Done!





In [13]:
import pandas as pd

# Data
data = {
    'file_name': wav_filepath_list,
    'text': text_list
}

# Dataframe
df = pd.DataFrame(data)

# Save CSV file
df.to_csv('D:/01 서울시립대학교/03 5학년 2학기/03 컴퓨터종합설계/Saveset/metadata.csv', index=False)

In [14]:
df

Unnamed: 0,file_name,text
0,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",와 진짜. 아니 근데 썸머 그 사람 여자친구 있었어? 아니 무슨 맨날 뭐 인터뷰하고...
1,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",아니 나는 불만 같은 거 없어. 그리고 이 에르메스 커피 잔. 내가 귀하게 마련한 ...
2,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",혹시 그 과목이 프로이트와 관련된 과목은 아니겠죠?
3,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",그 꿈 제가 응원할게요. 그리고 대게 꼭 사줘요.
4,"01.데이터\2.Validation\원천데이터\01.가전소음\01.세탁기,건조기\0...",갯벌 체험은 그렇고 혹시 해외 여행은 어딜 가고 싶어?
...,...,...
17464,01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원\...,네 맞습니다. 제가 그 장소를 굉장히 좋아하거든요. 제가 높은 데를 좋아해서 갤러리...
17465,01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원\...,그렇구나. 나는 거의 그 시간에 딱 맞춰 나가는 타입이야. 남을 기다리게 하는 것도...
17466,01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원\...,예전에 100 일도 잔치를 했었잖아요. 이제는 아이가 태어난 지 100 일이 되어도...
17467,01.데이터\2.Validation\원천데이터\11.복합소음\01.2가지이상소음원\...,가지치기라는 말이 어떤 의미인 거예요?


In [1]:
from transformers import WhisperTokenizer

In [2]:
tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-small", language="Korean", task="transcribe")

In [3]:
tokenizer("근데 70%가 140 벌면 빡셀걸?").input_ids

[50258,
 50264,
 50359,
 50363,
 5792,
 1870,
 2336,
 5285,
 4,
 1453,
 21548,
 7307,
 2457,
 2708,
 5005,
 94,
 6961,
 222,
 14562,
 30,
 50257]