### Default

In [1]:
import pandas as pd
import numpy as np

# CSV 파일 경로
csv_path = "./roblox_under_30s_full.csv"

# CSV 파일 읽기
df = pd.read_csv(csv_path)

# 'sliced_audio_path' 및 'description' 열 선택
df = df[['sliced_audio_path', 'description']]

# 데이터를 무작위로 섞기
df = df.sample(frac=1).reset_index(drop=True)

# 데이터를 90% 훈련, 10% 평가로 분할
split_index = int(0.9 * len(df))
train_df = df[:split_index]
eval_df = df[split_index:]

# 결과 출력
print("Train Dataset:")
print(train_df.head())
print("\nEval Dataset:")
print(eval_df.head())

# 필요하다면 CSV 파일로 저장
train_df.to_csv('train_dataset.csv', index=False)
eval_df.to_csv('eval_dataset.csv', index=False)


Train Dataset:
                                   sliced_audio_path  \
0  /workspace/youtube_audio_storage/sliced_audios...   
1  /workspace/youtube_audio_storage/sliced_audios...   
2  /workspace/youtube_audio_storage/sliced_audios...   
3  /workspace/youtube_audio_storage/sliced_audios...   
4  /workspace/youtube_audio_storage/sliced_audios...   

                                         description  
0  The sound of a guitar being strummed in the ba...  
1  First, a series of electronic bleeping noises ...  
2  Someone is singing into a microphone, starting...  
3  First, there is a slight static hum on the mic...  
4  Resampled and processed cymbal crash with dela...  

Eval Dataset:
                                       sliced_audio_path  \
83555  /workspace/youtube_audio_storage/sliced_audios...   
83556  /workspace/youtube_audio_storage/sliced_audios...   
83557  /workspace/youtube_audio_storage/sliced_audios...   
83558  /workspace/youtube_audio_storage/sliced_audios...   
835

### Filter under 10s

In [1]:
import pandas as pd
from pydub import AudioSegment

# 데이터 로드
df = pd.read_csv("./roblox_under_30s_full.csv")

# 'sliced_audio_path' 및 'description' 열 선택
df = df[['sliced_audio_path', 'description']]

# 5초 미만인 음원의 인덱스 수집
under_5_seconds_indices = []
for idx, row in df.iterrows():
    try:
        #import time
        #st = time.time()
        #audio = AudioSegment.from_file(row['sliced_audio_path'])
        from audiotools import AudioSignal
        audio = AudioSignal(row['sliced_audio_path'])
        #print(time.time()-st)
        if audio.signal_duration < 5:  # 5초는 5000밀리초
         #   print(audio.signal_duration)
            under_5_seconds_indices.append(idx)
    except:
        continue  # 파일 로드 실패 시, 무시




In [2]:
# 필터링된 인덱스를 사용하여 새로운 데이터프레임 생성
df_under_5s = df.loc[under_5_seconds_indices]

# 필터링된 데이터 저장
df_under_5s.to_csv('roblox_under_5s.csv', index=False)


In [3]:
import pandas as pd
import numpy as np

# CSV 파일 경로
csv_path = "./roblox_under_5s.csv"

# CSV 파일 읽기
df = pd.read_csv(csv_path)

# 'sliced_audio_path' 및 'description' 열 선택
df = df[['sliced_audio_path', 'description']]

# 데이터를 무작위로 섞기
df = df.sample(frac=1).reset_index(drop=True)

# 데이터를 90% 훈련, 10% 평가로 분할
split_index = int(0.9 * len(df))
train_df = df[:split_index]
eval_df = df[split_index:]

# 결과 출력
print("Train Dataset:")
print(train_df.head())
print("\nEval Dataset:")
print(eval_df.head())

# 필요하다면 CSV 파일로 저장
train_df.to_csv('train_dataset.csv', index=False)
eval_df.to_csv('eval_dataset.csv', index=False)

Train Dataset:
                                   sliced_audio_path  \
0  /workspace/youtube_audio_storage/sliced_audios...   
1  /workspace/youtube_audio_storage/sliced_audios...   
2  /workspace/youtube_audio_storage/sliced_audios...   
3  /workspace/youtube_audio_storage/sliced_audios...   
4  /workspace/youtube_audio_storage/sliced_audios...   

                                         description  
0  A sustained whoosh of wind followed by rustlin...  
1  The sound of water splashing like a fountain o...  
2  The sound of a laser beam shooting through the...  
3  The audio starts with a hard object being rubb...  
4  The audio starts with a high-pitched squeal of...  

Eval Dataset:
                                       sliced_audio_path  \
42984  /workspace/youtube_audio_storage/sliced_audios...   
42985  /workspace/youtube_audio_storage/sliced_audios...   
42986  /workspace/youtube_audio_storage/sliced_audios...   
42987  /workspace/youtube_audio_storage/sliced_audios...   
429

In [4]:
len(train_df)

42984

### SFX epidemic beep

In [6]:
import os
import pandas as pd

# .wav 파일들이 있는 폴더 경로
folder_path = "/workspace/SFX_epidemic"

# 폴더 내의 모든 .wav 파일들의 절대 경로 찾기
wav_files = [os.path.join(folder_path, file) for file in os.listdir(folder_path) if file.endswith('.wav')]

# 데이터프레임 생성
df = pd.DataFrame({
    'sliced_audio_path': wav_files,
    'description': ['beep sound effects'] * len(wav_files)
})

# CSV 파일로 저장
csv_output_path = 'sfx_epidemic_sounds.csv'
df.to_csv(csv_output_path, index=False)

print(f"CSV file saved as {csv_output_path}")


CSV file saved as sfx_epidemic_sounds.csv


In [7]:
import pandas as pd
import numpy as np

# CSV 파일 경로
csv_path = "./sfx_epidemic_sounds.csv"

# CSV 파일 읽기
df = pd.read_csv(csv_path)

# 'sliced_audio_path' 및 'description' 열 선택
df = df[['sliced_audio_path', 'description']]

# 데이터를 무작위로 섞기
df = df.sample(frac=1).reset_index(drop=True)

# 데이터를 90% 훈련, 10% 평가로 분할
split_index = int(0.9 * len(df))
train_df = df[:split_index]
eval_df = df[split_index:]

# 결과 출력
print("Train Dataset:")
print(train_df.head())
print("\nEval Dataset:")
print(eval_df.head())

# 필요하다면 CSV 파일로 저장
train_df.to_csv('train_dataset.csv', index=False)
eval_df.to_csv('eval_dataset.csv', index=False)

Train Dataset:
                                   sliced_audio_path         description
0  /workspace/SFX_epidemic/ES_Beep Tone Readout 8...  beep sound effects
1  /workspace/SFX_epidemic/ES_PREL Glitch Short 1...  beep sound effects
2  /workspace/SFX_epidemic/ES_PREL Data FX 112 - ...  beep sound effects
3  /workspace/SFX_epidemic/ES_Multimedia Action 2...  beep sound effects
4  /workspace/SFX_epidemic/ES_Multimedia Notify 6...  beep sound effects

Eval Dataset:
                                      sliced_audio_path         description
1082  /workspace/SFX_epidemic/ES_Multimedia 768 - SF...  beep sound effects
1083  /workspace/SFX_epidemic/ES_Multimedia Alarm 68...  beep sound effects
1084  /workspace/SFX_epidemic/ES_Multimedia 735 - SF...  beep sound effects
1085  /workspace/SFX_epidemic/ES_Beep Tone Signal 57...  beep sound effects
1086  /workspace/SFX_epidemic/ES_MM Notification 14 ...  beep sound effects


### Epidemic SFX

In [3]:
import os
import pandas as pd

# 기본 폴더 경로 설정
base_folder_path = "/workspace/epidemic_audios"

# 모든 하위 폴더 목록 가져오기
subfolders = [f.name for f in os.scandir(base_folder_path) if f.is_dir()]

# 데이터프레임 생성
df = pd.DataFrame(columns=['sliced_audio_path', 'description'])


# 각 하위 폴더에서 .wav 파일을 찾아서 데이터프레임에 추가
for subfolder in subfolders:
    folder_path = os.path.join(base_folder_path, subfolder)
    wav_files = [os.path.join(folder_path, file) for file in os.listdir(folder_path) if file.endswith('.wav')]
    descriptions = [subfolder] * len(wav_files)
    
    sub_df = pd.DataFrame({
        'sliced_audio_path': wav_files,
        'description': descriptions
    })
    
    df = pd.concat([df, sub_df], ignore_index=True)

# CSV 파일로 저장
csv_output_path = 'sfx_epidemic_sounds.csv'
df.to_csv(csv_output_path, index=False)

print(f"CSV file saved as {csv_output_path}")


CSV file saved as sfx_epidemic_sounds.csv


### Epidemic SFX under 5s

In [1]:
import pandas as pd

# 데이터 로드
df = pd.read_csv("./sfx_epidemic_sounds.csv")

# 'sliced_audio_path' 및 'description' 열 선택
df = df[['sliced_audio_path', 'description']]

# 5초 미만인 음원의 인덱스 수집
under_5_seconds_indices = []
for idx, row in df.iterrows():
    try:
        from audiotools import AudioSignal
        audio = AudioSignal(row['sliced_audio_path'])
        if audio.signal_duration < 5:  # 5초는 5000밀리초
            #print(audio.signal_duration)
            under_5_seconds_indices.append(idx)
    except:
        continue  # 파일 로드 실패 시, 무시


In [2]:
# 필터링된 인덱스를 사용하여 새로운 데이터프레임 생성
df_under_5s = df.loc[under_5_seconds_indices]

# 필터링된 데이터 저장
df_under_5s.to_csv('epidemic_under_5s.csv', index=False)

In [7]:
len(df_under_5s)

45224

### Filter voice

In [11]:
import pandas as pd

# 기존 CSV 파일 경로
csv_input_path = './epidemic_under_5s.csv'

# CSV 파일 불러오기
df = pd.read_csv(csv_input_path)

# 'description' 열에 'voice' 워딩이 포함되지 않은 행 필터링
filtered_df = df[~df['description'].str.contains('voice', case=False, na=False)]

# 새로운 CSV 파일로 저장
csv_output_path = 'filtered_epidemic_sounds_5s.csv'
filtered_df.to_csv(csv_output_path, index=False)

print(f"Filtered CSV file saved as {csv_output_path}")


Filtered CSV file saved as filtered_epidemic_sounds_5s.csv


In [12]:
len(filtered_df)

42768

### split train&eval

In [6]:
import pandas as pd
import numpy as np

# CSV 파일 경로
csv_path = "./epidemic_under_1s.csv"

# CSV 파일 읽기
df = pd.read_csv(csv_path)

# 'description' 열에서 "misc-" 문자열 제거
df['description'] = df['description'].str.replace("misc-", "")

# 'sliced_audio_path' 및 'description' 열 선택
df = df[['sliced_audio_path', 'description']]

# 데이터를 무작위로 섞기
df = df.sample(frac=1).reset_index(drop=True)

# 데이터를 90% 훈련, 10% 평가로 분할
split_index = int(0.9 * len(df))
train_df = df[:split_index]
eval_df = df[split_index:]

# 결과 출력
print("Train Dataset:")
print(train_df.head())
print("\nEval Dataset:")
print(eval_df.head())

# 필요하다면 CSV 파일로 저장
train_df.to_csv('train_dataset.csv', index=False)
eval_df.to_csv('eval_dataset.csv', index=False)

Train Dataset:
                                   sliced_audio_path description
0  /workspace/epidemic_audios/bullets/q2Gf0tCzfI.wav     bullets
1    /workspace/epidemic_audios/beeps/phbOS7fLhB.wav       beeps
2   /workspace/epidemic_audios/stings/2jOMUiIBUA.wav      stings
3  /workspace/epidemic_audios/fight-hit/BMZf7ai7j...   fight-hit
4   /workspace/epidemic_audios/chimes/jFFpaj2wXE.wav      chimes

Eval Dataset:
                                       sliced_audio_path  \
21817  /workspace/epidemic_audios/splashes/CVE3rhhd2O...   
21818  /workspace/epidemic_audios/misc-whooshes/R9hOC...   
21819  /workspace/epidemic_audios/pistols/BTUbWNfWxC.wav   
21820    /workspace/epidemic_audios/rocks/6XVk2dUUwJ.wav   
21821  /workspace/epidemic_audios/metal-scrapes-squea...   

                 description  
21817               splashes  
21818               whooshes  
21819                pistols  
21820                  rocks  
21821  metal-scrapes-squeaks  


In [3]:
df['description']

0          zippers
1          zippers
2          zippers
3          zippers
4          zippers
           ...    
24237    arcs-zaps
24238    arcs-zaps
24239    arcs-zaps
24240    arcs-zaps
24241    arcs-zaps
Name: description, Length: 24242, dtype: object

In [1]:
import pandas as pd
import numpy as np

# CSV 파일 경로
csv_path = "./epidemic_under_1s.csv"

# CSV 파일 읽기
df = pd.read_csv(csv_path)

# 'description' 열에서 "misc-" 문자열 제거
df['description'] = df['description'].str.replace("misc-", "")

# Filter for rows where 'description' is 'zipper'
zipper_df = df[df['description'] == 'footsteps']

# 데이터를 무작위로 섞기
zipper_df = zipper_df.sample(frac=1).reset_index(drop=True)

# 데이터를 90% 훈련, 10% 평가로 분할
split_index = int(0.9 * len(zipper_df))
train_zipper_df = zipper_df[:split_index]
eval_zipper_df = zipper_df[split_index:]

# 결과 출력
print("Train Zipper Dataset:")
print(train_zipper_df.head())
print("\nEval Zipper Dataset:")
print(eval_zipper_df.head())

# 필요하다면 CSV 파일로 저장
train_zipper_df.to_csv('train_dataset_footstep.csv', index=False)
eval_zipper_df.to_csv('eval_dataset_footstep.csv', index=False)


Train Zipper Dataset:
                                   sliced_audio_path description
0  /workspace/epidemic_audios/footsteps/oaVqTzCzr...   footsteps
1  /workspace/epidemic_audios/footsteps/feOmvDOhw...   footsteps
2  /workspace/epidemic_audios/footsteps/dKXCcfGAY...   footsteps
3  /workspace/epidemic_audios/footsteps/GooAsCL8C...   footsteps
4  /workspace/epidemic_audios/footsteps/sv47TJgX5...   footsteps

Eval Zipper Dataset:
                                     sliced_audio_path description
534  /workspace/epidemic_audios/footsteps/Illg9pZlk...   footsteps
535  /workspace/epidemic_audios/footsteps/yPoxLIivr...   footsteps
536  /workspace/epidemic_audios/footsteps/q9CiIv3Qf...   footsteps
537  /workspace/epidemic_audios/footsteps/PoMpPdSHy...   footsteps
538  /workspace/epidemic_audios/footsteps/EfmsOZdP5...   footsteps


### combine finetuning csv

In [None]:
import pandas as pd

# 파일 경로 정의
file_paths = [
    "csv_files/updated_captions_part1.csv",
    "csv_files/updated_captions_part2.csv",
    "csv_files/updated_captions_part3.csv"
]

# 각 파일을 DataFrame으로 읽어서 리스트에 저장
dataframes = [pd.read_csv(file) for file in file_paths]

# 모든 DataFrame을 하나로 결합
combined_df = pd.concat(dataframes, ignore_index=True)

# 결합된 데이터를 새 파일로 저장
combined_df.to_csv("csv_files/combined_updated_captions.csv", index=False)

### train/valid split

In [1]:
import pandas as pd

# 파일 읽기
csv_path = "../csv_files/combined_updated_captions.csv"
df = pd.read_csv(csv_path)

# 데이터를 90% 훈련, 10% 평가로 분할
split_index = int(0.95 * len(df))
train_df = df[:split_index]
eval_df = df[split_index:]

# 결과 출력
print("Train Dataset:")
print(train_df.head())
print("\nEval Dataset:")
print(eval_df.head())

# 필요하다면 CSV 파일로 저장
train_df.to_csv('../csv_files/train_dataset_combined_captions.csv', index=False)
eval_df.to_csv('../csv_files/eval_dataset_combined_captions.csv', index=False)


Train Dataset:
                                          audio_path  \
0  /workspace/data/epidemic-audios/zippers/zLG5Ns...   
1  /workspace/data/epidemic-audios/zippers/yujEXP...   
2  /workspace/data/epidemic-audios/zippers/yX8U8O...   
3  /workspace/data/epidemic-audios/zippers/wdl5Oo...   
4  /workspace/data/epidemic-audios/zippers/uYp71C...   

                                             caption  
0     The sound of a zipper being opened and closed.  
1                The sound of a zipper being opened.  
2                            Audio of a dog barking.  
3  The sound of a whip being cracked and flying t...  
4                           The sound of flatulence.  

Eval Dataset:
                                              audio_path  \
59797  /workspace/data/roblox-audios/roblox_audio_493...   
59798  /workspace/data/roblox-audios/roblox_audio_493...   
59799  /workspace/data/roblox-audios/roblox_audio_493...   
59800  /workspace/data/roblox-audios/roblox_audio_493...   
598

In [2]:
import pandas as pd

# 파일 경로
csv_path = "../csv_files/eval_dataset_combined_captions.csv"

# CSV 파일 읽기
df = pd.read_csv(csv_path)

# 'caption' 열의 null이나 None 값을 <Random>으로 채우기
df['caption'] = df['caption'].fillna('<Random>')

# 동일한 파일명으로 덮어쓰기
df.to_csv(csv_path, index=False)