<a href="https://colab.research.google.com/github/Yewon9/STT_JEJU/blob/main/Data_Preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# IMPORT

In [33]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [35]:
import json
import pandas as pd
import os
from tqdm import tqdm

# DATA

## wav 기준 df 생성

In [42]:
wav_dirs = ['/content/drive/MyDrive/JEJU/data/wav/TL_02', '/content/drive/MyDrive/JEJU/data/wav/VL_01']
json_dirs = ['/content/drive/MyDrive/JEJU/data/json/TL_02', '/content/drive/MyDrive/JEJU/data/json/VL_01']

In [43]:
def extract_dialect_and_standard(json_path):
    with open(json_path, 'r', encoding='utf-8') as f:
        data = json.load(f)

    # 방언 (dialect)와 표준어 (standard)를 병합하여 텍스트 생성
    dialect_list = []
    standard_list = []

    for segment in data['transcription']['segments']:
        dialect_list.append(segment['dialect'])  # 실제 발화된 방언
        standard_list.append(segment['standard'] if segment['standard'] else segment['dialect'])  # 표준어가 없으면 방언 그대로

    dialect_text = ' '.join(dialect_list)  # 방언 병합
    standard_text = ' '.join(standard_list)  # 표준어 병합

    return dialect_text, standard_text

In [44]:
data_list = []

In [47]:
for wav_dir, json_dir in zip(wav_dirs, json_dirs):
    for wav_file in tqdm(os.listdir(wav_dir), desc=f"Processing {wav_dir}"):
        if wav_file.endswith(".wav"):
            wav_file_name = os.path.splitext(wav_file)[0]
            json_file = f"{wav_file_name}.json"
            json_path = os.path.join(json_dir, json_file)
            wav_path = os.path.join(wav_dir, wav_file)

            # json 파일이 존재하는 경우만 처리
            if os.path.exists(json_path):
                # 방언과 표준어 텍스트 추출
                dialect_text, standard_text = extract_dialect_and_standard(json_path)

                # DataFrame에 추가
                data_list.append({"Path": wav_path, "Text": dialect_text, "Standard Text": standard_text})

Processing /content/drive/MyDrive/JEJU/data/wav/TL_02: 100%|██████████| 7844/7844 [10:58<00:00, 11.92it/s]
Processing /content/drive/MyDrive/JEJU/data/wav/VL_01: 100%|██████████| 4498/4498 [00:15<00:00, 286.74it/s]


In [51]:
df = pd.DataFrame(data_list)
df

Unnamed: 0,Path,Text,Standard Text
0,/content/drive/MyDrive/JEJU/data/wav/TL_02/say...,여름에 보양식은 그 동네에서 보면 그 자리들 잡아가지고 된장에 풀어가지고 생된장에 ...,여름에 보양식은 그 동네에서 보면 그 자리돔들 잡아서 된장에 풀어서 생된장에 풀어서...
1,/content/drive/MyDrive/JEJU/data/wav/TL_02/say...,태풍은 나 중학교 땐가 정확하게 기억은 잘 안 나는디 옛날에 해가지고는 엄청나게 사...,태풍은 나 중학교 때인가 정확하게 기억은 잘 안 나는데 옛날에 해가지고는 엄청나게 ...
2,/content/drive/MyDrive/JEJU/data/wav/TL_02/say...,그추룩헹은에 이제 제사 지낸 지가 한 이제 오 년 정도 됐신디예 어떵 하다 보니까 ...,그렇게 해서 이제 제사 지낸 지가 한 이제 오 년 정도 됐는데요 어떻게 하다 보니까...
3,/content/drive/MyDrive/JEJU/data/wav/TL_02/say...,어 여기는 지금 농작물은 농사를 뭐 밭농사랑 뭐 과수원 같은 거 많이 하니까 뭐 이...,어 여기는 지금 농작물은 농사를 뭐 밭농사랑 뭐 과수원 같은 거 많이 하니까 뭐 이...
4,/content/drive/MyDrive/JEJU/data/wav/TL_02/say...,우리는 형제 자매가 많아 가지고 옛날이라부난 옛날에 어른들은 게 아이들 형제들 네 ...,우리는 형제 자매가 많아 가지고 옛날이다보니까 옛날에 어른들은 게 아이들 형제들 네...
...,...,...,...
12337,/content/drive/MyDrive/JEJU/data/wav/VL_01/st_...,이제 눈 어두웡 바농귀 끼지 못행 바농질 못 하켜,이제 눈 어두워서 바늘귀 꿰지 못해서 바느질 못 하겠어
12338,/content/drive/MyDrive/JEJU/data/wav/VL_01/st_...,밧디서 나록을 비민 무껑 그 나록뭇을 쉐에 시껑 집이 왓저,밭에서 벼를 베면 묶어서 그 볏단을 소에 싣고 집에 왔지
12339,/content/drive/MyDrive/JEJU/data/wav/VL_01/st_...,일 끗나거덜랑 어드레 가지 말앙 고짝 집더레 옵서예,일 끝나거든 어디 가지 말고 곧장 집으로 오세요
12340,/content/drive/MyDrive/JEJU/data/wav/VL_01/st_...,나가 그자 온 것이 아니고 이 집이 큰똘을 중진허젠 허로 왓수다,내가 그냥 온 것이 아니고 이 집이 큰딸을 중신하려고 하러 왔습니다


In [49]:
df.to_csv("df.csv", index=False, encoding="utf-8-sig")

In [52]:
df = df[df['Path'].apply(lambda x: os.path.exists(x))]
df.shape

(12342, 3)

In [53]:
df

Unnamed: 0,Path,Text,Standard Text
0,/content/drive/MyDrive/JEJU/data/wav/TL_02/say...,여름에 보양식은 그 동네에서 보면 그 자리들 잡아가지고 된장에 풀어가지고 생된장에 ...,여름에 보양식은 그 동네에서 보면 그 자리돔들 잡아서 된장에 풀어서 생된장에 풀어서...
1,/content/drive/MyDrive/JEJU/data/wav/TL_02/say...,태풍은 나 중학교 땐가 정확하게 기억은 잘 안 나는디 옛날에 해가지고는 엄청나게 사...,태풍은 나 중학교 때인가 정확하게 기억은 잘 안 나는데 옛날에 해가지고는 엄청나게 ...
2,/content/drive/MyDrive/JEJU/data/wav/TL_02/say...,그추룩헹은에 이제 제사 지낸 지가 한 이제 오 년 정도 됐신디예 어떵 하다 보니까 ...,그렇게 해서 이제 제사 지낸 지가 한 이제 오 년 정도 됐는데요 어떻게 하다 보니까...
3,/content/drive/MyDrive/JEJU/data/wav/TL_02/say...,어 여기는 지금 농작물은 농사를 뭐 밭농사랑 뭐 과수원 같은 거 많이 하니까 뭐 이...,어 여기는 지금 농작물은 농사를 뭐 밭농사랑 뭐 과수원 같은 거 많이 하니까 뭐 이...
4,/content/drive/MyDrive/JEJU/data/wav/TL_02/say...,우리는 형제 자매가 많아 가지고 옛날이라부난 옛날에 어른들은 게 아이들 형제들 네 ...,우리는 형제 자매가 많아 가지고 옛날이다보니까 옛날에 어른들은 게 아이들 형제들 네...
...,...,...,...
12337,/content/drive/MyDrive/JEJU/data/wav/VL_01/st_...,이제 눈 어두웡 바농귀 끼지 못행 바농질 못 하켜,이제 눈 어두워서 바늘귀 꿰지 못해서 바느질 못 하겠어
12338,/content/drive/MyDrive/JEJU/data/wav/VL_01/st_...,밧디서 나록을 비민 무껑 그 나록뭇을 쉐에 시껑 집이 왓저,밭에서 벼를 베면 묶어서 그 볏단을 소에 싣고 집에 왔지
12339,/content/drive/MyDrive/JEJU/data/wav/VL_01/st_...,일 끗나거덜랑 어드레 가지 말앙 고짝 집더레 옵서예,일 끝나거든 어디 가지 말고 곧장 집으로 오세요
12340,/content/drive/MyDrive/JEJU/data/wav/VL_01/st_...,나가 그자 온 것이 아니고 이 집이 큰똘을 중진허젠 허로 왓수다,내가 그냥 온 것이 아니고 이 집이 큰딸을 중신하려고 하러 왔습니다


In [54]:
df.to_csv('df.csv', index = False, encoding = 'utf-8-sig')