In [None]:
# ----------------txt------------- 파일에 대한 전처리 ##############

import os
import re

base_path = "/data/seungmin/dataset/k-12_processed/number_or_english"

def preprocess_text(text):
    # 괄호 표현 처리: (alpha)/(알파) → 알파
    text = re.sub(r"\((.*?)\)/\((.*?)\)", r"\2", text)

    # 말더듬음 및 발화 습관 (예: b/, n/, u/) 제거
    text = re.sub(r"\b[a-zA-Z]+/", "", text)

    # 문장부호(. , ? !)를 제외한 특수문자 제거 (+ / * 등)
    text = re.sub(r"[+/*;:'\"]", "", text)

    # 공백 정리
    text = re.sub(r"\s+", " ", text)

    return text.strip()

# 디렉토리 내 모든 txt 파일 전처리 및 덮어쓰기
for filename in os.listdir(base_path):
    if filename.endswith(".txt"):  # .txt 파일만 처리
        file_path = os.path.join(base_path, filename)
        
        # 기존 파일 읽기
        with open(file_path, "r", encoding="utf-8") as f:
            original_text = f.read()
        
        # 전처리 적용
        processed_text = preprocess_text(original_text)

        # 원본 파일 덮어쓰기
        with open(file_path, "w", encoding="utf-8") as f:
            f.write(processed_text)

        print(f"{filename} 처리 완료 및 덮어쓰기 완료")

print("\n 모든 텍스트 파일 전처리 완료 및 덮어쓰기 완료")

In [None]:
# ----------------json------------- 파일에 대한 전처리 ##################

import json
import os
import re

# base_path = "/data/seungmin/dataset/k-12_processed/number_or_english"
# base_path = "/data/seungmin/dataset/kr_univ_training_processed/number_or_english"
# base_path = "/data/seungmin/dataset/kr_univ_training_processed/number_and_english"
# base_path = "/data/seungmin/dataset/kr_univ_validation_processed/number_or_english"
base_path = "/data/seungmin/dataset/kr_univ_validation_processed/number_and_english"


def preprocess_text(text):
    # 괄호 표현 처리: (alpha)/(알파) → 알파
    text = re.sub(r"\((.*?)\)/\((.*?)\)", r"\2", text)

    # 말더듬음 및 발화 습관 (예: b/, n/, u/) 제거
    text = re.sub(r"\b[a-zA-Z]+/", "", text)

    # 문장부호(. , ? !)를 제외한 특수문자 제거 (+ / * 등)
    text = re.sub(r"[+/*;:'\"]", "", text)

    # 공백 정리
    text = re.sub(r"\s+", " ", text)

    return text.strip()

# 디렉토리 내 모든 txt 파일 전처리 및 덮어쓰기
for filename in os.listdir(base_path):
    if filename.endswith(".json"):  # .txt 파일만 처리
        file_path = os.path.join(base_path, filename)
        
        # 기존 파일 읽기
        with open(file_path, "r", encoding="utf-8") as f:
            data = json.load(f)
        
        # "1_text" 필드가 존재하는 경우만 전처리 적용
        if "06_transcription" in data and "1_text" in data["06_transcription"]:
            original_text = data["06_transcription"]["1_text"]
            processed_text = preprocess_text(original_text)

            # 변경된 내용 저장
            data["06_transcription"]["1_text"] = processed_text

            # JSON 덮어쓰기
            with open(file_path, "w", encoding="utf-8") as f:
                json.dump(data, f, ensure_ascii=False, indent=4)

            print(f"{filename} 처리 완료 및 덮어쓰기 완료!")

print("\n 모든 JSON 파일 전처리 완료 및 덮어쓰기 완료")


✅ arch_C02870_U00282.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C02587_U00261.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C02193_U00241.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C03974_U00219.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C06620_U00431.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C02709_U00304.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C02870_U00592.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C02251_U00268.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C04004_U00093.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C02861_U00300.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C02841_U00282.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C06613_U00262.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C03974_U00112.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C02633_U00257.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C02251_U00354.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C06620_U00469.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C06620_U00473.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C02709_U00255.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C08330_U00084.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C02861_U00202.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C04006_U00173.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C02870_U00383.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C02709_U00133.json 처리 완료 및 덮어쓰기 완료!
✅ arch_C021