In [None]:
# ----------------txt------------- 파일에 대한 전처리 확인

import os
import re

# 데이터셋 경로
data_dir = "/data/seungmin/dataset/k-12_preprocessed"

# 허용된 문장부호 (기본적인 문장부호 . , ? ! 만 허용)
allowed_punctuation = set(". , ? !")

# 특수문자 검출 함수
def has_unwanted_symbols(text):
    # 알파벳, 숫자, 공백, 허용된 문장부호를 제외한 모든 문자 찾기
    unwanted_chars = re.findall(r"[^A-Za-z0-9\s.,?!]", text)
    return set(unwanted_chars) if unwanted_chars else None

# 특수기호가 포함된 파일 카운트
files_with_symbols = []
unwanted_symbols_set = set()  # 발견된 특수기호 저장

for root, _, files in os.walk(data_dir):
    for file in files:
        if file.endswith('.txt') and not file.startswith('._'):
            txt_file_path = os.path.join(root, file)

            with open(txt_file_path, 'r', encoding='utf-8') as f:
                text = f.read().strip()

            symbols = has_unwanted_symbols(text)
            if symbols:
                files_with_symbols.append(txt_file_path)
                unwanted_symbols_set.update(symbols)

# 결과 출력
print("특수기호가 포함된 파일 개수:", len(files_with_symbols))
print("발견된 특수기호:", unwanted_symbols_set)
print("샘플 파일 목록:", files_with_symbols[:5])  # 일부 샘플만 출력


📌 특수기호가 포함된 파일 개수: 0
🔍 발견된 특수기호: set()
📝 샘플 파일 목록: []


In [3]:
# ----------------json------------- 파일에 대한 전처리 확인

import os
import re
import json

# 데이터셋 경로
data_dirs = ["/data/seungmin/dataset/kr_univ_training_processed/number_and_english",
            "/data/seungmin/dataset/kr_univ_training_processed/number_or_english",
            "/data/seungmin/dataset/kr_univ_validation_processed/number_and_english",
            "/data/seungmin/dataset/kr_univ_validation_processed/number_or_english",]

# 허용된 문장부호 (. , ? ! 만 허용)
allowed_punctuation = set(". , ? !")

# 특수문자 검출 함수 (한글 허용 추가)
def has_unwanted_symbols(text):
    # 알파벳, 숫자, 한글, 공백, 허용된 문장부호를 제외한 모든 문자 찾기
    unwanted_chars = re.findall(r"[^A-Za-z0-9가-힣\s.,?!]", text)
    return set(unwanted_chars) if unwanted_chars else None

# 특수기호가 포함된 파일 카운트
files_with_symbols = []
unwanted_symbols_set = set()  # 발견된 특수기호 저장

for data_dir in data_dirs:
    for root, _, files in os.walk(data_dir):
        for file in files:
            if file.endswith('.json') and not file.startswith('._'):
                json_file_path = os.path.join(root, file)

                with open(json_file_path, 'r', encoding='utf-8') as f:
                    data = json.load(f)

                # "1_text" 필드가 있는 경우에만 검사
                if "06_transcription" in data and "1_text" in data["06_transcription"]:
                    text = data["06_transcription"]["1_text"].strip()

                    symbols = has_unwanted_symbols(text)
                    if symbols:
                        files_with_symbols.append(json_file_path)
                        unwanted_symbols_set.update(symbols)

# 결과 출력
print("특수기호가 포함된 JSON 파일 개수:", len(files_with_symbols))
print("발견된 특수기호:", unwanted_symbols_set)
print("샘플 JSON 파일 목록:", files_with_symbols[:5])  # 일부 샘플만 출력


📌 특수기호가 포함된 JSON 파일 개수: 2178
🔍 발견된 특수기호: {'_', '℃', '=', '△', '\\', 'ㅛ', '`', '－', 'ω', '㎡', '√', '𝑠', '€', '>', 'ㅇ', 'ㄴ', '&', 'Δ', '%', 'θ', '~', '𝝿', '°', 'σ', '˚', '㎜', '÷', 'π', ')', '$', 'º', 'ㅎ', '㎥', 'δ', '㎞', '-', '＋', '×', 'ㅊ', 'μ', '𝑨', '#', 'ㅅ', 'τ', '(', '²', '∞', '–'}
📝 샘플 JSON 파일 목록: ['/data/seungmin/dataset/kr_univ_training_processed/number_and_english/arch_C03105_U00678.json', '/data/seungmin/dataset/kr_univ_training_processed/number_and_english/arch_C02299_U00488.json', '/data/seungmin/dataset/kr_univ_training_processed/number_and_english/arch_C06621_U00502.json', '/data/seungmin/dataset/kr_univ_training_processed/number_and_english/arch_C03105_U00660.json', '/data/seungmin/dataset/kr_univ_training_processed/number_and_english/arch_C03971_U00113.json']
