In [9]:
import os
import re
import json

# 데이터셋 경로
data_dirs = [
    "/data/seungmin/dataset/kr_univ_training_processed/number_and_english",
    "/data/seungmin/dataset/kr_univ_training_processed/number_or_english",
    "/data/seungmin/dataset/kr_univ_validation_processed/number_and_english",
    "/data/seungmin/dataset/kr_univ_validation_processed/number_or_english"
]

# 한글 자모 검출 함수
def has_korean_jamo(text):
    return bool(re.search(r"[ㄱ-ㅎㅏ-ㅣ]", text))

# 한글 자모가 포함된 파일 리스트
files_with_jamo = []
detected_jamo_set = set()

for data_dir in data_dirs:
    for root, _, files in os.walk(data_dir):
        for file in files:
            if file.endswith('.json') and not file.startswith('._'):
                json_file_path = os.path.join(root, file)

                # 파일 크기 확인 (빈 파일 건너뛰기)
                if os.path.getsize(json_file_path) == 0:
                    print(f" 빈 파일 발견: {json_file_path}")
                    continue

                try:
                    with open(json_file_path, 'r', encoding='utf-8') as f:
                        raw_data = f.read()

                        # JSON 내용이 비어있는 경우 건너뛰기
                        if not raw_data.strip():
                            print(f"JSON 내용 없음: {json_file_path}")
                            continue

                        # JSON 파싱
                        data = json.loads(raw_data)

                except json.JSONDecodeError as e:
                    print(f" -------------------------JSON 오류: {json_file_path} | {e}-----------------")
                    continue

                # 한글 자모 포함 여부 확인
                if "06_transcription" in data and "1_text" in data["06_transcription"]:
                    text = data["06_transcription"]["1_text"].strip()
                    if has_korean_jamo(text):
                        files_with_jamo.append(json_file_path)
                        detected_jamo_set.update(re.findall(r"[ㄱ-ㅎㅏ-ㅣ]", text))

# 결과 출력
print("한글 자모(ㄱ~ㅎ, ㅏ~ㅣ)가 포함된 JSON 파일 개수:", len(files_with_jamo))
print("발견된 한글 자모 목록:", detected_jamo_set)
print("샘플 JSON 파일 목록:", files_with_jamo[:5])  # 일부 샘플만 출력


📌 한글 자모(ㄱ~ㅎ, ㅏ~ㅣ)가 포함된 JSON 파일 개수: 0
🔍 발견된 한글 자모 목록: set()
📝 샘플 JSON 파일 목록: []


In [10]:
import os
import re
import json

# 데이터셋 경로
data_dirs = [
    "/data/seungmin/dataset/kr_univ_training_processed/number_and_english",
    "/data/seungmin/dataset/kr_univ_training_processed/number_or_english",
    "/data/seungmin/dataset/kr_univ_validation_processed/number_and_english",
    "/data/seungmin/dataset/kr_univ_validation_processed/number_or_english"
]

# 유지할 기호 목록 (수학 기호 포함)
allowed_symbols = set("=.,?!")

# 특수기호 검출 함수
def has_unwanted_symbols(text):
    unwanted_chars = re.findall(r"[^A-Za-z0-9가-힣\s=.,?!]", text)
    return set(unwanted_chars) if unwanted_chars else None

# 특수기호가 포함된 파일 리스트
files_with_symbols = []
detected_symbols_set = set()

for data_dir in data_dirs:
    for root, _, files in os.walk(data_dir):
        for file in files:
            if file.endswith('.json') and not file.startswith('._'):
                json_file_path = os.path.join(root, file)

                with open(json_file_path, 'r', encoding='utf-8') as f:
                    data = json.load(f)

                if "06_transcription" in data and "1_text" in data["06_transcription"]:
                    text = data["06_transcription"]["1_text"].strip()

                    symbols = has_unwanted_symbols(text)
                    if symbols:
                        files_with_symbols.append(json_file_path)
                        detected_symbols_set.update(symbols)

# 결과 출력
print("일반적인 특수기호가 포함된 JSON 파일 개수:", len(files_with_symbols))
print("발견된 특수기호 목록:", detected_symbols_set)
print("샘플 JSON 파일 목록:", files_with_symbols[:5])  # 일부 샘플만 출력


📌 일반적인 특수기호가 포함된 JSON 파일 개수: 2100
🔍 발견된 특수기호 목록: {'㎡', '$', 'Δ', '㎞', '²', '𝑨', '÷', '√', 'σ', '－', '×', '\\', '>', 'ω', 'θ', '𝝿', '%', '∞', 'τ', '-', '＋', '#', '℃', '㎜', 'º', '˚', '€', 'π', '°', 'μ', '–', '𝑠', '㎥', '△', '(', 'δ', '_', ')', '`', '&', '~'}
📝 샘플 JSON 파일 목록: ['/data/seungmin/dataset/kr_univ_training_processed/number_and_english/arch_C03105_U00678.json', '/data/seungmin/dataset/kr_univ_training_processed/number_and_english/arch_C02299_U00488.json', '/data/seungmin/dataset/kr_univ_training_processed/number_and_english/arch_C06621_U00502.json', '/data/seungmin/dataset/kr_univ_training_processed/number_and_english/arch_C03105_U00660.json', '/data/seungmin/dataset/kr_univ_training_processed/number_and_english/arch_C03971_U00113.json']


In [2]:
import os
import re
import json

# 데이터셋 경로
data_dirs = [
    "/data/seungmin/dataset/kr_univ_training_processed/number_and_english",
    "/data/seungmin/dataset/kr_univ_training_processed/number_or_english",
    "/data/seungmin/dataset/kr_univ_validation_processed/number_and_english",
    "/data/seungmin/dataset/kr_univ_validation_processed/number_or_english"
]

# 찾고 싶은 특수기호 입력 (예: 'π' 또는 '°' 등)
target_symbol = "~"  # 원하는 기호로 변경

# 유지할 기호 목록 (수학 기호 포함)
allowed_symbols = set("=.,?!")

# 특수기호 검출 함수
def extract_unwanted_symbols(text):
    return set(re.findall(r"[^A-Za-z0-9가-힣\s=.,?!]", text))

# 특수기호가 포함된 파일 딕셔너리 (기호별로 매핑)
files_with_symbols = {}
detected_symbols_set = set()

for data_dir in data_dirs:
    for root, _, files in os.walk(data_dir):
        for file in files:
            if file.endswith('.json') and not file.startswith('._'):
                json_file_path = os.path.join(root, file)

                try:
                    with open(json_file_path, 'r', encoding='utf-8') as f:
                        data = json.load(f)

                    if "06_transcription" in data and "1_text" in data["06_transcription"]:
                        text = data["06_transcription"]["1_text"].strip()
                        symbols = extract_unwanted_symbols(text)

                        if symbols:
                            detected_symbols_set.update(symbols)
                            for symbol in symbols:
                                if symbol not in files_with_symbols:
                                    files_with_symbols[symbol] = []
                                files_with_symbols[symbol].append(json_file_path)

                except json.JSONDecodeError:
                    print(f"JSON 파일 오류: {json_file_path}")
                except Exception as e:
                    print(f"파일 처리 중 오류 발생: {json_file_path} | {e}")

# 특정 특수기호가 포함된 파일 찾기
matched_files = files_with_symbols.get(target_symbol, [])

# JSON 파일로 저장
output_file = "symbol_files.json"
with open(output_file, "w", encoding="utf-8") as f:
    json.dump(matched_files, f, indent=4, ensure_ascii=False)

# 결과 출력
print(f"'{target_symbol}' 기호가 포함된 JSON 파일 개수: {len(matched_files)}")
print(f"결과 저장: {output_file}")


📌 '~' 기호가 포함된 JSON 파일 개수: 81
📂 결과 저장: symbol_files.json
