In [None]:
import os
import json

# JSON 파일들이 있는 폴더 경로
input_folder = "전처리된 파일들이 있는 폴더"
output_folder = "문장 중복제거 파일들이 저장될 폴더"

# 출력 폴더 생성
os.makedirs(output_folder, exist_ok=True)

# 폴더 내 모든 JSON 파일 반복
for filename in os.listdir(input_folder):
    if filename.endswith(".json"):
        input_path = os.path.join(input_folder, filename)
        output_path = os.path.join(output_folder, filename)

        with open(input_path, "r", encoding="utf-8") as f:
            try:
                data = json.load(f)
            except json.JSONDecodeError:
                print(f"{filename} is not a valid JSON file. Skipped.")
                continue

        ### 1단계: standard_sentence 기준 중복 제거
        seen_standard = set()
        filtered_by_standard = []
        for entry in data:
            standard = entry.get("standard_sentence")
            if standard and standard not in seen_standard:
                seen_standard.add(standard)
                filtered_by_standard.append(entry)

        ### 2단계: slang_sentence 기준 중복 제거
        seen_slang = set()
        final_unique_data = []
        for entry in filtered_by_standard:
            slang = entry.get("slang_sentence")
            if slang and slang not in seen_slang:
                seen_slang.add(slang)
                final_unique_data.append(entry)

        # 결과 저장
        with open(output_path, "w", encoding="utf-8") as f:
            json.dump(final_unique_data, f, ensure_ascii=False, indent=2)

        print(f"{filename}: {len(data)}개 -> {len(filtered_by_standard)}개 (standard 중복 제거) -> {len(final_unique_data)}개 (slang 중복 제거)")

print("모든 파일 처리 완료.")
