In [None]:
# JSON 파일들이 있는 폴더 경로
input_folder = "문장 중복제거 파일들이 있는 폴더"
output_folder = "정제한 파일들이 저장될 폴더"

# 출력 폴더가 없으면 생성
os.makedirs(output_folder, exist_ok=True)

# 파일 이름에 따라 문장에서 제거할 금지어 목록 정의
filter_keywords = {
    "10": ["클럽", "결혼", "술", "군대", "출근", "직장", ...],
    "20": ["등교", "등급", "교장", "초등학생", "선생", "문센", ...],
    "30": ["동아리", "교수", "등교", "교장", "몰컴", ...],
    "40": ["어쩔티비", "대딩", "카트라이더", "시험공부", ...],
    "50이상": ["엄카", "방탈출카페", "킹정", "개꿀맛", "리그오브레전드", ...],
    "남성": ["남친", "남사친", "시아버지", "화장품","시월드",...],
    "여성": ["여친", "여사친", "군대", "입대", ...]
}

# 입력 폴더 내 모든 JSON 파일 반복 처리
for filename in os.listdir(input_folder):
    if filename.endswith(".json"):
        input_path = os.path.join(input_folder, filename)
        output_path = os.path.join(output_folder, filename)

        # JSON 파일 열기 (유효하지 않은 JSON은 건너뜀)
        with open(input_path, "r", encoding="utf-8") as f:
            try:
                data = json.load(f)
            except json.JSONDecodeError:
                print(f"{filename} is not a valid JSON file. Skipped.")
                continue

        # 파일명에 포함된 키워드를 기준으로 해당 금지어 목록을 수집
        applicable_keywords = []
        for key, keywords in filter_keywords.items():
            if key in filename:
                applicable_keywords.extend(keywords)

        # slang_sentence 또는 standard_sentence에 금지어가 포함된 항목 제거
        filtered_data = []
        for entry in data:
            text = entry.get("slang_sentence", "") + entry.get("standard_sentence", "")
            if not any(keyword in text for keyword in applicable_keywords):
                filtered_data.append(entry)

        # 결과를 출력 폴더에 저장
        with open(output_path, "w", encoding="utf-8") as f:
            json.dump(filtered_data, f, ensure_ascii=False, indent=2)

        # 처리 로그 출력
        print(f"{filename}: {len(data)}개 -> {len(filtered_data)}개로 필터링됨.")

# 전체 처리 완료 메시지 출력
print("모든 파일 처리 완료.")