In [2]:
from pathlib import Path
import pandas as pd
import re

# === 1) 허용(포함) 대상 하위 품목 리스트 ===
ALLOW_ITEMS_RAW = [
    # 깻잎
    "깻잎(일반)",
    # 미나리
    "미나리(일반)", "돌미나리",
    # 브로콜리
    "뉴그린", "브로콜리 국산",
    # 시금치
    "시금치(일반)", "시금치 (일반)",
    # 애호박/쥬키니
    "쥬키니 호박", "애호박",
    # 양배추
    "양배추(일반)",
    # 양상추
    "양상추(일반)",
    # 오이류
    "취청", "백다다기",
    "쑥갓(일반)",
    # 쪽파
    "쪽파(일반)", "포장쪽파", "깐쪽파",
    # 치커리류
    "치콘", "치커리(일반)", "레드치커리",
    # 느타리버섯류
    "맛느타리버섯", "느타리(일반)",
    # 새송이
    "새송이(일반)",
    # 양송이
    "양송이(일반)",
    # 팽이
    "팽이",
    # 표고
    "표고버섯(일반)",
    # 감자 (수미)
    "수미",
    # 고구마
    "밤고구마", "호박고구마",
    # 단호박
    "단호박",
    # 적채
    "적채(일반)",
    # 토마토류
    "대추방울", "방울토마토", "완숙토마토", "토마토(일반)",
    # 당근
    "당근(일반)",
    # 대파
    "대파(일반)",
    # 양파(가공/계열)
    "깐양파", "만생양파", "자주양파",
    # 고추류 (풋/청양/맛/롱그린 등)
     "녹광", "오이맛고추", "청양", "청초(일반)",
    # 파프리카류
    "노랑파프리카", "빨강파프리카", 
    # 피망류
    "청피망", "홍피망",
    # 건고추/홍청양/홍고추
    "홍청양", "홍고추(일반)",
]

# 후보 세부품목 컬럼명
CANDIDATE_COLS = ["세부 품목", "세부품목", "품목", "품목명"]

# 검색 대상 폴더
SEARCH_ROOTS = [Path("."), Path("./raw/")]

def normalize_text(s: pd.Series) -> pd.Series:
    """
    비교 안정화를 위해 문자열 정규화:
    - 앞뒤 공백 제거
    - 다중 공백 1칸으로
    - 괄호 앞뒤 불필요한 공백 제거: '시금치 (일반)' -> '시금치(일반)'
    """
    s = s.astype(str)
    s = s.str.replace(r"\s+", " ", regex=True).str.strip()
    s = s.str.replace(r"\s+\(", "(", regex=True).str.replace(r"\)\s+", ")", regex=True)
    return s

# 허용 아이템 정규화 셋
ALLOW_SET = set(normalize_text(pd.Series(ALLOW_ITEMS_RAW)).tolist())

# === 2) 입력 파일 수집 (중복 제거) ===
files = []
for root in SEARCH_ROOTS:
    if root.exists():
        for p in sorted(root.glob("*.csv")):
            if not p.name.endswith("_drop.csv"):
                files.append(p.resolve())
files = list(dict.fromkeys(files))

print(f"[INFO] CWD: {Path.cwd().resolve()}")
print(f"[INFO] 찾은 CSV: {len(files)}개")
if not files:
    raise SystemExit("[중지] 처리할 CSV를 찾지 못했습니다. 실행 위치/경로를 확인하세요.")

total_in = total_out = total_kept = 0

for fp in files:
    # === 3) 읽기 (인코딩 폴백)
    try:
        df = pd.read_csv(fp, encoding="utf-8-sig")
    except UnicodeDecodeError:
        df = pd.read_csv(fp, encoding="cp949")

    # 컬럼 공백 제거
    df.columns = df.columns.str.strip()

    # === 4) 세부품목 컬럼 탐지 ===
    target_col = next((c for c in CANDIDATE_COLS if c in df.columns), None)
    if target_col is None:
        print(f"[SKIP] {fp.name}: 세부품목 컬럼을 찾지 못함 -> 보유칼럼 예시: {list(df.columns)[:8]}")
        continue

    before = len(df)

    # 비교용 정규화 컬럼 생성(원본은 유지)
    norm_col = "__세부품목_norm__"
    df[norm_col] = normalize_text(df[target_col])

    # 허용 품목만 필터
    mask = df[norm_col].isin(ALLOW_SET)
    df2 = df.loc[mask].drop(columns=[norm_col]).copy()

    after = len(df2)
    kept = after
    dropped = before - after

    # === 5) 저장 ===
    out_dir = fp.parent / "drop"
    out_dir.mkdir(parents=True, exist_ok=True)
    out_path = out_dir / f"{fp.stem}_drop.csv"
    df2.to_csv(out_path, index=False, encoding="utf-8-sig")

    total_in += before
    total_out += after
    total_kept += kept

    print(f"[OK] {fp.name}: {before} → {after} (드랍 {dropped}행, 유지 {kept}행) | 세부품목컬럼: {target_col} | 저장: {out_path}")

print(f"\n[요약] {len(files)}개 파일 처리 완료. 총 {total_in}행 중 허용 하위품목 {total_kept}행 유지 → {total_out}행 저장")
print("[완료] 각 폴더의 cleaned/ 안을 확인하세요.")


[INFO] CWD: C:\Users\User\Desktop\GDF_Final_G3\GDF_Final_G3\도메인전처리
[INFO] 찾은 CSV: 30개
[OK] 감자garakFix20250903153031726.csv: 40194 → 3654 (드랍 36540행, 유지 3654행) | 세부품목컬럼: 품목명 | 저장: C:\Users\User\Desktop\GDF_Final_G3\GDF_Final_G3\도메인전처리\raw\drop\감자garakFix20250903153031726_drop.csv
[OK] 고구마garakFix20250903153124390.csv: 25578 → 7308 (드랍 18270행, 유지 7308행) | 세부품목컬럼: 품목명 | 저장: C:\Users\User\Desktop\GDF_Final_G3\GDF_Final_G3\도메인전처리\raw\drop\고구마garakFix20250903153124390_drop.csv
[OK] 깻잎garakFix20250903152736026.csv: 10962 → 3654 (드랍 7308행, 유지 3654행) | 세부품목컬럼: 품목명 | 저장: C:\Users\User\Desktop\GDF_Final_G3\GDF_Final_G3\도메인전처리\raw\drop\깻잎garakFix20250903152736026_drop.csv
[OK] 느타리버섯garakFix20250903151558966.csv: 14616 → 3654 (드랍 10962행, 유지 3654행) | 세부품목컬럼: 품목명 | 저장: C:\Users\User\Desktop\GDF_Final_G3\GDF_Final_G3\도메인전처리\raw\drop\느타리버섯garakFix20250903151558966_drop.csv
[OK] 단호박garakFix20250903153106255.csv: 7308 → 3654 (드랍 3654행, 유지 3654행) | 세부품목컬럼: 품목명 | 저장: C:\Users\User\Desktop\GDF_Final_G3\GDF_