In [1]:
# -*- coding: utf-8 -*-
"""
56수민 폴더 안의 적양배추.csv
 - 거래일자 <= 2015-10-19 드랍
 - 품목명 == '적양배추(수입)' 드랍
 - 결과는 '전처리 최종_after_2015-10-19' 폴더에 저장
"""

from pathlib import Path
import pandas as pd

# ----------------- 경로 설정 -----------------
BASE_DIR = Path("/Users/sojinjung/Documents/GitHub/GDF_Final_G3/sojin")
INPUT_PATH = BASE_DIR / "56 수민" / "적양배추.csv"
OUTPUT_DIR = BASE_DIR / "전처리 최종_after_2015-10-19"
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)
OUTPUT_PATH = OUTPUT_DIR / "적양배추_filtered.csv"
# ---------------------------------------------

# 1) CSV 읽기 (인코딩 시도)
try:
    df = pd.read_csv(INPUT_PATH, encoding="utf-8-sig")
except UnicodeDecodeError:
    df = pd.read_csv(INPUT_PATH, encoding="cp949")

# 2) 거래일자 컬럼 파싱
df["거래일자"] = pd.to_datetime(df["거래일자"], errors="coerce")

# 3) 조건 적용
cutoff = pd.Timestamp("2015-10-19")
mask_date = (df["거래일자"].isna()) | (df["거래일자"] > cutoff)   # NaT는 보존
mask_item = df["품목명"] != "적양배추(수입)"

filtered_df = df.loc[mask_date & mask_item].copy()

# 4) 저장
filtered_df.to_csv(OUTPUT_PATH, index=False, encoding="utf-8-sig")

print(f"[완료] {INPUT_PATH.name} → {OUTPUT_PATH}")
print(f"원본 행수: {len(df)}, 필터링 후 행수: {len(filtered_df)}")
print("보존된 최소 거래일자:", filtered_df["거래일자"].min())
print("품목명 목록:", filtered_df['품목명'].unique())


[완료] 적양배추.csv → /Users/sojinjung/Documents/GitHub/GDF_Final_G3/sojin/전처리 최종_after_2015-10-19/적양배추_filtered.csv
원본 행수: 7308, 필터링 후 행수: 3542
보존된 최소 거래일자: 2015-10-20 00:00:00
품목명 목록: ['적채(일반)']
