<a href="https://colab.research.google.com/github/yasci78-hue/20251020-python-income-tax/blob/main/Untitled1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# -*- coding: utf-8 -*-
"""
영세율 기자재 판별 검색 툴
- 엑셀(예: "영세율기자재 판별.xlsx")의 [구분, 종류, 품목]을 기준으로
  검색어가 "품목" 텍스트에 포함된 행을 찾아서
  - 영세율세금계산서 수수대상 여부
  - 사후환급 신청대상 여부
  를 판별해 표시하고, 해당 행 전체를 출력/내보냅니다.

사용 예:
    python zero_rate_tool.py --file "영세율기자재 판별.xlsx" --query "비닐하우스"
    python zero_rate_tool.py --file "영세율기자재 판별.xlsx" --query "필름, 파이프" --mode any
"""

import pandas as pd
import re
from pathlib import Path
from datetime import datetime
import argparse
from typing import List

ZERO_RATE_PATTERNS = [
    r"영세율\s*세금계산서\s*수수\s*대상",
    r"영세율세금계산서\s*수수대상",
    r"영세율\s*대상",    # 여유 패턴
    r"영세율"            # 최후의 보정
]

POST_REFUND_PATTERNS = [
    r"사후\s*환급\s*신청\s*대상",
    r"사후환급신청대상",
    r"사후환급\s*대상",
    r"사후환급"
]

def load_data(xlsx_path: Path, sheet_name: str = None) -> pd.DataFrame:
    xls = pd.ExcelFile(xlsx_path)
    target_sheet = sheet_name or xls.sheet_names[0]
    df = pd.read_excel(xls, sheet_name=target_sheet)
    # 문자열 컬럼은 공백 정리
    for c in df.columns:
        if pd.api.types.is_string_dtype(df[c]):
            df[c] = df[c].fillna("").astype(str).str.strip()
    return df

def is_match_any(text: str, patterns: List[str]) -> bool:
    t = (text or "")
    for p in patterns:
        if re.search(p, t, flags=re.IGNORECASE):
            return True
    return False

def classify_row(row: pd.Series) -> pd.Series:
    gubun = str(row.get("구분", ""))
    zero_rate = is_match_any(gubun, ZERO_RATE_PATTERNS)
    post_refund = is_match_any(gubun, POST_REFUND_PATTERNS)
    row["영세율세금계산서_수수대상"] = bool(zero_rate)
    row["사후환급_신청대상"] = bool(post_refund)
    return row

def search(df: pd.DataFrame, query: str, mode: str = "any") -> pd.DataFrame:
    """
    query: '필름, 파이프' 처럼 콤마/공백 구분 가능
    mode: 'any' (하나라도 포함) | 'all' (전부 포함)
    """
    if not query or not str(query).strip():
        return df.iloc[0:0].copy()

    # 검색 토큰 만들기
    raw = str(query)
    tokens = [t.strip() for t in re.split(r"[,\s]+", raw) if t.strip()]
    if not tokens:
        return df.iloc[0:0].copy()

    # 품목 컬럼이 없을 수도 있어 방어
    item_col = None
    for cand in ["품목", "품명", "품목명", "기자재", "항목"]:
        if cand in df.columns:
            item_col = cand
            break
    if item_col is None:
        # 가장 텍스트가 많은 컬럼을 품목으로 추정
        text_cols = [c for c in df.columns if df[c].dtype == object]
        item_col = text_cols[0] if text_cols else df.columns[0]

    s = df[item_col].astype(str).str.lower()

    if mode.lower() == "all":
        mask = pd.Series(True, index=df.index)
        for tk in tokens:
            mask = mask & s.str.contains(re.escape(tk.lower()))
    else:
        # default any
        mask = pd.Series(False, index=df.index)
        for tk in tokens:
            mask = mask | s.str.contains(re.escape(tk.lower()))

    out = df.loc[mask].copy()
    out = out.apply(classify_row, axis=1)
    return out

def main():
    ap = argparse.ArgumentParser()
    ap.add_argument("--file", required=True, help="엑셀 파일 경로 (예: 영세율기자재 판별.xlsx)")
    ap.add_argument("--sheet", default=None, help="시트명 (기본: 첫 시트)")
    ap.add_argument("--query", required=True, help="검색어 (예: '비닐하우스' 또는 '필름, 파이프')")
    ap.add_argument("--mode", default="any", choices=["any", "all"], help="검색 모드: 'any' 한 단어라도 포함, 'all' 전부 포함")
    ap.add_argument("--out", default=None, help="결과를 저장할 xlsx 경로 (미지정 시 자동 생성)")
    args = ap.parse_args()

    xlsx_path = Path(args.file)
    if not xlsx_path.exists():
        raise SystemExit(f"파일을 찾을 수 없습니다: {xlsx_path}")

    df = load_data(xlsx_path, sheet_name=args.sheet)
    res = search(df, query=args.query, mode=args.mode)

    if res.empty:
        print("검색 결과가 없습니다.")
        return

    ts = datetime.now().strftime("%Y%m%d_%H%M%S")
    out_path = Path(args.out) if args.out else xlsx_path.parent / f"search_result_{ts}.xlsx"
    with pd.ExcelWriter(out_path, engine="openpyxl") as w:
        res.to_excel(w, index=False, sheet_name="result")

    # 콘솔 표시
    with pd.option_context('display.max_colwidth', 200, 'display.width', 200):
        print(res.head(20))
        print(f"\n[저장] {out_path}")

if __name__ == "__main__":
    main()