In [2]:
# --- 설정값만 바꿔 주세요 ---
EXCEL_PATH   = "/Users/yeji_kim/Desktop/itwill_final_project/face_streamlit/sunglass_df_test.xlsx"
SRC_DIR      = "/Users/yeji_kim/Desktop/itwill_final_project/face_streamlit/frame"  # 원본 이미지 폴더(재귀 탐색)
DST_DIR      = "/Users/yeji_kim/Desktop/itwill_final_project/face_streamlit/frame_matched"  # 결과(생성)
SHEET_NAME   = 0            # 시트 이름 또는 인덱스
PRODUCT_COL  = "product_id" # 엑셀의 제품ID 컬럼명
PRIORITY_EXT = [".png", ".jpg", ".jpeg", ".webp", ".avif"]  # 여러개 있을 때 선호 순서
COPY_MODE    = "copy"       # "copy" | "symlink" | "hardlink"
DRY_RUN      = False        # True면 실제 파일 이동/복사 수행 X (리포트만)

# --- 코드 시작: 그대로 두세요 ---
import os, re, glob, shutil, unicodedata, pandas as pd
from collections import defaultdict
from pathlib import Path

def nfc(s: str) -> str:
    return unicodedata.normalize("NFC", (s or "").strip())

def load_product_ids(xlsx, sheet, col):
    """
    우선 pandas.read_excel 시도 → 없거나 실패하면 openpyxl로 폴백 로딩.
    반환: (product_ids, df)
    """
    import pandas as pd, re, unicodedata
    from pathlib import Path

    def nfc(s: str) -> str:
        return unicodedata.normalize("NFC", (s or "").strip())

    df = None
    # 1) pandas에 read_excel이 존재하면 먼저 시도
    try:
        _has_read_excel = hasattr(pd, "read_excel")
        if _has_read_excel:
            df = pd.read_excel(xlsx, sheet_name=sheet)
    except Exception:
        df = None  # 실패 시 폴백으로 진행

    # 2) 폴백: openpyxl로 읽기 → DataFrame 생성
    if df is None:
        try:
            from openpyxl import load_workbook
        except ImportError:
            raise RuntimeError(
                "openpyxl이 없어 엑셀을 읽을 수 없습니다. 다음 중 하나를 먼저 실행하세요:\n"
                "  pip install -U openpyxl\n"
                "또는\n"
                "  conda install openpyxl"
            )
        wb = load_workbook(xlsx, data_only=True)
        ws = wb[sheet] if isinstance(sheet, str) else wb.worksheets[sheet]

        rows = list(ws.values)
        if not rows:
            raise RuntimeError("엑셀 시트가 비어 있습니다.")
        header = [str(c) if c is not None else "" for c in rows[0]]
        data   = [list(r) for r in rows[1:]]
        df = pd.DataFrame(data, columns=header)

    if col not in df.columns:
        raise KeyError(f"엑셀에 '{col}' 컬럼이 없습니다. 실제 컬럼들: {list(df.columns)}")

    pids = [nfc(str(x)) for x in df[col].dropna().astype(str).tolist()]
    # 불필요 문자/따옴표 제거
    pids = [re.sub(r"[^A-Za-z0-9._-]", "", pid.strip().strip('"').strip("'")) for pid in pids]
    return pids, df


def index_source_images(src_dir, allowed_exts):
    idx_exact = {}                         # "basename(확장자제외, NF C)" -> fullpath (우선순위 반영)
    idx_candidates = defaultdict(list)     # basename -> [paths...] (리포트용)
    # 우선순위 비교를 위한 확장자 정렬 키
    ext_rank = {ext.lower(): i for i, ext in enumerate(allowed_exts)}
    all_imgs = glob.glob(os.path.join(src_dir, "**", "*"), recursive=True)
    for fp in all_imgs:
        if not os.path.isfile(fp): 
            continue
        ext = Path(fp).suffix.lower()
        if ext not in [e.lower() for e in allowed_exts]:
            continue
        base = nfc(Path(fp).stem)  # 확장자 제외 파일명
        idx_candidates[base].append(fp)
    # 각 base마다 우선순위 높은 확장자 1개만 대표로 선택
    for base, paths in idx_candidates.items():
        def sort_key(p):
            return ext_rank.get(Path(p).suffix.lower(), 999), len(p)  # 확장자 우선, 경로길이 보조
        idx_exact[base] = sorted(paths, key=sort_key)[0]
    return idx_exact, idx_candidates

def pick_match(pid, idx_exact):
    """product_id가 확장자 없이 저장되었다고 가정. 다음 순서로 매칭:
       1) 정확 일치 → 2) 소문자 일치 → 3) 언더바 앞부분 일치 → 4) '시작이 같은' 키 탐색
    """
    pid = nfc(pid)
    if not pid:
        return None
    if pid in idx_exact:
        return idx_exact[pid]
    lowmap = {k.lower(): v for k, v in idx_exact.items()}
    if pid.lower() in lowmap:
        return lowmap[pid.lower()]
    if "_" in pid:
        base = pid.split("_", 1)[0]
        if base in idx_exact:
            return idx_exact[base]
        if base.lower() in lowmap:
            return lowmap[base.lower()]
    # 시작이 같은 키(과도 매칭 방지 위해 길이 차이 너무 큰 건 제외)
    for k, v in idx_exact.items():
        if k.lower().startswith(pid.lower()) and abs(len(k) - len(pid)) <= 8:
            return v
    return None

def ensure_empty_dir(d):
    p = Path(d)
    p.mkdir(parents=True, exist_ok=True)
    # 비우고 시작하려면 아래 주석 해제
    # for x in p.iterdir():
    #     if x.is_file():
    #         x.unlink()

def place_file(src, dst_dir, out_name=None, mode="copy"):
    dst_dir = Path(dst_dir)
    dst_dir.mkdir(parents=True, exist_ok=True)
    ext = Path(src).suffix
    name = out_name if out_name else Path(src).name  # 기본은 원본 파일명 유지
    dst = dst_dir / name
    if DRY_RUN:
        return str(dst)
    if mode == "copy":
        shutil.copy2(src, dst)
    elif mode == "symlink":
        if dst.exists(): dst.unlink()
        os.symlink(src, dst)
    elif mode == "hardlink":
        if dst.exists(): dst.unlink()
        os.link(src, dst)
    else:
        raise ValueError("COPY_MODE는 copy|symlink|hardlink 중 하나여야 합니다.")
    return str(dst)

# 실행
product_ids, df = load_product_ids(EXCEL_PATH, SHEET_NAME, PRODUCT_COL)
idx_exact, idx_cands = index_source_images(SRC_DIR, PRIORITY_EXT)

ensure_empty_dir(DST_DIR)

matched_rows = []
missing_pids  = []
duplicates    = []

seen_outnames = set()

for pid in product_ids:
    hit = pick_match(pid, idx_exact)
    if hit:
        # 출력 파일명은 'product_id + 원본 확장자'로 저장 (중복 방지)
        out_ext  = Path(hit).suffix.lower()
        out_name = f"{pid}{out_ext}"
        # 이름 충돌 시 숫자 접미사
        suffix = 1
        while out_name.lower() in seen_outnames:
            suffix += 1
            out_name = f"{pid}-{suffix}{out_ext}"
        seen_outnames.add(out_name.lower())

        out_path = place_file(hit, DST_DIR, out_name=out_name, mode=COPY_MODE)
        matched_rows.append({"product_id": pid, "src": hit, "dst": out_path})
    else:
        missing_pids.append(pid)

# 리포트 저장
report_matched = Path(DST_DIR) / "_matched_report.csv"
report_missing = Path(DST_DIR) / "_missing_report.csv"
pd.DataFrame(matched_rows).to_csv(report_matched, index=False)
pd.DataFrame({"product_id": missing_pids}).to_csv(report_missing, index=False)

print("=== 결과 ===")
print(f"총 product_id: {len(product_ids)}")
print(f"매칭 성공: {len(matched_rows)}  → {report_matched}")
print(f"매칭 실패: {len(missing_pids)}  → {report_missing}")
print(f"출력 폴더: {DST_DIR}")

# 몇 개 미리 보기
print("\n샘플 매칭 5개:")
for r in matched_rows[:5]:
    print(f"- {r['product_id']}  ::  {r['dst']}")


AttributeError: module 'pandas' has no attribute 'read_excel'