### corpdb_merge.py.ipynb
- 지역별 수집 데이터 병합(마켓DB/법인DB/인허가DB/포털DB/기업DB)

In [2]:
# -*- coding: utf-8 -*-
"""
원본 엑셀들을 DB 종류(마켓DB/법인DB/인허가DB/포털DB)별로 모아
- DB별 통합 CSV (UTF-8, CP949) 생성
- 각 원본 파일별로도 merchant_code가 포함된 CSV 생성

주의:
- 이 단계에서는 '최소 가공'만 합니다. (정규화/슬롯 분류는 스테이징 단계에서)
- 결측치는 저장 직전에 공백("")으로 변환합니다.
- Parquet 캐시는 있으면 사용하고, pyarrow 미설치/에러 시 조용히 건너뜁니다.
"""

import re
import json
import pandas as pd
from pathlib import Path
from typing import Optional, List, Dict

# =====================================================
# 설정: 경로
#   - ROOT_DIR: 현재 작업 폴더(.)에서 지역/DB 폴더 구조를 탐색
#   - OUT_DIR : 결과 CSV를 떨어뜨릴 폴더
# =====================================================
ROOT_DIR = Path(".")
OUT_DIR  = Path("./_merged_csv")     # 최종 결과 폴더
OUT_DIR.mkdir(parents=True, exist_ok=True)

# Parquet 캐시(원본 XLSX → 1회만 변환해두고 재사용; pyarrow 없으면 자동 패스)
PARQUET_CACHE_DIR = OUT_DIR / "_xlsx_parquet_cache"
PARQUET_CACHE_DIR.mkdir(parents=True, exist_ok=True)

# =====================================================
# 설정: DB 식별/코드 접두사 (거래데이터에 쓸 DB만)
#   - 파일명에 아래 문자열이 들어가야 해당 DB로 분류
#   - merchant_code 접두사도 같이 정의
# =====================================================
DB_PREFIXES = ["마켓DB","법인DB","인허가DB","포털DB"]

ID_PREFIX = {
    "마켓DB":  "M",
    "법인DB":  "B",
    "인허가DB":"L",
    "포털DB":  "P"
}

# =====================================================
# 파일/유틸
# =====================================================
def match_db_prefix(file_name: str) -> Optional[str]:
    """
    파일명에 DB 키워드(마켓DB/법인DB/인허가DB/포털DB)가 포함되어 있으면
    해당 DB명을 반환, 아니면 None.
    """
    for prefix in DB_PREFIXES:
        if re.search(prefix, file_name, re.IGNORECASE):
            return prefix
    return None

def _cast_object_to_str(df: pd.DataFrame) -> pd.DataFrame:
    """
    object/혼합 타입 컬럼들을 문자열(string dtype)로 통일.
    - strip 적용
    - 빈 문자열("")은 None으로 바꿔둠 (저장 직전에 일괄 공백 처리 예정)
    """
    df2 = df.copy()
    obj_cols = df2.select_dtypes(include=["object"]).columns
    if len(obj_cols) > 0:
        df2[obj_cols] = df2[obj_cols].apply(lambda s: s.astype("string").str.strip())
        df2[obj_cols] = df2[obj_cols].replace({"": None})
    return df2

def read_excel_safe(path: Path) -> Optional[pd.DataFrame]:
    """
    엑셀을 읽되, 동일 파일은 1회만 읽고 Parquet 캐시로 재사용.
    - 캐시 읽기 실패(pyarrow 미설치/파일 파손 등) 시 Excel로 로드
    - Excel 로드 후에는 캐시를 새로 저장(실패해도 그냥 무시)
    """
    try:
        stat = path.stat()
        cache_name = f"{path.stem}__{int(stat.st_mtime)}.parquet"
        cache_path = PARQUET_CACHE_DIR / cache_name

        # 캐시가 있으면 우선 사용
        if cache_path.exists():
            try:
                df = pd.read_parquet(cache_path)
                return _cast_object_to_str(df)
            except Exception:
                # 캐시 사용 실패(의존성/파일문제) → 아래에서 Excel 로드
                pass

        # 엑셀 로드(첫 시트만, 전부 문자열로)
        df = pd.read_excel(path, sheet_name=0, engine="openpyxl", dtype=str)
        df = _cast_object_to_str(df)

        # 같은 stem의 오래된 캐시 제거 (파일 수정시간 달라지면 새 캐시 생성)
        for old in PARQUET_CACHE_DIR.glob(f"{path.stem}__*.parquet"):
            try:
                old.unlink()
            except Exception:
                pass

        # 신규 캐시 저장 (pyarrow 없으면 실패할 수 있으니 무시)
        try:
            df.to_parquet(cache_path, index=False)
        except Exception:
            pass

        return df

    except Exception as e:
        print(f"[WARN] {path} 읽기 실패: {e}")
        return None

def make_codes(prefix_letter: str, n: int, width: int = 7):
    """
    merchant_code 생성.
    예) prefix='M', n=3 → ['M0000001','M0000002','M0000003']
    """
    return [f"{prefix_letter}{i:0{width}d}" for i in range(1, n+1)]

def sanitize_cp949_value(x):
    """
    CP949로 저장 시 인코딩 불가 문자가 있으면 제거하도록 가공.
    None → "", 비문자/이모지 등은 무시하고 저장.
    """
    if x is None:
        return ""
    if not isinstance(x, str):
        x = str(x)
    return x.encode("cp949", errors="ignore").decode("cp949")

def sanitize_df_cp949(df: pd.DataFrame) -> pd.DataFrame:
    """
    DataFrame 전체를 CP949 안전 문자열로 변환한 사본 반환.
    """
    out = df.copy()
    for col in out.columns:
        out[col] = out[col].map(sanitize_cp949_value)
    return out

# =====================================================
# 저장 유틸 (CSV만)
#   - 통합본/파일별본 모두 여기로 저장
#   - 결측치는 저장 직전 전부 공백("")으로 변환
# =====================================================
def save_csv_formats(df: pd.DataFrame, path_base: Path, with_cp949: bool = True):
    """
    CSV(utf8/cp949) 저장. 결측은 공백으로 변환.
    - 결과 파일명은 path_base + ".utf8.csv", ".csv"
    """
    df_to_save = df.copy().fillna("")         # 결측 → 공백
    path_u8 = path_base.with_suffix(".utf8.csv")
    path_cp = path_base.with_suffix(".csv")

    # UTF-8(BOM) 저장: 엑셀 호환 위해 BOM 사용
    df_to_save.to_csv(path_u8, index=False, encoding="utf-8-sig")

    # CP949 저장: 윈도우/한글 엑셀 호환 필요 시
    if with_cp949:
        df_cp949 = sanitize_df_cp949(df_to_save)
        df_cp949.to_csv(path_cp, index=False, encoding="cp949")

    return path_u8.name, (path_cp.name if with_cp949 else None)

# =====================================================
# 병합 + 코드부여 + 저장 (DB별 통합 + 원본파일별)
#   - 지역 폴더별로 모인 동일 DB의 엑셀들을 수직 결합
#   - region/source_db/src_file 메타 컬럼 추가
#   - merchant_code 부여 후
#     1) DB별 통합 CSV 저장
#     2) 각 원본 파일별로 merchant_code 포함한 CSV 별도 저장
# =====================================================
def merge_clean_and_save(db_name: str, files: List[Path], out_dir: Path, make_code: bool = True):
    frames = []
    src_files: List[str] = []

    for fp in files:
        df = read_excel_safe(fp)
        if df is None:
            continue

        # region = 상위 폴더명(예: ROOT/서울/마켓DB_..xlsx → '서울')
        region = fp.parent.name

        # 메타 컬럼 삽입 (원본은 수정하지 않고 DataFrame에만 주입)
        df.insert(0, "region", region)
        df.insert(1, "source_db", db_name)
        df.insert(2, "src_file", str(fp))  # 원본 추적용(파일별 저장에 사용)

        frames.append(df)
        src_files.append(str(fp))

    if not frames:
        print(f"[INFO] {db_name}: 병합할 파일 없음")
        return

    # 수직 병합 (열 집합이 달라도 union 형태로 맞춰 들어감)
    merged = pd.concat(frames, axis=0, ignore_index=True, sort=False)

    # 전부 NaN인 완전 빈 행만 제거 (이름 결측 등은 유지)
    merged.dropna(how="all", inplace=True)

    # merchant_code 부여 (파일/폴더 정렬 후 호출하면 재현성↑)
    if make_code:
        prefix_letter = ID_PREFIX.get(db_name, db_name[:1].upper())
        codes = make_codes(prefix_letter, len(merged), width=7)
        if "merchant_code" in merged.columns:
            merged = merged.drop(columns=["merchant_code"])
        # src_file 뒤에 삽입하여 메타 컬럼들이 앞에 오도록 정리
        merged.insert(3, "merchant_code", codes)

    # ---- DB별 통합 저장 (CSV, 결측=공백) ----
    out_dir.mkdir(parents=True, exist_ok=True)
    base = out_dir / f"{db_name}_merged"
    # 통합본에서는 src_file은 불필요하므로 제거 후 저장
    u8, cp = save_csv_formats(merged.drop(columns=["src_file"], errors="ignore"), base, with_cp949=True)
    print(f"[OK] {db_name} 통합 저장 → {u8}, {cp} (행수 {len(merged):,})")

    # ---- 원본 파일별 저장 (merchant_code 포함) ----
    by_file_dir = out_dir / f"{db_name}_by_file"
    by_file_dir.mkdir(parents=True, exist_ok=True)

    # src_file 기준으로 그룹핑해서 파일별 결과 저장
    for src, sub in merged.groupby("src_file", dropna=False):
        src_path = Path(src)
        stem = src_path.stem
        sub_to_save = sub.drop(columns=["src_file"], errors="ignore")
        save_csv_formats(sub_to_save, by_file_dir / f"{stem}_with_code", with_cp949=True)
        print(f"  └─ 원본[{stem}] 저장 완료 (행수 {len(sub_to_save):,})")

# =====================================================
# 메인
#   - ROOT_DIR 하위의 지역 폴더들을 순회
#   - 각 폴더 안의 *.xlsx 중 파일명에 DB 키워드가 포함된 것만 수집
#   - DB별로 정렬(폴더명, 파일명) 후 merge_clean_and_save 실행
# =====================================================
def main():
    files_by_db: Dict[str, List[Path]] = {p: [] for p in DB_PREFIXES}

    # 지역 폴더(예: ./서울, ./부산 ...)를 순회
    for region_dir in ROOT_DIR.iterdir():
        if region_dir.is_dir():
            # 각 지역 폴더의 엑셀 파일 탐색
            for path in region_dir.glob("*.xlsx"):
                dbp = match_db_prefix(path.name)
                if dbp:
                    files_by_db[dbp].append(path)

    # DB별로 파일 리스트를 정렬(폴더명, 파일명) → merchant_code 안정성↑
    for db_name, files in files_by_db.items():
        files = sorted(files, key=lambda p: (p.parent.name, p.name))
        merge_clean_and_save(
            db_name,
            files,
            OUT_DIR,
            make_code=True,   # merchant_code 부여 (False로 두면 미부여)
        )

    print("\n✅ 전체 완료: DB별 통합 + 원본파일별(merchant_code 포함) CSV 생성")

if __name__ == "__main__":
    main()


[OK] 마켓DB 통합 저장 → 마켓DB_merged.utf8.csv, 마켓DB_merged.csv (행수 591,803)
  └─ 원본[마켓DB_1번_1757561915] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_2번_1757561918] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_3번_1757561922] 저장 완료 (행수 2,224)
  └─ 원본[마켓DB_10번_1757491387] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_11번_1757491404] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_12번_1757491408] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_13번_1757491412] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_14번_1757491416] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_15번_1757491420] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_16번_1757491425] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_17번_1757491429] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_18번_1757491434] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_19번_1757491438] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_1번_1757491353] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_20번_1757491442] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_21번_1757491466] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_22번_1757491472] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_23번_1757491476] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_24번_1757491482] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_25번_1757491487] 저장 완료 (행수 3,000)
  └─ 원본[마켓DB_26

  merged = pd.concat(frames, axis=0, ignore_index=True, sort=False)


[OK] 인허가DB 통합 저장 → 인허가DB_merged.utf8.csv, 인허가DB_merged.csv (행수 7,826,880)
  └─ 원본[인허가DB_100번_1757561774] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_101번_1757561794] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_102번_1757561799] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_103번_1757561804] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_104번_1757561809] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_105번_1757561814] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_106번_1757561819] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_107번_1757561824] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_108번_1757561829] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_109번_1757561834] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_10번_1757561204] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_110번_1757561838] 저장 완료 (행수 79)
  └─ 원본[인허가DB_11번_1757561227] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_12번_1757561231] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_13번_1757561238] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_14번_1757561242] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_15번_1757561247] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_16번_1757561251] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_17번_1757561255] 저장 완료 (행수 3,000)
  └─ 원본[인허가DB_18번_1757561

In [3]:
# -*- coding: utf-8 -*-
"""
기업DB 전용 병합 스크립트

기능 요약
- ./기업DB 폴더 아래의 모든 *.xlsx 파일을 읽어 하나로 병합
- 파일명에서 업종을 추출해 '업종' 컬럼으로 저장 (예: '음식점_2024-03.xlsx' → 업종='음식점')
- 메타 컬럼(source_db, src_file) 추가
- merchant_code 부여(접두사 C + 7자리 일련번호: C0000001 ...)
- 결과 저장:
    1) 기업DB_merged.utf8.csv / 기업DB_merged.csv (통합본, src_file 제외)
    2) 기업DB_by_file/<원본파일명>_with_code.* (원본 파일별, merchant_code 포함)

메모
- 결측치는 저장 직전에 공백("")으로 변환합니다.
"""

import re
import json
import pandas as pd
from pathlib import Path
from typing import Optional, List, Dict

# =====================================================
# 설정: 경로
#   - ROOT_DIR: 기업DB 엑셀들이 모여있는 폴더(상대 경로)
#   - OUT_DIR : 결과 CSV를 떨어뜨릴 폴더
# =====================================================
ROOT_DIR = Path("./기업DB")        # 기업DB 단일 폴더
OUT_DIR  = Path("./_merged_csv")   # 결과 폴더
OUT_DIR.mkdir(parents=True, exist_ok=True)

# =====================================================
# 설정: 코드 접두사
#   - 기업DB는 'C'를 접두사로 사용해 merchant_code 부여
# =====================================================
DB_NAME = "기업DB"
ID_PREFIX = {"기업DB": "C"}

# =====================================================
# 파일명 → 업종 추출
#   - 예) "음식점_2024-03.xlsx" → "음식점"
#   - '_' 가 없으면 전체 파일명(stem)을 그대로 사용
# =====================================================
def extract_file_category_from_name(path: Path) -> str:
    """원본 파일명에서 업종명을 추출해 반환."""
    stem = path.stem
    return stem.split("_", 1)[0].strip() if "_" in stem else stem.strip()

# =====================================================
# 입출력/정리 유틸
#   - 엑셀 로드 시 모든 값을 문자열로 읽고 strip
#   - 공백만 있는 문자열은 None으로 두되, 저장 직전에 공백으로 바꿈
# =====================================================
def read_excel_safe(path: Path) -> Optional[pd.DataFrame]:
    """엑셀 첫 시트를 문자열로 안전하게 읽어 DataFrame 반환."""
    try:
        df = pd.read_excel(path, sheet_name=0, engine="openpyxl", dtype=str)
        # 모든 문자열 trim. 공백만 있는 셀은 None으로 두고, 저장 직전 일괄 공백 처리 예정.
        df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))
        return df
    except Exception as e:
        print(f"[WARN] {path} 읽기 실패: {e}")
        return None

def make_codes(prefix_letter: str, n: int, width: int = 7) -> List[str]:
    """
    merchant_code 생성 유틸.
    예) prefix='C', n=3 → ['C0000001','C0000002','C0000003']
    """
    return [f"{prefix_letter}{i:0{width}d}" for i in range(1, n+1)]

def sanitize_cp949_value(x):
    """
    CP949 저장 시 인코딩 불가 문자는 제거(errors='ignore')하도록 변환.
    None → "" 로 처리.
    """
    if x is None:
        return ""
    if not isinstance(x, str):
        x = str(x)
    return x.encode("cp949", errors="ignore").decode("cp949")

def sanitize_df_cp949(df: pd.DataFrame) -> pd.DataFrame:
    """DataFrame 전체를 CP949 안전 문자열로 변환한 사본 반환."""
    out = df.copy()
    for col in out.columns:
        out[col] = out[col].map(sanitize_cp949_value)
    return out

# =====================================================
# 정제 로직
#   - 파일명에서 추출한 업종을 '업종' 컬럼으로 세팅
#   - 이름(업체명) 결측도 제거하지 않음(요구사항)
# =====================================================
def clean_df(df: pd.DataFrame, file_category: str) -> pd.DataFrame:
    """
    단일 파일 단위 정제:
    - '업종' 컬럼을 파일명에서 추출한 값으로 채움(기존 값이 있더라도 덮어씀)
    """
    df = df.copy()
    df["업종"] = (file_category or "").strip()
    print(f"[CLEAN] 업종='{file_category}' 설정 (행수 {len(df):,})")
    return df

# =====================================================
# 저장 유틸 (CSV만)
#   - UTF-8(BOM) + CP949 두 가지 포맷으로 저장
#   - 저장 직전에 결측을 공백("")으로 변환
# =====================================================
def save_csv(df: pd.DataFrame, path_base: Path, with_cp949: bool = True):
    """CSV(utf8/cp949) 저장. 결측은 공백으로 변환."""
    df_to_save = df.copy().fillna("")          # 결측 → 공백
    path_u8 = path_base.with_suffix(".utf8.csv")
    path_cp = path_base.with_suffix(".csv")

    # UTF-8(BOM) 저장: 엑셀 호환성을 위해 BOM 사용
    df_to_save.to_csv(path_u8, index=False, encoding="utf-8-sig")

    # CP949 저장: 필요한 경우만
    if with_cp949:
        df_cp949 = sanitize_df_cp949(df_to_save)
        df_cp949.to_csv(path_cp, index=False, encoding="cp949")

    return path_u8.name, (path_cp.name if with_cp949 else None)

# =====================================================
# 병합 + 정제 + 코드부여 + 저장(통합 + 원본파일별)
#   - ./기업DB/*.xlsx 를 모두 읽어 수직 병합
#   - 메타 컬럼(source_db, src_file) 추가
#   - merchant_code 부여 후
#     1) 기업DB_merged.* 로 통합 저장 (src_file 제외)
#     2) 기업DB_by_file/ 에 원본 파일별 저장 (merchant_code 포함)
# =====================================================
def merge_clean_and_save(db_name: str, files: List[Path], out_dir: Path):
    frames = []
    # 재현성을 위해 파일명 기준 정렬(merchant_code 부여 순서가 고정됨)
    for fp in sorted(files, key=lambda p: p.name):
        df = read_excel_safe(fp)
        if df is None:
            continue

        # 파일명에서 업종 추출
        file_cat = extract_file_category_from_name(fp)

        # 메타 컬럼 삽입 (원본을 수정하는 것이 아니라 DataFrame에만 추가)
        df.insert(0, "source_db", db_name)  # 스키마/라인리지용
        df.insert(1, "src_file", str(fp))   # 원본 파일 추적(파일별 저장에 사용)

        # 파일단위 정제(업종 세팅). 이름 결측도 제거하지 않음
        df = clean_df(df, file_cat)
        frames.append(df)

        print(f"  └─ 파일: {fp.name} → 업종: '{file_cat}', 행수 {len(df):,}")

    if not frames:
        print(f".[INFO] {db_name}: 병합할 파일 없음")
        return

    # 수직 병합 (열 집합이 달라도 union 형태로 맞춰 들어감)
    merged = pd.concat(frames, axis=0, ignore_index=True, sort=False)

    # 전부 결측인 완전 빈 행만 제거 (업체명 결측 등은 유지)
    merged.dropna(how="all", inplace=True)

    # merchant_code 부여(전체 길이 기준 일련번호)
    prefix_letter = ID_PREFIX.get(db_name, db_name[:1].upper())
    codes = make_codes(prefix_letter, len(merged), width=7)
    if "merchant_code" in merged.columns:
        merged = merged.drop(columns=["merchant_code"])
    # src_file 다음 컬럼 위치에 삽입 (메타→코드 순서를 깔끔히)
    merged.insert(2, "merchant_code", codes)

    # ---- [1] DB 통합 저장 (merchant_code 포함, src_file 제외) ----
    out_dir.mkdir(parents=True, exist_ok=True)
    base = out_dir / f"{db_name}_merged"
    merged_for_save = merged.drop(columns=["src_file"], errors="ignore")
    u8, cp = save_csv(merged_for_save, base, with_cp949=True)
    print(f"[OK] {db_name} 통합 저장 → {u8}, {cp} (행수 {len(merged_for_save):,})")

    # ---- [2] 원본 파일별 저장 (merchant_code 포함) ----
    by_file_dir = out_dir / f"{db_name}_by_file"
    by_file_dir.mkdir(parents=True, exist_ok=True)

    # src_file 기준으로 그룹핑해서 파일별 결과 저장
    for src, sub in merged.groupby("src_file", dropna=False):
        src_path = Path(src)
        stem = src_path.stem
        sub_to_save = sub.drop(columns=["src_file"], errors="ignore")
        save_csv(sub_to_save, by_file_dir / f"{stem}_with_code", with_cp949=True)
        print(f"  └─ 원본[{stem}] + merchant_code 저장 완료 (행수 {len(sub_to_save):,})")

# =====================================================
# 메인
#   - ./기업DB/*.xlsx 파일들을 모두 병합 처리
# =====================================================
def main():
    files = list(ROOT_DIR.glob("*.xlsx"))
    if not files:
        print(f"[INFO] 엑셀 없음: {ROOT_DIR}")
        return
    merge_clean_and_save(DB_NAME, files, OUT_DIR)
    print("\n✅ 완료: 기업DB → 통합본 + 원본파일별(with merchant_code) CSV 생성")

if __name__ == "__main__":
    main()


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))
  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='가구 내 고용활동 및 달리 분류되지 않은 자가 소비 생산활동' 설정 (행수 1)
  └─ 파일: 가구 내 고용활동 및 달리 분류되지 않은 자가 소비 생산활동_기업DB_1번_1758167036.xlsx → 업종: '가구 내 고용활동 및 달리 분류되지 않은 자가 소비 생산활동', 행수 1
[CLEAN] 업종='건설업' 설정 (행수 360)
  └─ 파일: 건설업_기업DB_2번_1758166362 (1).xlsx → 업종: '건설업', 행수 360


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))
  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))
  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))
  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='건설업' 설정 (행수 3,000)
  └─ 파일: 건설업_기업DB_2번_1758166362 (2).xlsx → 업종: '건설업', 행수 3,000
[CLEAN] 업종='광업' 설정 (행수 148)
  └─ 파일: 광업_기업DB_1번_1758166862.xlsx → 업종: '광업', 행수 148
[CLEAN] 업종='교육 서비스업' 설정 (행수 176)
  └─ 파일: 교육 서비스업_기업DB_1번_1758166694.xlsx → 업종: '교육 서비스업', 행수 176
[CLEAN] 업종='국제 및 외국기관' 설정 (행수 46)
  └─ 파일: 국제 및 외국기관_기업DB_1번_1758166996.xlsx → 업종: '국제 및 외국기관', 행수 46


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))
  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='금융 및 보험업' 설정 (행수 3,000)
  └─ 파일: 금융 및 보험업_기업DB_1번_1758166617 (1).xlsx → 업종: '금융 및 보험업', 행수 3,000
[CLEAN] 업종='금융 및 보험업' 설정 (행수 1,208)
  └─ 파일: 금융 및 보험업_기업DB_1번_1758166617 (2).xlsx → 업종: '금융 및 보험업', 행수 1,208


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='금융 및 보험업' 설정 (행수 3,000)
  └─ 파일: 금융 및 보험업_기업DB_1번_1758166617 (3).xlsx → 업종: '금융 및 보험업', 행수 3,000


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))
  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='도매 및 소매업' 설정 (행수 3,000)
  └─ 파일: 도매 및 소매업_기업DB_1번_1758166301 (1).xlsx → 업종: '도매 및 소매업', 행수 3,000
[CLEAN] 업종='도매 및 소매업' 설정 (행수 304)
  └─ 파일: 도매 및 소매업_기업DB_1번_1758166301 (2).xlsx → 업종: '도매 및 소매업', 행수 304


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))
  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='도매 및 소매업' 설정 (행수 3,000)
  └─ 파일: 도매 및 소매업_기업DB_1번_1758166301 (3).xlsx → 업종: '도매 및 소매업', 행수 3,000
[CLEAN] 업종='보건업 및 사회복지 서비스업' 설정 (행수 45)
  └─ 파일: 보건업 및 사회복지 서비스업_기업DB_1번_1758166744.xlsx → 업종: '보건업 및 사회복지 서비스업', 행수 45


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='부동산업' 설정 (행수 3,000)
  └─ 파일: 부동산업_기업DB_2번_1758166440 (1).xlsx → 업종: '부동산업', 행수 3,000


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='부동산업' 설정 (행수 3,000)
  └─ 파일: 부동산업_기업DB_2번_1758166440 (2).xlsx → 업종: '부동산업', 행수 3,000


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='부동산업' 설정 (행수 2,739)
  └─ 파일: 부동산업_기업DB_3번_1758166444.xlsx → 업종: '부동산업', 행수 2,739


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='숙박 및 음식점업' 설정 (행수 786)
  └─ 파일: 숙박 및 음식점업_기업DB_1번_1758166580.xlsx → 업종: '숙박 및 음식점업', 행수 786


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='운수 및 창고업' 설정 (행수 1,811)
  └─ 파일: 운수 및 창고업_기업DB_1번_1758166476.xlsx → 업종: '운수 및 창고업', 행수 1,811


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))
  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='정보통신업' 설정 (행수 2,981)
  └─ 파일: 정보통신업_기업DB_1번_1758166406.xlsx → 업종: '정보통신업', 행수 2,981
[CLEAN] 업종='제조업' 설정 (행수 236)
  └─ 파일: 제조업_기업DB_6번_1758166111 (1).xlsx → 업종: '제조업', 행수 236


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='제조업' 설정 (행수 3,000)
  └─ 파일: 제조업_기업DB_6번_1758166111 (2).xlsx → 업종: '제조업', 행수 3,000


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='제조업' 설정 (행수 3,000)
  └─ 파일: 제조업_기업DB_6번_1758166111 (3).xlsx → 업종: '제조업', 행수 3,000


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='제조업' 설정 (행수 3,000)
  └─ 파일: 제조업_기업DB_6번_1758166111 (4).xlsx → 업종: '제조업', 행수 3,000


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='제조업' 설정 (행수 3,000)
  └─ 파일: 제조업_기업DB_6번_1758166111 (5).xlsx → 업종: '제조업', 행수 3,000


  df = df.applymap(lambda x: (x if not isinstance(x, str) else (x.strip() if x.strip() != "" else None)))


[CLEAN] 업종='제조업' 설정 (행수 3,000)
  └─ 파일: 제조업_기업DB_6번_1758166111 (6).xlsx → 업종: '제조업', 행수 3,000
[OK] 기업DB 통합 저장 → 기업DB_merged.utf8.csv, 기업DB_merged.csv (행수 46,841)
  └─ 원본[가구 내 고용활동 및 달리 분류되지 않은 자가 소비 생산활동_기업DB_1번_1758167036] + merchant_code 저장 완료 (행수 1)
  └─ 원본[건설업_기업DB_2번_1758166362 (1)] + merchant_code 저장 완료 (행수 360)
  └─ 원본[건설업_기업DB_2번_1758166362 (2)] + merchant_code 저장 완료 (행수 3,000)
  └─ 원본[광업_기업DB_1번_1758166862] + merchant_code 저장 완료 (행수 148)
  └─ 원본[교육 서비스업_기업DB_1번_1758166694] + merchant_code 저장 완료 (행수 176)
  └─ 원본[국제 및 외국기관_기업DB_1번_1758166996] + merchant_code 저장 완료 (행수 46)
  └─ 원본[금융 및 보험업_기업DB_1번_1758166617 (1)] + merchant_code 저장 완료 (행수 3,000)
  └─ 원본[금융 및 보험업_기업DB_1번_1758166617 (2)] + merchant_code 저장 완료 (행수 1,208)
  └─ 원본[금융 및 보험업_기업DB_1번_1758166617 (3)] + merchant_code 저장 완료 (행수 3,000)
  └─ 원본[도매 및 소매업_기업DB_1번_1758166301 (1)] + merchant_code 저장 완료 (행수 3,000)
  └─ 원본[도매 및 소매업_기업DB_1번_1758166301 (2)] + merchant_code 저장 완료 (행수 304)
  └─ 원본[도매 및 소매업_기업DB_1번_1758166301 (3)] + mer