In [6]:
import pandas as pd
from pathlib import Path

# ===== 사용자 경로 지정 =====
ROOT_DIR = Path(r"C:\Users\starw\OneDrive\바탕 화면\dta\Rogall_2021_Data")
OUTPUT_FILE = ROOT_DIR / "Rogall_variable_map_with_transform.xlsx"
# ==========================

# 변환변수 ↔ 원시변수 ↔ 변환 방식
TRANSFORM_MAP = {
    "lcat2_pcT": ("cat2_pcT", "log(x)"),
    "lkigali_dis2": ("kigali_dis2", "log(x)"),
    "lborder_dis2": ("border_dis2", "log(x)"),
    "ltutsi_dis2": ("tutsi_dis2", "log(x)"),
    "lmaincity_dis2": ("maincity_dis2", "log(x)"),
    "lpopdens": ("popdens", "log(x)"),
    "larea": ("area", "log(x)"),
    "LT_trans": ("T_trans", "log(x)")
}

results = []

for f in ROOT_DIR.rglob("*.dta"):
    try:
        df = pd.read_stata(f, convert_categoricals=False)
        variables = df.columns.tolist()

        for transformed, (original, transform_rule) in TRANSFORM_MAP.items():
            for var in variables:
                if original.lower() == var.lower():
                    results.append({
                        "File": f.name,
                        "Folder": str(f.parent),
                        "Transformed Variable": transformed,
                        "Original Variable": var,
                        "Transformation": transform_rule
                    })
    except Exception as e:
        print(f"[WARN] {f} 읽기 실패: {e}")

# 결과 저장
df_out = pd.DataFrame(results)
if not df_out.empty:
    df_out.to_excel(OUTPUT_FILE, index=False)
    print(f"[DONE] Rogall (2021) 변수 매핑+변환 저장 완료 → {OUTPUT_FILE}")
else:
    print("[INFO] 매칭된 원시 변수를 찾지 못했습니다.")


One or more strings in the dta file could not be decoded using utf-8, and
so the fallback encoding of latin-1 is being used.  This can happen when a file
has been incorrectly encoded by Stata or some other software. You should verify
the string values returned are correct.
  df = pd.read_stata(f, convert_categoricals=False)


[DONE] Rogall (2021) 변수 매핑+변환 저장 완료 → C:\Users\starw\OneDrive\바탕 화면\dta\Rogall_2021_Data\Rogall_variable_map_with_transform.xlsx


In [7]:
import pandas as pd
from pathlib import Path

# ===== 사용자 경로 지정 =====
ROOT_DIR = Path(r"C:\Users\starw\OneDrive\바탕 화면\dta\Carranza_et_al_2022_Data")
OUTPUT_FILE = ROOT_DIR / "Carranza_variable_map_with_transform.xlsx"
# ==========================

# Carranza 논문 코드에서 실제 사용된 변환변수 ↔ 원시변수 ↔ 변환방식
TRANSFORM_MAP = {
    "el_emp_hour_all_uncd_i": ("emp_hour_all_uncd_i", "normalized employment hours")
}

results = []

for f in ROOT_DIR.rglob("*.dta"):
    try:
        df = pd.read_stata(f, convert_categoricals=False)
        variables = df.columns.tolist()

        for transformed, (original, transform_rule) in TRANSFORM_MAP.items():
            for var in variables:
                if original.lower() == var.lower():
                    results.append({
                        "File": f.name,
                        "Folder": str(f.parent),
                        "Transformed Variable": transformed,
                        "Original Variable": var,
                        "Transformation": transform_rule
                    })
    except Exception as e:
        print(f"[WARN] {f} 읽기 실패: {e}")

# 결과 저장
df_out = pd.DataFrame(results)
if not df_out.empty:
    df_out.to_excel(OUTPUT_FILE, index=False)
    print(f"[DONE] Carranza (2022) 변수 매핑+변환 저장 완료 → {OUTPUT_FILE}")
else:
    print("[INFO] 매칭된 원시 변수를 찾지 못했습니다.")


[INFO] 매칭된 원시 변수를 찾지 못했습니다.


In [8]:
import pandas as pd
from pathlib import Path

# ===== 사용자 경로 지정 =====
ROOT_DIR = Path(r"C:\Users\starw\OneDrive\바탕 화면\dta\Johnson_2020_Data")
OUTPUT_FILE = ROOT_DIR / "Johnson_variable_map_with_transform.xlsx"
# ==========================

# Johnson 논문 코드에서 실제 사용된 변환변수 ↔ 원시변수 ↔ 변환방식
TRANSFORM_MAP = {
    "arcsinh_var": ("penalty", "asinh(penalty)")
}

results = []

for f in ROOT_DIR.rglob("*.dta"):
    try:
        df = pd.read_stata(f, convert_categoricals=False)
        variables = df.columns.tolist()

        for transformed, (original, transform_rule) in TRANSFORM_MAP.items():
            for var in variables:
                if original.lower() == var.lower():
                    results.append({
                        "File": f.name,
                        "Folder": str(f.parent),
                        "Transformed Variable": transformed,
                        "Original Variable": var,
                        "Transformation": transform_rule
                    })
    except Exception as e:
        print(f"[WARN] {f} 읽기 실패: {e}")

# 결과 저장
df_out = pd.DataFrame(results)
if not df_out.empty:
    df_out.to_excel(OUTPUT_FILE, index=False)
    print(f"[DONE] Johnson (2020) 변수 매핑+변환 저장 완료 → {OUTPUT_FILE}")
else:
    print("[INFO] 매칭된 원시 변수를 찾지 못했습니다.")


[INFO] 매칭된 원시 변수를 찾지 못했습니다.


In [10]:
import pandas as pd
from pathlib import Path

# ===== 사용자 경로 지정 =====
ROOT_DIR = Path(r"C:\Users\starw\OneDrive\바탕 화면\dta\Azoulay_et_al_2019_Data")
OUTPUT_FILE = ROOT_DIR / "Azoulay_variable_map_with_transform.xlsx"
# ==========================

# Azoulay 논문 코드에서 실제 사용된 변환변수 ↔ 원시변수 ↔ 변환방식
TRANSFORM_MAP = {
    "ihs_prox_0_ncoauth": ("prox_0_ncoauth", "asinh(prox_0_ncoauth)")
}

results = []

for f in ROOT_DIR.rglob("*.dta"):
    try:
        df = pd.read_stata(f, convert_categoricals=False)
        variables = df.columns.tolist()

        for transformed, (original, transform_rule) in TRANSFORM_MAP.items():
            for var in variables:
                if original.lower() == var.lower():
                    results.append({
                        "File": f.name,
                        "Folder": str(f.parent),
                        "Transformed Variable": transformed,
                        "Original Variable": var,
                        "Transformation": transform_rule
                    })
    except Exception as e:
        print(f"[WARN] {f} 읽기 실패: {e}")

# 결과 저장
df_out = pd.DataFrame(results)
if not df_out.empty:
    df_out.to_excel(OUTPUT_FILE, index=False)
    print(f"[DONE] Azoulay (2019) 변수 매핑+변환 저장 완료 → {OUTPUT_FILE}")
else:
    print("[INFO] 매칭된 원시 변수를 찾지 못했습니다.")


One or more strings in the dta file could not be decoded using utf-8, and
so the fallback encoding of latin-1 is being used.  This can happen when a file
has been incorrectly encoded by Stata or some other software. You should verify
the string values returned are correct.
  df = pd.read_stata(f, convert_categoricals=False)


[INFO] 매칭된 원시 변수를 찾지 못했습니다.


In [13]:
import pandas as pd
from pathlib import Path

# ===== 사용자 경로 지정 =====
ROOT_DIR = Path(r"C:\Users\starw\OneDrive\바탕 화면\dta\Cao_and_Chen_2022_Data")
OUTPUT_FILE = ROOT_DIR / "CaoChen_variable_map_with_transform.xlsx"
# ==========================

# Cao & Chen 논문 코드에서 실제 사용된 변환변수 ↔ 원시변수 ↔ 변환방식
TRANSFORM_MAP = {
    "ashonset_cntypop1600": ("honset_cntypop1600", "asinh(honset_cntypop1600)")
}

results = []

for f in ROOT_DIR.rglob("*.dta"):
    try:
        df = pd.read_stata(f, convert_categoricals=False)
        variables = df.columns.tolist()

        for transformed, (original, transform_rule) in TRANSFORM_MAP.items():
            for var in variables:
                if original.lower() == var.lower():
                    results.append({
                        "File": f.name,
                        "Folder": str(f.parent),
                        "Transformed Variable": transformed,
                        "Original Variable": var,
                        "Transformation": transform_rule
                    })
    except Exception as e:
        print(f"[WARN] {f} 읽기 실패: {e}")

# 결과 저장
df_out = pd.DataFrame(results)
if not df_out.empty:
    df_out.to_excel(OUTPUT_FILE, index=False)
    print(f"[DONE] Cao & Chen (2022) 변수 매핑+변환 저장 완료 → {OUTPUT_FILE}")
else:
    print("[INFO] 매칭된 원시 변수를 찾지 못했습니다.")


[INFO] 매칭된 원시 변수를 찾지 못했습니다.


In [14]:
import pandas as pd
from pathlib import Path

# ===== 사용자 경로 지정 =====
ROOT_DIR = Path(r"C:\Users\starw\OneDrive\바탕 화면\dta\Arora_et_al_2021_Data")
OUTPUT_FILE = ROOT_DIR / "Arora_variable_map_with_transform.xlsx"
# ==========================

# Arora et al. 논문 코드에서 실제 사용된 변환변수 ↔ 원시변수 ↔ 변환방식
TRANSFORM_MAP = {
    "asinh_pub_yr": ("pub_yr", "asinh(pub_yr)")
}

results = []

for f in ROOT_DIR.rglob("*.dta"):
    try:
        df = pd.read_stata(f, convert_categoricals=False)
        variables = df.columns.tolist()

        for transformed, (original, transform_rule) in TRANSFORM_MAP.items():
            for var in variables:
                if original.lower() == var.lower():
                    results.append({
                        "File": f.name,
                        "Folder": str(f.parent),
                        "Transformed Variable": transformed,
                        "Original Variable": var,
                        "Transformation": transform_rule
                    })
    except Exception as e:
        print(f"[WARN] {f} 읽기 실패: {e}")

# 결과 저장
df_out = pd.DataFrame(results)
if not df_out.empty:
    df_out.to_excel(OUTPUT_FILE, index=False)
    print(f"[DONE] Arora et al. (2021) 변수 매핑+변환 저장 완료 → {OUTPUT_FILE}")
else:
    print("[INFO] 매칭된 원시 변수를 찾지 못했습니다.")


[DONE] Arora et al. (2021) 변수 매핑+변환 저장 완료 → C:\Users\starw\OneDrive\바탕 화면\dta\Arora_et_al_2021_Data\Arora_variable_map_with_transform.xlsx


In [15]:
import pandas as pd
from pathlib import Path

# ===== 사용자 경로 지정 =====
ROOT_DIR = Path(r"C:\Users\starw\OneDrive\바탕 화면\dta\Fetzer_et_al_2021_Data")
OUTPUT_FILE = ROOT_DIR / "Fetzer_variable_map_with_transform.xlsx"
# ==========================

# Fetzer et al. 논문 코드에서 실제 사용된 변환변수 ↔ 원시변수 ↔ 변환방식
TRANSFORM_MAP = {
    "asinhtotalov": ("totalov", "asinh(totalov)")
}

results = []

for f in ROOT_DIR.rglob("*.dta"):
    try:
        df = pd.read_stata(f, convert_categoricals=False)
        variables = df.columns.tolist()

        for transformed, (original, transform_rule) in TRANSFORM_MAP.items():
            for var in variables:
                if original.lower() == var.lower():
                    results.append({
                        "File": f.name,
                        "Folder": str(f.parent),
                        "Transformed Variable": transformed,
                        "Original Variable": var,
                        "Transformation": transform_rule
                    })
    except Exception as e:
        print(f"[WARN] {f} 읽기 실패: {e}")

# 결과 저장
df_out = pd.DataFrame(results)
if not df_out.empty:
    df_out.to_excel(OUTPUT_FILE, index=False)
    print(f"[DONE] Fetzer et al. (2021) 변수 매핑+변환 저장 완료 → {OUTPUT_FILE}")
else:
    print("[INFO] 매칭된 원시 변수를 찾지 못했습니다.")


[WARN] C:\Users\starw\OneDrive\바탕 화면\dta\Fetzer_et_al_2021_Data\REPOSITORY\PROCESSING_FILES\DATA_INPUTS\DEPLOYMENT\ISAFSTRENGTH.dta 읽기 실패: Version of given Stata file is 110. pandas supports importing versions 105, 108, 111 (Stata 7SE), 113 (Stata 8/9), 114 (Stata 10/11), 115 (Stata 12), 117 (Stata 13), 118 (Stata 14/15/16),and 119 (Stata 15/16, over 32,767 variables).
[WARN] C:\Users\starw\OneDrive\바탕 화면\dta\Fetzer_et_al_2021_Data\REPOSITORY\PROCESSING_FILES\DATA_INPUTS\DISTANCE_MEASURES\NEARROADS.dta 읽기 실패: Version of given Stata file is 110. pandas supports importing versions 105, 108, 111 (Stata 7SE), 113 (Stata 8/9), 114 (Stata 10/11), 115 (Stata 12), 117 (Stata 13), 118 (Stata 14/15/16),and 119 (Stata 15/16, over 32,767 variables).
[WARN] C:\Users\starw\OneDrive\바탕 화면\dta\Fetzer_et_al_2021_Data\REPOSITORY\PROCESSING_FILES\DATA_INPUTS\DISTANCE_MEASURES\TRAVELDISTNEARMILAIRPORT.dta 읽기 실패: Version of given Stata file is 110. pandas supports importing versions 105, 108, 111 (Stata 7S

In [16]:
import pandas as pd
from pathlib import Path

# ===== 사용자 경로 지정 =====
ROOT_DIR = Path(r"C:\Users\starw\OneDrive\바탕 화면\dta\Moretti_2021_Data")
OUTPUT_FILE = ROOT_DIR / "Moretti_variable_map_with_transform.xlsx"
# ==========================

# Moretti (2021) 논문 코드에서 실제 사용된 변환변수 ↔ 원시변수 ↔ 변환방식
TRANSFORM_MAP = {
    "y": ("y", "None"),
    "x": ("x", "None")
}

results = []

for f in ROOT_DIR.rglob("*.dta"):
    try:
        df = pd.read_stata(f, convert_categoricals=False)
        variables = df.columns.tolist()

        for transformed, (original, transform_rule) in TRANSFORM_MAP.items():
            for var in variables:
                if original.lower() == var.lower():
                    results.append({
                        "File": f.name,
                        "Folder": str(f.parent),
                        "Transformed Variable": transformed,
                        "Original Variable": var,
                        "Transformation": transform_rule
                    })
    except Exception as e:
        print(f"[WARN] {f} 읽기 실패: {e}")

# 결과 저장
df_out = pd.DataFrame(results)
if not df_out.empty:
    df_out.to_excel(OUTPUT_FILE, index=False)
    print(f"[DONE] Moretti (2021) 변수 매핑+변환 저장 완료 → {OUTPUT_FILE}")
else:
    print("[INFO] 매칭된 원시 변수를 찾지 못했습니다.")


[INFO] 매칭된 원시 변수를 찾지 못했습니다.


In [17]:
import pandas as pd
from pathlib import Path

# ===== 사용자 경로 지정 =====
ROOT_DIR = Path(r"C:\Users\starw\OneDrive\바탕 화면\dta\Berkouwer_and_Dean_2022_Data")
OUTPUT_FILE = ROOT_DIR / "Berkouwer_Dean_variable_map_with_transform.xlsx"
# ==========================

# 논문 코드에서 사용된 변환변수 ↔ 원시변수 ↔ 변환방식
TRANSFORM_MAP = {
    "ihs_amount_weekly": ("amount_weekly", "asinh(amount_weekly)")
}

results = []

for f in ROOT_DIR.rglob("*.dta"):
    try:
        df = pd.read_stata(f, convert_categoricals=False)
        variables = df.columns.tolist()

        for transformed, (original, transform_rule) in TRANSFORM_MAP.items():
            for var in variables:
                if original.lower() == var.lower():
                    results.append({
                        "File": f.name,
                        "Folder": str(f.parent),
                        "Transformed Variable": transformed,
                        "Original Variable": var,
                        "Transformation": transform_rule
                    })
    except Exception as e:
        print(f"[WARN] {f} 읽기 실패: {e}")

# 결과 저장
df_out = pd.DataFrame(results)
if not df_out.empty:
    df_out.to_excel(OUTPUT_FILE, index=False)
    print(f"[DONE] Berkouwer & Dean (2022) 변수 매핑+변환 저장 완료 → {OUTPUT_FILE}")
else:
    print("[INFO] 매칭된 원시 변수를 찾지 못했습니다.")


[DONE] Berkouwer & Dean (2022) 변수 매핑+변환 저장 완료 → C:\Users\starw\OneDrive\바탕 화면\dta\Berkouwer_and_Dean_2022_Data\Berkouwer_Dean_variable_map_with_transform.xlsx


In [19]:
import pandas as pd
from pathlib import Path

# ===== 사용자 경로 =====
FOLDER = Path(r"C:\Users\starw\OneDrive\바탕 화면\dta\Hjort_and_Poulsen_2019_Data")
OUTPUT_FILE = FOLDER / "Hjort_Poulsen_variable_map_with_transform.xlsx"
# ======================

# 이 논문에서 추적할 변환 변수
TRANSFORM_MAP = {
    "loginternet": {"original": ["internet"], "transformation": "log(1+internet)"}
}

results = []

# dta 파일 전체 탐색
for f in FOLDER.rglob("*.dta"):
    try:
        df = pd.read_stata(f, convert_categoricals=False)
        cols = [c.lower() for c in df.columns]  # 소문자로 통일
        for tvar, info in TRANSFORM_MAP.items():
            for orig in info["original"]:
                if orig.lower() in cols:
                    results.append({
                        "Transformed Variable": tvar,
                        "Original Variable": orig,
                        "Transformation": info["transformation"],
                        "File": f.name,
                        "Folder": str(f.parent)
                    })
    except Exception as e:
        print(f"[WARN] {f} 읽기 실패: {e}")

# 결과 저장
if results:
    df_out = pd.DataFrame(results)
    df_out.to_excel(OUTPUT_FILE, index=False)
    print(f"[DONE] 결과 저장 완료 → {OUTPUT_FILE}")
else:
    print("[INFO] 매칭된 변수를 찾지 못했습니다.")


[DONE] 결과 저장 완료 → C:\Users\starw\OneDrive\바탕 화면\dta\Hjort_and_Poulsen_2019_Data\Hjort_Poulsen_variable_map_with_transform.xlsx


In [21]:
import pandas as pd
from pathlib import Path

# ===== 사용자 경로 (각 논문별 결과 저장된 폴더) =====
ROOT_DIR = Path(r"C:\Users\starw\OneDrive\바탕 화면\dta")
OUTPUT_FILE = ROOT_DIR / "All_Papers_Variable_Transform_Map.xlsx"
# ============================================

# 논문별 결과 파일 리스트 (이미 저장된 엑셀들)
file_list = [
    "Hjort_Poulsen_variable_map_with_transform.xlsx",
    "Rogall_variable_map_with_transform.xlsx",
    "Carranza_variable_map_with_transform.xlsx",
    "Johnson_variable_map_with_transform.xlsx",
    "Azoulay_variable_map_with_transform.xlsx",
    "Cao_Chen_variable_map_with_transform.xlsx",
    "Arora_variable_map_with_transform.xlsx",
    "Fetzer_variable_map_with_transform.xlsx",
    "Moretti_variable_map_with_transform.xlsx",
    "Berkouwer_Dean_variable_map_with_transform.xlsx"
]

all_dfs = []
for fname in file_list:
    fpath = ROOT_DIR.rglob(fname)  # 하위폴더까지 탐색
    for f in fpath:
        try:
            df = pd.read_excel(f)
            df.insert(0, "Paper", fname.replace("_variable_map_with_transform.xlsx", ""))
            all_dfs.append(df)
        except Exception as e:
            print(f"[WARN] {fname} 읽기 실패: {e}")

if all_dfs:
    final_df = pd.concat(all_dfs, ignore_index=True)
    final_df.to_excel(OUTPUT_FILE, index=False)
    print(f"[DONE] 통합 엑셀 저장 완료 → {OUTPUT_FILE}")
else:
    print("[INFO] 통합할 데이터가 없습니다.")


[DONE] 통합 엑셀 저장 완료 → C:\Users\starw\OneDrive\바탕 화면\dta\All_Papers_Variable_Transform_Map.xlsx


In [22]:
import pandas as pd
from pathlib import Path

# ===== 사용자 상위 폴더 (모든 논문 Data 폴더가 들어있는 곳) =====
ROOT_DIR = Path(r"C:\Users\starw\OneDrive\바탕 화면\dta")

# ===== Appendix 변환 변수 리스트 (남은 5개만) =====
TRANSFORMED_VARS = {
    "Carranza_et_al_2022_Data": ["el_emp_hour_all_uncd_i"],
    "Johnson_2020_Data": ["arcsinh_var"],
    "Azoulay_et_al_2019_Data": ["ihs_prox_0_ncoauth"],
    "Cao_and_Chen_2022_Data": ["ashonset_cntypop1600"],
    "Moretti_2021_Data": ["y", "x"]
}

# ===== 변환 변수 → 원시 변수 후보 규칙 =====
def guess_original(varname: str):
    v = varname.lower()
    for prefix in ["log", "asinh", "ihs", "l"]:
        if v.startswith(prefix) and len(v) > len(prefix) + 2:
            return v[len(prefix):]  # 접두사 제거
    return None  # 못 찾으면 None

results = []

# ===== 폴더 순회 =====
for folder, tvars in TRANSFORMED_VARS.items():
    folder_path = ROOT_DIR / folder
    if not folder_path.exists():
        print(f"[SKIP] {folder} 폴더 없음")
        continue

    print(f"\n▶ {folder} 탐색 중...")

    for f in folder_path.rglob("*.dta"):
        try:
            df = pd.read_stata(f, convert_categoricals=False)
            cols = [c.lower() for c in df.columns]

            for tvar in tvars:
                orig_guess = guess_original(tvar)
                if orig_guess and orig_guess in cols:
                    results.append({
                        "Paper": folder,
                        "Transformed Variable": tvar,
                        "Original Variable Candidate": orig_guess,
                        "File": f.name
                    })

        except Exception as e:
            print(f"[WARN] {f.name} 읽기 실패: {e}")

# ===== 결과 저장 =====
if results:
    df_out = pd.DataFrame(results)
    output_file = ROOT_DIR / "remaining5_papers_original_candidates.xlsx"
    df_out.to_excel(output_file, index=False)
    print(f"\n[DONE] 결과 저장 완료 → {output_file}")
else:
    print("\n[INFO] 원시 변수 후보를 찾지 못했습니다.")



▶ Carranza_et_al_2022_Data 탐색 중...

▶ Johnson_2020_Data 탐색 중...

▶ Azoulay_et_al_2019_Data 탐색 중...


One or more strings in the dta file could not be decoded using utf-8, and
so the fallback encoding of latin-1 is being used.  This can happen when a file
has been incorrectly encoded by Stata or some other software. You should verify
the string values returned are correct.
  df = pd.read_stata(f, convert_categoricals=False)



▶ Cao_and_Chen_2022_Data 탐색 중...

▶ Moretti_2021_Data 탐색 중...

[INFO] 원시 변수 후보를 찾지 못했습니다.


In [23]:
import pandas as pd
from pathlib import Path

# ===== 상위 경로 (논문별 Data 폴더들이 여기에 있음) =====
ROOT_DIR = Path(r"C:\Users\starw\OneDrive\바탕 화면\dta")

# ===== Appendix에서 확인한 변환 변수 ↔ 원시 변수 키워드 =====
SEARCH_KEYWORDS = {
    "Carranza_et_al_2022_Data": ["emp", "hour", "work", "employment"],
    "Johnson_2020_Data": ["penalty", "fine", "violation", "osha", "var"],
    "Azoulay_et_al_2019_Data": ["prox", "ncoauth", "coauthor"],
    "Cao_and_Chen_2022_Data": ["onset", "conflict", "cntypop", "1600"],
    "Moretti_2021_Data": ["prod", "productivity", "cluster", "inv", "y", "x"]
}

results = []

# ===== 각 논문 폴더 탐색 =====
for folder, keywords in SEARCH_KEYWORDS.items():
    folder_path = ROOT_DIR / folder
    if not folder_path.exists():
        print(f"[SKIP] {folder} 폴더 없음")
        continue

    print(f"\n▶ {folder} 탐색 중...")

    for f in folder_path.rglob("*.dta"):
        try:
            df = pd.read_stata(f, convert_categoricals=False)
            cols = df.columns.tolist()

            # 키워드가 들어간 변수명만 추출
            matches = [c for c in cols if any(kw in c.lower() for kw in keywords)]
            if matches:
                results.append({
                    "Paper": folder,
                    "File": f.name,
                    "Matched Variables": ", ".join(matches)
                })
                print(f"  📂 {f.name} → {matches}")

        except Exception as e:
            print(f"[WARN] {f.name} 읽기 실패: {e}")

# ===== 결과 저장 =====
if results:
    df_out = pd.DataFrame(results)
    output_file = ROOT_DIR / "remaining5_manual_search.xlsx"
    df_out.to_excel(output_file, index=False)
    print(f"\n[DONE] 결과 저장 완료 → {output_file}")
else:
    print("\n[INFO] 키워드 기반 매칭 결과가 없습니다.")



▶ Carranza_et_al_2022_Data 탐색 중...
  📂 audit_data.dta → ['emp_ever', 'bl_emp_7d']
  📂 firm_data_clean.dta → ['employee_total', 'employee_entry_total', 'employee_pay', 'employee_entry_total_miss', 'employee_pay_miss']
  📂 firm_data_trimmed.dta → ['employee_total', 'employee_entry_total', 'employee_pay']
  📂 wsdata_cleaned_signalling.dta → ['bl_emp_7d', 'bl_emp_earn_all', 'bl_search_hour', 'el_emp_m1', 'el_emp_m2', 'el_emp_m3', 'el_emp_7d', 'el_emp_recruit_7d', 'el_emp_hour_all', 'el_search_hour_7d', 'bl_dem_hhemp', 'bl_emp_earn_all_uncd', 'bl_everwork1', 'bl_everwork3', 'el_emp_7dtype_wrperm', 'el_emp_7dtype_wr_uncd', 'el_emp_earn_all', 'el_emp_wage_all', 'el_emp_dur', 'el_emp_earn_all_uncd_i', 'el_emp_hour_all_uncd_i', 'el_emp_wage_all_uncd_i', 'el_search_hour_i', 'el_emp_dur_cens', 'el_emp_type_wage', 'el_emp_type_wage_uncd', 'el_emp_type_self', 'el_emp_type_self_uncd', 'bl_emp_earn_all_uncd_md', 'bl_emp_earn_all_uncd_nm']
  📂 wsdata_signalling_interim.dta → ['bl_demo_hh_employed', '

One or more strings in the dta file could not be decoded using utf-8, and
so the fallback encoding of latin-1 is being used.  This can happen when a file
has been incorrectly encoded by Stata or some other software. You should verify
the string values returned are correct.
  df = pd.read_stata(f, convert_categoricals=False)


  📂 aer_2016-1574_replication_set.dta → ['nb_pmra_ncoauth', 'nbgrants_ncoauth', 'nb_pmra_qrt1_ncoauth', 'nb_pmra_qrt2_ncoauth', 'nb_pmra_qrt3_ncoauth', 'nb_pmra_75to95_ncoauth', 'nb_pmra_95to99_ncoauth', 'nb_pmra_abv99_ncoauth', 'nb_pmra_hi_prxmt_crdnl_ncoauth', 'nb_pmra_lo_prxmt_crdnl_ncoauth', 'nb_pmra_hi_prxmt_ordnl_ncoauth', 'nb_pmra_lo_prxmt_ordnl_ncoauth', 'nb_pmra_yciteinfield_ncoauth', 'nb_pmra_nciteinfield_ncoauth', 'nb_pmra_ycitethestar_ncoauth', 'nb_pmra_ncitethestar_ncoauth', 'nb_pmra_lo_refs_vntg_ncoauth', 'nb_pmra_hi_refs_vntg_ncoauth', 'nb_pmra_lo_2wy_mesh_vntg_ncoauth', 'nb_pmra_hi_2wy_mesh_vntg_ncoauth', 'nb_pmra_prox_0_ncoauth', 'nb_pmra_prox_belowmed_ncoauth', 'nb_pmra_prox_50to55_ncoauth', 'nb_pmra_prox_55to60_ncoauth', 'nb_pmra_prox_60to65_ncoauth', 'nb_pmra_prox_65to70_ncoauth', 'nb_pmra_prox_70to75_ncoauth', 'nb_pmra_prox_75to80_ncoauth', 'nb_pmra_prox_80to85_ncoauth', 'nb_pmra_prox_85to90_ncoauth', 'nb_pmra_prox_90to95_ncoauth', 'nb_pmra_prox_95to99_ncoauth', 'n