In [10]:
import os
import subprocess   # 파이썬에서 시스템 명령어를 실행용
import pymupdf4llm
from pathlib import Path

# --- 경로 설정부 ---

DOWNLOAD_DIR = Path("/Users/nohminho/Downloads/PAJU_welfare_documents") # 원본 파일 경로
MD_OUTPUT_DIR = Path("/Users/nohminho/Downloads/PAJU_welfare_documents") # markdown 저장 경로

# --- 출력 폴더 생성 ---
MD_OUTPUT_DIR.mkdir(exist_ok=True)
print(f"다운로드 폴더: {DOWNLOAD_DIR.resolve()}")
print(f"MD 출력 폴더: {MD_OUTPUT_DIR.resolve()}")


# --- 변환 함수 설정부 ---

def convert_pdf_to_md(pdf_path, output_dir):
    """PDF 파일을 서식이 있는 Markdown으로 변환"""
    md_filename = pdf_path.stem + ".md"
    output_path = output_dir / md_filename
    md_text = pymupdf4llm.to_markdown(str(pdf_path))
    output_path.write_text(md_text, encoding="utf-8")
    print(f"[PDF] 변환 완료: {pdf_path.name}")


def convert_hwp_to_md(hwp_path, output_dir):
    """HWP 파일을 hwp5txt를 이용해 단순 텍스트로 추출"""
    md_filename = hwp_path.stem + ".md"
    output_path = output_dir / md_filename

    # 'hwp5txt' 명령어를 실행
    result = subprocess.run(
        ['hwp5txt', str(hwp_path)],
        capture_output=True,
        text=True,
        encoding='utf-8'
    )

    # hwp5txt가 출력한 텍스트를 가져옴
    raw_text = result.stdout

    # md 파일 형식에 맞게 저장
    md_text = f"# {hwp_path.stem}\n\n"
    md_text += "--- (경고: HWP 텍스트 추출본. 서식/표가 확인 요망) ---\n\n"
    md_text += raw_text

    output_path.write_text(md_text, encoding="utf-8")
    print(f" [HWP] 텍스트 추출 성공: {hwp_path.name}")


# --- 실행부 ---
print("\n--- 파일 변환 시작 ---")

# glob을 사용해 모든 파일 목록을 가져옴
all_files = list(DOWNLOAD_DIR.glob('*'))

total_count = len(all_files)
pdf_count = 0
hwp_count = 0
skipped_count = 0

for i, file_path in enumerate(all_files, 1):
    # 파일이 아닌 폴더 등은 건너뛰기
    if not file_path.is_file():
        continue

    print(f"\n[{i}/{total_count}] 처리 중: {file_path.name}")
    ext = file_path.suffix.lower()

    if ext == '.pdf':
        convert_pdf_to_md(file_path, MD_OUTPUT_DIR)
        pdf_count += 1

    elif ext == '.hwp':
        convert_hwp_to_md(file_path, MD_OUTPUT_DIR)
        hwp_count += 1

    else:
        # .md, .hwpx, .zip 등 pdf, hwp 이외의 파일 예외문
        print(f"  - [SKIP] 지원하지 않는 형식: {ext}")
        skipped_count += 1

print("\n--- 모든 변환 완료 ---")
print(f"  - PDF 변환: {pdf_count}개")
print(f"  - HWP 텍스트 추출: {hwp_count}개")
print(f"  - 스킵됨: {skipped_count}개")
print(f"  → 결과물은 '{MD_OUTPUT_DIR}' 폴더에 저장.")

다운로드 폴더: /Users/nohminho/Downloads/PAJU_welfare_documents
MD 출력 폴더: /Users/nohminho/Downloads/PAJU_welfare_documents

--- 'downloads' 폴더의 파일 변환 시작 ---

[1/18] 처리 중: 독립유공자 유족 수당 및 유족 위문금.hwp
  ✓ [HWP] 텍스트 추출 성공: 독립유공자 유족 수당 및 유족 위문금.hwp

[2/18] 처리 중: 취약계층 인플루엔자 예방접종 사업.hwp
  ✓ [HWP] 텍스트 추출 성공: 취약계층 인플루엔자 예방접종 사업.hwp

[3/18] 처리 중: 장수노인장려금.hwp
  ✓ [HWP] 텍스트 추출 성공: 장수노인장려금.hwp

[4/18] 처리 중: .DS_Store
  - [SKIP] 지원하지 않는 형식: 

[5/18] 처리 중: 파주시 저소득 어린이 청소년 교통비 지원.hwp
  ✓ [HWP] 텍스트 추출 성공: 파주시 저소득 어린이 청소년 교통비 지원.hwp

[6/18] 처리 중: 모자보건사업.hwp
  ✓ [HWP] 텍스트 추출 성공: 모자보건사업.hwp

[7/18] 처리 중: 출생축하 지원.hwp
  ✓ [HWP] 텍스트 추출 성공: 출생축하 지원.hwp

[8/18] 처리 중: 파주시 보훈명예수당 지급.pdf
  ✓ [PDF] 변환 완료: 파주시 보훈명예수당 지급.pdf

[9/18] 처리 중: 청각장애인 인공달팽이관 재활치료 지원.pdf
  ✓ [PDF] 변환 완료: 청각장애인 인공달팽이관 재활치료 지원.pdf

[10/18] 처리 중: 장애인가정 출산 지원.pdf
  ✓ [PDF] 변환 완료: 장애인가정 출산 지원.pdf

[11/18