In [5]:
import os
from langchain_upstage import UpstageDocumentParseLoader
from langchain.docstore.document import Document
from dotenv import load_dotenv

# .env에서 API 키 불러오기
load_dotenv()
API_KEY = os.getenv("UPSTAGE_API_KEY")

# PDF가 저장된 폴더 경로
FOLDER_PATH = "./data/policy/정책데이터_pdf"

# 결과 저장할 리스트
all_docs: list[Document] = []

# 폴더 내 PDF 파일 반복 처리
for filename in os.listdir(FOLDER_PATH):
    if filename.endswith(".pdf"):
        file_path = os.path.join(FOLDER_PATH, filename)
        print(f"[🔍 파싱 중] {filename}")

        try:
            loader = UpstageDocumentParseLoader(
                file_path=file_path,
                api_key=API_KEY,
                output_format='markdown',
                ocr=True
            )
            docs = loader.load()
            all_docs.extend(docs)

        except Exception as e:
            print(f"[❌ 오류] {filename} 처리 중 실패: {e}")
            continue

print(f"\n✅ 총 {len(all_docs)}개의 문단/표 문서 객체 수집 완료!")


[🔍 파싱 중] 정책브리핑_1.pdf
[🔍 파싱 중] 정책브리핑_10.pdf
[🔍 파싱 중] 정책브리핑_11.pdf
[🔍 파싱 중] 정책브리핑_12.pdf
[🔍 파싱 중] 정책브리핑_13.pdf
[🔍 파싱 중] 정책브리핑_14.pdf
[🔍 파싱 중] 정책브리핑_15.pdf
[🔍 파싱 중] 정책브리핑_16.pdf
[🔍 파싱 중] 정책브리핑_17.pdf
[🔍 파싱 중] 정책브리핑_18.pdf
[🔍 파싱 중] 정책브리핑_19.pdf
[🔍 파싱 중] 정책브리핑_2.pdf
[🔍 파싱 중] 정책브리핑_20.pdf
[🔍 파싱 중] 정책브리핑_21.pdf
[🔍 파싱 중] 정책브리핑_22.pdf
[🔍 파싱 중] 정책브리핑_3.pdf
[🔍 파싱 중] 정책브리핑_4.pdf
[🔍 파싱 중] 정책브리핑_5.pdf
[🔍 파싱 중] 정책브리핑_6.pdf
[🔍 파싱 중] 정책브리핑_7.pdf
[🔍 파싱 중] 정책브리핑_8.pdf
[🔍 파싱 중] 정책브리핑_9.pdf

✅ 총 22개의 문단/표 문서 객체 수집 완료!


In [6]:
all_docs

[Document(metadata={'total_pages': 2, 'coordinates': [[{'x': 0.1689, 'y': 0.0225}, {'x': 0.8333, 'y': 0.0225}, {'x': 0.8333, 'y': 0.9489}, {'x': 0.1689, 'y': 0.9489}], [{'x': 0.4367, 'y': 0.0151}, {'x': 0.5643, 'y': 0.0151}, {'x': 0.5643, 'y': 0.0467}, {'x': 0.4367, 'y': 0.0467}]]}, page_content="| 기사인쇄하기 |  | 대한민국 정책브리핑 |\n| --- | --- | --- |\n| [K-희망사다리] 부모 함께 육아휴직제 2025.04.30 문화체육관광부 국민소통실 | [K-희망사다리] 부모 함께 육아휴직제 2025.04.30 문화체육관광부 국민소통실 | [K-희망사다리] 부모 함께 육아휴직제 2025.04.30 문화체육관광부 국민소통실 |\n| PART. 2 | 생애주기별 국민생활 서비스 | 생애주기별 국민생활 서비스 |\n| 함께하는 순간 더커지는 행복 : 가족·여성 | 고용노동부 고객상담센터 부모 함께 육아휴직제 1350 생후 18개월 이내 자녀가 있다면 부모가 함께 육아를 해요. | 고용노동부 고객상담센터 부모 함께 육아휴직제 1350 생후 18개월 이내 자녀가 있다면 부모가 함께 육아를 해요. |\n| ▲ 지원대상 · 생후 18개월 이내 자녀가 있고 부모 모두가 육아휴직을 사용하는 경우 · 「고용보험법」 상 고용보험 피보험단위기간 180일 이상 충족 필요 ※ 공무원이나 사립학교 교원은 대상 아님 통상임금의 | ▲ 지원대상 · 생후 18개월 이내 자녀가 있고 부모 모두가 육아휴직을 사용하는 경우 · 「고용보험법」 상 고용보험 피보험단위기간 180일 이상 충족 필요 ※ 공무원이나 사립학교 교원은 대상 아님 통상임금의 | ▲ 지원대상 · 생후 18개월 이내 자녀가 있고 부모 모두가 육아휴직을 사용하는 경우 · 「고용보험법」