In [1]:
# pip install langchain
# pip install docling
# pip install langchain_docling

In [1]:
from langchain_docling import DoclingLoader
from langchain_docling.loader import ExportType
from docling.document_converter import DocumentConverter

# 파싱과 LLM이 이해하기 쉬운 rule_base로 변환까지 하기 때문에 시간이 꽤나 걸린다. 
# FILE_PATH = "https://arxiv.org/pdf/2408.09869" # Docling을 설명하는 논문 - 이미지 경로 - 이것을 사용할땐 FILENAME 뺄것


FILE_PATH = "C:/Users/skyop/jaeho_template/RAG_strategies/data"
# FILE_NAME = "insight_Agentic.pdf"
FILE_NAME = "SPRi AI Brief 7월호 산업동향.pdf"

source = f"{FILE_PATH}/{FILE_NAME}"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)

loader = DoclingLoader(
    file_path=f"{FILE_PATH}/{FILE_NAME}",
    export_type=ExportType.MARKDOWN, # 이게 없다면 markdown형식이 아닌 그냥 text형식으로 반환
    
)

docs = loader.load()

  from .autonotebook import tqdm as notebook_tqdm


### 마크다운 형식으로 파일 확인

In [None]:
from IPython.display import Markdown

# 마크다운 형식으로 문서를 내보내기
# export_to_markdown() 메서드는 문서를 마크다운 형식으로 변환하여 반환합니다.
display(Markdown(result.document.export_to_markdown()))

### Markdown 파일로 저장

In [2]:
import os
# 모든 문서를 하나의 txt 파일로 저장
SAVE_DIR = "C:/Users/skyop/jaeho_template/RAG_strategies/docling_outputs"

save_path = os.path.join(SAVE_DIR, f"{FILE_NAME}.md")
with open(save_path, "w", encoding="utf-8") as f:
    for i, doc in enumerate(docs, 1):
        f.write(f"## Document {i}\n\n")
        f.write(doc.page_content)
        f.write("\n\n")

# JSON파일로 저장(메타데이터가 필요할 때)

In [3]:
import json

os.makedirs(SAVE_DIR, exist_ok=True)

save_path = os.path.join(SAVE_DIR, f"{FILE_NAME}.json")

json_docs = [
    {"content": doc.page_content, "metadata": doc.metadata}
    for doc in docs
]

with open(save_path, "w", encoding="utf-8") as f:
    json.dump(json_docs, f, ensure_ascii=False, indent=2)

print(f"저장 완료: {save_path}")

저장 완료: C:/Users/skyop/jaeho_template/RAG_strategies/docling_outputs\SPRi AI Brief 7월호 산업동향.pdf.json


In [None]:
# HTML 형식으로 문서를 내보내기
# export_to_html() 메서드는 문서를 HTML 형식으로 변환하여 반환합니다.
# print(result.document.export_to_html())

In [None]:
# doctag 형식으로 문서를 내보내기
# export_to_doctag() 메서드는 문서를 doctag 형식으로 변환하여 반환합니다.
# print(result.document.export_to_doctags())