In [None]:
from typing import Iterator, AsyncIterator, List
from langchain_core.document_loaders import BaseLoader
from langchain_core.documents import Document
from pdf2image import convert_from_path
from openai import OpenAI
import tempfile
import base64

client = OpenAI()

class MultimodalLoader(BaseLoader):
    def __init__(self, file_path: str, model: str = "gpt-5-nano", first_page: int = None, last_page: int = None) -> None:

        self.file_path = file_path
        self.model = model
        self.first_page = first_page
        self.last_page = last_page

    def _image_to_text(self, image) -> str:
        """단일 이미지에서 텍스트 추출 (동기)"""
        with tempfile.NamedTemporaryFile(suffix=".png") as tmp:
            image.save(tmp.name, format="PNG")
            with open(tmp.name, "rb") as f:
                b64_image = base64.b64encode(f.read()).decode("utf-8")
                response = client.responses.create(
                    model=self.model,
                    input=[
                        {"role": "developer", "content": '''You are a multimodal OCR and document parsing assistant. 
Your task is to extract text from images of PDF pages and return it in clean, structured Markdown format.

### Instructions:
1. Read the provided image(s) of the PDF page carefully. 
2. Extract all visible text, preserving the original reading order.
3. Use **Markdown syntax** for structure:
   - Use `#`, `##`, `###` for headings (follow the visual hierarchy of the document).
   - Use bullet points (`-` or `*`) and numbered lists where appropriate.
   - Use code blocks (```) only if the document contains actual code or fixed-width text.
   - Use tables in Markdown format if the document contains tabular data.
4. Do **not** insert hallucinated content. Only output text that is actually present in the image.
5. Correct minor OCR errors if possible, but do not paraphrase or rewrite the content.
6. If an image has no readable text, return:  

[No readable text found]

### Output:
Return only the extracted content in Markdown, without additional explanations.'''},
                        {"role": "user", "content": [
                            {"type": "input_image", "image_url": f"data:image/png;base64,{b64_image}"}
                        ]}
                    ],
                )
        return response.output_text

    def lazy_load(self) -> Iterator[Document]:
        """동기식 lazy loader"""
        pages = convert_from_path(
            self.file_path,
            dpi=512,
            first_page=self.first_page,
            last_page=self.last_page
            )
        total_pages = len(pages)
        for page_num, image in enumerate(pages, start=1):
            text = self._image_to_text(image)
            yield Document(
                page_content=text,
                metadata={"source": self.file_path, "page": page_num, "total_pages": total_pages},
            )

In [6]:
loader = MultimodalLoader(
    "../../data/raw/[삼성전자]분기보고서(2025.05.15).pdf",
    model="gpt-5-mini",
    )

In [None]:
import json
import os

output_file = "../../data/parsed/multimodal.jsonl"

if not os.path.exists(output_file):
    open(output_file, "w", encoding="utf-8").close()

with open(output_file, "a", encoding="utf-8") as f:
    for doc in loader.lazy_load():
        record = doc.model_dump()
        f.write(json.dumps(record, ensure_ascii=False) + "\n")

In [6]:
import json
from langchain_core.documents import Document

output_file = "../../data/parsed/multimodal.jsonl"

docs = []
with open(output_file, "r", encoding="utf-8") as f:
    for line in f:
        d = json.loads(line) 
        docs.append(Document(**d))

In [7]:
print(docs[166].page_content)

# 특수관계자에 대한 채권 채무에 대한 공시, 합계
## 당분기말 (단위 : 백만원)

|  | 종속기업 | 관계기업 및 공동기업 | 그 밖의 특수관계자 | 대규모기업집단 |
|---|---:|---:|---:|---:|
| 채권 등, 특수관계자거래 | 31,045,583 | 295,142 | 199,502 | 7,014 |
| 채무 등, 특수관계자거래 | 13,906,979 | 1,132,782 | 1,405,284 | 2,275,269 |

| 특수관계자거래의 채권,채무의 조건에 대한 설명 | 종속기업 | 관계기업 및 공동기업 | 그 밖의 특수관계자 | 대규모기업집단 |
|---|---|---|---|---|
|  | 종속기업 채권에 대하여 인식된 손실충당금은 없습니다. 채무 등은 리스부채가 포함된 금액입니다. | 종속기업 채권에 대하여 인식된 손실충당금은 없습니다. 채무 등은 리스부채가 포함된 금액입니다. | 종속기업 채권에 대하여 인식된 손실충당금은 없습니다. 채무 등은 리스부채가 포함된 금액입니다. | 종속기업 채권에 대하여 인식된 손실충당금은 없습니다. 채무 등은 리스부채가 포함된 금액입니다. |

| 특수관계의 성격에 대한 기술 |  |  |  |  |
|---|---|---|---|---|
|  |  |  |  | 기업회계기준서 제1024호 특수관계자 범위에 포함되지 않으나 「독점규제 및 공정거래에 관한 법률」에 따른 동일한 대규모기업집단 소속회사입니다. |

---

# 전기말 (단위 : 백만원)

|  | 종속기업 | 관계기업 및 공동기업 | 그 밖의 특수관계자 | 대규모기업집단 |
|---|---:|---:|---:|---:|
| 채권 등, 특수관계자거래 | 32,238,136 | 297,926 | 196,569 | 6,294 |
| 채무 등, 특수관계자거래 | 13,608,939 | 1,292,487 | 1,960,964 | 2,520,417 |

| 특수관계자거래의 채권,채무의 조건에 대한 설명 | 종속기업 | 관계기업 및 공동기업 | 

# 특수관계자에 대한 채권 채무에 대한 공시, 합계
## 당분기말 (단위 : 백만원)

|  | 종속기업 | 관계기업 및 공동기업 | 그 밖의 특수관계자 | 대규모기업집단 |
|---|---:|---:|---:|---:|
| 채권 등, 특수관계자거래 | 31,045,583 | 295,142 | 199,502 | 7,014 |
| 채무 등, 특수관계자거래 | 13,906,979 | 1,132,782 | 1,405,284 | 2,275,269 |

| 특수관계자거래의 채권,채무의 조건에 대한 설명 | 종속기업 | 관계기업 및 공동기업 | 그 밖의 특수관계자 | 대규모기업집단 |
|---|---|---|---|---|
|  | 종속기업 채권에 대하여 인식된 손실충당금은 없습니다. 채무 등은 리스부채가 포함된 금액입니다. | 종속기업 채권에 대하여 인식된 손실충당금은 없습니다. 채무 등은 리스부채가 포함된 금액입니다. | 종속기업 채권에 대하여 인식된 손실충당금은 없습니다. 채무 등은 리스부채가 포함된 금액입니다. | 종속기업 채권에 대하여 인식된 손실충당금은 없습니다. 채무 등은 리스부채가 포함된 금액입니다. |

| 특수관계의 성격에 대한 기술 |  |  |  |  |
|---|---|---|---|---|
|  |  |  |  | 기업회계기준서 제1024호 특수관계자 범위에 포함되지 않으나 「독점규제 및 공정거래에 관한 법률」에 따른 동일한 대규모기업집단 소속회사입니다. |

---

# 전기말 (단위 : 백만원)

|  | 종속기업 | 관계기업 및 공동기업 | 그 밖의 특수관계자 | 대규모기업집단 |
|---|---:|---:|---:|---:|
| 채권 등, 특수관계자거래 | 32,238,136 | 297,926 | 196,569 | 6,294 |
| 채무 등, 특수관계자거래 | 13,608,939 | 1,292,487 | 1,960,964 | 2,520,417 |

| 특수관계자거래의 채권,채무의 조건에 대한 설명 | 종속기업 | 관계기업 및 공동기업 | 그 밖의 특수관계자 | 대규모기업집단 |
|---|---|---|---|---|
|  | 종속기업 채권에 대하여 인식된 손실충당금은 없습니다. 채무 등은 리스부채가 포함된 금액입니다. | 종속기업 채권에 대하여 인식된 손실충당금은 없습니다. 채무 등은 리스부채가 포함된 금액입니다. | 종속기업 채권에 대하여 인식된 손실충당금은 없습니다. 채무 등은 리스부채가 포함된 금액입니다. | 종속기업 채권에 대하여 인식된 손실충당금은 없습니다. 채무 등은 리스부채가 포함된 금액입니다. |

전자공시시스템 dart.fss.or.kr  
Page 164