In [1]:
import os
from dotenv import load_dotenv

load_dotenv()
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

In [3]:
import json
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

# PDF 파일 경로 설정
pdf_filepath = 'data/tutorial-korean.pdf'

# 파일 존재 여부 확인 (파일이 없으면 오류 발생)
if not os.path.exists(pdf_filepath):
    raise FileNotFoundError(f"파일을 찾을 수 없습니다: {pdf_filepath}")

In [4]:
try:
    # 1. PDF 파일 로드
    loader = PyPDFLoader(pdf_filepath)  # PDF 파일을 로드할 객체 생성
    docs = loader.load()  # 문서를 전체 로드

    # 총 문서 개수 출력
    print(f"총 {len(docs)}개의 문서가 로드 되었습니다.")

    #  첫 번째 문서의 메타데이터 출력
    print("첫 번째 문서 메타데이터:")
    print(json.dumps(docs[0].metadata, indent=2, ensure_ascii=False))

    # 특정 인덱스(10번째) 문서의 내용 확인 (존재할 경우)
    if len(docs) > 10:
        print("\n10번째 문서 내용:", type(docs[10]))
        print(docs[10])  # 10번째 문서 출력

    #  2. 텍스트 분할 (200자 단위, 중첩 없음)
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=0)
    split_docs = loader.load_and_split(text_splitter=text_splitter)  # 분할된 문서 로드

    # 분할된 문서 개수 출력
    print(f"\n분할된 문서의 개수: {len(split_docs)} 타입: {type(split_docs)}")

    # 10번째 분할된 문서 내용 출력 (존재할 경우)
    if len(split_docs) > 10:
        print("\n10번째 분할된 문서:")
        print(split_docs[10])

    # 3. Lazy Load 방식으로 문서 로드
    print("\nLazy Load 방식으로 문서 로드:")
    for i, doc in enumerate(loader.lazy_load()):
        if i < 5:  # 너무 많은 출력 방지 (예제: 처음 5개만 출력)
            print(json.dumps(doc.metadata, indent=2, ensure_ascii=False))

except Exception as e:
    # 오류 발생 시 메시지 출력
    print(f"오류 발생: {e}")

incorrect startxref pointer(3)
parsing for Object Streams
incorrect startxref pointer(3)
parsing for Object Streams


총 39개의 문서가 로드 되었습니다.
첫 번째 문서 메타데이터:
{
  "producer": "Acrobat Distiller with ezUniHFT",
  "creator": "PScript5.dll Version 5.2",
  "creationdate": "2005-04-26T15:21:34+09:00",
  "moddate": "2005-04-26T15:21:34+09:00",
  "author": "Owner",
  "title": "<426C75654AC7D1B1DBC6A9C5E4B8AEBEF3B9AEBCAD283230292E687770>",
  "source": "data/tutorial-korean.pdf",
  "total_pages": 39,
  "page": 0,
  "page_label": "1"
}

10번째 문서 내용: <class 'langchain_core.documents.base.Document'>
page_content='' metadata={'producer': 'Acrobat Distiller with ezUniHFT', 'creator': 'PScript5.dll Version 5.2', 'creationdate': '2005-04-26T15:21:34+09:00', 'moddate': '2005-04-26T15:21:34+09:00', 'author': 'Owner', 'title': '<426C75654AC7D1B1DBC6A9C5E4B8AEBEF3B9AEBCAD283230292E687770>', 'source': 'data/tutorial-korean.pdf', 'total_pages': 39, 'page': 10, 'page_label': '11'}


incorrect startxref pointer(3)
parsing for Object Streams



분할된 문서의 개수: 0 타입: <class 'list'>

Lazy Load 방식으로 문서 로드:
{
  "producer": "Acrobat Distiller with ezUniHFT",
  "creator": "PScript5.dll Version 5.2",
  "creationdate": "2005-04-26T15:21:34+09:00",
  "moddate": "2005-04-26T15:21:34+09:00",
  "author": "Owner",
  "title": "<426C75654AC7D1B1DBC6A9C5E4B8AEBEF3B9AEBCAD283230292E687770>",
  "source": "data/tutorial-korean.pdf",
  "total_pages": 39,
  "page": 0,
  "page_label": "1"
}
{
  "producer": "Acrobat Distiller with ezUniHFT",
  "creator": "PScript5.dll Version 5.2",
  "creationdate": "2005-04-26T15:21:34+09:00",
  "moddate": "2005-04-26T15:21:34+09:00",
  "author": "Owner",
  "title": "<426C75654AC7D1B1DBC6A9C5E4B8AEBEF3B9AEBCAD283230292E687770>",
  "source": "data/tutorial-korean.pdf",
  "total_pages": 39,
  "page": 1,
  "page_label": "2"
}
{
  "producer": "Acrobat Distiller with ezUniHFT",
  "creator": "PScript5.dll Version 5.2",
  "creationdate": "2005-04-26T15:21:34+09:00",
  "moddate": "2005-04-26T15:21:34+09:00",
  "author": "Own