# Document & Document Loaders

**참고**

- [LangChain 에서 사용되는 주요 로더](https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/)
- [LangChain 에서 사용되는 로더 목록](https://python.langchain.com/v0.1/docs/integrations/document_loaders/)

#### 실습에 활용할 문서

정보통신정책연구원(KISDI) - 2025년 1월호

- 제목 : 딥시크가 촉발한 AI 패러다임 변화와 정책 방향

- 파일명: `AI_Paradigm_Shift_Driven_by_DeepSeek.pdf`


## Document

LangChain 의 기본 문서 객체입니다.

**속성**
- `page_content`: 문서의 내용을 나타내는 문열입니다.
- `metadata`: 문서의 메타데이터를 나타내는 딕셔너리입니다.


In [1]:
from langchain_core.documents import Document

document = Document(page_content="안녕하세요? 이건 랭체인의 도큐먼드 입니다")

In [2]:
# 도큐먼트의 속성 확인
document.__dict__

{'id': None,
 'metadata': {},
 'page_content': '안녕하세요? 이건 랭체인의 도큐먼드 입니다',
 'type': 'Document'}

In [3]:
# 메타데이터 추가
document.metadata["source"] = "AI Talent Lab"
document.metadata["page"] = 1
document.metadata["author"] = "bokyung"
document.metadata["date"] = "2025-03-07"

In [4]:
# 도큐먼트의 속성 확인
document.metadata

{'source': 'AI Talent Lab',
 'page': 1,
 'author': 'bokyung',
 'date': '2025-03-07'}

## Document Loader

다양한 파일의 형식으로부터 불러온 내용을 문서(Document) 객체로 변환하는 역할을 합니다.

### 주요 Loader 
- PyPDFLoader: PDF 파일을 로드하는 로더입니다.
- CSVLoader: CSV 파일을 로드하는 로더입니다.
- UnstructuredHTMLLoader: HTML 파일을 로드하는 로더입니다.
- JSONLoader: JSON 파일을 로드하는 로더입니다.
- TextLoader: 텍스트 파일을 로드하는 로더입니다.
- DirectoryLoader: 디렉토리를 로드하는 로더입니다.

In [5]:
# 예제 파일 경로
FILE_PATH = "./data/extract_text/AI_Paradigm_Shift_Driven_by_DeepSeek.pdf"

In [6]:
from langchain_community.document_loaders import PyPDFLoader

# 로더 설정
loader = PyPDFLoader(FILE_PATH)

### load()

- 문서를 로드하여 반환합니다.
- 반환된 결과는 `List[Document]` 형태입니다.

In [7]:
# PDF 로더
docs = loader.load()

# 로드된 문서의 수 확인
len(docs)

46

In [8]:
# 10 번째 문서 확인
docs[10]

Document(metadata={'producer': 'Hancom PDF 1.3.0.509', 'creator': 'Hancom PDF 1.3.0.509', 'creationdate': '2025-02-10T17:02:50+09:00', 'author': 'Insung-9', 'moddate': '2025-02-10T17:02:50+09:00', 'pdfversion': '1.4', 'source': './data/extract_text/AI_Paradigm_Shift_Driven_by_DeepSeek.pdf', 'total_pages': 46, 'page': 10, 'page_label': '11'}, page_content="딥시크가 촉발한 AI 패러다임 변화와 플랫폼 정책방향\n10\nl(애플리케이션) ’24.2월 기존 바드(Bard)를 통합한 생성형 AI 앱 ‘제미나이’ 출시, 다양한 기능을 지속 탑재하여 성능 개선-생산성 플랫폼 Workspace, 웹브라우저 Chrome 등에 제미나이 통합-이용자 질문에 대한 심층연구 실행을 돕는 AI 에이전트 ‘제미나이 딥 리서치’ 출시-’24.5월 차세대 범용 AI 에이전트 ‘프로젝트 아스트라’ 공개, ’25년 상용화 예정-검색에서 사용자와 상호작용 및 후속질문이 가능한 AI기반 챗봇 및 멀티모달 방식을 도입할 계획-검색에서 실시간 비디오 처리나 연구보고서 생성도 추진◆ 메타l(기초 모델) LLaMA를 연구 용도 중심의 비영리 라이센스로 전 세계 AI 커뮤니티에 제공하고 개방형 협력을 구하는 전략으로 접근l(애플리케이션) SNS 관련 앱 전반에 AI를 직접 통합하여 광범위한 이용자 데이터를 바탕으로 새로운 형태의 광고 도구를 제공하는 플랫폼으로 확장시킬 계획-’24.4월 멀티모달 AI 비서 '메타 AI'를 무료로 공개하여 페이스북, 인스타그램, 왓츠앱 등을 통해 사용할 수 있음-’24.7월 AI 캐릭터와 챗봇을 만들 수 있는 ‘AI 스튜디오' 출시")

### load_and_split()

- splitter 를 사용하여 문서를 분할하고 반환합니다.
- 반환된 결과는 `List[Document]` 형태입니다.

In [9]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 문열 분할기 설정
text_splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=0)

# 예제 파일 경로
FILE_PATH = "./data/extract_text/AI_Paradigm_Shift_Driven_by_DeepSeek.pdf"

# 로더 설정
loader = PyPDFLoader(FILE_PATH)

# 문서 분할
split_docs = loader.load_and_split(text_splitter=text_splitter)

# 로드된 문서의 수 확인
print(f"문서의 길이: {len(split_docs)}")

문서의 길이: 207


In [10]:
# 50번째 문서 확인
split_docs[50]

Document(metadata={'producer': 'Hancom PDF 1.3.0.509', 'creator': 'Hancom PDF 1.3.0.509', 'creationdate': '2025-02-10T17:02:50+09:00', 'author': 'Insung-9', 'moddate': '2025-02-10T17:02:50+09:00', 'pdfversion': '1.4', 'source': './data/extract_text/AI_Paradigm_Shift_Driven_by_DeepSeek.pdf', 'total_pages': 46, 'page': 13, 'page_label': '14'}, page_content='(2) 국내 플랫폼 기업의 AI 전략◆ 네이버l(기초 모델) ’23.8월 자체 모델 ‘하이퍼클로바’ 공개, ’24.8월 버전을 높인 ’하이퍼클로바X’ 발표, ’25.2월 플래그십 모델 업데이트 예정※ 네이버 서비스에 최적화된 모델의 능력과 속도를 효율적으로 구축하는 것이 목표l(애플리케이션) ’24.8월 생성형 AI앱 ’클로바X’ 이미지 해석 기능 개선')

# PDF Loader

## PDF

[Portable Document Format (PDF)](https://en.wikipedia.org/wiki/PDF), ISO 32000으로 표준화된 파일 형식은 Adobe가 1992년에 문서를 제시하기 위해 개발했으며, 이는 응용 소프트웨어, 하드웨어 및 운영 시스템에 독립적인 방식으로 텍스트 서식 및 이미지를 포함합니다.

현실에서는 많은 문서들이 PDF 형태로 전달이 되곤 합니다.

해당 실습에서는 `PDF` 문서를 LangChain [Document](https://api.python.langchain.com/en/latest/documents/langchain_core.documents.base.Document.html#langchain_core.documents.base.Document) 형식으로 로드하는 방법을 다룹니다.

LangChain은 다양한 PDF 파서와 통합되어 있어서 간단하게 사용할 수 있지만, OCR이 필요한 경우에는 한글 인식에 대한 성능이 부족하기도 합니다. 

다양한 PDF 라이브러리를 적용해보고 그 결과를 비교하면서 내가 만들어야할 어플리케이션에 적합한 라이브러리를 선택해야합니다.

**참고**

- [LangChain 도큐먼트](https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/pdf/)

## AutoRAG 팀에서의 PDF 실험

AutoRAG 에서 진행한 실험을 토대로 작성한 순위표

아래 표기된 숫자는 등수를 나타냅니다. (The lower, the better)

| | PDFMiner | PDFPlumber | PyPDFium2 | PyMuPDF | PyPDF2 |
|----------|:---------:|:----------:|:---------:|:-------:|:-----:|
| Medical  | 1         | 2          | 3         | 4       | 5     |
| Law      | 3         | 1          | 1         | 3       | 5     |
| Finance  | 1         | 2          | 2         | 4       | 5     |
| Public   | 1         | 1          | 1         | 4       | 5     |
| Sum      | 5         | 5          | 7         | 15      | 20    |

출처: [AutoRAG Medium 블로그](https://velog.io/@autorag/PDF-%ED%95%9C%EA%B8%80-%ED%85%8D%EC%8A%A4%ED%8A%B8-%EC%B6%94%EC%B6%9C-%EC%8B%A4%ED%97%98#%EC%B4%9D%ED%8F%89)

이 외에도 Azure의 Document Intelligence, Amazon Textract 등 MSP에서 제공하고 있는 문서 인식, 처리를 위한 서비스를 사용할 수도 있습니다.

#### 사전 준비

생성된 Document 객체에 대한 상세 정보를 확인하기 위한 함수입니다.

In [11]:
def show_metadata(docs):
    if docs:
        print("[metadata]")
        print(list(docs[0].metadata.keys()))
        print("\n[examples]")
        max_key_length = max(len(k) for k in docs[0].metadata.keys())
        for k, v in docs[0].metadata.items():
            print(f"{k:<{max_key_length}} : {v}")

## PyPDF

여기에서는 `pypdf`를 사용하여 PDF를 문서 배열로 로드하며, 각 문서는 `page` 번호와 함께 페이지 내용 및 메타데이터를 포함합니다.

In [12]:
from langchain_community.document_loaders import PyPDFLoader

In [13]:
# !pip3 install langchain-community 
# !pip3 install -qU pypdf
# !pip3 install pillow
# !apt-get update && apt-get install libgl1 --yes

searchable pdf인 경우

In [14]:
# 파일 경로 설정
FILE_PATH = "./data/extract_text/AI_Paradigm_Shift_Driven_by_DeepSeek.pdf"

# PDF 로더 초기화
loader = PyPDFLoader(FILE_PATH)

docs = loader.load()
print(len(docs))
# 문서의 내용 출력
print(docs[4].page_content[:30])

46
딥시크가 촉발한 AI 패러다임 변화와 플랫폼 정책방향



In [15]:
# 메타데이터 출력
show_metadata(docs)

[metadata]
['producer', 'creator', 'creationdate', 'author', 'moddate', 'pdfversion', 'source', 'total_pages', 'page', 'page_label']

[examples]
producer     : Hancom PDF 1.3.0.509
creator      : Hancom PDF 1.3.0.509
creationdate : 2025-02-10T17:02:50+09:00
author       : Insung-9
moddate      : 2025-02-10T17:02:50+09:00
pdfversion   : 1.4
source       : ./data/extract_text/AI_Paradigm_Shift_Driven_by_DeepSeek.pdf
total_pages  : 46
page         : 0
page_label   : 1


- 하지만 스캔된 문서와 같은 image-based pdf인 경우 pypdfloader를 이용하면 page content를 추출할 수 없습니다.

In [16]:
FILE_PATH_OCR = "./data/extract_text/PublicWaterMassMailing.pdf"

# 파일 경로 설정
loader = PyPDFLoader(FILE_PATH_OCR)

# PDF 로더 초기화
docs = loader.load()
print(docs)
# 문서의 내용 출력
print(docs[1].page_content[:50])

[Document(metadata={'producer': 'Lexmark X652de', 'creator': 'HardCopy', 'creationdate': '2015-11-12T15:39:07-06:00', 'moddate': '2015-11-12T15:39:07-06:00', 'title': 'Scanned Document', 'source': './data/extract_text/PublicWaterMassMailing.pdf', 'total_pages': 8, 'page': 0, 'page_label': '1'}, page_content=''), Document(metadata={'producer': 'Lexmark X652de', 'creator': 'HardCopy', 'creationdate': '2015-11-12T15:39:07-06:00', 'moddate': '2015-11-12T15:39:07-06:00', 'title': 'Scanned Document', 'source': './data/extract_text/PublicWaterMassMailing.pdf', 'total_pages': 8, 'page': 1, 'page_label': '2'}, page_content=''), Document(metadata={'producer': 'Lexmark X652de', 'creator': 'HardCopy', 'creationdate': '2015-11-12T15:39:07-06:00', 'moddate': '2015-11-12T15:39:07-06:00', 'title': 'Scanned Document', 'source': './data/extract_text/PublicWaterMassMailing.pdf', 'total_pages': 8, 'page': 2, 'page_label': '3'}, page_content=''), Document(metadata={'producer': 'Lexmark X652de', 'creator': 

- image based pdf는 단순 pdf loader로는 컨텐츠가 제대로 추출되지 않을 수 있습니다.

- 이 때는 rapidocr-onnxruntime 을 설치하면 이미지에서 텍스트를 추출할 수 있습니다.

In [17]:
#!pip install rapidocr_onnxruntime

- `extract_images=True`로 설정하면 이미지로 되어있는 pdf 안의 text를 추출할 수 있습니다. 

In [18]:
FILE_PATH_OCR = "./data/extract_text/PublicWaterMassMailing.pdf"

# 파일 경로 설정
loader = PyPDFLoader(FILE_PATH_OCR, extract_images=True)

# PDF 로더 초기화
docs = loader.load()

# 문서의 내용 출력
print(docs[1].page_content[:50])


Contractoperatorswill beprovidedwithformsforall th


## PyMuPDF

**PyMuPDF** 는 속도 최적화가 되어 있으며, PDF 및 해당 페이지에 대한 자세한 메타데이터를 포함하고 있습니다. 페이지 당 하나의 문서를 반환합니다:


In [19]:
# 설치
#!pip install -qU pymupdf

In [20]:
from langchain_community.document_loaders import PyMuPDFLoader

In [21]:
FILE_PATH = "./data/extract_text/AI_Paradigm_Shift_Driven_by_DeepSeek.pdf"
FILE_PATH_OCR = "./data/extract_text/PublicWaterMassMailing.pdf"

# PyMuPDF 로더 인스턴스 생성
loader = PyMuPDFLoader(FILE_PATH)
loader = PyMuPDFLoader(FILE_PATH_OCR, extract_images=True) 

# 문서 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[0].page_content[:300])
# show_metadata(docs)

MissouriDepartmentof HealthandSeniorServices
DHSS
P.O.Box570.JeffersonCity,MO65102-0570Phone:573-751-6400FAX:573-751-6010
RELAYMISSOURIforHearing andSpeechImpaired1-800-735-2966VOICE1-800-735-2466
PeterLyskowski
JeremiahW.(Jay)Nixon
Acting Director
Governor
MissouriPublicWaterSystems
November 10,201


## PyPDFium2

PyPDFium2도 마찬가지로 `extract_image=True`로 설정하면 이미지로된 pdf에서 텍스트를 추출할 수 있습니다.

In [None]:
from langchain_community.document_loaders import PyPDFium2Loader

In [23]:
#!pip install pypdfium2

In [24]:
FILE_PATH = "./data/extract_text/AI_Paradigm_Shift_Driven_by_DeepSeek.pdf"
FILE_PATH_OCR = "./data/extract_text/PublicWaterMassMailing.pdf"

loader = PyPDFium2Loader(FILE_PATH)
# loader = PyPDFium2Loader(FILE_PATH_OCR, extract_images=True)
# 문서 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[10].page_content[:300])



딥시크가 촉발한 AI 패러다임 변화와 플랫폼 정책방향
10
l (애플리케이션) ’24.2월 기존 바드(Bard)를 통합한 생성형 AI 앱 
‘제미나이’ 출시, 다양한 기능을 지속 탑재하여 성능 개선
- 생산성 플랫폼 Workspace, 웹브라우저 Chrome 등에 제미나이 통합
- 이용자 질문에 대한 심층연구 실행을 돕는 AI 에이전트 ‘제미나이 
딥 리서치’ 출시
- ’24.5월 차세대 범용 AI 에이전트 ‘프로젝트 아스트라’ 공개, ’25년 
상용화 예정
- 검색에서 사용자와 상호작용 및 후속질문이 가능한 AI기반 챗봇 
및 멀


## PDFPlumber
PyMuPDF와 마찬가지로, 출력 문서는 PDF와 그 페이지에 대한 자세한 메타데이터를 포함하며, 페이지 당 하나의 문서를 반환합니다.


In [None]:
from langchain_community.document_loaders import PDFPlumberLoader

In [26]:
#!pip install pdfplumber

In [27]:
# FILE_PATH = "../data/extract_text/AI_Paradigm_Shift_Driven_by_DeepSeek.pdf"
FILE_PATH_OCR = "./data/extract_text/PublicWaterMassMailing.pdf"

# LangChain PDFPlumberLoader 활용
# loader = PyPDFium2Loader(FILE_PATH)
loader = PDFPlumberLoader(FILE_PATH_OCR, extract_images=True)
docs = loader.load()

# 문서의 내용 출력
print(docs[0].page_content[:300])
show_metadata(docs)


MissouriDepartmentof HealthandSeniorServices
DHSS
P.O.Box570.JeffersonCity,MO65102-0570Phone:573-751-6400FAX:573-751-6010
RELAYMISSOURIforHearing andSpeechImpaired1-800-735-2966VOICE1-800-735-2466
PeterLyskowski
JeremiahW.(Jay)Nixon
Acting Director
Governor
MissouriPublicWaterSystems
November 10,20
[metadata]
['source', 'file_path', 'page', 'total_pages', 'CreationDate', 'Creator', 'ModDate', 'Producer', 'Title']

[examples]
source       : ./data/extract_text/PublicWaterMassMailing.pdf
file_path    : ./data/extract_text/PublicWaterMassMailing.pdf
page         : 0
total_pages  : 8
CreationDate : D:20151112153907-06'00'
Creator      : HardCopy
ModDate      : D:20151112153907-06'00'
Producer     : Lexmark X652de
Title        : Scanned Document


# CSV Loader

### CSV

[Comma-Separated Values (CSV)](https://en.wikipedia.org/wiki/Comma-separated_values) 파일은 쉼표로 값을 구분하는 구분된 텍스트 파일입니다. 파일의 각 줄은 데이터 레코드입니다. 

각 레코드는 쉼표로 구분된 하나 이상의 필드로 구성됩니다.

### CSVLoader

- CSV 데이터를 문서당 한 행씩 로드합니다.

In [28]:
from langchain_community.document_loaders.csv_loader import CSVLoader

# CSV 로더 생성
loader = CSVLoader(file_path="./data/extract_text/titanic.csv")

# 데이터 로드
docs = loader.load()

print(len(docs))
print(docs[0].metadata)

891
{'source': './data/extract_text/titanic.csv', 'row': 0}


In [29]:
print(docs[1].page_content)

PassengerId: 2
Survived: 1
Pclass: 1
Name: Cumings, Mrs. John Bradley (Florence Briggs Thayer)
Sex: female
Age: 38
SibSp: 1
Parch: 0
Ticket: PC 17599
Fare: 71.2833
Cabin: C85
Embarked: C


### CSV 파싱 및 로딩 커스터마이징

[csv module](https://docs.python.org/3/library/csv.html) 문서를 참조하여 지원되는 **csv args**에 대한 자세한 정보를 확인하세요.

In [30]:
# 컬럼정보:
# PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked

# CSV 파일 경로
loader = CSVLoader(
    file_path="./data/extract_text/titanic.csv",
    csv_args={
        "delimiter": ",",  # 구분자
        "quotechar": '"',  # 인용 부호 문자
        "fieldnames": [
            "Passenger ID",
            "Survival (1: Survived, 0: Died)",
            "Passenger Class",
            "Name",
            "Sex",
            "Age",
            "Number of Siblings/Spouses Aboard",
            "Number of Parents/Children Aboard",
            "Ticket Number",
            "Fare",
            "Cabin",
            "Port of Embarkation",
        ],  # 필드 이름
    },
)

# 데이터 로드
docs = loader.load()

# 데이터 출력
print(docs[1].page_content)

Passenger ID: 1
Survival (1: Survived, 0: Died): 0
Passenger Class: 3
Name: Braund, Mr. Owen Harris
Sex: male
Age: 22
Number of Siblings/Spouses Aboard: 1
Number of Parents/Children Aboard: 0
Ticket Number: A/5 21171
Fare: 7.25
Cabin: 
Port of Embarkation: S


# Flowchart

In [31]:
#실습용 AOAI 환경변수 읽기
import os

AOAI_ENDPOINT=os.getenv("AOAI_ENDPOINT")
AOAI_API_KEY=os.getenv("AOAI_API_KEY")
AOAI_DEPLOY_GPT4O=os.getenv("AOAI_DEPLOY_GPT4O")
AOAI_DEPLOY_GPT4O_MINI=os.getenv("AOAI_DEPLOY_GPT4O_MINI")
AOAI_DEPLOY_EMBED_3_LARGE=os.getenv("AOAI_DEPLOY_EMBED_3_LARGE")
AOAI_DEPLOY_EMBED_3_SMALL=os.getenv("AOAI_DEPLOY_EMBED_3_SMALL")
AOAI_DEPLOY_EMBED_ADA=os.getenv("AOAI_DEPLOY_EMBED_ADA")

In [32]:
from langchain_openai import AzureChatOpenAI

In [33]:
model = AzureChatOpenAI(
    azure_endpoint=AOAI_ENDPOINT,
    azure_deployment=AOAI_DEPLOY_GPT4O_MINI,
    api_version="2024-02-01",
    api_key=AOAI_API_KEY
)


In [34]:
#이미지 확인
from IPython.display import display, Image

image_path = "./data/extract_text/flowchart.jpg"
display(Image(url=image_path, width=400))

In [35]:
import base64
# 이미지를 base64로 인코딩하는 함수
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')
 
# base64 문자열 얻기
base64_image = encode_image(image_path)

In [36]:
from langchain_core.messages import HumanMessage

prompt = """Flowchart를 해석하고 노드 간 관계 및 의미를 추출하는 분석가입니다.
flowchart를 분석하여 각 단계에서 수행되는 작업과 전체적인 프로세스를 설명해주세요.

1. Flowchart 내 주요 노드(작업, 결정 등)를 식별하고, 해당하는 의미를 자세히 설명해주세요.
2. 화살표(→)가 가리키는 흐름을 따라 순서대로 실행 과정을 분석해주세요.
3. 특정 결정(Decision)이 존재하는 경우, 각각의 조건에서 어떤 경로로 진행되는지 설명해주세요.
4. 최종적으로 이 Flowchart가 설명하는 전체 프로세스를 요약해주세요.
"""

message = HumanMessage(
    content=[
        {"type": "text", "text": prompt},
        {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}},
    ],
)
response = model.invoke([message])
print(response.content)

RAG (Retrieval-Augmented Generation) Pipeline Flowchart를 분석하여 각 단계의 작업, 흐름, 결정 및 전체 프로세스를 설명하겠습니다.

### 1. 주요 노드 식별 및 의미 설명

- **PDF**: 사용자 입력 문서 형태로, 분석할 내용을 담고 있는 파일입니다.
  
- **Document Loader and Text Splitter**: PDF 문서를 로드하고 텍스트를 분할하는 역할을 합니다. 이를 통해 PDF 내의 정보가 관리 가능한 텍스트 청크로 나누어집니다.

- **Text Chunks**: 로드된 PDF에서 분할된 문서 조각을 나타냅니다. 이 단계에서 여러 개의 텍스트 청크가 생성됩니다.

- **Embedding Generation Model**: 각 텍스트 청크를 벡터로 변환하여 의미 있는 임베딩(벡터 표현)을 생성하는 모델입니다.

- **Embeddings**: 텍스트 청크의 의미적인 표현으로, 벡터 데이터베이스에 저장됩니다.

- **Vector Database**: 생성된 임베딩 벡터를 저장하고 관리하는 장소입니다. 사용자가 질의할 때 이 데이터베이스에서 정보를 조회합니다.

- **Query**: 사용자가 입력하는 질문이나 요청으로, 데이터베이스와 상호작용할 정보를 제공합니다.

- **Similarity Search**: 사용자의 질의와 가장 유사한 k개의 결과를 찾아내는 과정입니다.

- **Answer**: 최종적으로 사용자가 요청한 질문에 대한 응답입니다.

- **LLM (Large Language Model)**: 사용자의 질의를 처리하고 답변을 생성하는 역할을 합니다.

### 2. 화살표 흐름에 따른 실행 과정 분석

1. **PDF** → **Document Loader and Text Splitter**
   - 사용자가 제공한 PDF를 로드하고 텍스트 내용을 청크로 나눕니다.

2. **Document Loader and Text Splitter** → **Text Chun