#  LangChain의 RAG 콤포넌트 
- 문서 로더 (Document Loader) 

### **학습 목표:**  문서 로더와 텍스트 분할기를 적절히 활용할 수 있다

### **실습 자료**: 

- data/transformer.pdf
- data/kakao_chat.json
- data/kakao_chat.jsonl
- data/kbo_teams_2023.csv
- data/리비안_KR.txt
- data/테슬라_KR.txt
- articles/notionai.pdf

---

# 환경 설정 및 준비

`(1) Env 환경변수`

In [1]:
from dotenv import load_dotenv
load_dotenv()

True

`(2) 기본 라이브러리`

In [2]:
import os
from glob import glob

from pprint import pprint
import json

# 다양한 문서 형식 처리하기

- 역할: Document Loader는 다양한 소스에서 문서를 로드
- 구현: 
    - Document Loader는 BaseLoader 인터페이스를 통해서 구현
    - `.load()` 또는 `.lazy_load()` 메서드를 통해 동일한 방식으로 호출 
    - 대용량 데이터셋의 경우 메모리 효율을 위해 `.lazy_load()`를 사용하는 것을 권장 
- 종류:
    - PDF 파일 로더
    - 웹 페이지 로더 
    - CSV 데이터 로더
    - 디렉토리 로더
    - HTML 데이터 로더
    - JSON 데이터 로더
    - Markdown 데이터 로더
    - Microsoft Office 데이터 로더

### 1. **PDF 파일 로더**


In [8]:
from langchain_community.document_loaders import PyPDFLoader

# PDF 로더 초기화
pdf_loader = PyPDFLoader('./data/transformer.pdf')

# 동기 로딩
pdf_docs = pdf_loader.load()
print(f'PDF 문서 개수: {len(pdf_docs)}')

PDF 문서 개수: 15


In [9]:
# 첫 번째 문서의 내용 출력
print(pdf_docs[0].page_content)

Provided proper attribution is provided, Google hereby grants permission to
reproduce the tables and figures in this paper solely for use in journalistic or
scholarly works.
Attention Is All You Need
Ashish Vaswani∗
Google Brain
avaswani@google.com
Noam Shazeer∗
Google Brain
noam@google.com
Niki Parmar∗
Google Research
nikip@google.com
Jakob Uszkoreit∗
Google Research
usz@google.com
Llion Jones∗
Google Research
llion@google.com
Aidan N. Gomez∗ †
University of Toronto
aidan@cs.toronto.edu
Łukasz Kaiser∗
Google Brain
lukaszkaiser@google.com
Illia Polosukhin∗ ‡
illia.polosukhin@gmail.com
Abstract
The dominant sequence transduction models are based on complex recurrent or
convolutional neural networks that include an encoder and a decoder. The best
performing models also connect the encoder and decoder through an attention
mechanism. We propose a new simple network architecture, the Transformer,
based solely on attention mechanisms, dispensing with recurrence and convolutions
entirely. Exp

In [10]:
# 첫 번째 문서의 메타데이터 출력
print(pdf_docs[0].metadata)

{'producer': 'pdfTeX-1.40.25', 'creator': 'LaTeX with hyperref', 'creationdate': '2024-04-10T21:11:43+00:00', 'author': '', 'keywords': '', 'moddate': '2024-04-10T21:11:43+00:00', 'ptex.fullbanner': 'This is pdfTeX, Version 3.141592653-2.6-1.40.25 (TeX Live 2023) kpathsea version 6.3.5', 'subject': '', 'title': '', 'trapped': '/False', 'source': './data/transformer.pdf', 'total_pages': 15, 'page': 0, 'page_label': '1'}


In [11]:
# 비동기 로딩 (대용량 파일에 권장)
async for page in pdf_loader.alazy_load():
    # 페이지별 처리
    print(page.metadata)  # 메타데이터 출력
    print(page.page_content) # 페이지 내용 출력
    print("-"*80)

{'producer': 'pdfTeX-1.40.25', 'creator': 'LaTeX with hyperref', 'creationdate': '2024-04-10T21:11:43+00:00', 'author': '', 'keywords': '', 'moddate': '2024-04-10T21:11:43+00:00', 'ptex.fullbanner': 'This is pdfTeX, Version 3.141592653-2.6-1.40.25 (TeX Live 2023) kpathsea version 6.3.5', 'subject': '', 'title': '', 'trapped': '/False', 'source': './data/transformer.pdf', 'total_pages': 15, 'page': 0, 'page_label': '1'}
Provided proper attribution is provided, Google hereby grants permission to
reproduce the tables and figures in this paper solely for use in journalistic or
scholarly works.
Attention Is All You Need
Ashish Vaswani∗
Google Brain
avaswani@google.com
Noam Shazeer∗
Google Brain
noam@google.com
Niki Parmar∗
Google Research
nikip@google.com
Jakob Uszkoreit∗
Google Research
usz@google.com
Llion Jones∗
Google Research
llion@google.com
Aidan N. Gomez∗ †
University of Toronto
aidan@cs.toronto.edu
Łukasz Kaiser∗
Google Brain
lukaszkaiser@google.com
Illia Polosukhin∗ ‡
illia.polosu

### 2. **웹 문서 로더**


In [12]:
from langchain_community.document_loaders import WebBaseLoader

# 기본적인 텍스트 추출
web_loader = WebBaseLoader(
    web_paths=[
        "https://python.langchain.com/", 
        "https://js.langchain.com/",
        ],
    )

# 동기 로딩
web_docs = web_loader.load()

len(web_docs)

USER_AGENT environment variable not set, consider setting it to identify your requests.


2

In [13]:
web_docs[0].metadata

{'source': 'https://python.langchain.com/',
 'title': 'Introduction | 🦜️🔗 LangChain',
 'description': 'LangChain is a framework for developing applications powered by large language models (LLMs).',
 'language': 'en'}

In [14]:
print(web_docs[0].page_content)






Introduction | 🦜️🔗 LangChain








Skip to main contentOur new LangChain Academy Course Deep Research with LangGraph is now live! Enroll for free.IntegrationsAPI ReferenceMoreContributingPeopleError referenceLangSmithLangGraphLangChain HubLangChain JS/TSv0.3v0.3v0.2v0.1💬SearchIntroductionTutorialsBuild a Question Answering application over a Graph DatabaseTutorialsBuild a simple LLM application with chat models and prompt templatesBuild a ChatbotBuild a Retrieval Augmented Generation (RAG) App: Part 2Build an Extraction ChainBuild an AgentTaggingBuild a Retrieval Augmented Generation (RAG) App: Part 1Build a semantic search engineBuild a Question/Answering system over SQL dataSummarize TextHow-to guidesHow-to guidesHow to use tools in a chainHow to use a vectorstore as a retrieverHow to add memory to chatbotsHow to use example selectorsHow to add a semantic layer over graph databaseHow to invoke runnables in parallelHow to stream chat model responsesHow to add default invocation

In [15]:
# 특정 HTML 요소만 파싱하고 싶을 경우 (bs4 활용)
import bs4

web_loader = WebBaseLoader(
    web_paths=["https://python.langchain.com/"],
    bs_kwargs={
        "parse_only": bs4.SoupStrainer(class_="theme-doc-markdown markdown"),
    },
    bs_get_text_kwargs={
        "separator": " | ",    # 구분자
        "strip": True          # 공백 제거
    }
)

# 동기 로딩
web_docs = web_loader.load()

len(web_docs)

1

In [16]:
print(web_docs[0].page_content)

Introduction | LangChain | is a framework for developing applications powered by large language models (LLMs). | LangChain simplifies every stage of the LLM application lifecycle: | Development | : Build your applications using LangChain's open-source | components | and | third-party integrations | .
Use | LangGraph | to build stateful agents with first-class streaming and human-in-the-loop support. | Productionization | : Use | LangSmith | to inspect, monitor and evaluate your applications, so that you can continuously optimize and deploy with confidence. | Deployment | : Turn your LangGraph applications into production-ready APIs and Assistants with | LangGraph Platform | . | LangChain implements a standard interface for large language models and related
technologies, such as embedding models and vector stores, and integrates with
hundreds of providers. See the | integrations | page for
more. | Select | chat model | : | Google Gemini | ▾ | OpenAI | Anthropic | Azure | Google Gemini |

### 3. **JSON 파일 로더**

- 설치: pip install jq 또는 poetry add jq


In [17]:
from langchain_community.document_loaders import JSONLoader 

json_loader = JSONLoader(
    file_path="./data/kakao_chat.json",
    jq_schema=".messages[].content",    # messages 배열의 content 필드만 추출
    text_content=True,                  # 추출하려는 필드가 텍스트인지 여부
)

json_docs = json_loader.load()

print("문서의 수:", len(json_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", json_docs[0].metadata['seq_num'])
print("-" * 50)
print("처음 문서의 내용: \n", json_docs[0].page_content)

문서의 수: 5
--------------------------------------------------
처음 문서의 메타데이터: 
 1
--------------------------------------------------
처음 문서의 내용: 
 안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다.


In [18]:
from langchain_community.document_loaders import JSONLoader

json_loader = JSONLoader(
    file_path="./data/kakao_chat.json",
    jq_schema=".messages[]",     # messages 배열의 모든 아이템을 추출
    text_content=False,          # 추출하려는 필드가 텍스트인지 여부
)

json_docs = json_loader.load()

print("문서의 수:", len(json_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", json_docs[0].metadata['seq_num'])
print("-" * 50)
print("처음 문서의 내용: \n", json_docs[0].page_content)

문서의 수: 5
--------------------------------------------------
처음 문서의 메타데이터: 
 1
--------------------------------------------------
처음 문서의 내용: 
 {"sender": "\uae40\ucca0\uc218", "timestamp": "2023-09-15 09:30:22", "content": "\uc548\ub155\ud558\uc138\uc694 \uc5ec\ub7ec\ubd84, \uc624\ub298 \ud68c\uc758 \uc2dc\uac04 \ud655\uc778\ucc28 \uc5f0\ub77d\ub4dc\ub9bd\ub2c8\ub2e4."}


In [19]:
# 실제 입력 데이터 확인
print(json_docs[4].page_content)  # 실제 JSON 문자열 확인

{"sender": "\uae40\ucca0\uc218", "timestamp": "2023-09-15 09:34:55", "content": "\ub124, \ubaa8\ub450 \uc900\ube44\ud588\uc2b5\ub2c8\ub2e4. \ud68c\uc758 \ub54c \ubd59\uaca0\uc2b5\ub2c8\ub2e4 :)"}


In [20]:
# 유니코드 디코딩 (한글 문자들이 유니코드 이스케이프 시퀀스로 인코딩되어 있음)
from langchain_core.documents import Document

decoded_json_docs = []
for doc in json_docs:

    decoded_data = json.loads(doc.page_content)
    document_obj = Document(page_content=json.dumps(decoded_data, ensure_ascii=False), metadata=doc.metadata)
    decoded_json_docs.append(document_obj)

print("문서의 수:", len(decoded_json_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", decoded_json_docs[0].metadata['seq_num'])
print("-" * 50)
print("처음 문서의 내용: \n", decoded_json_docs[0].page_content)


문서의 수: 5
--------------------------------------------------
처음 문서의 메타데이터: 
 1
--------------------------------------------------
처음 문서의 내용: 
 {"sender": "김철수", "timestamp": "2023-09-15 09:30:22", "content": "안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다."}


In [21]:
# JSONL 파일 로드하기
json_loader = JSONLoader(
    file_path="./data/kakao_chat.jsonl",
    jq_schema=".content",
    json_lines=True,
)

json_docs = json_loader.load()

print("문서의 수:", len(json_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", json_docs[0].metadata['seq_num'])
print("-" * 50)
print("처음 문서의 내용: \n", json_docs[0].page_content)


문서의 수: 5
--------------------------------------------------
처음 문서의 메타데이터: 
 1
--------------------------------------------------
처음 문서의 내용: 
 안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다.


In [22]:
# JSONL 파일 로드하기
json_loader = JSONLoader(
    file_path="./data/kakao_chat.jsonl",
    jq_schema=".",
    content_key="content",
    json_lines=True,
)

json_docs = json_loader.load()

print("문서의 수:", len(json_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", json_docs[0].metadata['seq_num'])
print("-" * 50)
print("처음 문서의 내용: \n", json_docs[0].page_content)


문서의 수: 5
--------------------------------------------------
처음 문서의 메타데이터: 
 1
--------------------------------------------------
처음 문서의 내용: 
 안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다.


### 4. **CSV 파일 로더**


In [23]:
from langchain_community.document_loaders.csv_loader import CSVLoader

# 기본 파일 로드
csv_loader = CSVLoader("./data/kbo_teams_2023.csv")
csv_docs = csv_loader.load()

print("문서의 수:", len(csv_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", csv_docs[0].metadata)
print("-" * 50)
print("처음 문서의 내용: \n", csv_docs[0].page_content)

문서의 수: 10
--------------------------------------------------
처음 문서의 메타데이터: 
 {'source': './data/kbo_teams_2023.csv', 'row': 0}
--------------------------------------------------
처음 문서의 내용: 
 Team: KIA 타이거즈
City: 광주
Founded: 1982
Home Stadium: 광주-기아 챔피언스 필드
Championships: 11
Introduction: KBO 리그의 전통 강호로, 역대 최다 우승 기록을 보유하고 있다. '타이거즈 스피릿'으로 유명하며, 양현종, 안치홍 등 스타 선수들을 배출했다. 광주를 연고로 하는 유일한 프로야구팀으로 지역 사랑이 강하다.


In [24]:
## CSV 파싱 커스터마이징

csv_loader = CSVLoader(
    file_path="./data/kbo_teams_2023.csv",
    csv_args={
        "delimiter": ",",               # 구분자 지정
        "quotechar": '"',               # 따옴표 문자 지정
    }
)

csv_docs = csv_loader.load()

print("문서의 수:", len(csv_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", csv_docs[0].metadata)
print("-" * 50)
print("처음 문서의 내용: \n", csv_docs[0].page_content)

문서의 수: 10
--------------------------------------------------
처음 문서의 메타데이터: 
 {'source': './data/kbo_teams_2023.csv', 'row': 0}
--------------------------------------------------
처음 문서의 내용: 
 Team: KIA 타이거즈
City: 광주
Founded: 1982
Home Stadium: 광주-기아 챔피언스 필드
Championships: 11
Introduction: KBO 리그의 전통 강호로, 역대 최다 우승 기록을 보유하고 있다. '타이거즈 스피릿'으로 유명하며, 양현종, 안치홍 등 스타 선수들을 배출했다. 광주를 연고로 하는 유일한 프로야구팀으로 지역 사랑이 강하다.


In [25]:
## 소스 컬럼 지정

csv_loader = CSVLoader(
    file_path="./data/kbo_teams_2023.csv",
    source_column="Team"  # 이 컬럼의 값이 메타데이터의 source로 사용됨
)

csv_docs = csv_loader.load()

print("문서의 수:", len(csv_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", csv_docs[0].metadata)
print("-" * 50)
print("처음 문서의 내용: \n", csv_docs[0].page_content)

문서의 수: 10
--------------------------------------------------
처음 문서의 메타데이터: 
 {'source': 'KIA 타이거즈', 'row': 0}
--------------------------------------------------
처음 문서의 내용: 
 Team: KIA 타이거즈
City: 광주
Founded: 1982
Home Stadium: 광주-기아 챔피언스 필드
Championships: 11
Introduction: KBO 리그의 전통 강호로, 역대 최다 우승 기록을 보유하고 있다. '타이거즈 스피릿'으로 유명하며, 양현종, 안치홍 등 스타 선수들을 배출했다. 광주를 연고로 하는 유일한 프로야구팀으로 지역 사랑이 강하다.


### 5. **Directory 로더**
- 개요: 디렉토리에서 파일들을 읽어 Document 객체로 변환
- 기능: 
    1. 파일시스템 탐색 (와일드카드 패턴 지원)
    2. 멀티스레딩을 통한 파일 I/O
    3. 인코딩 오류 등의 예외 처리

In [26]:
from langchain_community.document_loaders import DirectoryLoader
from langchain_community.document_loaders import TextLoader

# 기본 사용법
dir_loader = DirectoryLoader(
    path="./",              # 파일 경로 - 현재 디렉토리
    glob="**/*_KR.txt",     # 파일 확장자 - txt 파일만 로드
    loader_cls=TextLoader,  # TextLoader, CSVLoader, UnstructuredFileLoader 등 지원 
    )
dir_docs = dir_loader.load()

print("문서의 수:", len(dir_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", dir_docs[0].metadata)
print("-" * 50)
print("처음 문서의 내용: \n", dir_docs[0].page_content)

문서의 수: 2
--------------------------------------------------
처음 문서의 메타데이터: 
 {'source': 'data\\리비안_KR.txt'}
--------------------------------------------------
처음 문서의 내용: 
 리비안은 MIT 박사 출신 RJ 스카린지가 2009년에 설립한 혁신적인 미국 전기차 제조업체입니다. 2011년부터 자율 전기차에 집중한 리비안은 2015년 대규모 투자를 통해 크게 성장하며 미시간과 베이 지역에 연구소를 설립했습니다. 주요 공급업체와의 접근성을 높이기 위해 본사를 미시간주 리보니아로 이전했습니다.

리비안의 초기 모델은 스포츠카 R1(원래 이름은 Avera)로, 2+2 좌석의 미드 엔진 하이브리드 쿠페로 피터 스티븐스가 디자인했습니다. 이 차는 쉽게 교체 가능한 본체 패널을 갖춘 모듈식 캡슐 구조를 특징으로 하며, 2013년 말에서 2014년 초 사이에 생산이 예상되었습니다. 리비안은 디젤 하이브리드 버전, 브라질 원메이크 시리즈를 위한 R1 GT 레이싱 버전, 4도어 세단 및 크로스오버 등 다양한 버전을 고려했습니다. 2011년에 프로토타입 해치백도 공개되었지만, R1과의 관계는 불명확합니다.

리비안은 2021년 10월 첫 번째 양산 차량인 R1T 트럭을 고객에게 인도하기 시작했습니다.



In [27]:
## 진행 상태바 표시
dir_loader = DirectoryLoader(
    path="./",              # 파일 경로 - 현재 디렉토리
    glob="**/*_KR.txt",     # 파일 확장자 - txt 파일만 로드
    loader_cls=TextLoader,  # TextLoader, CSVLoader, UnstructuredFileLoader 등 지원 
    show_progress=True,     # 진행 상태바 표시
    )
dir_docs = dir_loader.load()

100%|██████████| 2/2 [00:00<00:00, 2000.62it/s]


# [실습 프로젝트]

- PDF 파일(articles/notionai.pdf)을 로드합니다. 
- 로드된 문서의 개수와 각 문서의 텍스트 길이를 출력합니다. 

In [28]:
# ...existing code...
from pathlib import Path
from langchain_community.document_loaders import PyPDFLoader

# 현재 작업 디렉토리 기준으로 articles/notionai.pdf를 우선 찾고,
# 없으면 현재 디렉토리 이하에서 파일명으로 검색합니다.
cwd = Path.cwd()
candidates = [cwd / "articles" / "notionai.pdf", cwd / "data" / "notionai.pdf"]
candidates += list(cwd.rglob("notionai.pdf"))

pdf_path = None
for p in candidates:
    if p and p.exists():
        pdf_path = p.resolve()
        break

if pdf_path is None:
    raise FileNotFoundError(
        f"PDF 파일을 찾을 수 없습니다: notionai.pdf\n현재 작업 디렉토리: {cwd}\n"
        f"위치가 다르다면 절대경로를 전달하거나 작업 디렉토리를 프로젝트 루트로 변경하세요."
    )

# 로더 초기화 및 동기 로딩
pdf_loader = PyPDFLoader(str(pdf_path))
pdf_docs = pdf_loader.load()

# 결과 출력: 문서(페이지) 개수와 각 문서의 텍스트 길이
print(f"로드된 문서(페이지) 수: {len(pdf_docs)}")
for idx, doc in enumerate(pdf_docs, start=1):
    text_len = len(doc.page_content or "")
    print(f"{idx}. 텍스트 길이: {text_len}")
#

로드된 문서(페이지) 수: 5
1. 텍스트 길이: 830
2. 텍스트 길이: 576
3. 텍스트 길이: 514
4. 텍스트 길이: 498
5. 텍스트 길이: 403
