# 📘 도큐먼트 로더 (Document Loader)

---

## 01. 도큐먼트 로더의 종류, 기본 구조, Document 구조

### 📌 개념
- **Document Loader** : 외부 데이터를 불러와 LangChain이 처리할 수 있는 `Document` 객체로 변환
- `Document` 구조:
  - `page_content`: 문서의 실제 텍스트
  - `metadata`: 파일 경로, 소스, 페이지 번호 등 부가정보

### 📌 주요 Loader 종류
- **파일 로더**: PDF, CSV, HWP, TXT 등
- **웹 로더**: URL, HTML, RSS, WebBase 등
- **디렉토리 로더**: 폴더 내 여러 파일 일괄 처리
- **멀티모달 로더**: 표/이미지 포함 문서 (예: LlamaParser)

---

## 02. Document, Document Loader 의 구조 이해하기

In [1]:
### 💻 예시 코드
import os
from dotenv import load_dotenv

load_dotenv()
api_key = os.getenv("OPENAI_API_KEY")
print(api_key[:10]) 

sk-proj-73


In [2]:
from langchain.schema import Document

# Document 예시
doc = Document(
    page_content="이것은 문서 본문 내용입니다.",
    metadata={"source": "example.txt", "page": 1}
)

print(doc.page_content)
print(doc.metadata)

이것은 문서 본문 내용입니다.
{'source': 'example.txt', 'page': 1}


## 03. PDF 로더
### 📌 개념

- PDF 파일을 페이지 단위로 텍스트 추출

- OCR 옵션을 사용하면 이미지 PDF도 처리 가능

In [3]:
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("./data/(금융보안원) 금융보안 거버넌스 가이드.pdf")
docs = loader.load()

print(docs[0].page_content[:200])
print(docs[0].metadata)

AGR-VII-2019-②-142
금융보안 거버넌스 가이드
2019. 12.
{'producer': 'Hancom PDF 1.3.0.534', 'creator': 'Hwp 2018 10.0.0.8223', 'creationdate': '2019-12-31T14:56:26+09:00', 'author': '(주)한글과컴퓨터', 'moddate': '2019-12-31T14:56:26+09:00', 'pdfversion': '1.4', 'source': './data/(금융보안원) 금융보안 거버넌스 가이드.pdf', 'total_pages': 63, 'page': 0, 'page_label': '1'}


## 04. HWP 로더
### 📌 개념

- 한글(HWP) 문서 로드

- hwp5txt 라이브러리 기반

In [4]:
# from langchain.document_loaders import UnstructuredHWP5Loader

# loader = UnstructuredHWP5Loader("example.hwp")
# docs = loader.load()

# print(docs[0].page_content[:200])

## 05. CSV 로더 (효과적인 CSV 파일 처리)
### 📌 개념

- CSV를 각 행(row) 단위 Document로 로드

- metadata에 컬럼명 저장 가능

In [5]:
# from langchain.document_loaders import CSVLoader

# loader = CSVLoader(file_path="example.csv", encoding="utf-8")
# docs = loader.load()

# print(docs[0].page_content)
# print(docs[0].metadata)

## 06. WebBase 로더 (웹 정보 크롤링)
### 📌 개념

- 특정 웹페이지의 HTML → 텍스트로 변환

- 크롤링 후 Document 객체 반환

In [7]:
# from langchain.document_loaders import WebBaseLoader

# loader = WebBaseLoader("https://news.ycombinator.com/")
# docs = loader.load()

# print(docs[0].page_content[:200])

## 07. Directory 로더
### 📌 개념

- 디렉토리 내 여러 파일을 한 번에 로드

- 다양한 파일 포맷 지원

In [9]:
# from langchain.document_loaders import DirectoryLoader

# loader = DirectoryLoader("docs/", glob="**/*.txt")
# docs = loader.load()

# print(len(docs))  

## 08. Upstage LayoutAnalysis 로더
### 📌 개념

- 한국 기업 Upstage가 제공하는 문서 레이아웃 분석 API

- PDF 내 표, 이미지, 레이아웃을 정확히 파싱

- 고품질 RAG 파이프라인 구축 시 유용

In [10]:
# # 설치 필요
# # pip install upstage-layout

# from langchain_community.document_loaders import UpstageLayoutAnalysisLoader

# loader = UpstageLayoutAnalysisLoader("example.pdf", api_key="YOUR_API_KEY")
# docs = loader.load()

# print(docs[0].page_content[:200])

## 09. LlamaParser 로더 (멀티모달: 이미지/표 파싱)
### 📌 개념

- LlamaIndex 기반 고급 로더

- 이미지, 표, 도표까지 파싱 가능

- 멀티모달 RAG 구현에 활용

In [11]:
# # pip install llama-index
# from llama_index.readers.file import PyMuPDFReader

# loader = PyMuPDFReader()
# docs = loader.load(file_path="example_with_tables.pdf")

# print(docs[0].text[:200])

## ✅ 정리

- Document = page_content + metadata
- 
- 파일 형식에 맞는 Loader 선택 가능

- PDF → PyPDFLoader

- HWP → UnstructuredHWP5Loader

- CSV → CSVLoader

- 웹 → WebBaseLoader

- 디렉토리 → DirectoryLoader

- Upstage → 한국어 문서 레이아웃 최적

- LlamaParser → 멀티모달(이미지·표) 분석

- RAG 파이프라인을 만들 때 가장 중요한 입력 단계 = Document Loader