# PyPDFLoader로 PDF 파일 로드하기

이 노트북에서는 **PyPDFLoader**를 사용하여 PDF 파일을 LangChain Document로 로드하는 방법을 알아봅니다.

## PyPDFLoader란?

PDF 파일을 **페이지 단위**로 읽어 Document 리스트로 변환하는 로더입니다.

```python
loader = PyPDFLoader('./document.pdf')
pages = loader.load()  # 페이지별 Document 리스트
```

## PDF Loader 종류

| Loader | 특징 |
|--------|------|
| `PyPDFLoader` | 기본 PDF 로더, 페이지별 분리 |
| `PyMuPDFLoader` | 빠른 처리, 이미지 추출 지원 |
| `PDFPlumberLoader` | 테이블 추출에 강함 |
| `UnstructuredPDFLoader` | 구조화된 추출 |

---

# 1. 패키지 설치

In [None]:
!pip install -q langchain langchain-community pypdf

# 2. 테스트용 PDF 파일 생성

예제를 위해 간단한 PDF 파일을 생성합니다.

In [None]:
# reportlab으로 테스트 PDF 생성
!pip install -q reportlab

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

# PDF 생성
c = canvas.Canvas('./test.pdf', pagesize=letter)

# 페이지 1
c.drawString(100, 750, 'LangChain Tutorial - Page 1')
c.drawString(100, 700, 'LangChain is a framework for developing applications')
c.drawString(100, 680, 'powered by large language models (LLMs).')
c.showPage()

# 페이지 2
c.drawString(100, 750, 'RAG System - Page 2')
c.drawString(100, 700, 'RAG stands for Retrieval-Augmented Generation.')
c.drawString(100, 680, 'It combines retrieval and generation for better answers.')
c.showPage()

c.save()
print('test.pdf 파일이 생성되었습니다. (2페이지)')

# 3. PyPDFLoader로 PDF 로드

**코드 설명:**

```python
loader = PyPDFLoader('./test.pdf')
pages = loader.load()
```

- 각 페이지가 별도의 Document로 반환됨
- `metadata`에 페이지 번호(`page`) 포함

In [None]:
from langchain_community.document_loaders import PyPDFLoader

# PDF 로드
loader = PyPDFLoader('./test.pdf')
pages = loader.load()

print(f"로드된 페이지 수: {len(pages)}")

# 4. 페이지별 내용 확인

In [None]:
# 각 페이지 내용 확인
for i, page in enumerate(pages):
    print(f"\n=== 페이지 {i+1} ===")
    print(f"metadata: {page.metadata}")
    print(f"content: {page.page_content}")

---

## 고급 사용법

### 특정 페이지만 로드

```python
# load_and_split으로 특정 페이지 선택 가능
pages = loader.load()
selected_pages = [pages[0], pages[2]]  # 1, 3페이지만
```

### 텍스트 추출 모드

```python
loader = PyPDFLoader('./test.pdf', extract_images=True)  # 이미지 텍스트 추출
```

## 다른 PDF 로더 예시

### PyMuPDFLoader (더 빠름)
```python
from langchain_community.document_loaders import PyMuPDFLoader

loader = PyMuPDFLoader('./test.pdf')
pages = loader.load()
```

### PDFPlumberLoader (테이블 추출)
```python
from langchain_community.document_loaders import PDFPlumberLoader

loader = PDFPlumberLoader('./test.pdf')
pages = loader.load()
```

## 주의사항

1. **스캔 PDF**: OCR이 필요한 경우 `UnstructuredPDFLoader` + Tesseract 사용
2. **암호화 PDF**: 비밀번호 옵션 필요
3. **대용량 PDF**: 메모리 사용량 주의, lazy_load() 고려