# Document & Document Loaders

**참고**

- [LangChain 에서 사용되는 주요 로더](https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/)
- [LangChain 에서 사용되는 로더 목록](https://python.langchain.com/v0.1/docs/integrations/document_loaders/)

## 실습에 활용한 문서

소프트웨어정책연구소(SPRi) - 2023년 12월호

- 저자: 유재흥(AI정책연구실 책임연구원), 이지수(AI정책연구실 위촉연구원)
- 링크: https://spri.kr/posts/view/23669
- 파일명: `SPRI_AI_Brief_2023년12월호_F.pdf`


## Document

LangChain 의 기본 문서 객체입니다.

**속성**
- `page_content`: 문서의 내용을 나타내는 문열입니다.
- `metadata`: 문서의 메타데이터를 나타내는 딕셔너리입니다.


In [1]:
from langchain_core.documents import Document

document = Document(page_content="안녕하세요? 이건 랭체인의 도큐먼드 입니다")

In [2]:
# 도큐먼트의 속성 확인
document.__dict__

{'id': None,
 'metadata': {},
 'page_content': '안녕하세요? 이건 랭체인의 도큐먼드 입니다',
 'type': 'Document'}

metadata 에 속성 추가

In [3]:
# 메타데이터 추가
document.metadata["source"] = "TeddyNote"
document.metadata["page"] = 1
document.metadata["author"] = "Teddy"

In [4]:
# 도큐먼트의 속성 확인
document.metadata

{'source': 'TeddyNote', 'page': 1, 'author': 'Teddy'}

## Document Loader

다양한 파일의 형식으로부터 불러온 내용을 문서(Document) 객체로 변환하는 역할을 합니다.

### 주요 Loader 
- PyPDFLoader: PDF 파일을 로드하는 로더입니다.
- CSVLoader: CSV 파일을 로드하는 로더입니다.
- UnstructuredHTMLLoader: HTML 파일을 로드하는 로더입니다.
- JSONLoader: JSON 파일을 로드하는 로더입니다.
- TextLoader: 텍스트 파일을 로드하는 로더입니다.
- DirectoryLoader: 디렉토리를 로드하는 로더입니다.

In [23]:
# 예제 파일 경로
FILE_PATH = ".\\C:\\Seoultech\\2-2\\Data Structure\\BST.pdf"

In [24]:
from langchain_community.document_loaders import PyPDFLoader

FILE_PATH = "C:/Seoultech/2-2/Data Structure/BST.pdf"

loader = PyPDFLoader(FILE_PATH)
pages = loader.load_and_split()

### load()

- 문서를 로드하여 반환합니다.
- 반환된 결과는 `List[Document]` 형태입니다.

In [25]:
# PDF 로더
docs = loader.load()

# 로드된 문서의 수 확인
len(docs)

1

In [26]:
# 첫번째 문서 확인
docs[0]

Document(metadata={'producer': 'Hancom PDF 1.3.0.550', 'creator': 'Hancom PDF 1.3.0.550', 'creationdate': '2025-10-18T16:10:09+09:00', 'author': '김자희', 'moddate': '2025-10-18T16:10:09+09:00', 'pdfversion': '1.4', 'source': 'C:/Seoultech/2-2/Data Structure/BST.pdf', 'total_pages': 1, 'page': 0, 'page_label': '1'}, page_content='#3 Find Middle Node Value of BST Level-Order Traversal Problem Description Your task is to implement the findMiddle() method within the ITMSol2 class. This method\'s goal is to find a specific "middle" value from a given Binary Search Tree (BST). The "middle" value is defined as the element located at index n / 2 (using integer division) of the list of values generated by a level-order traversal (also known as Breadth-First Search, or BFS). Here, n represents the total number of nodes in the tree. Example Given the input array int[] values = {8, 3, 10, 1, 6, 14, 4, 7, 13}, the resulting BST will have the following \nstructure:   Solving Process: Level-Order Trave

### load_and_split()

- splitter 를 사용하여 문서를 분할하고 반환합니다.
- 반환된 결과는 `List[Document]` 형태입니다.

In [18]:
from langchain_community.document_loaders import PyPDFLoader

FILE_PATH = "C:/Seoultech/2-2/Data Structure/BST.pdf"

loader = PyPDFLoader(FILE_PATH)


# 문서 분할
split_docs = loader.load_and_split()

# 로드된 문서의 수 확인
print(f"문서의 길이: {len(split_docs)}")

# 첫번째 문서 확인
split_docs[0]

문서의 길이: 1


Document(metadata={'producer': 'Hancom PDF 1.3.0.550', 'creator': 'Hancom PDF 1.3.0.550', 'creationdate': '2025-10-18T16:10:09+09:00', 'author': '김자희', 'moddate': '2025-10-18T16:10:09+09:00', 'pdfversion': '1.4', 'source': 'C:/Seoultech/2-2/Data Structure/BST.pdf', 'total_pages': 1, 'page': 0, 'page_label': '1'}, page_content='#3 Find Middle Node Value of BST Level-Order Traversal Problem Description Your task is to implement the findMiddle() method within the ITMSol2 class. This method\'s goal is to find a specific "middle" value from a given Binary Search Tree (BST). The "middle" value is defined as the element located at index n / 2 (using integer division) of the list of values generated by a level-order traversal (also known as Breadth-First Search, or BFS). Here, n represents the total number of nodes in the tree. Example Given the input array int[] values = {8, 3, 10, 1, 6, 14, 4, 7, 13}, the resulting BST will have the following \nstructure:   Solving Process: Level-Order Trave

### lazy_load()

- generator 방식으로 문서를 로드합니다.

In [None]:
loader.lazy_load() # 데이터를 한번에 올리지 않고 필요할떄마다 하나씩 생성

<generator object PyPDFLoader.lazy_load at 0x000002062F954200>

In [20]:
# generator 방식으로 문서 로드
for doc in loader.lazy_load():
    print(doc.metadata)

{'producer': 'Hancom PDF 1.3.0.550', 'creator': 'Hancom PDF 1.3.0.550', 'creationdate': '2025-10-18T16:10:09+09:00', 'author': '김자희', 'moddate': '2025-10-18T16:10:09+09:00', 'pdfversion': '1.4', 'source': 'C:/Seoultech/2-2/Data Structure/BST.pdf', 'total_pages': 1, 'page': 0, 'page_label': '1'}


### aload()

- 비동기(Async) 방식의 문서 로드

In [21]:
# 문서를 async 방식으로 로드
adocs = loader.aload()

In [22]:
# 문서 로드
await adocs

[Document(metadata={'producer': 'Hancom PDF 1.3.0.550', 'creator': 'Hancom PDF 1.3.0.550', 'creationdate': '2025-10-18T16:10:09+09:00', 'author': '김자희', 'moddate': '2025-10-18T16:10:09+09:00', 'pdfversion': '1.4', 'source': 'C:/Seoultech/2-2/Data Structure/BST.pdf', 'total_pages': 1, 'page': 0, 'page_label': '1'}, page_content='#3 Find Middle Node Value of BST Level-Order Traversal Problem Description Your task is to implement the findMiddle() method within the ITMSol2 class. This method\'s goal is to find a specific "middle" value from a given Binary Search Tree (BST). The "middle" value is defined as the element located at index n / 2 (using integer division) of the list of values generated by a level-order traversal (also known as Breadth-First Search, or BFS). Here, n represents the total number of nodes in the tree. Example Given the input array int[] values = {8, 3, 10, 1, 6, 14, 4, 7, 13}, the resulting BST will have the following \nstructure:   Solving Process: Level-Order Trav