# Document & Document Loaders

**참고**

- [LangChain 에서 사용되는 주요 로더](https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/)
- [LangChain 에서 사용되는 로더 목록](https://python.langchain.com/v0.1/docs/integrations/document_loaders/)

## Document

LangChain 의 기본 문서 객체입니다.

**속성**
- `page_content`: 문서의 내용을 나타내는 문열입니다.
- `metadata`: 문서의 메타데이터를 나타내는 딕셔너리입니다.


In [None]:
from langchain_core.documents import Document

document = Document(page_content="DWorks 를 처음 접하는 구성원이 DWorks를 이해하기 위한 기반 지식 습득 및 구성원간의 원활한 소통이 가능하도록 합니다.")

In [None]:
# 도큐먼트의 속성 확인
document.__dict__

metadata 에 속성 추가

In [None]:
# 메타데이터 추가
document.metadata["source"] = "01. 온보딩 프로세스 - 기반기술.pdf"
document.metadata["page"] = 1
document.metadata["author"] = "서정현"
document.metadata["owner"] = "노용주"

In [None]:
# 도큐먼트의 속성 확인
document.metadata

## Document Loader

다양한 파일의 형식으로부터 불러온 내용을 문서(Document) 객체로 변환하는 역할을 합니다.

### 주요 Loader 
- PyPDFLoader: PDF 파일을 로드하는 로더입니다.
- CSVLoader: CSV 파일을 로드하는 로더입니다.
- UnstructuredHTMLLoader: HTML 파일을 로드하는 로더입니다.
- JSONLoader: JSON 파일을 로드하는 로더입니다.
- TextLoader: 텍스트 파일을 로드하는 로더입니다.
- DirectoryLoader: 디렉토리를 로드하는 로더입니다.

In [None]:
# 예제 파일 경로
FILE_PATH = "./data/01. 온보딩 프로세스 - 기반기술.pdf"

In [None]:
from langchain_community.document_loaders import PyPDFLoader

# 로더 설정
loader = PyPDFLoader(FILE_PATH)

### load()

- 문서를 로드하여 반환합니다.
- 반환된 결과는 `List[Document]` 형태입니다.

In [None]:
# PDF 로더
docs = loader.load()

# 로드된 문서의 수 확인
len(docs)

In [None]:
# 첫번째 문서 확인
docs[0]

### load_and_split()

- splitter 를 사용하여 문서를 분할하고 반환합니다.
- 반환된 결과는 `List[Document]` 형태입니다.

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 문열 분할기 설정
text_splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=0)

# 예제 파일 경로
FILE_PATH = "./data/01. 온보딩 프로세스 - 기반기술.pdf"

# 로더 설정
loader = PyPDFLoader(FILE_PATH)

# 문서 분할
split_docs = loader.load_and_split(text_splitter=text_splitter)

# 로드된 문서의 수 확인
print(f"문서의 길이: {len(split_docs)}")

# 첫번째 문서 확인
split_docs[0]

### lazy_load()

- generator 방식으로 문서를 로드합니다.

In [None]:
loader.lazy_load()

In [None]:
# generator 방식으로 문서 로드
for doc in loader.lazy_load():
    print(doc.metadata)

### aload()

- 비동기(Async) 방식의 문서 로드

In [None]:
# 문서를 async 방식으로 로드
adocs = loader.aload()

In [None]:
# 문서 로드
await adocs