### Document Loaders

**참고**
https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/csv/

### Document
* Langchain에서 만들어 놓은 기본 문서 객체
* 속성
    * page_content: 문서의 내용을 나타내는 문자열
    * metadata: 문서의 메타데이터를 나타내는 딕셔너리

In [1]:
from langchain_core.documents import Document

document = Document(page_content="우리가 만든 도큐먼트 입니다.")

In [4]:
document.__dict__

{'id': None,
 'metadata': {'page': 1, 'author': 'bear'},
 'page_content': '우리가 만든 도큐먼트 입니다.',
 'type': 'Document'}

In [3]:
document.metadata["page"] = 1
document.metadata["author"] = "bear"

### Document Loader
* 다양한 파일 형식으로부터 불러온 내용을 Document 객체로 변환하는 역할

**주요 Loader**
* PyPDFLoader : PDF파일을 로드하는 로더
* CSVLoader : CSV파일을 로드하는 로더
* UnstrururedGTMLLoader : HTML 파일 로드하는 로더
* JSONLoader : JSON 파일을 로드하는 로더
* TextLoader : 텍스트 파일을 로드하는 로더
* DirectoryLoader : 디렉토리 로드하는 로더

In [5]:
FILE_PATH = "./data/snow-white.pdf"

In [8]:
!pip install pypdf

Collecting pypdf
  Downloading pypdf-5.1.0-py3-none-any.whl.metadata (7.2 kB)
Downloading pypdf-5.1.0-py3-none-any.whl (297 kB)
Installing collected packages: pypdf
Successfully installed pypdf-5.1.0


In [9]:
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader(FILE_PATH)

**load()**
* 문서를 로드하여 반환
* 반환된 겨과는 List[Document] 형태

In [10]:
docs = loader.load()

len(docs)

6

In [11]:
docs[0]

Document(metadata={'source': './data/snow-white.pdf', 'page': 0}, page_content='백설공주\n옛날 어느 왕국에 공주님이 태어났어요.\n“어쩜 이렇게 어여쁠까? 살결이 눈처럼 하얗구나. 백\n설공주라고 불러야겠다.”\n왕과 왕비는 갓 태어난 딸을 보며 기뻐했어요.\n하지만 기쁨도 잠시, 왕비는 곧 세상을 떠나고 말았어\n요.\n')

**load_and_split()**
* splitter를 사용해 문서를 분할하고 반환한다.
* 반환된 결과는 Lis[Document]형태이다.

In [21]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size = 200, chunk_overlap=10)

# 파일 경로
FILE_PATH = "./data/snow-white.pdf"

# 로더 설정
loader = PyPDFLoader(FILE_PATH)

# 문서 로드 및 분할
split_docs = loader.load_and_split(text_splitter=text_splitter)

# 로드된 문서 수
print(f"문서 수 : {len(split_docs)}")

# 첫번째 문서 확인
print(split_docs[0])

문서 수 : 13
page_content='백설공주
옛날 어느 왕국에 공주님이 태어났어요.
“어쩜 이렇게 어여쁠까? 살결이 눈처럼 하얗구나. 백
설공주라고 불러야겠다.”
왕과 왕비는 갓 태어난 딸을 보며 기뻐했어요.
하지만 기쁨도 잠시, 왕비는 곧 세상을 떠나고 말았어
요.' metadata={'source': './data/snow-white.pdf', 'page': 0}


lazy_load()
* generator 방식으로 문서를 로드
* 문서를 필요로 할때마다 하나씩 로드하는 방식

In [18]:
loader.lazy_load()

<generator object PyPDFLoader.lazy_load at 0x000001B4E179E2F0>

In [19]:
for doc in loader.lazy_load():
    print(doc.metadata)

{'source': './data/snow-white.pdf', 'page': 0}
{'source': './data/snow-white.pdf', 'page': 1}
{'source': './data/snow-white.pdf', 'page': 2}
{'source': './data/snow-white.pdf', 'page': 3}
{'source': './data/snow-white.pdf', 'page': 4}
{'source': './data/snow-white.pdf', 'page': 5}


### aload()
- 비동기 방식의 문서 로드

In [20]:
adocs = loader.aload()

await adocs

[Document(metadata={'source': './data/snow-white.pdf', 'page': 0}, page_content='백설공주\n옛날 어느 왕국에 공주님이 태어났어요.\n“어쩜 이렇게 어여쁠까? 살결이 눈처럼 하얗구나. 백\n설공주라고 불러야겠다.”\n왕과 왕비는 갓 태어난 딸을 보며 기뻐했어요.\n하지만 기쁨도 잠시, 왕비는 곧 세상을 떠나고 말았어\n요.\n'),
 Document(metadata={'source': './data/snow-white.pdf', 'page': 1}, page_content='왕은 아름다운 새 왕비를 맞았어요.\n그런데 새 왕비는 자기보다 아름다운 사람을 두고 보\n지 못했어요.\n왕비는 진실만을 말하는 요술 거울에게 늘 이렇게 물\n었어요.\n“거울아, 거울아. 이 세상에서 누가 가장 아름답니?”\n“이 세상에서 가장 아름다운 사람은 왕비님입니다.”\n그 대답을 들어야만 차가운 왕비 얼굴에 미소가 번졌\n지요.\n시간이 흘러 백설공주는 어여쁜 소녀가 되었어요.\n어느 날, 왕비는 요술 거울에게 물었지요.\n“거울아, 거울아. 이 세상에서 누가 가장 아름답니?”\n“왕비님도 아름답지만 백설공주가 더 아름답습니다.”\n화가 난 왕비는 사냥꾼을 불렀어요.\n왕비는 사냥꾼에게 백설공주를 죽이라고 명령했어요.\n하지만 사냥꾼은 차마 그럴 수 없었어요.\n“가여운 공주님, 왕비님이 찾지 못하도록 멀리멀리 떠\n나세요.”\n백설공주는 울면서 숲으로 도망쳤어요.\n'),
 Document(metadata={'source': './data/snow-white.pdf', 'page': 2}, page_content='숲속을 헤매던 백설공주는 외딴 오두막에 이르렀어요.\n들여다보니 오두막은 비어 있었어요.\n“아무도 없네. 좀 쉬어 가도 될까? 어? 신기하다! 모든 게 작아. \n어어? 이상하다! 모든 게 일곱. 의자도 일곱, 접시도 일곱. 어머, \n침대도 일곱 개네.”\n도망치느라 치진 백설공주는 식탁 위에 있던 