# Document

### RAG Flow
![RAG_Flow.png](./images/RAG_Flow.png)

## Document 객체와 속성
LangChain의 `Document` 객체는 텍스트 데이터를 표현하는 기본 단위입니다.

### 주요 속성
- page_content : 문서의 실제 텍스트 내용을 저장합니다
- metadata : 문서와 관련된 메타데이터를 딕셔너리 형태로 저장합니다
  - source : 문서의 출처 (파일 경로 등)
  - page : 페이지 번호
  - created_at : 생성 시간
  - author : 작성자
  등 사용자가 필요한 메타데이터를 자유롭게 추가 가능합니다

In [None]:
from langchain.schema import Document

# 기본적인 Document 객체 생성
doc = Document(
    page_content="이것은 문서의 내용입니다.",
    metadata={
        "source": "example.txt", # 문서의 출처 (지금은 임의로 입력)
        "page": 1, # 페이지 번호
        "author": "홍길동", # 작성자
        "created_at": "2025-01-01" # 생성 시간
    }
)

# Document 객체의 속성 확인
print(doc.__dict__)

## Document Loader란?
`Document Loader`는 다양한 형식의 문서(텍스트, PDF, HTML 등)를 읽어서 LangChain의 `Document` 객체로 변환해주는 도구입니다.
 
### 주요 특징
- 다양한 파일 형식 지원 (txt, pdf, docx, html 등)
- 문서의 내용을 page_content로 저장
- 파일 경로, 생성 시간 등의 메타데이터를 자동으로 추출하여 metadata에 저장
- 대용량 문서도 효율적으로 처리 가능

### 사용 목적
- 비정형 데이터를 LangChain이 처리할 수 있는 형태로 변환
- 문서 데이터를 AI 모델의 입력으로 사용하기 위한 전처리
- 문서의 구조화된 정보 추출

### Loader 종류
- TextLoader : 텍스트 파일을 로드하는 로더
- PyPDFLoader : PDF 파일을 로드하는 로더
- DirectoryLoader : 디렉토리를 로드하는 로더
- WebBaseLoader : 웹 기반 문서를 로드하는 로더
- 이외에도 다양한 타입의 로더가 제공된다.  
    참고 : [LangchainLoader](https://python.langchain.com/api_reference/community/document_loaders.html)


간단하게 `.txt` 확장자를 갖는 텍스트 로더를 실습해보자

In [None]:
from langchain.document_loaders import TextLoader

# TextLoader 객체 생성
loader = TextLoader("data/training_log_10.txt");

# 문서 로드
docs = loader.load();
print(docs)