# Document Loaders

파일로에서 텍스트 데이터를 구조화된 형태로 추출

- 주요 로더
    - PyPDFLoader : PDF 파일
        - PDFPluberLoader : 메타정보를 더 많이 제공
        - PyMuPDFLoader
    - CSVLoader : CSV 파일
    - UnstructuredHTMLLoader : HTML 파일
    - JSONLoader : JSON 파일
    - TextLoader : TXT 파일
    - DirectoryLoader : 디렉토리

[Reference-1] 주요 로더

https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/

[Reference-2] 다양한 로더

https://python.langchain.com/v0.1/docs/integrations/document_loaders/

** 실습 자료 **

소프트웨어정책연구소(SPRi), [AI Brief 스페셜] AI 에이전트 동향

- 저자: 유재흥(AI정책연구실 책임연구원), 이해수(AI정책연구실 선임연구원)
- 발생: 2024.12.10
- 링크: https://spri.kr/posts/view/23798?code=AI-Brief&s_year=&data_page=1
- 파일명: `SPRi AI Brief_Special_AI Agent_241209_F`

(실습 준비)
- `10-DocuementLoader` 폴더 하위에 `data` 폴더 생성
- 링크에서 다운로드 받은 파일을 `data` 폴더에 업로드

### Colab에서 실행시


In [39]:
!pip install -q -U requests==2.32.5 langchain-community langchain-text-splitters pypdf
# 설치 후 런타임 재시작을 권장 (Runtime → Restart runtime)

In [40]:
from google.colab import drive
drive.mount('/content/drive' )

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [52]:
import os
BASE_PATH = "/content/drive/MyDrive/Colab Notebooks"
os.chdir(BASE_PATH + '/SKALA/GAI4.RAG/LangChain/10-DocumentLoader')
PATH = os.getcwd()
PATH

'/content/drive/MyDrive/Colab Notebooks/SKALA/GAI4.RAG/LangChain/10-DocumentLoader'

# Document

- LangChain의 기본 문서 객체

In [None]:
from langchain_core.documents import Document

In [None]:
document = Document(page_content="랭체인 도큐먼트 로더를 적용해 봅시다.")

In [None]:
# 속성 확인
document.__dict__

{'id': None,
 'metadata': {},
 'page_content': '랭체인 도큐먼트 로더를 적용해 봅시다.',
 'type': 'Document'}

In [None]:
# 메타정보 확인
document.metadata

{}

In [None]:
# 메타정보 추가 반영
document.metadata["source"] = "SKALA"
document.metadata["page"] = 0
document.metadata["autor"] = "김철수"

In [None]:
# 메타정보 확인
document.metadata

{'source': 'SKALA', 'page': 0, 'autor': '김철수'}

## loader.load()

- 전체 문서 로딩
- 전체 문서의 페이지 수 만큼 리스트 생성

In [42]:
from langchain_community.document_loaders import PyPDFLoader

In [50]:
# 실습 파일 정의
file_path = "data/SPRi AI Brief_Special_AI 에이전트_241209_F.pdf"
file_path

'data/SPRi AI Brief_Special_AI 에이전트_241209_F.pdf'

In [51]:
# 로더 정의
loader = PyPDFLoader(file_path)

# 전체 문서 로딩
docs = loader.load()

# 로딩된 페이지수 확인
len(docs)

27

In [63]:
# 첫번째 문서 내용 확인
print(docs[0])

page_content='[AI브리프 스페셜] AI 에이전트 동향2024년 12월호' metadata={'producer': 'Hancom PDF 1.3.0.547', 'creator': 'Hwp 2018 10.0.0.13947', 'creationdate': '2024-12-09T09:43:15+09:00', 'author': 'dj', 'moddate': '2024-12-09T09:43:15+09:00', 'pdfversion': '1.4', 'source': 'data/SPRi AI Brief_Special_AI 에이전트_241209_F.pdf', 'total_pages': 27, 'page': 0, 'page_label': '1'}


In [64]:
print(docs[1])

page_content='SPRi AI Brief Special |  2024-12월호
1
AI 에이전트 동향– 빅테크 기업의 AI 에이전트 사례를 중심으로  최근 생성형 AI의 확산과 함께 인간과 상호작용이 가능한 AI 에이전트에 대한 관심이 급증하고 있으며, 향후 몇 년 안에 관련 시장이 급속히 성장할 것으로 예상된다. 빅테크 기업들이 AI 에이전트 시장에 잇따라 진출하며 다양한 수익 모델을 창출하고 있는 상황이다. 그러나 AI 에이전트는 기술적, 사회적, 윤리적, 법적 문제를 초래할 가능성도 내포하고 있다. 앞으로 AI 에이전트는 기술 혁신과 사회 변화를 주도하는 핵심 요소로 자리 잡으며, 기업의 업무방식과 개인의 삶에 깊숙이 통합되어 획기적인 변화를 이끌어갈 것으로 전망된다.1. AI 에이전트(AI Agent)의 도입 및 부상 1) AI 에이전트의 정의 £AI 에이전트에 대한 합의된 학술적 정의는 부재하나, 관련 연구에서는 AI 에이전트를 단순한 AI 모델이나 알고리즘과 구별하여  설명하며, 특히 상호작용과 독립적인 의사결정 능력을 강조 ∙스튜어트 러셀(Stuart Russell)과 피터 노비그(Peter Norvig)는 2021년 출판한 저서 ‘인공지능 – 현대적 접근법’에서 에이전트(Agent)는 센서를 통해 환경을 인식하고 센서가 액추에이터를 통해 해당 환경에 작용하는 것으로, 합리적 에이전트(Rational Agent)는 최선의 결과를 달성하기 위해 행동하거나, 불확실성이 있는 경우 최선의 기대 결과를 얻기 위해 행동하는 행위자로 정의1) ∙알란 찬(ALan Chan) 등은 2024년 발간된 연구논문인 ‘AI 에이전트에 대한 가시성’2)에서 많은 AI 개발자들이 더 큰 자율성, 외부 도구나 서비스 접근, 장기적 목표 달성을 위해 안정적으로 적응하고 계획하며 지속적 행동할 수 있는 능력 향상을 갖춘 시스템을 제작하고 있다고 설명하면서 이러한 시스템에 대해 AI 에이전트(AI agents 또는 agentic systems)라고 지칭
1) Russel

### RecursiveCharacterTextSplitter

1. 개요
    - 텍스트 데이터가 너무 길어 AI모델이 처리할 수 없는 경우 적절히 분할 필요
    - 분할된 텍스트가 문장이나 단어와 같은 의미 단위를 유지하도록 보장

2. 특징
    - 재귀적 방식:
        - 큰 의미 단위(문단)를 기준으로 분할 시도
        - 문단 길이가 너무 길면 문장 단위, 단어 단위로 점진적으로 분할
    - 문맥 유지:
        - 단순히 텍스트를 자르는 것이 아니라, 문맥을 보존할 수 있는 크기로 나눔
    - 파라미터:
        - `chunk_size`, `chunk_overlap` 통해 분할 크기와 중복 정보 조절
        - 모델 입력 길이에 따라 적용 가능

[Reference] https://python.langchain.com/v0.1/docs/modules/data_connection/document_transformers/recursive_text_splitter/

In [65]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [66]:
# 분할기 정의
text_splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=0)

# 문서 분할
split_docs = loader.load_and_split(text_splitter=text_splitter)
print(f"문서의 길이: {len(split_docs)}")

문서의 길이: 204


In [79]:
print(split_docs[10])

page_content='시 스 펙트럼 을 제 시하면 서 한쪽  끝에 는 특 정 작 업을 제 한적으 로 수 행하는  전통 적인 시스템 이 있고, 반대편 에는 환경에서 학습하고 독립적으로 결정 및 작업을 수행할 수 있는 완전한 에이전틱 AI 시스템이 있다고 설명 <AI 에이전시(AI Agency) 갭>' metadata={'producer': 'Hancom PDF 1.3.0.547', 'creator': 'Hwp 2018 10.0.0.13947', 'creationdate': '2024-12-09T09:43:15+09:00', 'author': 'dj', 'moddate': '2024-12-09T09:43:15+09:00', 'pdfversion': '1.4', 'source': 'data/SPRi AI Brief_Special_AI 에이전트_241209_F.pdf', 'total_pages': 27, 'page': 2, 'page_label': '3'}


In [76]:
print(split_docs[120])

page_content='기능을 제공  - 사용자의 데이터에 맞춰 자동으로 모델을 훈련하고 최적화할 수 있는 기능을 제공하여 기업들은 머신러닝에 대한 전문 지식 없이도 AI 모델을 쉽게 도입하고, CRM 기능을 고도화할 수 있음 ∙Einstein Voice는 음성 명령을 통해 CRM 데이터를 입력하고, 판매 활동을 기록할 수 있는 기능으로, 영업 팀이 음성으로 업무를 관리할 수' metadata={'producer': 'Hancom PDF 1.3.0.547', 'creator': 'Hwp 2018 10.0.0.13947', 'creationdate': '2024-12-09T09:43:15+09:00', 'author': 'dj', 'moddate': '2024-12-09T09:43:15+09:00', 'pdfversion': '1.4', 'source': 'data/SPRi AI Brief_Special_AI 에이전트_241209_F.pdf', 'total_pages': 27, 'page': 16, 'page_label': '17'}


## loader.lazy_load()

- 문서 사이즈가 커서 메모리에 모두 올리기 어려운 경우
- 순차적으로 문서 처리 (generator 방식) 되도록 하여 메모리 절약 효과

In [72]:
for doc in loader.lazy_load():
    print(doc.metadata)

{'producer': 'Hancom PDF 1.3.0.547', 'creator': 'Hwp 2018 10.0.0.13947', 'creationdate': '2024-12-09T09:43:15+09:00', 'author': 'dj', 'moddate': '2024-12-09T09:43:15+09:00', 'pdfversion': '1.4', 'source': 'data/SPRi AI Brief_Special_AI 에이전트_241209_F.pdf', 'total_pages': 27, 'page': 0, 'page_label': '1'}
{'producer': 'Hancom PDF 1.3.0.547', 'creator': 'Hwp 2018 10.0.0.13947', 'creationdate': '2024-12-09T09:43:15+09:00', 'author': 'dj', 'moddate': '2024-12-09T09:43:15+09:00', 'pdfversion': '1.4', 'source': 'data/SPRi AI Brief_Special_AI 에이전트_241209_F.pdf', 'total_pages': 27, 'page': 1, 'page_label': '2'}
{'producer': 'Hancom PDF 1.3.0.547', 'creator': 'Hwp 2018 10.0.0.13947', 'creationdate': '2024-12-09T09:43:15+09:00', 'author': 'dj', 'moddate': '2024-12-09T09:43:15+09:00', 'pdfversion': '1.4', 'source': 'data/SPRi AI Brief_Special_AI 에이전트_241209_F.pdf', 'total_pages': 27, 'page': 2, 'page_label': '3'}
{'producer': 'Hancom PDF 1.3.0.547', 'creator': 'Hwp 2018 10.0.0.13947', 'creationdat

# loader.aload()

- 비동기 방식으로 문서 로드
- 주로 다양한 입출력 작업이 벙렬로 이루어져야 하는 경우나 처리 시간이 오려 걸리는 작업에 적용

In [73]:
adocs = loader.aload()

In [74]:
# 문서 로드
await adocs

[Document(metadata={'producer': 'Hancom PDF 1.3.0.547', 'creator': 'Hwp 2018 10.0.0.13947', 'creationdate': '2024-12-09T09:43:15+09:00', 'author': 'dj', 'moddate': '2024-12-09T09:43:15+09:00', 'pdfversion': '1.4', 'source': 'data/SPRi AI Brief_Special_AI 에이전트_241209_F.pdf', 'total_pages': 27, 'page': 0, 'page_label': '1'}, page_content='[AI브리프 스페셜] AI 에이전트 동향2024년 12월호'),
 Document(metadata={'producer': 'Hancom PDF 1.3.0.547', 'creator': 'Hwp 2018 10.0.0.13947', 'creationdate': '2024-12-09T09:43:15+09:00', 'author': 'dj', 'moddate': '2024-12-09T09:43:15+09:00', 'pdfversion': '1.4', 'source': 'data/SPRi AI Brief_Special_AI 에이전트_241209_F.pdf', 'total_pages': 27, 'page': 1, 'page_label': '2'}, page_content='SPRi AI Brief Special |  2024-12월호\n1\nAI 에이전트 동향– 빅테크 기업의 AI 에이전트 사례를 중심으로  최근 생성형 AI의 확산과 함께 인간과 상호작용이 가능한 AI 에이전트에 대한 관심이 급증하고 있으며, 향후 몇 년 안에 관련 시장이 급속히 성장할 것으로 예상된다. 빅테크 기업들이 AI 에이전트 시장에 잇따라 진출하며 다양한 수익 모델을 창출하고 있는 상황이다. 그러나 AI 에이전트는 기술적, 사회적, 윤리적, 법적 문제를 초래할 가능성도 내포하고 있다. 앞으로 AI 에

-----
** End of Documents **