# 01. 도큐먼트(Document) 의 구조

실습에 활용한 문서
- 소프트웨어정책연구소(SPRi) - 2023년 12월호

- 저자: 유재흥(AI정책연구실 책임연구원), 이지수(AI정책연구실 위촉연구원)
- 링크: https://spri.kr/posts/view/23669
- 파일명: SPRI_AI_Brief_2023년12월호_F.pdf

## Document

LangChain 의 기본 문서 객체입니다.

속성
- `page_content`: 문서의 내용을 나타내는 문열입니다.
- `metadata`: 문서의 메타데이터를 나타내는 딕셔너리입니다.

In [1]:
from langchain_core.documents import Document

document = Document("안녕하세요? 이건 랭체인의 도큐먼드 입니다")

In [2]:
# 도큐먼트의 속성 확인
document.__dict__

{'id': None,
 'metadata': {},
 'page_content': '안녕하세요? 이건 랭체인의 도큐먼드 입니다',
 'type': 'Document'}

metadata 에 속성 추가

In [3]:
# 메타데이터 추가
document.metadata["source"] = "TeddyNote"
document.metadata["page"] = 1
document.metadata["author"] = "Teddy"

In [4]:
# 도큐먼트의 속성 확인
document.metadata

{'source': 'TeddyNote', 'page': 1, 'author': 'Teddy'}

## Document Loader

다양한 파일의 형식으로부터 불러온 내용을 문서(Document) 객체로 변환하는 역할을 합니다.

주요 Loader
- `PyPDFLoader`: PDF 파일을 로드하는 로더입니다.
- `CSVLoader`: CSV 파일을 로드하는 로더입니다.
- `UnstructuredHTMLLoader`: HTML 파일을 로드하는 로더입니다.
- `JSONLoader`: JSON 파일을 로드하는 로더입니다.
- `TextLoader`: 텍스트 파일을 로드하는 로더입니다.
- `DirectoryLoader`: 디렉토리를 로드하는 로더입니다.

In [5]:
# 예제 파일 경로
FILE_PATH = ("./week5Data/SPRI_AI_Brief_2023년12월호_F.pdf")

In [6]:
from langchain_community.document_loaders import PyPDFLoader

# 로더 설정
loader = PyPDFLoader(FILE_PATH)


`load()`

문서를 로드하여 반환합니다.

반환된 결과는 `List[Document]` 형태입니다.

In [7]:
# PDF 로더
docs = loader.load()

# 로드된 문서의 수 확인
len(docs)

23

In [8]:
# 첫번째 문서 확인
docs[0]


Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': './week5Data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 0, 'page_label': '1'}, page_content='2023 년 12월호')

`load_and_split()`

splitter 를 사용하여 문서를 분할하고 반환합니다.

반환된 결과는 `List[Document]` 형태입니다.

In [9]:
from langchain_text_splitters import CharacterTextSplitter

# 문열 분할기 설정
text_splitter = CharacterTextSplitter(chunk_size=200, chunk_overlap=0)
# 문서 분할
docs = loader.load_and_split(text_splitter=text_splitter)

# 로드된 문서의 수 확인
len(docs)
# 첫번째 문서 확인
docs[0]

Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': './week5Data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 0, 'page_label': '1'}, page_content='2023 년 12월호')

`lazy_load()`

generator 방식으로 문서를 로드합니다.

In [10]:
# generator 방식으로 문서 로드
for doc in loader.lazy_load():
    print(doc.metadata)

{'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': './week5Data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 0, 'page_label': '1'}
{'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': './week5Data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 1, 'page_label': '2'}
{'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': './week5Data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 2, 'page_label': '3'}
{'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13

`aload()`

비동기(Async) 방식의 문서 로드

In [11]:
# 문서를 async 방식으로 로드
adocs = loader.aload()

In [12]:
# 문서 로드
await adocs

[Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': './week5Data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 0, 'page_label': '1'}, page_content='2023 년 12월호'),
 Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': './week5Data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 1, 'page_label': '2'}, page_content='2023 년 12월호\nⅠ. 인공지능 산업 동향 브리프\n 1. 정책/법제 \n   ▹ 미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표  ························· 1\n   ▹ G7, 히로시마 AI 프로세스를 통해 AI 기업 대상 국제 행동강령에 합의··························· 2\n   ▹ 영국 AI 안전성 정상회의에 참가한 28개국, AI 위험에 공동 대응 선언··························· 3\n   ▹ 미국 법원, 예술가들이 생성 AI 기업에 제기한 저작권 소송 기각·····

# 02. PDF

`PDF`

Portable Document Format (PDF), ISO 32000으로 표준화된 파일 형식은 Adobe가 1992년에 문서를 제시하기 위해 개발했으며, 이는 응용 소프트웨어, 하드웨어 및 운영 시스템에 독립적인 방식으로 텍스트 서식 및 이미지를 포함합니다.

이 가이드는 PDF 문서를 LangChain Document 형식으로 로드하는 방법을 다룹니다. 이 형식은 다운스트림에서 사용됩니다.

LangChain은 다양한 PDF 파서와 통합됩니다. 일부는 간단하고 상대적으로 저수준이며, 다른 일부는 OCR 및 이미지 처리를 지원하거나 고급 문서 레이아웃 분석을 수행합니다.

올바른 선택은 사용자의 애플리케이션에 따라 달라집니다.

In [1]:
# API KEY를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API KEY 정보로드
load_dotenv()

True

소프트웨어정책연구소(SPRi) - 2023년 12월호

- 저자: 유재흥(AI정책연구실 책임연구원), 이지수(AI정책연구실 위촉연구원)
- 링크: https://spri.kr/posts/view/23669
- 파일명: SPRI_AI_Brief_2023년12월호_F.pdf
- 참고: 위의 파일은 data 폴더 내에 다운로드 받으세요

In [2]:
FILE_PATH = "week5Data/SPRI_AI_Brief_2023년12월호_F.pdf"

In [3]:
def show_metadata(docs):
    if docs:
        print("[metadata]")
        print(list(docs[0].metadata.keys()))
        print("\n[examples]")
        max_key_length = max(len(k) for k in docs[0].metadata.keys())
        for k, v in docs[0].metadata.items():
            print(f"{k:<{max_key_length}} : {v}")


## PyPDF

여기에서는 pypdf를 사용하여 PDF를 문서 배열로 로드하며, 각 문서는 page 번호와 함께 페이지 내용 및 메타데이터를 포함합니다.

In [None]:
# 설치
# !pip install -qU pypdf

In [4]:
from langchain_community.document_loaders import PyPDFLoader

# 파일 경로 설정
loader = PyPDFLoader(FILE_PATH)

# PDF 로더 초기화
docs = loader.load()

# 문서의 내용 출력
print(docs[10].page_content[:300])

SPRi AI Brief |  
2023-12 월호
8코히어 , 데이터 투명성 확보를 위한 데이터 출처 탐색기 공개
n코히어와 12개 기관이  광범위한 데이터셋에 대한 감사를 통해 원본 데이터 출처, 재라이선스 상태, 
작성자 등 다양한 정보를 제공하는 ‘데이터 출처 탐색기 ’ 플랫폼을 출시
n대화형 플랫폼을 통해 개발자는 데이터셋의 라이선스 상태를 쉽게 파악할 수 있으며 데이터셋의 
구성과 계보도 추적 가능KEY Contents
£데이터 출처 탐색기 , 광범위한 데이터셋 정보 제공을 통해 데이터 투명성 향상
nAI 기업 코히어 (


In [5]:
# 메타데이터 출력
show_metadata(docs)

[metadata]
['producer', 'creator', 'creationdate', 'author', 'moddate', 'pdfversion', 'source', 'total_pages', 'page', 'page_label']

[examples]
producer     : Hancom PDF 1.3.0.542
creator      : Hwp 2018 10.0.0.13462
creationdate : 2023-12-08T13:28:38+09:00
author       : dj
moddate      : 2023-12-08T13:28:38+09:00
pdfversion   : 1.4
source       : week5Data/SPRI_AI_Brief_2023년12월호_F.pdf
total_pages  : 23
page         : 0
page_label   : 1


## PyPDF(OCR)
일부 PDF에는 스캔된 문서나 그림 내에 텍스트 이미지가 포함되어 있습니다.

`rapidocr-onnxruntime` 패키지를 사용하여 이미지에서 텍스트를 추출할 수도 있습니다.

In [None]:
# 설치
# !pip install -qU rapidocr-onnxruntime

이미지 추출 옵션이 있어서인지 이전의 `PyPDFLoader`보다 속도가 현저하게 낮다

In [7]:
# PDF 로더 초기화, 이미지 추출 옵션 활성화
loader = PyPDFLoader("https://arxiv.org/pdf/2103.15348.pdf", extract_images=True)

# PDF 페이지 로드
docs = loader.load()

# 페이지 내용 접근
print(docs[4].page_content[:300])

LayoutParser : A Uniﬁed Toolkit for DL-Based DIA 5
Table 1: Current layout detection models in the LayoutParser model zoo
Dataset Base Model1Large Model Notes
PubLayNet [38] F / M M Layouts of modern scientiﬁc documents
PRImA [3] M - Layouts of scanned modern magazines and scientiﬁc reports
Newspape


In [8]:
show_metadata(docs)

[metadata]
['producer', 'creator', 'creationdate', 'author', 'keywords', 'moddate', 'ptex.fullbanner', 'subject', 'title', 'trapped', 'source', 'total_pages', 'page', 'page_label']

[examples]
producer        : pdfTeX-1.40.21
creator         : LaTeX with hyperref
creationdate    : 2021-06-22T01:27:10+00:00
author          : 
keywords        : 
moddate         : 2021-06-22T01:27:10+00:00
ptex.fullbanner : This is pdfTeX, Version 3.14159265-2.6-1.40.21 (TeX Live 2020) kpathsea version 6.3.2
subject         : 
title           : 
trapped         : /False
source          : https://arxiv.org/pdf/2103.15348.pdf
total_pages     : 16
page            : 0
page_label      : 1


## `PyMuPDF`

PyMuPDF 는 속도 최적화가 되어 있으며, PDF 및 해당 페이지에 대한 자세한 메타데이터를 포함하고 있습니다.

페이지 당 하나의 문서를 반환합니다:

In [9]:
# 설치
# !pip install -qU pymupdf

In [None]:
from langchain_community.document_loaders import PyMuPDFLoader

# PyMuPDF 로더 인스턴스 생성
loader = PyMuPDFLoader(FILE_PATH)

# 문서 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[10].page_content[:300])

In [None]:
show_metadata(docs)

## Unstructured
`Unstructured`는 Markdown이나 PDF와 같은 비구조화된 또는 반구조화된 파일 형식을 다루기 위한 공통 인터페이스를 지원합니다.

LangChain의 `UnstructuredPDFLoader`는 Unstructured와 통합되어 PDF 문서를 LangChain Document 객체로 파싱합니다.

In [10]:
# 설치
# !pip install -qU unstructured

In [11]:
from langchain_community.document_loaders import UnstructuredPDFLoader

# UnstructuredPDFLoader 인스턴스 생성
loader = UnstructuredPDFLoader(FILE_PATH)

# 데이터 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[0].page_content[:300])

2023년 12월호

2023년 12월호

Ⅰ. 인공지능 산업 동향 브리프

1. 정책/법제

▹ 미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표 ·························1

▹ G7, 히로시마 AI 프로세스를 통해 AI 기업 대상 국제 행동강령에 합의 ···························2

▹ 영국 AI 안전성 정상회의에 참가한 28개국, AI 위험에 공동 대응 선언 ··························· 3

▹ 미국 법원, 예술가들이 생성 AI 기업에 제기한


In [12]:
show_metadata(docs)

[metadata]
['source']

[examples]
source : week5Data/SPRI_AI_Brief_2023년12월호_F.pdf


내부적으로 비정형에서는 텍스트 청크마다 서로 다른 "요소"를 만듭니다.

기본적으로 이들은 결합되어 있지만 mode="elements"를 지정하여 쉽게 분리할 수 있습니다.

In [13]:
# UnstructuredPDFLoader 인스턴스 생성(mode="elements")
loader = UnstructuredPDFLoader(FILE_PATH, mode="elements")

# 데이터 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[0].page_content)

2023년 12월호


처음에는 전부 출력되었는데, 이제는 인덱싱을 통해 부분 출력이 가능해진다

이 특정 문서에 대한 전체 요소 유형 집합을 참조하세요

In [14]:
set(doc.metadata["category"] for doc in docs)  # 데이터 카테고리 추출

{'Footer', 'Header', 'ListItem', 'NarrativeText', 'Title', 'UncategorizedText'}

In [15]:
show_metadata(docs)

[metadata]
['source', 'coordinates', 'file_directory', 'filename', 'languages', 'last_modified', 'page_number', 'filetype', 'category', 'element_id']

[examples]
source         : week5Data/SPRI_AI_Brief_2023년12월호_F.pdf
coordinates    : {'points': ((256.579467, 282.444348), (256.579467, 303.42387300000007), (355.4236898438, 303.42387300000007), (355.4236898438, 282.444348)), 'system': 'PixelSpace', 'layout_width': 612, 'layout_height': 858}
file_directory : week5Data
filename       : SPRI_AI_Brief_2023년12월호_F.pdf
languages      : ['eng']
last_modified  : 2025-12-13T14:08:21
page_number    : 1
filetype       : application/pdf
category       : UncategorizedText
element_id     : d6be7c84c90e17d08bcfd9f6daa807ca


## PyPDFium2

무슨 경고가 뜬다
```
UserWarning: get_text_range() call with default params will be implicitly redirected to get_text_bounded()
  warnings.warn("get_text_range() call with default params will be implicitly redirected to get_text_bounded()")
```

구글링해봤지만 별소득이 없어 ChatGPT에게 물어봤다

에러라기보다 **경고(UserWarning)** 입니다. 의미는 다음과 같습니다.

* 지금 코드에서 `get_text_range()`를 **기본 파라미터(default params)** 로 호출했는데,
* 해당 라이브러리(또는 함수 구현)가 “앞으로는 그 호출을 그대로 처리하지 않고, 내부적으로 `get_text_bounded()` 쪽으로 **자동으로 바꿔서(redirect) 실행**하겠다”는 안내를 띄운 것입니다.
* 즉, **현재는 동작하지만** 라이브러리 업데이트/동작 변경 때문에 **의도와 다른 결과가 나올 수 있으니 호출 방식을 명시적으로 바꾸라**는 신호에 가깝습니다.

보통 대응은 3가지 중 하나입니다.

1. **문서/릴리즈노트 확인 후 권장 API로 변경**

* 실제로 `get_text_bounded()`로 바꾸거나,
* `get_text_range()`에 필요한 파라미터를 **명시적으로** 넣어서 호출합니다.

2. **경고를 없애고 싶을 때(원인 해결이 우선)**

* Python 경고 필터로 숨길 수는 있지만, 근본 해결은 아닙니다.
  (`warnings.filterwarnings(...)`)

3. **왜 뜨는지 정확히 확인**

* 어떤 라이브러리의 `get_text_range()`인지가 핵심입니다(예: PDF 처리, UI 텍스트 추출 등).

원하시면, `get_text_range()`가 어느 패키지/모듈에 있는 함수인지(예: `import` 구문이나 전체 스택트레이스 일부) 5~10줄만 붙여주시면, **정확히 어떤 변경 때문에 뜨는지**와 **어떤 파라미터를 명시해야 하는지**까지 바로 정리해드릴 수 있습니다.


In [16]:
from langchain_community.document_loaders import PyPDFium2Loader

# PyPDFium2 로더 인스턴스 생성
loader = PyPDFium2Loader(FILE_PATH)

# 데이터 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[10].page_content[:300])

SPRi AI Brief | 
2023-12월호
8
코히어, 데이터 투명성 확보를 위한 데이터 출처 탐색기 공개
n 코히어와 12개 기관이 광범위한 데이터셋에 대한 감사를 통해 원본 데이터 출처, 재라이선스 상태, 작성자 등 다양한 정보를 제공하는 ‘데이터 출처 탐색기’ 플랫폼을 출시
n 대화형 플랫폼을 통해 개발자는 데이터셋의 라이선스 상태를 쉽게 파악할 수 있으며 데이터셋의 
구성과 계보도 추적 가능
KEY Contents
£ 데이터 출처 탐색기, 광범위한 데이터셋 정보 제공을 통해 데이터 투명성 향상
n AI 기업 코히어(Co




In [17]:
show_metadata(docs)

[metadata]
['title', 'author', 'subject', 'keywords', 'creator', 'producer', 'creationdate', 'moddate', 'source', 'total_pages', 'page']

[examples]
title        : 
author       : dj
subject      : 
keywords     : 
creator      : Hwp 2018 10.0.0.13462
producer     : Hancom PDF 1.3.0.542
creationdate : 2023-12-08T13:28:38+09:00
moddate      : 2023-12-08T13:28:38+09:00
source       : week5Data/SPRI_AI_Brief_2023년12월호_F.pdf
total_pages  : 23
page         : 0


## PDFMiner

In [18]:
from langchain_community.document_loaders import PDFMinerLoader

# PDFMiner 로더 인스턴스 생성
loader = PDFMinerLoader(FILE_PATH)

# 데이터 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[0].page_content[:300])

2023년  12월호
2023년  12월호

Ⅰ.  인공지능  산업  동향  브리프

  1.  정책/법제 

      ▹  미국,  안전하고  신뢰할  수  있는  AI  개발과  사용에  관한  행정명령  발표    ························· 1

      ▹  G7,  히로시마  AI  프로세스를  통해  AI  기업  대상  국제  행동강령에  합의 ··························· 2

      ▹  영국  AI  안전성  정상회의에  참가한  28개국,  AI  위험에  공동  


In [19]:
show_metadata(docs)

[metadata]
['author', 'creator', 'producer', 'creationdate', 'moddate', 'pdfversion', 'total_pages', 'source']

[examples]
author       : dj
creator      : Hwp 2018 10.0.0.13462
producer     : Hancom PDF 1.3.0.542
creationdate : 2023-12-08T13:28:38+09:00
moddate      : 2023-12-08T13:28:38+09:00
pdfversion   : 1.4
total_pages  : 23
source       : week5Data/SPRI_AI_Brief_2023년12월호_F.pdf


PDFMiner를 사용하여 HTML 텍스트 생성

이 방법은 출력된 HTML 콘텐츠를 `BeautifulSoup`을 통해 파싱함으로써 글꼴 크기, 페이지 번호, PDF 헤더/푸터 등에 대한 보다 구조화되고 풍부한 정보를 얻을 수 있게 하여 텍스트를 의미론적으로 섹션으로 분할하는 데 도움이 될 수 있습니다.

In [20]:
from langchain_community.document_loaders import PDFMinerPDFasHTMLLoader

# PDFMinerPDFasHTMLLoader 인스턴스 생성
loader = PDFMinerPDFasHTMLLoader(FILE_PATH)

# 문서 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[0].page_content[:300])

<html><head>
<meta http-equiv="Content-Type" content="text/html">
</head><body>
<span style="position:absolute; border: gray 1px solid; left:0px; top:50px; width:612px; height:858px;"></span>
<div style="position:absolute; top:50px;"><a name="1">Page 1</a></div>
<div style="position:absolute; border


In [21]:
show_metadata(docs)

[metadata]
['source']

[examples]
source : week5Data/SPRI_AI_Brief_2023년12월호_F.pdf


In [22]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(docs[0].page_content, "html.parser")  # HTML 파서 초기화
content = soup.find_all("div")  # 모든 div 태그 검색

In [23]:
import re

cur_fs = None
cur_text = ""
snippets = []  # 동일한 글꼴 크기의 모든 스니펫 수집
for c in content:
    sp = c.find("span")
    if not sp:
        continue
    st = sp.get("style")
    if not st:
        continue
    fs = re.findall("font-size:(\d+)px", st)
    if not fs:
        continue
    fs = int(fs[0])
    if not cur_fs:
        cur_fs = fs
    if fs == cur_fs:
        cur_text += c.text
    else:
        snippets.append((cur_text, cur_fs))
        cur_fs = fs
        cur_text = c.text
snippets.append((cur_text, cur_fs))
# 중복 스니펫 제거 전략 추가 가능성 (PDF의 헤더/푸터가 여러 페이지에 걸쳐 나타나므로 중복 발견 시 중복 정보로 간주 가능)

In [24]:
from langchain_core.documents import Document

cur_idx = -1
semantic_snippets = []
# 제목 가정: 높은 글꼴 크기
for s in snippets:
    # 새 제목 판별: 현재 스니펫 글꼴 > 이전 제목 글꼴
    if (
        not semantic_snippets
        or s[1] > semantic_snippets[cur_idx].metadata["heading_font"]
    ):
        metadata = {"heading": s[0], "content_font": 0, "heading_font": s[1]}
        metadata.update(docs[0].metadata)
        semantic_snippets.append(Document(page_content="", metadata=metadata))
        cur_idx += 1
        continue

    # 동일 섹션 내용 판별: 현재 스니펫 글꼴 <= 이전 내용 글꼴
    if (
        not semantic_snippets[cur_idx].metadata["content_font"]
        or s[1] <= semantic_snippets[cur_idx].metadata["content_font"]
    ):
        semantic_snippets[cur_idx].page_content += s[0]
        semantic_snippets[cur_idx].metadata["content_font"] = max(
            s[1], semantic_snippets[cur_idx].metadata["content_font"]
        )
        continue

    # 새 섹션 생성 조건: 현재 스니펫 글꼴 > 이전 내용 글꼴, 이전 제목 글꼴 미만
    metadata = {"heading": s[0], "content_font": 0, "heading_font": s[1]}
    metadata.update(docs[0].metadata)
    semantic_snippets.append(Document(page_content="", metadata=metadata))
    cur_idx += 1

print(semantic_snippets[4])

page_content='KEY Contents
n 미국 바이든 대통령이 ‘안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령’에 서명하고 
광범위한  행정  조치를  명시
n 행정명령은 △AI의 안전과 보안 기준 마련 △개인정보보호 △형평성과 시민권 향상 △소비자 
보호  △노동자  지원  △혁신과  경쟁  촉진  △국제협력을  골자로  함
' metadata={'heading': '미국,  안전하고  신뢰할  수  있는  AI  개발과  사용에  관한  행정명령  발표 \n', 'content_font': 12, 'heading_font': 15, 'source': 'week5Data/SPRI_AI_Brief_2023년12월호_F.pdf'}


## PyPDF 디렉토리

디렉토리에서 PDF를 로드하세요

In [26]:
from langchain_community.document_loaders import PyPDFDirectoryLoader

# 디렉토리 경로
loader = PyPDFDirectoryLoader("week5Data/")

# 문서 로드
docs = loader.load()

# 문서의 개수 출력
print(len(docs))

23


In [28]:
# 문서의 내용 출력
print(docs[12].page_content[:300])

SPRi AI Brief |  
2023-12 월호
10삼성전자 , 자체 개발 생성 AI ‘삼성 가우스 ’ 공개
n삼성전자가 온디바이스에서 작동 가능하며 언어, 코드, 이미지의 3개 모델로 구성된 자체 개발 생성 
AI 모델 ‘삼성 가우스 ’를 공개
n삼성전자는 삼성 가우스를 다양한 제품에 단계적으로 탑재할 계획으로 , 온디바이스 작동이 가능한 
삼성 가우스는 외부로 사용자 정보가 유출될 위험이 없다는 장점을 보유KEY Contents
£언어, 코드, 이미지의 3개 모델로 구성된 삼성 가우스 , 온디바이스 작동 지원
n삼성전자가 2


In [29]:
# metadata 출력
print(docs[12].metadata)


{'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': 'week5Data\\SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 12, 'page_label': '13'}


## PDFPlumber

PyMuPDF와 마찬가지로, 출력 문서는 PDF와 그 페이지에 대한 자세한 메타데이터를 포함하며, 페이지 당 하나의 문서를 반환합니다.

In [30]:
from langchain_community.document_loaders import PDFPlumberLoader

# PDF 문서 로더 인스턴스 생성
loader = PDFPlumberLoader(FILE_PATH)

# 문서 로딩
docs = loader.load()

# 첫 번째 문서 데이터 접근
print(docs[10].page_content[:300])

SPRi AI Brief |
2023-12월호
코히어, 데이터 투명성 확보를 위한 데이터 출처 탐색기 공개
KEY Contents
n 코히어와 12개 기관이 광범위한 데이터셋에 대한 감사를 통해 원본 데이터 출처, 재라이선스 상태,
작성자 등 다양한 정보를 제공하는 ‘데이터 출처 탐색기’ 플랫폼을 출시
n 대화형 플랫폼을 통해 개발자는 데이터셋의 라이선스 상태를 쉽게 파악할 수 있으며 데이터셋의
구성과 계보도 추적 가능
£데이터 출처 탐색기, 광범위한 데이터셋 정보 제공을 통해 데이터 투명성 향상
n AI 기업 코히어(Cohere)


In [31]:
show_metadata(docs)


[metadata]
['source', 'file_path', 'page', 'total_pages', 'Author', 'Creator', 'Producer', 'CreationDate', 'ModDate', 'PDFVersion']

[examples]
source       : week5Data/SPRI_AI_Brief_2023년12월호_F.pdf
file_path    : week5Data/SPRI_AI_Brief_2023년12월호_F.pdf
page         : 0
total_pages  : 23
Author       : dj
Creator      : Hwp 2018 10.0.0.13462
Producer     : Hancom PDF 1.3.0.542
CreationDate : D:20231208132838+09'00'
ModDate      : D:20231208132838+09'00'
PDFVersion   : 1.4


# 03. 한글(HWP)

In [32]:
# 설치
# !pip install -qU langchain-teddynote

In [37]:
from langchain_teddynote.document_loaders import HWPLoader

# HWP Loader 객체 생성
loader = HWPLoader("week5Data/디지털 정부혁신 추진계획.hwp")

# 문서 로드
docs = loader.load()

In [38]:
# 결과 출력
print(docs[0].page_content[:1000])

디지털 정부혁신 추진계획2019. 10. 29.      관계부처 합동순    서Ⅰ. 개요ȃ 1Ⅱ. 디지털 정부혁신 추진계획ㆬȃ 2  1. 우선 추진과제ȃ 2     ① 선제적·통합적 대국민 서비스 혁신     ② 공공부문 마이데이터 활성화     ③ 시민참여를 위한 플랫폼 고도화     ④ 현장중심 협업을 지원하는 스마트 업무환경 구현     ⑤ 클라우드와 디지털서비스 이용 활성화     ⑥ 개방형 데이터·서비스 생태계 구축  2. 중장기 범정부 디지털 전환 로드맵 수립ᲈȃ 4Ⅲ. 추진체계 및 일정ȃ 4 [붙임] 디지털 정부혁신 우선 추진과제(상세)ᬜȃ 8Ⅰ. 개 요□ 추진 배경 ○ 우리나라는 국가적 초고속 정보통신망 투자와 적극적인 공공정보화 사업 추진에 힘입어 세계 최고수준의 전자정부를 구축‧운영     * UN전자정부평가에서 2010‧12‧14년 1위, 16‧18년 3위, UN공공행정상 13회 수상 ○ 그러나, 인공지능‧클라우드 중심의 디지털 전환(Digital Transformation) 시대가 도래함에 따라 기존 전자정부의 한계 표출   - 축적된 행정데이터에도 불구하고 기관간 연계‧활용 미흡, 부처 단위로 단절된 서비스, 신기술 활용을 위한 제도‧기반 부족   - 디지털 전환을 위한 컨트롤타워가 없고, 구체적 전략도 부재 ○ 이에, ‘19.3월부터 공공부문 ICT 활용현황 및 문제점 검토에 착수하여 공공분야 디지털 전환을 위한 추진계획 마련     * 관계부처 협의 21회(행안,과기정통,기재,복지,권익위,국정원 등), 민간전문가 의견청취 10회□ 문제점 진단 및 평가 ○ (서비스) 국민과 최종 이용자 관점에서 서비스 혁신 미흡   - 자격이 있어도 자신이 받을 수 있는 공공서비스를 파악하기 어려워 사각지대가 발생하고, 온라인 신청 가능한 서비스도 제한적 ○ (데이터) 기관별로 축적·보유한 데이터의 연계와 활용 부족   - A기관에서 서류를 발급받아 B기관에 제출하는 관행(연간 증명서 9.5억건‘18년 발급) 등 데이터가 국민편익 향상에 제대로 활용

metadata 에는 파일명 정보가 담겨 있습니다.

In [39]:
# 결과 출력
print(docs[0].metadata)

{'source': 'week5Data/디지털 정부혁신 추진계획.hwp'}


# 04. CSV

`CSV`

`Comma-Separated Values` (CSV) 파일은 쉼표로 값을 구분하는 구분된 텍스트 파일입니다. 파일의 각 줄은 데이터 레코드입니다.

각 레코드는 쉼표로 구분된 하나 이상의 필드로 구성됩니다.

## CSVLoader

CSV 데이터를 문서당 한 행씩 로드합니다.

In [40]:
from langchain_community.document_loaders.csv_loader import CSVLoader

# CSV 로더 생성
loader = CSVLoader(file_path="./week5Data/titanic.csv")

# 데이터 로드
docs = loader.load()

print(len(docs))
print(docs[0].metadata)


891
{'source': './week5Data/titanic.csv', 'row': 0}


## CSV 파싱 및 로딩 커스터마이징

csv module 문서를 참조하여 지원되는 csv args에 대한 자세한 정보를 확인하세요.

In [41]:
# 컬럼정보:
# PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked

# CSV 파일 경로
loader = CSVLoader(
    file_path="./data/titanic.csv",
    csv_args={
        "delimiter": ",",  # 구분자
        "quotechar": '"',  # 인용 부호 문자
        "fieldnames": [
            "Passenger ID",
            "Survival (1: Survived, 0: Died)",
            "Passenger Class",
            "Name",
            "Sex",
            "Age",
            "Number of Siblings/Spouses Aboard",
            "Number of Parents/Children Aboard",
            "Ticket Number",
            "Fare",
            "Cabin",
            "Port of Embarkation",
        ],  # 필드 이름
    },
)

# 데이터 로드
docs = loader.load()

# 데이터 출력
print(docs[1].page_content)

Passenger ID: 1
Survival (1: Survived, 0: Died): 0
Passenger Class: 3
Name: Braund, Mr. Owen Harris
Sex: male
Age: 22
Number of Siblings/Spouses Aboard: 1
Number of Parents/Children Aboard: 0
Ticket Number: A/5 21171
Fare: 7.25
Cabin: 
Port of Embarkation: S


`source_column` 인자를 사용하여 각 행에서 생성된 문서의 출처를 지정하세요. 그렇지 않으면 모든 문서의 출처로 file_path가 사용됩니다.

이는 CSV 파일에서 로드된 문서를 출처를 사용하여 질문에 답하는 체인에 사용할 때 유용합니다.

In [42]:
loader = CSVLoader(
    file_path="./data/titanic.csv", source_column="PassengerId"
)  # CSV 로더 설정, 파일 경로 및 소스 컬럼 지정

docs = loader.load()  # 데이터 로드

print(docs[1])  # 데이터 출력

page_content='PassengerId: 2
Survived: 1
Pclass: 1
Name: Cumings, Mrs. John Bradley (Florence Briggs Thayer)
Sex: female
Age: 38
SibSp: 1
Parch: 0
Ticket: PC 17599
Fare: 71.2833
Cabin: C85
Embarked: C' metadata={'source': '2', 'row': 1}


## UnstructuredCSVLoader

`UnstructuredCSVLoader`를 사용하여 테이블을 로드할 수도 있습니다. `UnstructuredCSVLoader`를 사용하는 한 가지 장점은 "elements" 모드에서 사용할 경우, 메타데이터에서 테이블의 HTML 표현이 제공된다는 것입니다.

In [43]:
from langchain_community.document_loaders.csv_loader import UnstructuredCSVLoader

# 비구조화 CSV 로더 인스턴스 생성
loader = UnstructuredCSVLoader(file_path="./data/titanic.csv", mode="elements")

# 문서 로드
docs = loader.load()

# 첫 번째 문서의 HTML 텍스트 메타데이터 출력
print(docs[0].metadata["text_as_html"][:1000])

<table><tr><td>PassengerId</td><td>Survived</td><td>Pclass</td><td>Name</td><td>Sex</td><td>Age</td><td>SibSp</td><td>Parch</td><td>Ticket</td><td>Fare</td><td>Cabin</td><td>Embarked</td></tr><tr><td>1</td><td>0</td><td>3</td><td>Braund, Mr. Owen Harris</td><td>male</td><td>22</td><td>1</td><td>0</td><td>A/5 21171</td><td>7.25</td><td/><td>S</td></tr><tr><td>2</td><td>1</td><td>1</td><td>Cumings, Mrs. John Bradley (Florence Briggs Thayer)</td><td>female</td><td>38</td><td>1</td><td>0</td><td>PC 17599</td><td>71.2833</td><td>C85</td><td>C</td></tr><tr><td>3</td><td>1</td><td>3</td><td>Heikkinen, Miss. Laina</td><td>female</td><td>26</td><td>0</td><td>0</td><td>STON/O2. 3101282</td><td>7.925</td><td/><td>S</td></tr><tr><td>4</td><td>1</td><td>1</td><td>Futrelle, Mrs. Jacques Heath (Lily May Peel)</td><td>female</td><td>35</td><td>1</td><td>0</td><td>113803</td><td>53.1</td><td>C123</td><td>S</td></tr><tr><td>5</td><td>0</td><td>3</td><td>Allen, Mr. William Henry</td><td>male</td><td>35</

## DataFrameLoader

Pandas는 Python 프로그래밍 언어를 위한 오픈 소스 데이터 분석 및 조작 도구입니다. 이 라이브러리는 데이터 과학, 머신러닝, 그리고 다양한 분야의 데이터 작업에 널리 사용되고 있습니다.

In [44]:
import pandas as pd

# CSV 파일 읽기
df = pd.read_csv("./data/titanic.csv")

In [45]:
# 데이터프레임의 처음 다섯 행 조회
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [46]:
from langchain_community.document_loaders import DataFrameLoader

# 데이터 프레임 로더 설정, 페이지 내용 컬럼 지정
loader = DataFrameLoader(df, page_content_column="Name")

# 문서 로드
docs = loader.load()

# 데이터 출력
print(docs[0].page_content)

# 메타데이터 출력
print(docs[0].metadata)

Braund, Mr. Owen Harris
{'PassengerId': 1, 'Survived': 0, 'Pclass': 3, 'Sex': 'male', 'Age': 22.0, 'SibSp': 1, 'Parch': 0, 'Ticket': 'A/5 21171', 'Fare': 7.25, 'Cabin': nan, 'Embarked': 'S'}


In [47]:
# 큰 테이블에 대한 지연 로딩, 전체 테이블을 메모리에 로드하지 않음
for row in loader.lazy_load():
    print(row)
    break  # 첫 행만 출력

page_content='Braund, Mr. Owen Harris' metadata={'PassengerId': 1, 'Survived': 0, 'Pclass': 3, 'Sex': 'male', 'Age': 22.0, 'SibSp': 1, 'Parch': 0, 'Ticket': 'A/5 21171', 'Fare': 7.25, 'Cabin': nan, 'Embarked': 'S'}


# 05. Excel

`UnstructuredExcelLoader`는 Microsoft Excel 파일을 로드하는 데 사용됩니다.

이 로더는 `.xlsx` 및 `.xls` 파일 모두에서 작동합니다. 페이지 내용은 Excel 파일의 원시 텍스트가 됩니다.

"elements" 모드에서 로더를 사용하는 경우, 문서 메타데이터의 text_as_html 키 아래에서 Excel 파일의 HTML 표현이 제공됩니다

In [48]:
# 설치
# !pip install -qU langchain-community unstructured openpyxl

In [50]:
from langchain_community.document_loaders import UnstructuredExcelLoader

# UnstructuredExcelLoader 생성
loader = UnstructuredExcelLoader("./week5Data/titanic.xlsx", mode="elements")

# 문서 로드
docs = loader.load()

# 문서 길이 출력
print(len(docs))


1


1개의 문서로 로드되었음을 확인합니다.

page_content 에는 각 행의 데이터가 저장되고, metadata 의 text_as_html 에는 각 행의 데이터를 HTML 형식으로 저장합니다.

In [51]:
# 문서 출력
print(docs[0].page_content[:200])

PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 1 0 3 Braund, Mr. Owen Harris male 22 1 0 A/5 21171 7.25 S 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Thayer) fem


In [52]:
# metadata 의 text_as_html 출력
print(docs[0].metadata["text_as_html"][:1000])

<table><tr><td>PassengerId</td><td>Survived</td><td>Pclass</td><td>Name</td><td>Sex</td><td>Age</td><td>SibSp</td><td>Parch</td><td>Ticket</td><td>Fare</td><td>Cabin</td><td>Embarked</td></tr><tr><td>1</td><td>0</td><td>3</td><td>Braund, Mr. Owen Harris</td><td>male</td><td>22</td><td>1</td><td>0</td><td>A/5 21171</td><td>7.25</td><td/><td>S</td></tr><tr><td>2</td><td>1</td><td>1</td><td>Cumings, Mrs. John Bradley (Florence Briggs Thayer)</td><td>female</td><td>38</td><td>1</td><td>0</td><td>PC 17599</td><td>71.2833</td><td>C85</td><td>C</td></tr><tr><td>3</td><td>1</td><td>3</td><td>Heikkinen, Miss. Laina</td><td>female</td><td>26</td><td>0</td><td>0</td><td>STON/O2. 3101282</td><td>7.925</td><td/><td>S</td></tr><tr><td>4</td><td>1</td><td>1</td><td>Futrelle, Mrs. Jacques Heath (Lily May Peel)</td><td>female</td><td>35</td><td>1</td><td>0</td><td>113803</td><td>53.1</td><td>C123</td><td>S</td></tr><tr><td>5</td><td>0</td><td>3</td><td>Allen, Mr. William Henry</td><td>male</td><td>35</

## DataFrameLoader

CSV 파일과 마찬가지로 Excel 파일을 로드하는 read_excel() 기능을 사용하여 DataFrame 으로 만든 뒤, 로드합니다.

In [53]:
import pandas as pd

# Excel 파일 읽기
df = pd.read_excel("./week5Data/titanic.xlsx")


In [54]:
from langchain_community.document_loaders import DataFrameLoader

# 데이터 프레임 로더 설정, 페이지 내용 컬럼 지정
loader = DataFrameLoader(df, page_content_column="Name")

# 문서 로드
docs = loader.load()

# 데이터 출력
print(docs[0].page_content)

# 메타데이터 출력
print(docs[0].metadata)

Braund, Mr. Owen Harris
{'PassengerId': 1, 'Survived': 0, 'Pclass': 3, 'Sex': 'male', 'Age': 22.0, 'SibSp': 1, 'Parch': 0, 'Ticket': 'A/5 21171', 'Fare': 7.25, 'Cabin': nan, 'Embarked': 'S'}


# 06. Word

Microsoft Word

Microsoft Word는 Microsoft에서 개발한 워드 프로세서입니다.

이는 Word 문서를 하류에서 사용할 수 있는 문서 형식으로 로드하는 방법을 다룹니다.

## Docx2txtLoader

Docx2txt를 사용하여 .docx 파일을 문서로 불러올 수 있습니다.

In [55]:
# 설치
# !pip install -qU docx2txt

In [57]:
from langchain_community.document_loaders import Docx2txtLoader

loader = Docx2txtLoader("./week5Data/sample-word-document.docx")  # 문서 로더 초기화

docs = loader.load()  # 문서 로딩

print(len(docs))

1


## UnstructuredWordDocumentLoader

In [58]:
from langchain_community.document_loaders import UnstructuredWordDocumentLoader

# 비구조화된 워드 문서 로더 인스턴스화
loader = UnstructuredWordDocumentLoader("./week5Data/sample-word-document.docx")

# 문서 로드
docs = loader.load()

print(len(docs))

1


결과는 1개의 단일 Document 로 로드됩니다.

In [59]:
# metadata 출력
print(docs[0].metadata)

{'source': './week5Data/sample-word-document.docx'}


내부적으로 비정형은 텍스트 덩어리마다 서로 다른 "요소"를 만듭니다.

기본적으로 이들은 함께 결합되어 있지만 mode="elements" 를 지정하여 쉽게 분리할 수 있습니다.

In [61]:
# UnstructuredWordDocumentLoader
loader = UnstructuredWordDocumentLoader(
    "./week5Data/sample-word-document.docx", mode="elements"
)

# 데이터 로드
docs = loader.load()

# 로드한 문서의 개수 출력
print(len(docs))


128


In [62]:
# 첫번째 문서의 내용 출력
print(docs[0].page_content)

Semantic Search


In [63]:
# 첫번째 문서의 내용 출력
docs[0].metadata

{'source': './week5Data/sample-word-document.docx',
 'category_depth': 0,
 'file_directory': './week5Data',
 'filename': 'sample-word-document.docx',
 'last_modified': '2025-10-03T21:08:16',
 'page_number': 1,
 'languages': ['kor'],
 'filetype': 'application/vnd.openxmlformats-officedocument.wordprocessingml.document',
 'category': 'UncategorizedText',
 'element_id': 'a7703edf875ec776dc2bb839ca335b45'}

# 07. PowerPoint

`Microsoft PowerPoint`
> Microsoft PowerPoint는 Microsoft에서 개발한 프레젠테이션 프로그램입니다.

이는 Microsoft PowerPoint 문서를 다운스트림에서 사용할 수 있는 문서 형식으로 로드하는 방법을 다룹니다.

자세한 Unstructured 설정 방법은 공식 도큐먼트를 참조하십시오.

In [64]:
# 패키지 설치
# !pip install -qU unstructured python-pptx

In [65]:
from langchain_community.document_loaders import UnstructuredPowerPointLoader

# UnstructuredPowerPointLoader 생성
loader = UnstructuredPowerPointLoader("./week5Data/sample-ppt.pptx")

# 데이터 로드
docs = loader.load()

# 로드한 문서의 개수 출력
print(len(docs))

1


`Unstructured`는 텍스트의 다양한 chunks에 대해 다양한 "elements"를 생성합니다.

기본적으로 결합되어 하나의 document 로 반환하지만, mode="elements"를 지정함으로써 쉽게 요소들을 분리할 수 있습니다.

In [66]:
# UnstructuredPowerPointLoader 생성
loader = UnstructuredPowerPointLoader("./week5Data/sample-ppt.pptx", mode="elements")

# 데이터 로드
docs = loader.load()

print(len(docs))

17


Unstructured는 텍스트의 다양한 chunks에 대해 다양한 "elements"를 생성합니다.

기본적으로 결합되어 하나의 document 로 반환하지만, mode="elements"를 지정함으로써 쉽게 요소들을 분리할 수 있습니다.

In [67]:
# UnstructuredPowerPointLoader 생성
loader = UnstructuredPowerPointLoader("./week5Data/sample-ppt.pptx", mode="elements")

# 데이터 로드
docs = loader.load()

print(len(docs))

17


In [68]:
print(docs[0].page_content)

랭체인 한국어 튜토리얼


In [69]:
docs[0].metadata

{'source': './week5Data/sample-ppt.pptx',
 'category_depth': 0,
 'file_directory': './week5Data',
 'filename': 'sample-ppt.pptx',
 'last_modified': '2025-10-03T21:08:16',
 'page_number': 1,
 'languages': ['kor'],
 'filetype': 'application/vnd.openxmlformats-officedocument.presentationml.presentation',
 'category': 'Title',
 'element_id': '784918cd25f6cbe0084401b85fe2f3d8'}

# 08. 웹문서(WebBaseLoader)
WebBaseLoader 는 웹 기반 문서를 로드하는 로더입니다.

bs4 라이브러리를 사용하여 웹 페이지를 파싱합니다.

bs4.SoupStrainer 를 사용하여 파싱할 요소를 지정합니다.
bs_kwargs 매개변수를 사용하여 bs4.SoupStrainer 의 추가적인 인수를 지정합니다.

In [72]:
import bs4
from langchain_community.document_loaders import WebBaseLoader

# 뉴스기사 내용을 로드합니다.
loader = WebBaseLoader(
    web_paths=("https://n.news.naver.com/article/437/0000378416",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            "div",
            attrs={"class": ["newsct_article _article_body", "media_end_head_title"]},
        )
    ),
    header_template={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36",
    },
)

docs = loader.load()
print(f"문서의 수: {len(docs)}")
docs

문서의 수: 1


[Document(metadata={'source': 'https://n.news.naver.com/article/437/0000378416'}, page_content="\n출산 직원에게 '1억원' 쏜다…회사의 파격적 저출생 정책\n\n\n[앵커]올해 아이 낳을 계획이 있는 가족이라면 솔깃할 소식입니다. 정부가 저출생 대책으로 매달 주는 부모 급여, 0세 아이는 100만원으로 올렸습니다. 여기에 첫만남이용권, 아동수당까지 더하면 아이 돌까지 1년 동안 1520만원을 받습니다. 지자체도 경쟁하듯 지원에 나섰습니다. 인천시는 새로 태어난 아기, 18살될 때까지 1억원을 주겠다. 광주시도 17살될 때까지 7400만원 주겠다고 했습니다. 선거 때면 나타나서 아이 낳으면 현금 주겠다고 밝힌 사람이 있었죠. 과거에는 표만 노린 '황당 공약'이라는 비판이 따라다녔습니다. 그런데 지금은 출산율이 이보다 더 나쁠 수 없다보니, 이런 현금성 지원을 진지하게 정책화 하는 상황까지 온 겁니다. 게다가 기업들도 뛰어들고 있습니다. 이번에는 출산한 직원에게 단번에 1억원을 주겠다는 회사까지 나타났습니다.이상화 기자가 취재했습니다.[기자]한 그룹사가 오늘 파격적인 저출생 정책을 내놨습니다.2021년 이후 태어난 직원 자녀에 1억원씩, 총 70억원을 지원하고 앞으로도 이 정책을 이어가기로 했습니다.해당 기간에 연년생과 쌍둥이 자녀가 있으면 총 2억원을 받게 됩니다.[오현석/부영그룹 직원 : 아이 키우는 데 금전적으로 많이 힘든 세상이잖아요. 교육이나 생활하는 데 큰 도움이 될 거라 생각합니다.]만약 셋째까지 낳는 경우엔 국민주택을 제공하겠다는 뜻도 밝혔습니다.[이중근/부영그룹 회장 : 3년 이내에 세 아이를 갖는 분이 나올 것이고 따라서 주택을 제공할 수 있는 계기가 될 것으로 생각하고.][조용현/부영그룹 직원 : 와이프가 셋째도 갖고 싶어 했는데 경제적 부담 때문에 부정적이었거든요. (이제) 긍정적으로 생각할 수 있을 것 같습니다.]오늘 행사에서는, 회사가 제공하는 출산장려금은 받는 

SSL 인증 오류를 우회하기 위해, "verify" 옵션을 설정할 수 있습니다.

In [71]:
# ssl 인증 우회
loader.requests_kwargs = {"verify": False}

# 데이터 로드
docs = loader.load()



여러 웹페이지를 한 번에 로드할 수도 있습니다. 이를 위해 urls의 리스트를 로더에 전달하면, 전달된 urls의 순서대로 문서 리스트를 반환합니다.

In [73]:
loader = WebBaseLoader(
    web_paths=[
        "https://n.news.naver.com/article/437/0000378416",
        "https://n.news.naver.com/mnews/hotissue/article/092/0002340014?type=series&cid=2000063",
    ],
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            "div",
            attrs={"class": ["newsct_article _article_body", "media_end_head_title"]},
        )
    ),
    header_template={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36",
    },
)

# 데이터 로드
docs = loader.load()

# 문서 수 확인
print(len(docs))


2


웹에서 가져온 결과를 출력합니다.

In [74]:
print(docs[0].page_content[:500])
print("===" * 10)
print(docs[1].page_content[:500])


출산 직원에게 '1억원' 쏜다…회사의 파격적 저출생 정책


[앵커]올해 아이 낳을 계획이 있는 가족이라면 솔깃할 소식입니다. 정부가 저출생 대책으로 매달 주는 부모 급여, 0세 아이는 100만원으로 올렸습니다. 여기에 첫만남이용권, 아동수당까지 더하면 아이 돌까지 1년 동안 1520만원을 받습니다. 지자체도 경쟁하듯 지원에 나섰습니다. 인천시는 새로 태어난 아기, 18살될 때까지 1억원을 주겠다. 광주시도 17살될 때까지 7400만원 주겠다고 했습니다. 선거 때면 나타나서 아이 낳으면 현금 주겠다고 밝힌 사람이 있었죠. 과거에는 표만 노린 '황당 공약'이라는 비판이 따라다녔습니다. 그런데 지금은 출산율이 이보다 더 나쁠 수 없다보니, 이런 현금성 지원을 진지하게 정책화 하는 상황까지 온 겁니다. 게다가 기업들도 뛰어들고 있습니다. 이번에는 출산한 직원에게 단번에 1억원을 주겠다는 회사까지 나타났습니다.이상화 기자가 취재했습니다.[기자]한 그룹사가 오늘 파격적인 저출생 정책을 내놨

고속 성장하는 스타트업엔 레드팀이 필요하다


[이균성의 溫技] 초심, 본질을 잃을 때한 스타트업 창업자와 최근 점심을 같이 했다. 조언을 구할 게 있다고 했다. 당장 급한 현안이 있는 건 아니었다. 여러 번 창업한 경험이 있는데 지금 하고 있는 아이템은 대박 느낌이 든다고 헸다. 그런데 오히려 더 조심해야겠다는 생각이 들더란다. 조언을 구하고자 하는 바도 성장이 예상될 때 무엇을 경계해야 할지 알고 싶다는 거였다. 적잖은 스타트업 창업자를 만났지만 드문 사례였다.2년 가까이 스타트업 창업자를 릴레이 인터뷰 하면서 의미 있게 생각했던 것이 두 가지 있다. 첫째, 회사라는 단어보다 팀이라는 어휘를 주로 쓰고 있다는 점이었다. 그 표현의 유래나 의미 때문이라기보다는 팀이라는 말이 더 정겨워 뜻 깊게 생각된 듯하다. 이해관계보다 지향하는 뜻에 더 중점을 두고 하나의 마음으로 한 곳을 향해 달려가는 집단을 가리키는 표현이라는 생각에 더 정겨웠다.스타트업 대표들의 창업 동기는 대부분 ‘사

여러 URL을 동시에 스크래핑하면 스크래핑 과정을 가속화할 수 있습니다.

동시 요청에는 합리적인 제한이 있으며, 기본값은 초당 2회입니다. 서버 부하에 대해 걱정하지 않거나, 스크래핑하는 서버를 제어하는 경우라면 requests_per_second 매개변수를 변경하여 최대 동시 요청 수를 늘릴 수 있습니다. 이 방법은 스크래핑 속도를 높일 수 있지만, 서버로부터 차단될 수 있으므로 주의해야 합니다.

In [75]:
# jupyter notebook 에서만 실행(asyncio)
import nest_asyncio

nest_asyncio.apply()

In [76]:
# 초당 요청 수 설정
loader.requests_per_second = 1

# 비동기 로드
docs = loader.aload()

  docs = loader.aload()
Fetching pages: 100%|##########| 2/2 [00:00<00:00,  5.92it/s]


In [77]:
# 결과 출력
docs

[Document(metadata={'source': 'https://n.news.naver.com/article/437/0000378416'}, page_content="\n출산 직원에게 '1억원' 쏜다…회사의 파격적 저출생 정책\n\n\n[앵커]올해 아이 낳을 계획이 있는 가족이라면 솔깃할 소식입니다. 정부가 저출생 대책으로 매달 주는 부모 급여, 0세 아이는 100만원으로 올렸습니다. 여기에 첫만남이용권, 아동수당까지 더하면 아이 돌까지 1년 동안 1520만원을 받습니다. 지자체도 경쟁하듯 지원에 나섰습니다. 인천시는 새로 태어난 아기, 18살될 때까지 1억원을 주겠다. 광주시도 17살될 때까지 7400만원 주겠다고 했습니다. 선거 때면 나타나서 아이 낳으면 현금 주겠다고 밝힌 사람이 있었죠. 과거에는 표만 노린 '황당 공약'이라는 비판이 따라다녔습니다. 그런데 지금은 출산율이 이보다 더 나쁠 수 없다보니, 이런 현금성 지원을 진지하게 정책화 하는 상황까지 온 겁니다. 게다가 기업들도 뛰어들고 있습니다. 이번에는 출산한 직원에게 단번에 1억원을 주겠다는 회사까지 나타났습니다.이상화 기자가 취재했습니다.[기자]한 그룹사가 오늘 파격적인 저출생 정책을 내놨습니다.2021년 이후 태어난 직원 자녀에 1억원씩, 총 70억원을 지원하고 앞으로도 이 정책을 이어가기로 했습니다.해당 기간에 연년생과 쌍둥이 자녀가 있으면 총 2억원을 받게 됩니다.[오현석/부영그룹 직원 : 아이 키우는 데 금전적으로 많이 힘든 세상이잖아요. 교육이나 생활하는 데 큰 도움이 될 거라 생각합니다.]만약 셋째까지 낳는 경우엔 국민주택을 제공하겠다는 뜻도 밝혔습니다.[이중근/부영그룹 회장 : 3년 이내에 세 아이를 갖는 분이 나올 것이고 따라서 주택을 제공할 수 있는 계기가 될 것으로 생각하고.][조용현/부영그룹 직원 : 와이프가 셋째도 갖고 싶어 했는데 경제적 부담 때문에 부정적이었거든요. (이제) 긍정적으로 생각할 수 있을 것 같습니다.]오늘 행사에서는, 회사가 제공하는 출산장려금은 받는 

## 프록시 사용
IP 차단을 우회하기 위해 때때로 프록시를 사용할 필요가 있을 수 있습니다.

프록시를 사용하려면 로더(및 그 아래의 requests)에 프록시 딕셔너리를 전달할 수 있습니다.

In [78]:
loader = WebBaseLoader(
    "https://www.google.com/search?q=parrots",
    proxies={
        "http": "http://{username}:{password}:@proxy.service.com:6666/",
        "https": "https://{username}:{password}:@proxy.service.com:6666/",
    },
    # 웹 기반 로더 초기화
    # 프록시 설정
)

# 문서 로드
docs = loader.load()

ProxyError: HTTPSConnectionPool(host='www.google.com', port=443): Max retries exceeded with url: /search?q=parrots (Caused by ProxyError('Unable to connect to proxy', NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x000001F1151C9E10>: Failed to resolve 'proxy.service.com' ([Errno 11001] getaddrinfo failed)")))

# 09. 텍스트(TextLoader)

TXT Loader

.txt 확장자를 가지는 파일을 로더로 로드하는 방법을 살펴보겠습니다.

In [82]:
from langchain_community.document_loaders import TextLoader

# 텍스트 로더 생성
loader = TextLoader("week5Data/appendix-keywords-CP949.txt")

# 문서 로드
docs = loader.load()
print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'week5Data/appendix-keywords-CP949.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어


## TextLoader를 통한 파일 인코딩 자동 감지

이 예제에서는 TextLoader 클래스를 사용하여 디렉토리에서 임의의 파일 목록을 대량으로 로드할 때 유용한 몇 가지 전략을 살펴보겠습니다.

먼저 문제를 설명하기 위해 임의의 인코딩으로 여러 개의 텍스트를 로드해 보겠습니다.

silent_errors: 디렉토리로더에 silent_errors 매개변수를 전달하여 로드할 수 없는 파일을 건너뛰고 로드 프로세스를 계속할 수 있습니다.

autodetect_encoding: 또한 로더 클래스에 자동 감지_인코딩을 전달하여 실패하기 전에 파일 인코딩을 자동으로 감지하도록 요청할 수도 있습니다.

In [85]:
from langchain_community.document_loaders import DirectoryLoader

path = "week5Data"
loader = DirectoryLoader(path)

text_loader_kwargs = {"autodetect_encoding": True}

loader = DirectoryLoader(
    path,
    glob="**/*.txt",
    loader_cls=TextLoader,
    silent_errors=True,
    loader_kwargs=text_loader_kwargs,
)
docs = loader.load()

`week5Data/appendix-keywords.txt` 파일과 파일명이 유사한 파생 파일들은 모두 인코딩 방식이 다른 파일들입니다.

In [86]:
doc_sources = [doc.metadata["source"] for doc in docs]
doc_sources

['week5Data\\appendix-keywords-CP949.txt',
 'week5Data\\appendix-keywords-EUCKR.txt',
 'week5Data\\appendix-keywords-utf8.txt',
 'week5Data\\appendix-keywords.txt',
 'week5Data\\chain-of-density.txt',
 'week5Data\\reference.txt']

In [87]:
print("[메타데이터]\n")
print(docs[2].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[2].page_content[:500])

[메타데이터]

{'source': 'week5Data\\appendix-keywords-utf8.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어


In [88]:
print("[메타데이터]\n")
print(docs[3].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[3].page_content[:500])

[메타데이터]

{'source': 'week5Data\\appendix-keywords.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어


In [89]:
print("[메타데이터]\n")
print(docs[4].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[4].page_content[:500])

[메타데이터]

{'source': 'week5Data\\chain-of-density.txt'}


Selecting the “right” amount of information to include in a summary is a difficult task. 
A good summary should be detailed and entity-centric without being overly dense and hard to follow. To better understand this tradeoff, we solicit increasingly dense GPT-4 summaries with what we refer to as a “Chain of Density” (CoD) prompt. Specifically, GPT-4 generates an initial entity-sparse summary before iteratively incorporating missing salient entities without increasing the length. Summaries genera


# 10. JSON

JSON
.json 확장자를 가지는 파일을 로더로 로드하는 방법을 살펴보겠습니다.

참고: https://python.langchain.com/docs/modules/data_connection/document_loaders/json
사전 설치

In [102]:
!pip install jq

Collecting jq
  Downloading jq-1.10.0-cp311-cp311-win_amd64.whl.metadata (7.3 kB)
Downloading jq-1.10.0-cp311-cp311-win_amd64.whl (421 kB)
Installing collected packages: jq
Successfully installed jq-1.10.0




In [99]:
import json
from pathlib import Path
from pprint import pprint


file_path = "week5Data/people.json"

data = json.loads(Path(file_path).read_text(encoding="utf-8"))
pprint(data)

[{'address': {'city': '서울', 'street': '312번지', 'zipCode': '83795'},
  'age': 31,
  'carOwnership': True,
  'hobbies': ['요리', '음악 감상', '사진 촬영'],
  'isMarried': True,
  'name': '박시우',
  'phoneNumbers': ['483-4639-1933', '947-4179-7976']},
 {'address': {'city': '서울', 'street': '877번지', 'zipCode': '36780'},
  'age': 31,
  'carOwnership': True,
  'hobbies': ['여행', '음악 감상', '등산'],
  'isMarried': False,
  'name': '정수아',
  'phoneNumbers': ['337-5721-3227', '387-3768-9586']},
 {'address': {'city': '서울', 'street': '175번지', 'zipCode': '89067'},
  'age': 43,
  'carOwnership': True,
  'hobbies': ['등산', '독서', '게임'],
  'isMarried': False,
  'name': '최도윤',
  'phoneNumbers': ['354-5563-4638', '471-9212-1826']},
 {'address': {'city': '서울', 'street': '690번지', 'zipCode': '70635'},
  'age': 22,
  'carOwnership': False,
  'hobbies': ['여행', '등산', '게임'],
  'isMarried': False,
  'name': '정민준',
  'phoneNumbers': ['468-2796-2152', '922-5760-7030']},
 {'address': {'city': '서울', 'street': '151번지', 'zipCode': '7911

In [100]:
type(data[0])

dict

## JSONLoader
JSON 데이터의 메시지 키 내 content 필드 아래의 값을 추출하고 싶다고 가정하였을 때, 아래와 같이 JSONLoader를 통해 쉽게 수행할 수 있습니다.

In [103]:
from langchain_community.document_loaders import JSONLoader

# JSONLoader 생성
loader = JSONLoader(
    file_path="week5Data/people.json",
    jq_schema=".[].phoneNumbers",
    text_content=False,
)

# 문서 로드
docs = loader.load()

# 결과 출력
pprint(docs)

[Document(metadata={'source': 'C:\\Users\\osca0\\PycharmProjects\\StudyLangChain\\week5Data\\people.json', 'seq_num': 1}, page_content='["483-4639-1933", "947-4179-7976"]'),
 Document(metadata={'source': 'C:\\Users\\osca0\\PycharmProjects\\StudyLangChain\\week5Data\\people.json', 'seq_num': 2}, page_content='["337-5721-3227", "387-3768-9586"]'),
 Document(metadata={'source': 'C:\\Users\\osca0\\PycharmProjects\\StudyLangChain\\week5Data\\people.json', 'seq_num': 3}, page_content='["354-5563-4638", "471-9212-1826"]'),
 Document(metadata={'source': 'C:\\Users\\osca0\\PycharmProjects\\StudyLangChain\\week5Data\\people.json', 'seq_num': 4}, page_content='["468-2796-2152", "922-5760-7030"]'),
 Document(metadata={'source': 'C:\\Users\\osca0\\PycharmProjects\\StudyLangChain\\week5Data\\people.json', 'seq_num': 5}, page_content='["751-2823-8259", "722-7267-9516"]'),
 Document(metadata={'source': 'C:\\Users\\osca0\\PycharmProjects\\StudyLangChain\\week5Data\\people.json', 'seq_num': 6}, page_con

# 11. Arxiv

Arxiv

arXiv은 물리학, 수학, 컴퓨터 과학, 정량 생물학, 정량 금융, 통계, 전기공학 및 시스템 과학, 경제학 분야의 200만 편의 학술 논문을 위한 오픈 액세스 아카이브입니다. API 도큐먼트

Arxiv 문서 로더에 접근하려면 arxiv, PyMuPDF 및 langchain-community 통합 패키지를 설치해야 합니다.

PyMuPDF 는 arxiv.org 사이트에서 다운로드한 PDF 파일을 텍스트 형식으로 변환합니다.

In [104]:
# 설치
# !pip install -qU langchain-community arxiv pymupdf

## 객체 생성

이제 model 객체를 인스턴스화하고 문서를 로드할 수 있다:

In [107]:
from langchain_community.document_loaders import ArxivLoader

# Query 에 검색하고자 하는 논문의 주제를 입력합니다.
loader = ArxivLoader(
    query="Animal Behaviour",
    load_max_docs=2,  # 최대 문서 수
    load_all_available_meta=True,  # 메타데이터 전체 로드 여부
)

In [108]:
# 문서 로드 결과출력
docs = loader.load()
docs


 Document(metadata={'Published': '2008-02-12', 'Title': 'The STARFLAG handbook on collective animal behaviour: Part II, three-dimensional analysis', 'Authors': 'Andrea Cavagna, Irene Giardina, Alberto Orlandi, Giorgio Parisi, Andrea Procaccini', 'Summary': 'The study of collective animal behaviour must progress through a comparison between the theoretical predictions of numerical models and data coming from empirical observations. To this aim it is important to develop methods of three-dimensional (3D) analysis that are at the same time informative about the structure of the group and suitable to empirical data. In fact, empirical data are considerably noisier than numerical data, and they are subject to several constraints. We review here the tools of analysis used by the STARFLAG project to characterise the 3D structure of large flocks of starlings in the field. We show how to avoid the most common pitfalls i the quantitative analysis of 3D animal groups, with particular attention to

In [109]:
# 문서 메타데이터 출력
docs[0].metadata

{'Published': '2008-02-12',
 'Title': 'The STARFLAG handbook on collective animal behaviour: Part I, empirical methods',
 'Authors': 'Andrea Cavagna, Irene Giardina, Alberto Orlandi, Giorgio Parisi, Andrea Procaccini, Massimiliano Viale, Vladimir Zdravkovic',
 'Summary': 'The most startling examples of collective animal behaviour are provided by very large and cohesive groups moving in three dimensions. Paradigmatic examples are bird flocks, fish schools and insect swarms. However, because of the sheer technical difficulty of obtaining 3D data, empirical studies conducted to date have only considered loose groups of a few tens of animals. Moreover, these studies were very seldom conducted in the field. Recently the STARFLAG project achieved the 3D reconstruction of thousands of birds under field conditions, thus opening the way to a new generation of quantitative studies of collective animal behaviour. Here, we review the main technical problems in 3D data collection of large animal gr

load_all_available_meta=False 인 경우 메타데이터는 전체가 아닌 일부만 출력됩니다.

In [110]:
# Query 에 검색하고자 하는 논문의 주제를 입력합니다.
loader = ArxivLoader(
    query="ChatGPT",
    load_max_docs=2,  # 최대 문서 수
    load_all_available_meta=False,  # 메타데이터 전체 로드 여부
)

# 문서 로드 결과출력
docs = loader.load()

# 문서 메타데이터 출력
docs[0].metadata

{'Published': '2023-01-18',
 'Title': 'How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection',
 'Authors': 'Biyang Guo, Xin Zhang, Ziyuan Wang, Minqi Jiang, Jinran Nie, Yuxuan Ding, Jianwei Yue, Yupeng Wu',
 'Summary': "The introduction of ChatGPT has garnered widespread attention in both academic and industrial communities. ChatGPT is able to respond effectively to a wide range of human questions, providing fluent and comprehensive answers that significantly surpass previous public chatbots in terms of security and usefulness. On one hand, people are curious about how ChatGPT is able to achieve such strength and how far it is from human experts. On the other hand, people are starting to worry about the potential negative impacts that large language models (LLMs) like ChatGPT could have on society, such as fake news, plagiarism, and social security issues. In this work, we collected tens of thousands of comparison responses from both human experts and Chat

## 요약(summary)

논문의 전체 내용이 아닌 요약본을 출력하고자 한다면, get_summaries_as_docs() 함수를 호출하면 됩니다.

In [111]:
# 문서 요약 로딩
docs = loader.get_summaries_as_docs()

# 첫 번째 문서 접근
print(docs[0].page_content)

The introduction of ChatGPT has garnered widespread attention in both academic and industrial communities. ChatGPT is able to respond effectively to a wide range of human questions, providing fluent and comprehensive answers that significantly surpass previous public chatbots in terms of security and usefulness. On one hand, people are curious about how ChatGPT is able to achieve such strength and how far it is from human experts. On the other hand, people are starting to worry about the potential negative impacts that large language models (LLMs) like ChatGPT could have on society, such as fake news, plagiarism, and social security issues. In this work, we collected tens of thousands of comparison responses from both human experts and ChatGPT, with questions ranging from open-domain, financial, medical, legal, and psychological areas. We call the collected dataset the Human ChatGPT Comparison Corpus (HC3). Based on the HC3 dataset, we study the characteristics of ChatGPT's responses, 

## lazy_load()
문서를 대량으로 로드할 때 모든 로드된 문서의 부분 집합에 대해 하류 작업을 수행할 수 있다면, 메모리 사용량을 최소화하기 위해 문서를 한 번에 하나씩 지연 로드할 수 있습니다.

In [112]:
docs = []

# 문서 지연 로드
for doc in loader.lazy_load():
    docs.append(doc)

In [113]:
# 결과 출력
docs


[Document(metadata={'Published': '2023-01-18', 'Title': 'How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection', 'Authors': 'Biyang Guo, Xin Zhang, Ziyuan Wang, Minqi Jiang, Jinran Nie, Yuxuan Ding, Jianwei Yue, Yupeng Wu', 'Summary': "The introduction of ChatGPT has garnered widespread attention in both academic and industrial communities. ChatGPT is able to respond effectively to a wide range of human questions, providing fluent and comprehensive answers that significantly surpass previous public chatbots in terms of security and usefulness. On one hand, people are curious about how ChatGPT is able to achieve such strength and how far it is from human experts. On the other hand, people are starting to worry about the potential negative impacts that large language models (LLMs) like ChatGPT could have on society, such as fake news, plagiarism, and social security issues. In this work, we collected tens of thousands of comparison responses from both human 

# 12. UpstageLayoutAnalysisLoader

UpstageLayoutAnalysisLoader 는 Upstage AI에서 제공하는 문서 분석 도구로, LangChain 프레임워크와 통합되어 사용할 수 있는 문서 로더입니다.

주요 특징: - PDF, 이미지 등 다양한 형식의 문서에서 레이아웃 분석 수행 - 문서의 구조적 요소(제목, 단락, 표, 이미지 등)를 자동으로 인식 및 추출 - OCR 기능 지원 (선택적)

UpstageLayoutAnalysisLoader는 단순한 텍스트 추출을 넘어 문서의 구조를 이해하고 요소 간 관계를 파악하여 보다 정확한 문서 분석을 가능하게 합니다.

In [114]:
# pip install -U langchain-upstage

API Key 설정

.env 파일에 UPSTAGE_API_KEY 키를 설정합니다.

참고

Upstage 개발자 문서를 참조하세요.

## 환경 설정

In [115]:
# API KEY를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API KEY 정보로드
load_dotenv()

True

In [None]:
# LangSmith 추적을 설정합니다. https://smith.langchain.com
# !pip install langchain-teddynote
from langchain_teddynote import logging

# 프로젝트 이름을 입력합니다.
logging.langsmith("CH07-DocumentLoader")

In [None]:
from langchain_upstage import UpstageLayoutAnalysisLoader

# 파일 경로
file_path = "./data/SPRI_AI_Brief_2023년12월호_F.pdf"

# 문서 로더 설정
loader = UpstageLayoutAnalysisLoader(
    file_path,
    output_type="text",
    split="page",
    use_ocr=True,
    exclude=["header", "footer"],
)

# 문서 로드
docs = loader.load()

# 결과 출력
for doc in docs[:3]:
    print(doc)

# 13. LlamaParser

LlamaParser

LlamaParse는 LlamaIndex에서 개발한 문서 파싱 서비스로, 대규모 언어 모델(LLM)을 위해 특별히 설계되었습니다. 주요 특징은 다음과 같습니다:

PDF, Word, PowerPoint, Excel 등 다양한 문서 형식 지원
자연어 지시를 통한 맞춤형 출력 형식 제공
복잡한 표와 이미지 추출 기능
JSON 모드 지원
외국어 지원
LlamaParse는 독립형 API로 제공되며, LlamaCloud 플랫폼의 일부로도 사용 가능합니다. 이 서비스는 문서를 파싱하고 정제하여 검색 증강 생성(RAG) 등 LLM 기반 애플리케이션의 성능을 향상시키는 것을 목표로 합니다.

사용자는 무료로 하루 1,000페이지를 처리할 수 있으며, 유료 플랜을 통해 추가 용량을 확보할 수 있습니다. LlamaParse는 현재 공개 베타 버전으로 제공되고 있으며, 지속적으로 기능이 확장되고 있습니다.

API 키 설정 - API 키를 발급 후 .env 파일에 LLAMA_CLOUD_API_KEY 에 설정합니다.

링크: https://cloud.llamaindex.ai

In [117]:
# 설치
# !pip install llama-index-core llama-parse llama-index-readers-file python-dotenv

In [None]:
import os
import nest_asyncio
from dotenv import load_dotenv

load_dotenv()
nest_asyncio.apply()

기본 파서 적용

In [None]:
from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader

# 파서 설정
parser = LlamaParse(
    result_type="markdown",  # "markdown"과 "text" 사용 가능
    num_workers=8,  # worker 수 (기본값: 4)
    verbose=True,
    language="ko",
)

# SimpleDirectoryReader를 사용하여 파일 파싱
file_extractor = {".pdf": parser}

# LlamaParse로 파일 파싱
documents = SimpleDirectoryReader(
    input_files=["data/SPRI_AI_Brief_2023년12월호_F.pdf"],
    file_extractor=file_extractor,
).load_data()

In [None]:
# 페이지 수 확인
len(documents)

LlamaIndex -> LangChain Document 로 변환

In [None]:
# 랭체인 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in documents]

In [None]:
# metadata 출력
docs[0].metadata

## MultiModal Model 로 파싱
주요 파라미터

use_vendor_multimodal_model: 멀티모달 모델 사용 여부를 지정합니다. True로 설정하면 외부 벤더의 멀티모달 모델을 사용합니다.

vendor_multimodal_model_name: 사용할 멀티모달 모델의 이름을 지정합니다. 여기서는 "openai-gpt4o"를 사용하고 있습니다.

vendor_multimodal_api_key: 멀티모달 모델 API 키를 지정합니다. 환경 변수에서 OpenAI API 키를 가져옵니다.

result_type: 파싱 결과의 형식을 지정합니다. "markdown"으로 설정되어 있어 결과가 마크다운 형식으로 반환됩니다.

language: 파싱할 문서의 언어를 지정합니다. "ko"로 설정되어 한국어로 처리됩니다.

skip_diagonal_text: 대각선 텍스트를 건너뛸지 여부를 결정합니다.

page_separator: 페이지 구분자를 지정할 수 있습니다.

In [None]:
documents = LlamaParse(
    use_vendor_multimodal_model=True,
    vendor_multimodal_model_name="openai-gpt4o",
    vendor_multimodal_api_key=os.environ["OPENAI_API_KEY"],
    result_type="markdown",
    language="ko",
    # skip_diagonal_text=True,
    # page_separator="\n=================\n"
)

In [None]:
# parsing 된 결과
parsed_docs = documents.load_data(file_path="week5Data/SPRI_AI_Brief_2023년12월호_F.pdf")

In [None]:
# langchain 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in parsed_docs]

아래와 같이 사용자 정의 인스트럭션을 지정하는 것도 가능합니다.

In [None]:
# parsing instruction 을 지정합니다.
parsing_instruction = (
    "You are parsing a brief of AI Report. Please extract tables in markdown format."
)

# LlamaParse 설정
parser = LlamaParse(
    use_vendor_multimodal_model=True,
    vendor_multimodal_model_name="openai-gpt4o",
    vendor_multimodal_api_key=os.environ["OPENAI_API_KEY"],
    result_type="markdown",
    language="ko",
    parsing_instruction=parsing_instruction,
)

# parsing 된 결과
parsed_docs = parser.load_data(file_path="week5Data/SPRI_AI_Brief_2023년12월호_F.pdf")

# langchain 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in parsed_docs]

In [None]:
# markdown 형식으로 추출된 테이블 확인
print(docs[-2].page_content)