In [1]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

## 실습에 활용한 문서

소프트웨어정책연구소(SPRi) - 2023년 12월호

- 저자: 유재흥(AI정책연구실 책임연구원), 이지수(AI정책연구실 위촉연구원)
- 링크: https://spri.kr/posts/view/23669
- 파일명: `SPRI_AI_Brief_2023년12월호_F.pdf`

신한라이프 사업방법서(텍스트형 PDF, 이미지형 PDF)

- 파일명(텍스트형): `사업방법서_(간편)신한통합건강보장보험원(ONE)(무배당, 해약환급금 미지급형)_20240503_v0.1_P34.pdf`
- 파일명(이미지형): `사업방법서_신한(간편가입)홈닥터의료비보장보험(무배당, 갱신형)_20240401_P14.pdf`


## 통합형 Loader 인터페이스

- loader 객체: 다양한 로더 도구를 활용하여 loader 객체를 생성합니다.
- 생성된 loader 객체의 `load()` 함수는 전체 문서를 로드하여 반환합니다.
- 생성된 loader 객체의 `load_and_split()` 함수는 문서를 split 한 결과를 반환합니다.
- 반환된 document 구조는 `page_content` 와 `metadata` 속성값을 포함합니다. `page_content` 는 문서의 내용을, `metadata` 는 파일명, 페이지 번호, 그 밖에 유용한 메타정보를 포함합니다.


## UpstageLayoutAnalysisLoader


표와 그림을 포함한 모든 문서에서 문서 요소를 감지합니다.

먼저, 소프트웨어정책연구소(SPRi) - 2023년 12월호 문서를 로드하고 분절하는 예제를 살펴보겠습니다.

- 파일명: `SPRI_AI_Brief_2023년12월호_F.pdf`


In [2]:
from langchain_upstage import UpstageLayoutAnalysisLoader

# 대상 PDF 파일 로드. 파일의 경로와 분할 방식 입력
loader = UpstageLayoutAnalysisLoader("data/SPRI_AI_Brief_2023년12월호_F.pdf", split="page")

# 페이지 별 문서 로드
split_docs = loader.load()  # or loader.lazy_load()

print(f"문서의 수: {len(split_docs)}")

문서의 수: 23


In [3]:
for doc in split_docs[:3]:
    print(doc)

page_content='<h1 id='0' style='font-size:14px'>2023년 12 월호</h1>' metadata={'page': 1}
page_content='<p id='1' data-category='paragraph' style='font-size:14px'>2023년 12월호</p> <h1 id='2' style='font-size:20px'>Ⅰ . 인공지능 산업 동향 브리프</h1> <h1 id='3' style='font-size:14px'>1. 정책/법제</h1> <br><p id='4' data-category='paragraph' style='font-size:18px'>▹ 미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표 ························· 1<br>▹ G7, 히로시마 AI 프로세스를 통해 AI 기업 대상 국제 행동강령에 합의 ··························· 2<br>▹ 영국 AI 안전성 정상회의에 참가한 28개국, AI 위험에 공동 대응 선언 ··························· 3<br>▹ 미국 법원, 예술가들이 생성 AI 기업에 제기한 저작권 소송 기각 ····································· 4<br>▹ 미국 연방거래위원회, 저작권청에 소비자 보호와 경쟁 측면의 AI 의견서 제출 ················· 5<br>▹ EU AI 법 3자 협상, 기반모델 규제 관련 견해차로 난항 ··················································· 6</p> <br><p id='5' data-category='paragraph' style='font-size:14px'>2. 기업/산업</p> <br><p id='6' data-category='paragraph' style='font-size:18px'>▹ 미국 프런티어 모델 포럼, 1,000만 달러 규모의 AI 안전 기금 조성 ···

In [4]:
# 첫번째 문서의 내용 출력
print(split_docs[0].page_content)
# 첫번째 문서의 메타데이터 출력
print(split_docs[0].metadata)

<h1 id='0' style='font-size:14px'>2023년 12 월호</h1>
{'page': 1}


In [5]:
split_docs[3]

Document(metadata={'page': 4}, page_content="<table id='14' style='font-size:14px'><tr><td>1. 정책/법제</td><td>2. 기업/산업</td><td>3. 기술/연구</td><td>4. 인력/교육</td></tr></table> <br><h1 id='15' style='font-size:22px'>미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표</h1> <br><h1 id='16' style='font-size:16px'>KEY Contents</h1> <br><p id='17' data-category='paragraph' style='font-size:20px'>n 미국 바이든 대통령이 ‘안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령’에 서명하고<br>광범위한 행정 조치를 명시<br>n 행정명령은 △AI의 안전과 보안 기준 마련 △개인정보보호 △형평성과 시민권 향상 △소비자<br>보호 △노동자 지원 △혁신과 경쟁 촉진 △국제협력을 골자로 함</p> <p id='18' data-category='paragraph' style='font-size:18px'>£ 바이든 대통령, AI 행정명령 통해 안전하고 신뢰할 수 있는 AI 개발과 활용 추진</p> <p id='19' data-category='paragraph' style='font-size:20px'>n 미국 바이든 대통령이 2023년 10월 30일 연방정부 차원에서 안전하고 신뢰할 수 있는 AI 개발과<br>사용을 보장하기 위한 행정명령을 발표</p> <br><p id='20' data-category='paragraph' style='font-size:16px'>∙ 행정명령은 △AI의 안전과 보안 기준 마련 △개인정보보호 △형평성과 시민권 향상 △소비자 보호<br>△노동자 지원 △혁신과 경쟁 촉진 △국제협력에 관한 내용을 포괄</p> <br><p id='21' data-category='para

다음은, 신한라이프 사업방법서로 이미지형 PDF 문서를 로드하고 분절하는 예제를 살펴보겠습니다.

- 파일명: `사업방법서_신한(간편가입)홈닥터의료비보장보험(무배당, 갱신형)_20240401_P14.pdf`



In [6]:
# 대상 이미지 PDF 파일 로드. 파일의 경로와 분할 방식 입력
loader = UpstageLayoutAnalysisLoader("data/사업방법서_신한(간편가입)홈닥터의료비보장보험(무배당, 갱신형)_20240401_P14.pdf", split="page")

# 페이지 별 문서 로드
split_docs = loader.load()  # or loader.lazy_load()

print(f"문서의 수: {len(split_docs)}")

문서의 수: 12


In [7]:
for doc in split_docs[:3]:
    print(doc)

page_content='<p id='0' data-category='paragraph'></p>' metadata={'page': 3}
page_content='<p id='2' data-category='paragraph' style='font-size:14px'>- 2 -</p>' metadata={'page': 4}
page_content='<p id='3' data-category='paragraph'></p> <p id='4' data-category='paragraph'></p> <br><p id='5' data-category='paragraph'></p> <p id='6' data-category='paragraph' style='font-size:14px'>- 3 -</p>' metadata={'page': 5}


이번에는, 신한라이프 사업방법서로 텍스트형 PDF 문서를 로드하고 분절하는 예제를 살펴보겠습니다.

- 파일명: `사업방법서_(간편)신한통합건강보장보험원(ONE)(무배당, 해약환급금 미지급형)_20240503_v0.1_P34.pdf`


In [8]:
# 신한라이프 사업방법서로 텍스트형 PDF 문서를 로드

loader = UpstageLayoutAnalysisLoader("data/사업방법서_(간편)신한통합건강보장보험원(ONE)(무배당, 해약환급금 미지급형)_20240503_v0.1_P34.pdf", split="page")
docs = loader.load()
print(f"문서의 수: {len(docs)}")

문서의 수: 34


In [9]:
docs[0].metadata

{'page': 1}

In [10]:
docs[0].page_content

"<h1 id='0' style='font-size:18px'>(간편)신한통합건강보장보험<br>원(ONE)<br>(무배당, 해약환급금 미지급형)</h1> <p id='1' data-category='paragraph' style='font-size:14px'>신한라이프생명보험주식회사</p>"

In [11]:
from bs4 import BeautifulSoup

def extract_text(html_content):
    # BeautifulSoup 객체 생성
    soup = BeautifulSoup(html_content, 'html.parser')

    # 모든 태그의 텍스트 추출 및 공백으로 연결
    text_content = ' '.join(soup.stripped_strings)
    return text_content

# 함수 사용 예
html_content = docs[0].page_content
extracted_text = extract_text(html_content)
print(extracted_text)

(간편)신한통합건강보장보험 원(ONE) (무배당, 해약환급금 미지급형) 신한라이프생명보험주식회사


In [12]:
split_docs[3].page_content

"<p id='7' data-category='paragraph'></p> <p id='8' data-category='paragraph'></p> <p id='9' data-category='paragraph' style='font-size:14px'>- 4 -</p>"

In [13]:
extracted_text = extract_text(docs[3].page_content)
print(extracted_text)

4. 배당에 관한 사항 해당사항 없음 5. 보험료에 관한 사항 보험료는 이 계약의 “보험료 및 해약환급금 산출방법서”에서 정한 방법에 따라 피보험자의 성별, 나이, 보험기간, 보험료 납입기간 및 보험료 납입주기 등에 따라 산출된 금액을 말한다. 6. 보험료 할인에 관한 사항 해당사항 없음 7. 보험료 선납에 관한 사항 계약자는 당월분을 제외하여 6개월분 이하의 보험료를 선납할 수 있으며, 3개월분 이상의 보 험료를 선납하는 경우에는 해당보험료를 계약체결시점의 평균공시이율로 할인하여 영수한다. 8. 해지계약의 부활(효력회복)에 관한 사항 약관 [보험료의 납입이 연체되는 경우 납입최고(독촉)와 계약의 해지] 조항에 따라 계약이 해 지되었으나 해약환급금을 받지 않은 경우(보험계약대출 등에 따라 해약환급금이 차감되었으 나 받지 않은 경우 또는 해약환급금이 없는 경우를 포함한다) 계약자는 해지된 날부터 3년 이내에 회사가 정한 절차에 따라 계약의 부활(효력회복)을 청약할 수 있다. 회사가 부활(효력 회복)을 승낙한 때에 계약자는 부활(효력회복)을 청약한 날까지의 연체된 보험료에 「9. 연체 이율에 관한 사항」에서 정한 연체이율로 계산한 금액을 더하여 납입하여야 한다. 9. 연체이율에 관한 사항 이 계약의 부활(효력회복)시 연체보험료에 대한 연체이율은 연체기간에 대하여 “계약체결시점 의 평균공시이율+1%” 범위 내에서 각 상품별로 회사가 정하는 이율로 한다. 10. 중도인출에 관한 사항 해당사항 없음 11. 공시이율에 관한 사항 해당사항 없음


In [14]:
# 아래아한글 파일 문서를 로드

loader = UpstageLayoutAnalysisLoader("data/(첨부5) 2024년도 하반기 중남미 지역기구 파견인턴 선발 공고.hwpx", split="page")
docs = loader.load()
print(f"문서의 수: {len(docs)}")

ValueError: Failed to send request: 415 Client Error: Unsupported Media Type for url: https://api.upstage.ai/v1/document-ai/layout-analysis

In [15]:
docs[0].metadata

{'page': 1}

In [16]:
docs[0].page_content

"<h1 id='0' style='font-size:18px'>(간편)신한통합건강보장보험<br>원(ONE)<br>(무배당, 해약환급금 미지급형)</h1> <p id='1' data-category='paragraph' style='font-size:14px'>신한라이프생명보험주식회사</p>"

## 문서 로드 시간 비교

신한라이프 사업방법서로 이미지형 PDF 문서를 로드하여 각각의 소요시간을 비교해 봅니다.

- 파일명: `사업방법서_신한(간편가입)홈닥터의료비보장보험(무배당, 갱신형)_20240401_P14.pdf`

In [17]:
# UpstageLayoutAnalysisLoader 와 PyPDFLoader의 로드 시간 비교
from langchain.document_loaders import PyPDFLoader
from langchain_upstage import UpstageLayoutAnalysisLoader
import time

# PyPDFLoader 로드 시간 측정
pypdf_loader = PyPDFLoader("data/사업방법서_신한(간편가입)홈닥터의료비보장보험(무배당, 갱신형)_20240401_P14.pdf")
start_time = time.time()
split_docs = pypdf_loader.load_and_split()
end_time = time.time()
pypdf_duration = end_time - start_time
print(f"PyPDFLoader 문서의 수: {len(split_docs)}, 로드 시간: {pypdf_duration:.2f}초")

# UpstageLayoutAnalysisLoader 로드 시간 측정
upstage_loader = UpstageLayoutAnalysisLoader("data/사업방법서_신한(간편가입)홈닥터의료비보장보험(무배당, 갱신형)_20240401_P14.pdf", split="page")
start_time = time.time()
docs = upstage_loader.load()
end_time = time.time()
upstage_duration = end_time - start_time
print(f"UpstageLayoutAnalysisLoader 문서의 수: {len(docs)}, 로드 시간: {upstage_duration:.2f}초")

# 시간 비교 출력
# print(f"로드 시간 비교: PyPDFLoader - {pypdf_duration:.2f}초, UpstageLayoutAnalysisLoader - {upstage_duration:.2f}초")
if pypdf_duration < upstage_duration:
    slower_by = ((upstage_duration - pypdf_duration) / pypdf_duration) * 100
    print(f"UpstageLayoutAnalysisLoader는 PyPDFLoader보다 {slower_by:.2f}% 느립니다.")
else:
    slower_by = ((pypdf_duration - upstage_duration) / upstage_duration) * 100
    print(f"PyPDFLoader는 UpstageLayoutAnalysisLoader보다 {slower_by:.2f}% 느립니다.")

PyPDFLoader 문서의 수: 11, 로드 시간: 10.01초
UpstageLayoutAnalysisLoader 문서의 수: 12, 로드 시간: 9.24초
PyPDFLoader는 UpstageLayoutAnalysisLoader보다 8.29% 느립니다.


**그러나 UpstageLayoutAnalysisLoader는 PyPDFLoader가 못가지고오는 이미지 PDF의 텍스트를 가져옴**

In [18]:
# PyPDFLoader의 텍스트 추출 예, page_content가 비었고 메타데이터만 출력됨
split_docs[0]


Document(metadata={'source': 'data/사업방법서_신한(간편가입)홈닥터의료비보장보험(무배당, 갱신형)_20240401_P14.pdf', 'page': 2}, page_content='- 1 -')

In [19]:
# UpstageLayoutAnalysisLoader의 텍스트 추출 예, page_content가 출력됨
docs[0]

Document(metadata={'page': 3}, page_content="<p id='0' data-category='paragraph'></p>")