In [1]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

## 실습에 활용한 문서

소프트웨어정책연구소(SPRi) - 2023년 12월호

- 저자: 유재흥(AI정책연구실 책임연구원), 이지수(AI정책연구실 위촉연구원)
- 링크: https://spri.kr/posts/view/23669
- 파일명: `SPRI_AI_Brief_2023년12월호_F.pdf`


## 통합형 Loader 인터페이스

- loader 객체: 다양한 로더 도구를 활용하여 loader 객체를 생성합니다.
- 생성된 loader 객체의 `load()` 함수는 전체 문서를 로드하여 반환합니다.
- 생성된 loader 객체의 `load_and_split()` 함수는 문서를 split 한 결과를 반환합니다.
- 반환된 document 구조는 `page_content` 와 `metadata` 속성값을 포함합니다. `page_content` 는 문서의 내용을, `metadata` 는 파일명, 페이지 번호, 그 밖에 유용한 메타정보를 포함합니다.


## PyPDFLoader


가장 일반적으로 많이 활용되는 방법이며, 대부분의 일반적인 PDF 파일을 문제 없이 불러 올 수 있습니다.


In [2]:
from langchain.document_loaders import PyPDFLoader

# PDF 파일 로드. 파일의 경로 입력
loader = PyPDFLoader("data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf")

# 페이지 별 문서 로드
split_docs = loader.load_and_split()

print(f"문서의 수: {len(split_docs)}")

문서의 수: 9


In [3]:
split_docs[0]

Document(page_content='신한스포츠 &레저보장보험 Plus( 무배당 )\n상  품  요  약  서\n이 상품요약서 는 보험약관 등 신한스포츠 &레저보장보험 Plus( 무배당 )의 기초\n서류에 기재된 주요내용을 요약한 것이므로 구체적인 내용은  반드시 보험약\n관 등을 참조하시기 바랍니다 .', metadata={'source': 'data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf', 'page': 0})

In [4]:
# 첫번째 문서의 내용 출력
print(split_docs[0].page_content)
# 첫번째 문서의 메타데이터 출력
print(split_docs[0].metadata)

신한스포츠 &레저보장보험 Plus( 무배당 )
상  품  요  약  서
이 상품요약서 는 보험약관 등 신한스포츠 &레저보장보험 Plus( 무배당 )의 기초
서류에 기재된 주요내용을 요약한 것이므로 구체적인 내용은  반드시 보험약
관 등을 참조하시기 바랍니다 .
{'source': 'data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf', 'page': 0}


In [5]:
split_docs[3]

Document(page_content='4 신한스포츠 &레저보장보험 Plus(무배당 )Ⅱ 보험금 지급사유 및 지급제한 사항\n1. 상품의 구성\n주  계  약 신한스포츠 &레저보장보험 Plus( 무배당 )\n제도성 특약 + 장애인전용보험전환특약\n2. 보험금 지급내용\n※ 보장관련 유의사항\n- 해당 상품에서 정한 보장 여부의 판단은 질병의 진단 및 재해 발생당시의 한국표준질병 ·\n사인분류를 기준으로 하며, 이후 한국표준질병 ·사인분류가 개정되는 경우에는 질병의 진\n단 및 재해 발생 당시에 시행되고 있는 한국표준질병 ·사인분류를 기준으로 판단합니다 .\n- 감염병에 관한 법률이 제·개정될 경우, 보험사고 발생당시 제·개정된 법률을 적용합니다 . \n(자세한 내용은 약관 "재해분류표 " 또는 "질병 및 재해 분류표 " 참조)\n- “재해골절치료급여금 ”에서 재해골절 (치아파절 제외)은 치아의 파절(분류번호 S02.5) 을 \n제외합니다 .\n- 보험금의 지급사유가 중복하여 발생한 경우에는 각각에 해당하는 보험금을 지급합니다 .\n \n(1)주계약\n구 분 지  급  사  유 지  급  금  액\n중대한재해\n수술급여금보험기간 중 피보험자가 재해로 인한 그 직접적인 \n치료를 목적으로 중대한 재해수술을 받았을 때(재\n해수술급여금에 추가지급 )【수술 1회당】\n보험가입금액의 30%\n아킬레스\n힘줄손상\n수술급여금보험기간 중 「피보험자에게 재해가 발생하고 그 \n재해를 직접적인 원인으로 아킬레스힘줄손상으로 \n진단확정되고 , 그 직접적인 치료를 목적으로 수술」\n을 받았을 때(재해수술급여금에 추가지급 )【수술 1회당】\n보험가입금액의 4%\n재해 보험기간 중 피보험자가 재해로 인한 그 직접적인 【수술 1회당】', metadata={'source': 'data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf', 'page': 3})

## PyMuPDF

`PyMuPDF` 를 활용하여 PDF 문서 내의 텍스트를 문자열 형식으로 로드하여 하나의 큰 문자열로 만든 뒤, 이를 분절하는 방식입니다.


In [None]:
# PyMuPDF 설치
# !pip install PyMuPDF

In [6]:
import fitz

# 파일열기
doc = fitz.open("data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf")

# 페이지별로 문서를 읽어오면서 하나의 문자열에 append 하여 결합
texts = ""
for page in doc:
    texts += page.get_text()

# 일부 글자만 출력
print(texts[3000:4000])

골절 1회당】
보험가입금액의 4%
※ 중대한 재해수술 : 재해에 의한 개두수술, 개흉수술, 개복수술
6
 신한스포츠&레저보장보험Plus(무배당)
이전에 “암 또는 사람면역결핍바이러스(HIV)감염”의 진단확정을 받은 후 이를 숨기고 가입하는 등의 뚜렷한 
사기의사에 의하여 계약이 성립되었음을 회사가 증명하는 경우에는 보장개시일부터 5년이내(사기사실을 안 
날부터는 1개월 이내)에 계약을 취소할 수 있습니다.
    ③ 계약의 무효
1. 계약을 체결할 때 계약에서 정한 피보험자의 나이에 미달되었거나 초과되었을 경우(다만, 회사가 나이의 
착오를 발견하였을 때 이미 계약나이에 도달한 경우에는 유효한 계약으로 봅니다)에는 이 계약을 무효로 
하며 실제 납입한 보험료 누계액(다만, “감액 등으로 회사가 실제 지급한 금액”을 차감한 금액)을 돌려드
립니다. 다만, 회사의 고의 또는 과실로 계약이 무효로 된 경우와 회사가 승낙 전에 무효임을 알았거나 알 
수 있었음에도 보험료를 반환하지 않은 경우에는 보험료를 납입한 날의 다음 날부터 반환일까지의 기간에 
대하여 회사는 이 계약의 보험계약대출이율을 연단위 복리로 계산한 금액을 더하여 돌려 드립니다.
2. “1.”에 따라 계약을 취소한 경우 회사는 보험금을 지급할 책임이 없고, 이미 지급한 보험금의 반환을 청
구할 수 있습니다.
3. “1.”에 따라 계약을 취소한 경우 회사는 계약자에게 실제 납입한 보험료 누계액(다만, “감액 등으로 회사
가 실제 지급한 금액”을 차감한 금액)을 돌려드립니다. 다만, 보험료를 받은 기간에 대한 이자는 지급하지 
않습니다.
    ④ 계약 전 알릴 의무 관련사항
   1. 가입자의 계약 전 알릴 의무
   계약자 또는 피보험자는 청약시(진단계약의 경우에는 건강진단할 때) 청약서에서 질문한 사항에 대하여 
알고 있는 사실을 반드시 사실대로 알려야(이하 “계약 전 알릴 의무”라 하며, 상법상 “고지의무”와 같
습니다)합니다. 다만, 진단계약에서 의료법 제3조(의료기관)의 규정에 따른 종합병원 및 

In [7]:
doc[0]

page 0 of data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf

In [8]:
len(doc)

9

In [9]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=2000,
    chunk_overlap=50,
    length_function=len,
    separators=["\n\n", "\n", "(?<=\. )", " ", ""],
)

split_texts = text_splitter.split_text(texts)
print(f"문서의 수: {len(split_texts)}")

문서의 수: 4


In [10]:
print(split_texts[2])

알고 있는 사실을 반드시 사실대로 알려야(이하 “계약 전 알릴 의무”라 하며, 상법상 “고지의무”와 같
습니다)합니다. 다만, 진단계약에서 의료법 제3조(의료기관)의 규정에 따른 종합병원 및 병원에서 직장 
또는 개인이 실시한 건강진단서 사본 등 건강상태를 판단할 수 있는 자료로 건강진단을 대신할 수 있
습니다.
   2. 계약 전 알릴 의무 위반시 불이익사항
   보험가입시 청약서상 “회사에 알려야 할 사항”(직업, 운전, 현재와 과거의 건강상태, 신체장해 등)은 피
보험자가 직접 사실대로 작성하셔야만 보험금 지급이 보장됩니다.
상 품 요 약 서
7
Ⅲ
 보험료 산출기초
1. 보험료 산출시 적용한 이율
 Q : 보험료 산출시 적용한 이율이란 무엇인가요?
 A : 보험료를 납입하는 시점과 보험금 지급사이에는 시차가 발생하므로 이 기간동안 기대되는 
수익을 미리 예상하여 일정한 비율로 보험료를 할인해주는데, 이 할인율을 말합니다. 일반적
으로 보험료 산출시 적용한 이율이 높으면 보험료는 내려가고, 낮아지면 보험료는 올라갑니
다.
  신한스포츠&레저보장보험Plus(무배당)의 보험료 산출시 적용한 이율은 연복리 2.25%입니다.
2. 보험료 산출시 적용한 위험률
 Q : 보험료 산출시 적용한 위험률이란 무엇인가요?
 A : 한 개인이 사망하거나 질병에 걸리는 등의 일정한 보험사고가 발생할 확률을 예측한 것
을 말합니다. 일반적으로 보험료 산출시 적용한 위험률이 높으면 보험료는 올라가고, 낮
으면 보험료는 내려갑니다.
구        분
남      자
여      자
20세
40세
60세
20세
40세
60세
무배당 예정 경험 재해 수술률
[보험개발원 생명장기 제2024-0900호(2024.02.23.)]
0.020732 0.019228 0.023112 0.006644 0.009442 0.021810
무배당 예정 경험 재해골절 발생률(치아파절 제외)
[보험개발원 생명장기 제2024-0947호(2024.02.27.)]
0.021347 0.022932 0.029610 

## PDFPlumber

PyMuPDF와 마찬가지로 출력 문서에는 PDF 및 해당 페이지에 대한 자세한 메타데이터가 포함되며 페이지당 하나의 문서를 반환합니다.


In [11]:
from langchain_community.document_loaders import PDFPlumberLoader

loader = PDFPlumberLoader("data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf")
docs = loader.load()
print(f"문서의 수: {len(docs)}")

문서의 수: 9


In [12]:
docs[0].metadata

{'source': 'data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf',
 'file_path': 'data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf',
 'page': 0,
 'total_pages': 9,
 'Author': '계리팀',
 'Creator': 'Hwp 2020 11.0.0.7936',
 'Producer': 'Hancom PDF 1.3.0.546',
 'CreationDate': "D:20240408184913+09'00'",
 'ModDate': "D:20240408184913+09'00'",
 'PDFVersion': '1.4'}

In [13]:
docs[3].page_content

'Ⅱ 보험금 지급사유 및 지급제한 사항\n1. 상품의 구성\n주 계 약 신한스포츠&레저보장보험Plus(무배당)\n제도성 특약 + 장애인전용보험전환특약\n2. 보험금 지급내용\n※ 보장관련 유의사항\n- 해당 상품에서 정한 보장 여부의 판단은 질병의 진단 및 재해 발생당시의 한국표준질병·\n사인분류를 기준으로 하며, 이후 한국표준질병·사인분류가 개정되는 경우에는 질병의 진\n단 및 재해 발생 당시에 시행되고 있는 한국표준질병·사인분류를 기준으로 판단합니다.\n- 감염병에 관한 법률이 제·개정될 경우, 보험사고 발생당시 제·개정된 법률을 적용합니다.\n(자세한 내용은 약관 "재해분류표" 또는 "질병 및 재해 분류표" 참조)\n- “재해골절치료급여금”에서 재해골절(치아파절 제외)은 치아의 파절(분류번호 S02.5)을\n제외합니다.\n- 보험금의 지급사유가 중복하여 발생한 경우에는 각각에 해당하는 보험금을 지급합니다.\n(1)주계약\n구 분 지 급 사 유 지 급 금 액\n보험기간 중 피보험자가 재해로 인한 그 직접적인\n중대한재해 【수술 1회당】\n치료를 목적으로 중대한 재해수술을 받았을 때(재\n수술급여금 보험가입금액의 30%\n해수술급여금에 추가지급)\n보험기간 중 「피보험자에게 재해가 발생하고 그\n아킬레스\n재해를 직접적인 원인으로 아킬레스힘줄손상으로 【수술 1회당】\n힘줄손상\n진단확정되고, 그 직접적인 치료를 목적으로 수술」 보험가입금액의 4%\n수술급여금\n을 받았을 때(재해수술급여금에 추가지급)\n재해 보험기간 중 피보험자가 재해로 인한 그 직접적인 【수술 1회당】\n4 신한스포츠&레저보장보험Plus(무배당)\n'

In [14]:
split_docs[0]

Document(page_content='신한스포츠 &레저보장보험 Plus( 무배당 )\n상  품  요  약  서\n이 상품요약서 는 보험약관 등 신한스포츠 &레저보장보험 Plus( 무배당 )의 기초\n서류에 기재된 주요내용을 요약한 것이므로 구체적인 내용은  반드시 보험약\n관 등을 참조하시기 바랍니다 .', metadata={'source': 'data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf', 'page': 0})

In [15]:
split_docs[0].metadata

{'source': 'data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf', 'page': 0}

In [16]:
split_docs[3].page_content

'4 신한스포츠 &레저보장보험 Plus(무배당 )Ⅱ 보험금 지급사유 및 지급제한 사항\n1. 상품의 구성\n주  계  약 신한스포츠 &레저보장보험 Plus( 무배당 )\n제도성 특약 + 장애인전용보험전환특약\n2. 보험금 지급내용\n※ 보장관련 유의사항\n- 해당 상품에서 정한 보장 여부의 판단은 질병의 진단 및 재해 발생당시의 한국표준질병 ·\n사인분류를 기준으로 하며, 이후 한국표준질병 ·사인분류가 개정되는 경우에는 질병의 진\n단 및 재해 발생 당시에 시행되고 있는 한국표준질병 ·사인분류를 기준으로 판단합니다 .\n- 감염병에 관한 법률이 제·개정될 경우, 보험사고 발생당시 제·개정된 법률을 적용합니다 . \n(자세한 내용은 약관 "재해분류표 " 또는 "질병 및 재해 분류표 " 참조)\n- “재해골절치료급여금 ”에서 재해골절 (치아파절 제외)은 치아의 파절(분류번호 S02.5) 을 \n제외합니다 .\n- 보험금의 지급사유가 중복하여 발생한 경우에는 각각에 해당하는 보험금을 지급합니다 .\n \n(1)주계약\n구 분 지  급  사  유 지  급  금  액\n중대한재해\n수술급여금보험기간 중 피보험자가 재해로 인한 그 직접적인 \n치료를 목적으로 중대한 재해수술을 받았을 때(재\n해수술급여금에 추가지급 )【수술 1회당】\n보험가입금액의 30%\n아킬레스\n힘줄손상\n수술급여금보험기간 중 「피보험자에게 재해가 발생하고 그 \n재해를 직접적인 원인으로 아킬레스힘줄손상으로 \n진단확정되고 , 그 직접적인 치료를 목적으로 수술」\n을 받았을 때(재해수술급여금에 추가지급 )【수술 1회당】\n보험가입금액의 4%\n재해 보험기간 중 피보험자가 재해로 인한 그 직접적인 【수술 1회당】'

## UnstructuredPDFLoader

내부적으로 비정형은 텍스트 덩어리마다 서로 다른 "element"를 생성합니다. 기본적으로 이러한 요소는 함께 결합되지만 mode="elements"를 지정하여 쉽게 분리할 수 있습니다.


In [1]:
from langchain_community.document_loaders import UnstructuredPDFLoader

loader = UnstructuredPDFLoader("data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf")
docs = loader.load()
print(f"문서의 수: {len(docs)}")

ValueError: Environment variable OCR_AGENT must be set to an existing OCR agent module, not unstructured.partition.utils.ocr_models.tesseract_ocr.OCRAgentTesseract.

In [2]:
import pytesseract
print(pytesseract)

<module 'pytesseract' from '/home/samuel/Dev/langchain-kr/venv/lib/python3.11/site-packages/pytesseract/__init__.py'>


In [None]:
docs[0].metadata

In [None]:
docs[0].page_content

In [2]:
loader = UnstructuredPDFLoader("data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf", mode="elements")
docs = loader.load()
print(f"문서의 수: {len(docs)}")

ValueError: unstructured_inference is not installed, pytesseract is not installed and the text of the PDF is not extractable. To process this file, install unstructured_inference, install pytesseract, or remove copy protection from the PDF.

In [None]:
print(docs[0].page_content)
print(docs[0].metadata)
print(docs[0].metadata["source"])
print(docs[0].metadata["coordinates"])
# print(docs[0].metadata['system'])
print(docs[0].metadata["file_directory"])
print(docs[0].metadata["filename"])
print(docs[0].metadata["page_number"])
print(docs[0].metadata["filetype"])
print(docs[0].metadata["category"])
print(docs[0].metadata["languages"])

In [None]:
docs[0].metadata

In [None]:
docs[3].metadata

In [None]:
docs[10].page_content

## PyPDF Directory

폴더 안에 있는 모든 PDF 파일을 로드 합니다.


In [2]:
from langchain_community.document_loaders import PyPDFDirectoryLoader

loader = PyPDFDirectoryLoader("data/")
docs = loader.load()

In [6]:
print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[8].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[8].page_content[:500])

문서의 수: 9

[메타데이터]

{'source': 'data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf', 'page': 8}


상 품 요 약 서 9Ⅵ 보험가격지수
 Q : 보험가격지수란 ?
 A : 해당상품의 보험료총액 (보험금 지급을 위한 보험료 및 보험회사의 사업경비 등을 위한 보험료 )을 참조순
보험료 총액*과 평균사업비총액**을 합한 금액으로 나눈 비율을 “보험가격지수 ”라고 합니다 .
* 감독원장이 정하는 바에 따라 산정한 전체 보험회사 공시이율의 평균(평균공시이율 ) 및 참조
순보험요율을 적용하여 산출한 보험금 지급을 위한 보험료
** 상품군별 생명보험상품 전체의 평균 사업비율을 반영하여 계산(역산)한 값
[기준 : 40세]
상품명 보험기간 (년) 납입기간 (년)보험가격지수
가입금액 (만원)
남 여
신한스포츠 &레저보장보험 Plus
(무배당 )1년 일시납 129.0% 115.5% 1,000


메타데이터 정보에는 `source` 와 `page` 번호가 있습니다. `source` 는 문서의 경로를 나타내며, `page` 는 문서의 페이지 번호를 나타냅니다.


In [7]:
docs[8].metadata

{'source': 'data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf', 'page': 8}

In [8]:
# 문서의 내용 출력
docs[8].page_content

'상 품 요 약 서 9Ⅵ 보험가격지수\n Q : 보험가격지수란 ?\n A : 해당상품의 보험료총액 (보험금 지급을 위한 보험료 및 보험회사의 사업경비 등을 위한 보험료 )을 참조순\n보험료 총액*과 평균사업비총액**을 합한 금액으로 나눈 비율을 “보험가격지수 ”라고 합니다 .\n* 감독원장이 정하는 바에 따라 산정한 전체 보험회사 공시이율의 평균(평균공시이율 ) 및 참조\n순보험요율을 적용하여 산출한 보험금 지급을 위한 보험료\n** 상품군별 생명보험상품 전체의 평균 사업비율을 반영하여 계산(역산)한 값\n[기준 : 40세]\n상품명 보험기간 (년) 납입기간 (년)보험가격지수\n가입금액 (만원)\n남 여\n신한스포츠 &레저보장보험 Plus\n(무배당 )1년 일시납 129.0% 115.5% 1,000'

In [9]:
# 55번째 문서의 메타데이터 출력
docs[55].metadata

IndexError: list index out of range

In [None]:
# 55번째 문서의 내용 출력
docs[55].page_content

## CSV


In [10]:
from langchain_community.document_loaders.csv_loader import CSVLoader


loader = CSVLoader(file_path="data/titanic.csv")
data = loader.load()

In [11]:
# 행의 수 출력
len(data)

891

In [12]:
data[10]

Document(page_content='PassengerId: 11\nSurvived: 1\nPclass: 3\nName: Sandstrom, Miss. Marguerite Rut\nSex: female\nAge: 4\nSibSp: 1\nParch: 1\nTicket: PP 9549\nFare: 16.7\nCabin: G6\nEmbarked: S', metadata={'source': 'data/titanic.csv', 'row': 10})

In [13]:
print(data[10].page_content)

PassengerId: 11
Survived: 1
Pclass: 3
Name: Sandstrom, Miss. Marguerite Rut
Sex: female
Age: 4
SibSp: 1
Parch: 1
Ticket: PP 9549
Fare: 16.7
Cabin: G6
Embarked: S


In [14]:
print(data[10].metadata)

{'source': 'data/titanic.csv', 'row': 10}


## HTML


HTML은 웹 브라우저에 표시되도록 설계된 문서를 위한 표준 마크업 언어입니다.


In [15]:
from langchain_community.document_loaders import UnstructuredHTMLLoader

loader = UnstructuredHTMLLoader("data/client.html")
docs = loader.load()
docs

[nltk_data] Downloading package punkt to /home/samuel/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/samuel/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


[Document(page_content='Name: 박시우\n\nAge: 31\n\nIsmarried: True\n\nCarownership: True\n\nAddress: street: 312번지, city: 서울, zipCode: 83795\n\nPhonenumbers: 483-4639-1933, 947-4179-7976\n\nHobbies: 요리, 음악 감상, 사진 촬영\n\nName: 정수아\n\nAge: 31\n\nIsmarried: False\n\nCarownership: True\n\nAddress: street: 877번지, city: 서울, zipCode: 36780\n\nPhonenumbers: 337-5721-3227, 387-3768-9586\n\nHobbies: 여행, 음악 감상, 등산\n\nName: 최도윤\n\nAge: 43\n\nIsmarried: False\n\nCarownership: True\n\nAddress: street: 175번지, city: 서울, zipCode: 89067\n\nPhonenumbers: 354-5563-4638, 471-9212-1826\n\nHobbies: 등산, 독서, 게임\n\nName: 정민준\n\nAge: 22\n\nIsmarried: False\n\nCarownership: False\n\nAddress: street: 690번지, city: 서울, zipCode: 70635\n\nPhonenumbers: 468-2796-2152, 922-5760-7030\n\nHobbies: 여행, 등산, 게임\n\nName: 이민준\n\nAge: 79\n\nIsmarried: True\n\nCarownership: False\n\nAddress: street: 151번지, city: 서울, zipCode: 79118\n\nPhonenumbers: 751-2823-8259, 722-7267-9516\n\nHobbies: 게임, 영화 감상, 음악 감상\n\nName: 최도윤\n\nAge: 64\n\nIs

In [16]:
print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'data/client.html'}


Name: 박시우

Age: 31

Ismarried: True

Carownership: True

Address: street: 312번지, city: 서울, zipCode: 83795

Phonenumbers: 483-4639-1933, 947-4179-7976

Hobbies: 요리, 음악 감상, 사진 촬영

Name: 정수아

Age: 31

Ismarried: False

Carownership: True

Address: street: 877번지, city: 서울, zipCode: 36780

Phonenumbers: 337-5721-3227, 387-3768-9586

Hobbies: 여행, 음악 감상, 등산

Name: 최도윤

Age: 43

Ismarried: False

Carownership: True

Address: street: 175번지, city: 서울, zipCode: 89067

Phonenumbers: 354-5563-4638, 471-9212-


In [17]:
from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader("data/client.html")
docs = loader.load()
docs

[Document(page_content='Sample DataName: 박시우Age: 31Ismarried: TrueCarownership: TrueAddress: street: 312번지, city: 서울, zipCode: 83795Phonenumbers: 483-4639-1933, 947-4179-7976Hobbies: 요리, 음악 감상, 사진 촬영Name: 정수아Age: 31Ismarried: FalseCarownership: TrueAddress: street: 877번지, city: 서울, zipCode: 36780Phonenumbers: 337-5721-3227, 387-3768-9586Hobbies: 여행, 음악 감상, 등산Name: 최도윤Age: 43Ismarried: FalseCarownership: TrueAddress: street: 175번지, city: 서울, zipCode: 89067Phonenumbers: 354-5563-4638, 471-9212-1826Hobbies: 등산, 독서, 게임Name: 정민준Age: 22Ismarried: FalseCarownership: FalseAddress: street: 690번지, city: 서울, zipCode: 70635Phonenumbers: 468-2796-2152, 922-5760-7030Hobbies: 여행, 등산, 게임Name: 이민준Age: 79Ismarried: TrueCarownership: FalseAddress: street: 151번지, city: 서울, zipCode: 79118Phonenumbers: 751-2823-8259, 722-7267-9516Hobbies: 게임, 영화 감상, 음악 감상Name: 최도윤Age: 64Ismarried: FalseCarownership: TrueAddress: street: 855번지, city: 서울, zipCode: 21216Phonenumbers: 462-4433-5968, 483-1709-4850Hobbies: 독서, 등산

In [18]:
print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'data/client.html', 'title': 'Sample Data'}


Sample DataName: 박시우Age: 31Ismarried: TrueCarownership: TrueAddress: street: 312번지, city: 서울, zipCode: 83795Phonenumbers: 483-4639-1933, 947-4179-7976Hobbies: 요리, 음악 감상, 사진 촬영Name: 정수아Age: 31Ismarried: FalseCarownership: TrueAddress: street: 877번지, city: 서울, zipCode: 36780Phonenumbers: 337-5721-3227, 387-3768-9586Hobbies: 여행, 음악 감상, 등산Name: 최도윤Age: 43Ismarried: FalseCarownership: TrueAddress: street: 175번지, city: 서울, zipCode: 89067Phonenumbers: 354-5563-4638, 471-9212-1826Hobbies: 등산, 독서, 게임Name


## JSON

- 참고: https://python.langchain.com/docs/modules/data_connection/document_loaders/json


In [1]:
from langchain_community.document_loaders import JSONLoader

import json
from pathlib import Path
from pprint import pprint


file_path = "data/people.json"
data = json.loads(Path(file_path).read_text())

pprint(data)

[{'address': {'city': '서울', 'street': '312번지', 'zipCode': '83795'},
  'age': 31,
  'carOwnership': True,
  'hobbies': ['요리', '음악 감상', '사진 촬영'],
  'isMarried': True,
  'name': '박시우',
  'phoneNumbers': ['483-4639-1933', '947-4179-7976']},
 {'address': {'city': '서울', 'street': '877번지', 'zipCode': '36780'},
  'age': 31,
  'carOwnership': True,
  'hobbies': ['여행', '음악 감상', '등산'],
  'isMarried': False,
  'name': '정수아',
  'phoneNumbers': ['337-5721-3227', '387-3768-9586']},
 {'address': {'city': '서울', 'street': '175번지', 'zipCode': '89067'},
  'age': 43,
  'carOwnership': True,
  'hobbies': ['등산', '독서', '게임'],
  'isMarried': False,
  'name': '최도윤',
  'phoneNumbers': ['354-5563-4638', '471-9212-1826']},
 {'address': {'city': '서울', 'street': '690번지', 'zipCode': '70635'},
  'age': 22,
  'carOwnership': False,
  'hobbies': ['여행', '등산', '게임'],
  'isMarried': False,
  'name': '정민준',
  'phoneNumbers': ['468-2796-2152', '922-5760-7030']},
 {'address': {'city': '서울', 'street': '151번지', 'zipCode': '7911

In [2]:
type(data[0])

dict

JSONLoader 를 사용

JSON 데이터의 메시지 키 내 content 필드 아래의 값을 추출하고 싶다고 가정해 보겠습니다. 이 작업은 아래와 같이 JSONLoader를 통해 쉽게 수행할 수 있습니다.


In [3]:
loader = JSONLoader(
    file_path="data/people.json",
    jq_schema=".[].phoneNumbers",
    text_content=False,
)

data = loader.load()

pprint(data)

[Document(page_content="['483-4639-1933', '947-4179-7976']", metadata={'source': '/home/samuel/Dev/langchain-kr/12-RAG/data/people.json', 'seq_num': 1}),
 Document(page_content="['337-5721-3227', '387-3768-9586']", metadata={'source': '/home/samuel/Dev/langchain-kr/12-RAG/data/people.json', 'seq_num': 2}),
 Document(page_content="['354-5563-4638', '471-9212-1826']", metadata={'source': '/home/samuel/Dev/langchain-kr/12-RAG/data/people.json', 'seq_num': 3}),
 Document(page_content="['468-2796-2152', '922-5760-7030']", metadata={'source': '/home/samuel/Dev/langchain-kr/12-RAG/data/people.json', 'seq_num': 4}),
 Document(page_content="['751-2823-8259', '722-7267-9516']", metadata={'source': '/home/samuel/Dev/langchain-kr/12-RAG/data/people.json', 'seq_num': 5}),
 Document(page_content="['462-4433-5968', '483-1709-4850']", metadata={'source': '/home/samuel/Dev/langchain-kr/12-RAG/data/people.json', 'seq_num': 6}),
 Document(page_content="['382-2779-3692', '835-4343-5346']", metadata={'sour

In [4]:
data[0].metadata

{'source': '/home/samuel/Dev/langchain-kr/12-RAG/data/people.json',
 'seq_num': 1}

In [5]:
print(data[0].page_content)

['483-4639-1933', '947-4179-7976']


## TXT Loader


In [6]:
from langchain_community.document_loaders import TextLoader

loader = TextLoader("data/appendix-keywords.txt")
docs = loader.load()
print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'data/appendix-keywords.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어


## File Directory


[참고]

mac 유저는 `brew install poppler` 명령어로 설치가 선행되어야 합니다.


In [1]:
from langchain_community.document_loaders import DirectoryLoader

loader = DirectoryLoader(".", glob="data/*.pdf")
docs = loader.load()

print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

Error loading file data/상품요약서_신한스포츠&레저보장보험Plus(무배당)_240401_P9.pdf


ValueError: Environment variable OCR_AGENT must be set to an existing OCR agent module, not unstructured.partition.utils.ocr_models.tesseract_ocr.OCRAgentTesseract.

In [2]:
loader = DirectoryLoader(".", glob="data/*.txt", show_progress=True)
docs = loader.load()

print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

100%|██████████| 6/6 [00:00<00:00, 14.50it/s]

문서의 수: 6

[메타데이터]

{'source': 'data/reference.txt'}


1. 제목: [Digital Insight 2023-5] ChatGPT의 파급효과와 기관의 LLM 도입 전략 출처: https://www.nia.or.kr/site/nia_kor/ex/bbs/View.do?cbIdx=82618&bcIdx=26165&parentSeq=26165 파일명: [DI]_ChatGPT의_파급_효과와_기관의_LLM_도입_전략.pdf

2.

제목: [IF_23

6호]_인공지능_기술_발전과_일자리의_미래_최종

출처: https://www.nia.or.kr/site/nia_kor/ex/bbs/View.do?cbIdx=25932&bcIdx=25938&parentSeq=25938

파일명: [IF_23

6호]_인공지능_기술_발전과_일자리의_미래_최종.pdf





In [3]:
loader = DirectoryLoader("../", glob="**/*.txt", use_multithreading=True)
docs = loader.load()

print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[1].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[1].page_content[:500])

No features in text.
No features in text.
No features in text.
No features in text.
No features in text.


KeyboardInterrupt: 

No features in text.
--- Logging error ---
Traceback (most recent call last):
  File "/home/samuel/Dev/langchain-kr/venv/lib/python3.11/site-packages/unstructured/partition/lang.py", line 346, in detect_languages
    langdetect_result = detect_langs(text)
                        ^^^^^^^^^^^^^^^^^^
  File "/home/samuel/Dev/langchain-kr/venv/lib/python3.11/site-packages/langdetect/detector_factory.py", line 137, in detect_langs
    return detector.get_probabilities()
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/samuel/Dev/langchain-kr/venv/lib/python3.11/site-packages/langdetect/detector.py", line 143, in get_probabilities
    self._detect_block()
  File "/home/samuel/Dev/langchain-kr/venv/lib/python3.11/site-packages/langdetect/detector.py", line 150, in _detect_block
    raise LangDetectException(ErrorCode.CantDetectError, 'No features in text.')
langdetect.lang_detect_exception.LangDetectException: No features in text.

During handling of the above exception, another exceptio

In [4]:
from langchain_community.document_loaders import PythonLoader

loader = DirectoryLoader(".", glob="**/*.py", loader_cls=PythonLoader)
docs = loader.load()

print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'data/audio_utils.py'}


import re
import os
from pytube import YouTube
from moviepy.editor import AudioFileClip, VideoFileClip
from pydub import AudioSegment
from pydub.silence import detect_nonsilent


def extract_abr(abr):
    youtube_audio_pattern = re.compile(r"\d+")
    kbps = youtube_audio_pattern.search(abr)
    if kbps:
        kbps = kbps.group()
        return int(kbps)
    else:
        return 0


def get_audio_filepath(filename):
    # audio 폴더가 없으면 생성
    if not os.path.isdir("audio"):
        os.mkdir("au


## TextLoader를 통한 파일 인코딩 자동 감지

이 예제에서는 TextLoader 클래스를 사용하여 디렉토리에서 임의의 파일 목록을 대량으로 로드할 때 유용한 몇 가지 전략을 살펴보겠습니다.

먼저 문제를 설명하기 위해 임의의 인코딩으로 여러 개의 텍스트를 로드해 보겠습니다.


- `silent_errors`: 디렉토리로더에 silent_errors 매개변수를 전달하여 로드할 수 없는 파일을 건너뛰고 로드 프로세스를 계속할 수 있습니다.
- `autodetect_encoding`: 또한 로더 클래스에 자동 감지\_인코딩을 전달하여 실패하기 전에 파일 인코딩을 자동으로 감지하도록 요청할 수도 있습니다.


In [5]:
path = "data/"

text_loader_kwargs = {"autodetect_encoding": True}

loader = DirectoryLoader(
    path,
    glob="**/*.txt",
    loader_cls=TextLoader,
    silent_errors=True,
    loader_kwargs=text_loader_kwargs,
)
docs = loader.load()

NameError: name 'TextLoader' is not defined

`data/appendix-keywords.txt` 파일과 파일명이 유사한 파생 파일들은 모두 인코딩 방식이 다른 파일들입니다.


In [None]:
doc_sources = [doc.metadata["source"] for doc in docs]
doc_sources

In [None]:
print("[메타데이터]\n")
print(docs[2].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[2].page_content[:500])

In [None]:
print("[메타데이터]\n")
print(docs[3].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[3].page_content[:500])

In [None]:
print("[메타데이터]\n")
print(docs[4].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[4].page_content[:500])