In [1]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

## 실습에 활용한 문서

소프트웨어정책연구소(SPRi) - 2023년 12월호

- 저자: 유재흥(AI정책연구실 책임연구원), 이지수(AI정책연구실 위촉연구원)
- 링크: https://spri.kr/posts/view/23669
- 파일명: `SPRI_AI_Brief_2023년12월호_F.pdf`


## 통합형 Loader 인터페이스

- loader 객체: 다양한 로더 도구를 활용하여 loader 객체를 생성합니다.
- 생성된 loader 객체의 `load()` 함수는 전체 문서를 로드하여 반환합니다.
- 생성된 loader 객체의 `load_and_split()` 함수는 문서를 split 한 결과를 반환합니다.
- 반환된 document 구조는 `page_content` 와 `metadata` 속성값을 포함합니다. `page_content` 는 문서의 내용을, `metadata` 는 파일명, 페이지 번호, 그 밖에 유용한 메타정보를 포함합니다.


## PyPDFLoader


가장 일반적으로 많이 활용되는 방법이며, 대부분의 일반적인 PDF 파일을 문제 없이 불러 올 수 있습니다.


In [50]:
from langchain.document_loaders import PyPDFLoader

# PDF 파일 로드. 파일의 경로 입력
loader = PyPDFLoader("data/SPRI_AI_Brief_2023년12월호_F.pdf")

# 페이지 별 문서 로드
split_docs = loader.load_and_split()

print(f"문서의 수: {len(split_docs)}")

문서의 수: 23


In [44]:
split_docs[0]

Document(page_content='2023 년 12월호', metadata={'source': 'data/SPRI_AI_Brief_2023년12월호_F.pdf', 'page': 0})

In [3]:
# 첫번째 문서의 내용 출력
print(split_docs[0].page_content)
# 첫번째 문서의 메타데이터 출력
print(split_docs[0].metadata)

2023 년 12월호
{'source': 'data/SPRI_AI_Brief_2023년12월호_F.pdf', 'page': 0}


In [8]:
split_docs[3]

Document(page_content='1. 정책/법제  2. 기업/산업 3. 기술/연구  4. 인력/교육\n미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표 \nn미국 바이든 대통령이 ‘안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 ’에 서명하고 \n광범위한 행정 조치를 명시\nn행정명령은 △AI의 안전과 보안 기준 마련 △개인정보보호 △형평성과 시민권 향상 △소비자 \n보호 △노동자 지원 △혁신과 경쟁 촉진 △국제협력을 골자로 함KEY Contents\n£바이든 대통령 , AI 행정명령 통해 안전하고 신뢰할 수 있는 AI 개발과 활용 추진\nn미국 바이든 대통령이 2023년 10월 30일 연방정부 차원에서 안전하고 신뢰할 수 있는 AI 개발과 \n사용을 보장하기 위한 행정명령을 발표\n∙행정명령은 △AI의 안전과 보안 기준 마련 △개인정보보호 △형평성과 시민권 향상 △소비자 보호 \n△노동자 지원 △혁신과 경쟁 촉진 △국제협력에 관한 내용을 포괄\nn(AI 안전과 보안 기준) 강력한 AI 시스템을 개발하는 기업에게 안전 테스트 결과와 시스템에 관한 \n주요 정보를 미국 정부와 공유할 것을 요구하고 , AI 시스템의 안전성과 신뢰성 확인을 위한 표준 및 \nAI 생성 콘텐츠 표시를 위한 표준과 모범사례 확립을 추진\n∙△1026 플롭스 (FLOPS, Floating Point Operation Per Second) 를 초과하는 컴퓨팅 성능 또는 생물학적 \n서열 데이터를 주로 사용하고 1023플롭스를 초과하는 컴퓨팅 성능을 사용하는 모델 △단일 데이터센터에서 \n1,000Gbit/s 이상의 네트워킹으로 연결되며 AI 훈련에서 이론상 최대 1020 플롭스를 처리할 수 있는 \n컴퓨팅 용량을 갖춘 컴퓨팅 클러스터가 정보공유 요구대상\nn(형평성과 시민권 향상) 법률, 주택, 보건 분야에서 AI의 무책임한 사용으로 인한 차별과 편견 및 기타 \n문제를 방지하는 조치를 확대\n∙형사사법 시스템에서 AI 사용 모범사례를 개발하고 ,

## PyMuPDF

`PyMuPDF` 를 활용하여 PDF 문서 내의 텍스트를 문자열 형식으로 로드하여 하나의 큰 문자열로 만든 뒤, 이를 분절하는 방식입니다.


In [None]:
# PyMuPDF 설치
# !pip install PyMuPDF

In [51]:
import fitz

# 파일열기
doc = fitz.open("data/SPRI_AI_Brief_2023년12월호_F.pdf")

# 페이지별로 문서를 읽어오면서 하나의 문자열에 append 하여 결합
texts = ""
for page in doc:
    texts += page.get_text()

# 일부 글자만 출력
print(texts[3000:4000])

템에서 AI 사용 모범사례를 개발하고, 주택 임대 시 AI 알고리즘 차별을 막기 위한 명확한 
지침을 제공하며, 보건복지 부문에서 책임 있는 AI 배포와 사용을 위한 전략을 마련 
n (소비자 보호와 근로자 지원) 의료 분야에서 책임 있는 AI 사용을 촉진하고 맞춤형 개인교습 등 학교 
내 AI 교육 도구 관련 자원을 개발하며, AI로 인한 근로자 피해를 완화하고 이점을 극대화하는 원칙과 
모범사례를 마련
n (혁신과 경쟁 촉진) 국가AI연구자원(National Artificial Intelligence Research Resource, NAIRR)*을 
통해 미국 전역의 AI 연구를 촉진하고, 중소기업과 개발자에 기술과 인프라를 지원
* 국가 차원에서 AI 연구 인프라를 확충해 더 많은 AI 연구자에게 인프라를 지원하는 프로그램 
∙ 비자 기준과 인터뷰 절차의 현대화와 간소화로 AI 관련 주요 분야의 전문 지식을 갖춘 외국인들이 미국에서 
공부하고 취업할 수 있도록 지원
☞ 출처 : The White House, Executive Order on the Safe, Secure, and Trustworthy Development and Use of 
Artificial Intelligence (E.O. 14110), 2023.10.30.
SPRi AI Brief |  
2023-12월호
2
G7, 히로시마 AI 프로세스를 통해 AI 기업 대상 국제 행동강령에 합의
n G7이 첨단 AI 시스템을 개발하는 기업을 대상으로 AI 위험 식별과 완화를 위해 자발적인 
채택을 권고하는 AI 국제 행동강령을 마련
n 행동강령은 AI 수명주기 전반에 걸친 위험 평가와 완화, 투명성과 책임성의 보장, 정보공유와 
이해관계자 간 협력, 보안 통제, 콘텐츠 인증과 출처 확인 등의 조치를 요구
KEY Contents
£ G7, 첨단 AI 시스템의 위험 관리를 위한 국제 행동강령 마련
n 주요 7개국(G7)*은 2023년 10월 30일 ‘히로시마 AI 프로세스’를 통해 AI 기업 대

In [37]:
doc[0]

page 0 of data/SPRI_AI_Brief_2023년12월호_F.pdf

In [27]:
len(doc)

23

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=2000,
    chunk_overlap=50,
    length_function=len,
    separators=["\n\n", "\n", "(?<=\. )", " ", ""],
)

split_texts = text_splitter.split_text(texts)
print(f"문서의 수: {len(split_texts)}")

In [None]:
print(split_texts[2])

## PDFPlumber

PyMuPDF와 마찬가지로 출력 문서에는 PDF 및 해당 페이지에 대한 자세한 메타데이터가 포함되며 페이지당 하나의 문서를 반환합니다.


In [53]:
from langchain_community.document_loaders import PDFPlumberLoader

loader = PDFPlumberLoader("data/SPRI_AI_Brief_2023년12월호_F.pdf")
docs = loader.load()
print(f"문서의 수: {len(docs)}")

문서의 수: 23


In [48]:
docs[0].metadata

{'source': 'data/SPRI_AI_Brief_2023년12월호_F.pdf',
 'file_path': 'data/SPRI_AI_Brief_2023년12월호_F.pdf',
 'page': 0,
 'total_pages': 23,
 'Author': 'dj',
 'Creator': 'Hwp 2018 10.0.0.13462',
 'Producer': 'Hancom PDF 1.3.0.542',
 'CreationDate': "D:20231208132838+09'00'",
 'ModDate': "D:20231208132838+09'00'",
 'PDFVersion': '1.4'}

In [7]:
docs[3].page_content

'1. 정책/법제 2. 기업/산업 3. 기술/연구 4. 인력/교육\n미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표\nKEY Contents\nn 미국 바이든 대통령이 ‘안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령’에 서명하고\n광범위한 행정 조치를 명시\nn 행정명령은 △AI의 안전과 보안 기준 마련 △개인정보보호 △형평성과 시민권 향상 △소비자\n보호 △노동자 지원 △혁신과 경쟁 촉진 △국제협력을 골자로 함\n£바이든 대통령, AI 행정명령 통해 안전하고 신뢰할 수 있는 AI 개발과 활용 추진\nn 미국 바이든 대통령이 2023년 10월 30일 연방정부 차원에서 안전하고 신뢰할 수 있는 AI 개발과\n사용을 보장하기 위한 행정명령을 발표\n∙ 행정명령은 △AI의 안전과 보안 기준 마련 △개인정보보호 △형평성과 시민권 향상 △소비자 보호\n△노동자 지원 △혁신과 경쟁 촉진 △국제협력에 관한 내용을 포괄\nn (AI 안전과 보안 기준) 강력한 AI 시스템을 개발하는 기업에게 안전 테스트 결과와 시스템에 관한\n주요 정보를 미국 정부와 공유할 것을 요구하고, AI 시스템의 안전성과 신뢰성 확인을 위한 표준 및\nAI 생성 콘텐츠 표시를 위한 표준과 모범사례 확립을 추진\n∙ △1026 플롭스(FLOPS, Floating Point Operation Per Second)를 초과하는 컴퓨팅 성능 또는 생물학적\n서열 데이터를 주로 사용하고 1023플롭스를 초과하는 컴퓨팅 성능을 사용하는 모델 △단일 데이터센터에서\n1,000Gbit/s 이상의 네트워킹으로 연결되며 AI 훈련에서 이론상 최대 1020 플롭스를 처리할 수 있는\n컴퓨팅 용량을 갖춘 컴퓨팅 클러스터가 정보공유 요구대상\nn (형평성과 시민권 향상) 법률, 주택, 보건 분야에서 AI의 무책임한 사용으로 인한 차별과 편견 및 기타\n문제를 방지하는 조치를 확대\n∙ 형사사법 시스템에서 AI 사용 모범사례를 개발하고, 주택 임대 시 AI 알고리즘 차별을 막기 위한 명확한\

In [19]:
split_docs[0]

NameError: name 'split_docs' is not defined

In [None]:
split_docs[0].metadata

In [None]:
split_docs[3].page_content

## UnstructuredPDFLoader

내부적으로 비정형은 텍스트 덩어리마다 서로 다른 "element"를 생성합니다. 기본적으로 이러한 요소는 함께 결합되지만 mode="elements"를 지정하여 쉽게 분리할 수 있습니다.


In [9]:
from langchain_community.document_loaders import UnstructuredPDFLoader

loader = UnstructuredPDFLoader("data/SPRI_AI_Brief_2023년12월호_F.pdf")
docs = loader.load()
print(f"문서의 수: {len(docs)}")

문서의 수: 1


In [8]:
docs[0].metadata

{'source': 'data/SPRI_AI_Brief_2023년12월호_F.pdf'}

In [10]:
docs[0].page_content

'2023년 12월호\n\n2023년 12월호\n\nⅠ. 인공지능 산업 동향 브리프\n\n1. 정책/법제\n\n▹ 미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표 ························· 1\n\n▹ G7, 히로시마 AI 프로세스를 통해 AI 기업 대상 국제 행동강령에 합의 ··························· 2\n\n▹ 영국 AI 안전성 정상회의에 참가한 28개국, AI 위험에 공동 대응 선언 ··························· 3\n\n▹ 미국 법원, 예술가들이 생성 AI 기업에 제기한 저작권 소송 기각 ····································· 4\n\n▹ 미국 연방거래위원회, 저작권청에 소비자 보호와 경쟁 측면의 AI 의견서 제출 ················· 5\n\n▹ EU AI 법 3자 협상, 기반모델 규제 관련 견해차로 난항 ··················································· 6\n\n2. 기업/산업\n\n▹ 미국 프런티어 모델 포럼, 1,000만 달러 규모의 AI 안전 기금 조성 ································ 7\n\n▹ 코히어, 데이터 투명성 확보를 위한 데이터 출처 탐색기 공개 ······································· 8\n\n▹ 알리바바 클라우드, 최신 LLM ‘통이치엔원 2.0’ 공개 ······················································ 9\n\n▹ 삼성전자, 자체 개발 생성 AI ‘삼성 가우스’ 공개 ··························································· 10\n\n▹ 구글, 앤스로픽에 20억 달러 투자로 생성 AI 협력 강화 ················································ 11\n\n▹ IDC, 2027

In [52]:
loader = UnstructuredPDFLoader("data/SPRI_AI_Brief_2023년12월호_F.pdf", mode="elements")
docs = loader.load()
print(f"문서의 수: {len(docs)}")

문서의 수: 652


In [26]:
print(docs[0].page_content)
print(docs[0].metadata)
print(docs[0].metadata["source"])
print(docs[0].metadata["coordinates"])
# print(docs[0].metadata['system'])
print(docs[0].metadata["file_directory"])
print(docs[0].metadata["filename"])
print(docs[0].metadata["page_number"])
print(docs[0].metadata["filetype"])
print(docs[0].metadata["category"])
print(docs[0].metadata["languages"])

인공지능 기술 발전과 일자리의 미래
{'source': 'data/[IF_23-6호]_인공지능_기술_발전과_일자리의_미래_최종.pdf', 'coordinates': {'points': ((313.07733, 35.32987974899993), (313.07733, 45.28016874899993), (482.93077800000003, 45.28016874899993), (482.93077800000003, 35.32987974899993)), 'system': 'PixelSpace', 'layout_width': 612, 'layout_height': 858}, 'file_directory': 'data', 'filename': '[IF_23-6호]_인공지능_기술_발전과_일자리의_미래_최종.pdf', 'languages': ['eng'], 'last_modified': '2024-02-02T22:44:30', 'page_number': 1, 'filetype': 'application/pdf', 'category': 'Title'}
data/[IF_23-6호]_인공지능_기술_발전과_일자리의_미래_최종.pdf
{'points': ((313.07733, 35.32987974899993), (313.07733, 45.28016874899993), (482.93077800000003, 45.28016874899993), (482.93077800000003, 35.32987974899993)), 'system': 'PixelSpace', 'layout_width': 612, 'layout_height': 858}
data
[IF_23-6호]_인공지능_기술_발전과_일자리의_미래_최종.pdf
1
application/pdf
Title
['eng']


In [46]:
docs[0].metadata

{'source': 'data/SPRI_AI_Brief_2023년12월호_F.pdf',
 'coordinates': {'points': ((256.579467, 282.444348),
   (256.579467, 303.42387300000007),
   (355.4236898438, 303.42387300000007),
   (355.4236898438, 282.444348)),
  'system': 'PixelSpace',
  'layout_width': 612,
  'layout_height': 858},
 'file_directory': 'data',
 'filename': 'SPRI_AI_Brief_2023년12월호_F.pdf',
 'languages': ['eng'],
 'last_modified': '2024-02-02T22:44:30',
 'page_number': 1,
 'filetype': 'application/pdf',
 'category': 'UncategorizedText'}

In [15]:
docs[3].metadata

{'source': 'data/[IF_23-6호]_인공지능_기술_발전과_일자리의_미래_최종.pdf',
 'coordinates': {'points': ((84.36, 303.50735999999995),
   (84.36, 316.46736),
   (485.759088, 316.46736),
   (485.759088, 303.50735999999995)),
  'system': 'PixelSpace',
  'layout_width': 612,
  'layout_height': 858},
 'file_directory': 'data',
 'filename': '[IF_23-6호]_인공지능_기술_발전과_일자리의_미래_최종.pdf',
 'languages': ['eng'],
 'last_modified': '2024-02-02T22:44:30',
 'page_number': 1,
 'parent_id': 'e299e2237bdcc1c5a7e2e06285d24f7d',
 'filetype': 'application/pdf',
 'category': 'UncategorizedText'}

In [17]:
docs[10].page_content

'변화를 분석하고 이를 토대로 미래 지능화 시대의 주요 이슈를 전망, IT를 통한'

## PyPDF Directory

폴더 안에 있는 모든 PDF 파일을 로드 합니다.


In [79]:
from langchain_community.document_loaders import PyPDFDirectoryLoader

loader = PyPDFDirectoryLoader("data/")
docs = loader.load()

PdfReadError("Invalid Elementary Object starting with b'\\xbb' @1393499: b'F4\\n/BaseFont /G\\xb8\\xb6\\xc4\\xcf \\xbb\\xea\\xbd\\xba Bold\\n/Encoding /Identity-H\\n\\n/DescendantFonts [ 247 0 R\\n'")


In [13]:
print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[10].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[10].page_content[:500])

문서의 수: 652

[메타데이터]

{'source': 'data/SPRI_AI_Brief_2023년12월호_F.pdf', 'coordinates': {'points': ((157.56, 394.128), (157.56, 405.168), (223.522032, 405.168), (223.522032, 394.128)), 'system': 'PixelSpace', 'layout_width': 612, 'layout_height': 858}, 'file_directory': 'data', 'filename': 'SPRI_AI_Brief_2023년12월호_F.pdf', 'languages': ['eng'], 'last_modified': '2024-02-02T22:44:30', 'page_number': 2, 'parent_id': '5eb401c9adc0143954edab8f5cbf1341', 'filetype': 'application/pdf', 'category': 'ListItem'}


2. 기업/산업


메타데이터 정보에는 `source` 와 `page` 번호가 있습니다. `source` 는 문서의 경로를 나타내며, `page` 는 문서의 페이지 번호를 나타냅니다.


In [90]:
docs[10].metadata

{'source': 'data/[DI]_ChatGPT의_파급_효과와_기관의_LLM_도입_전략.pdf',
 'page': 20}

In [92]:
# 문서의 내용 출력
docs[10].page_content

'ChatGPT의\x00파급\x00효과와\x00기관의\x00LLM\x00도입\x00전략 DigitalInsight2023\n7E\x00LLM\x00의\x00확장\n앞서\x00GPT-3와\x00같이\x00거대한\x00크기의\x00언어\x00모델을\x00LLM로\x00지칭한다고\x00설명했다.\x00GPT-3\x00뿐\x00아니라\x00\n그\x00이후에\x00나온\x00언어\x00모델,\x00즉\x00오픈AI의\x00GPT-3.5와\x00GPT-4,\x00구글의\x00PaLM(Pathways\x00 Language\x00\nModel)\x00같은\x00것들이\x00모두\x00LLM이다.\x00그리고\x00보통\x00LLM은\x00기초\x00모델이며,\x00기초\x00모델을\x00활용해서\x00\n파인\x00튜닝을\x00통해\x00작게\x00만든\x00LLM을\x00sLLM(small\x00Large\x00Language\x00Model)이라고\x00한다.\x00\n이러한\x00초대형\x00언어\x00모델들의\x00특성은\x00질문에\x00대해서\x00답을\x00만든다는\x00것이다.\x00이에\x00‘만든다’는\x00의미\n에서\x00‘생성형\x00AI(Generative\x00AI)’라고\x00한다.\x00생성형\x00AI에는\x00글을\x00만들어\x00주는\x00LLM뿐\x00아니라\x00그림을\x00\n만들어\x00주는\x00Midjourney,\x00Stable\x00Diffusion,\x00Dalle-3,\x00음악을\x00작곡해\x00주는\x00AIVA,\x00Amper\x00\nMusic,\x00동영상을\x00만들어\x00주는\x00Runway\x00등이\x00있다.\x00\n한편\x00기존의\x00LLM에\x00그림을\x00인식하고\x00소리를\x00인식할\x00수\x00있는\x00기능도\x00추가되고\x00있다.\x00그래서\x00이를\x00\n멀티모달(Multi-modal)\x00LLM이라고\x00지칭한다.\x00최근에\x00나오는\x00GP

In [88]:
# 55번째 문서의 메타데이터 출력
docs[55].metadata

{'source': 'data/SPRI_AI_Brief_2023년12월호_F.pdf', 'page': 17}

In [89]:
# 55번째 문서의 내용 출력
docs[55].page_content

'                                        1. 정책/법제  2. 기업/산업 3. 기술/연구  4. 인력/교육\n영국 과학혁신기술부 , AI 안전 연구소 설립 발표\nn영국 과학혁신기술부가 첨단 AI 시스템에 대한 평가를 통해 안전성을 보장하기 위한 AI \n안전 연구소를 설립한다고 발표\nnAI 안전 연구소는 핵심 기능으로 첨단 AI 시스템 평가 개발과 시행, AI 안전 연구 촉진, \n정보교류 활성화를 추진할 계획KEY Contents\n£영국 AI 안전 연구소 , 첨단 AI 시스템 평가와 AI 안전 연구, 정보 교류 추진\nn영국 과학혁신기술부가 2023 년 11월 2일 첨단 AI 안전에 중점을 둔 국가 연구기관으로 AI \n안전 연구소 (AI Safety Institute) 를 설립한다고 발표\n∙AI 안전 연구소는 첨단 AI의 위험을 이해하고 거버넌스 마련에 필요한 사회·기술적 인프라 개발을 통해 \n영국을 AI 안전 연구의 글로벌 허브로 확립하는 것을 목표로 함\n∙영국 정부는 향후 10년간 연구소에 공공자금을 투자해 연구를 지원할 계획으로 , 연구소는 △첨단 AI 시스템 \n평가 개발과 시행 △AI 안전 연구 촉진 △정보 교류 활성화를 핵심 기능으로 함\nn(첨단 AI 시스템 평가 개발과 시행) 시스템의 안전 관련 속성을 중심으로 안전과 보안 기능을 이해\n하고 사회적 영향을 평가\n∙평가 우선순위는 △사이버범죄 조장, 허위 정보 유포 등 악의적으로 활용될 수 있는 기능 △사회에 미치는 \n영향 △시스템 안전과 보안 △인간의 통제력 상실 가능성 순\n∙연구소는 외부 기관과 협력해 자체 시스템 평가를 개발 및 수행하고 , 평가와 관련된 의견 공유 및 지침 \n마련을 위해 전문가 커뮤니티를 소집할 계획\nn(AI 안전 연구 촉진) 외부 연구자를 소집하고 다양한 예비 연구 프로젝트를 통해 AI 안전 기초연구를 수행\n∙AI 시스템의 효과적 거버넌스를 위한 도구 개발* 및 안전한 AI 시스템 개발을 위한 새로운 접근 방식 연

## CSV


In [74]:
from langchain_community.document_loaders.csv_loader import CSVLoader


loader = CSVLoader(file_path="data/titanic.csv")
data = loader.load()

In [75]:
# 행의 수 출력
len(data)

891

In [76]:
data[10]

Document(page_content='PassengerId: 11\nSurvived: 1\nPclass: 3\nName: Sandstrom, Miss. Marguerite Rut\nSex: female\nAge: 4\nSibSp: 1\nParch: 1\nTicket: PP 9549\nFare: 16.7\nCabin: G6\nEmbarked: S', metadata={'source': 'data/titanic.csv', 'row': 10})

In [77]:
print(data[10].page_content)

PassengerId: 11
Survived: 1
Pclass: 3
Name: Sandstrom, Miss. Marguerite Rut
Sex: female
Age: 4
SibSp: 1
Parch: 1
Ticket: PP 9549
Fare: 16.7
Cabin: G6
Embarked: S


In [78]:
print(data[10].metadata)

{'source': 'data/titanic.csv', 'row': 10}


## HTML


HTML은 웹 브라우저에 표시되도록 설계된 문서를 위한 표준 마크업 언어입니다.


In [70]:
from langchain_community.document_loaders import UnstructuredHTMLLoader

loader = UnstructuredHTMLLoader("data/client.html")
docs = loader.load()
docs

[Document(page_content='Name: 박시우\n\nAge: 31\n\nIsmarried: True\n\nCarownership: True\n\nAddress: street: 312번지, city: 서울, zipCode: 83795\n\nPhonenumbers: 483-4639-1933, 947-4179-7976\n\nHobbies: 요리, 음악 감상, 사진 촬영\n\nName: 정수아\n\nAge: 31\n\nIsmarried: False\n\nCarownership: True\n\nAddress: street: 877번지, city: 서울, zipCode: 36780\n\nPhonenumbers: 337-5721-3227, 387-3768-9586\n\nHobbies: 여행, 음악 감상, 등산\n\nName: 최도윤\n\nAge: 43\n\nIsmarried: False\n\nCarownership: True\n\nAddress: street: 175번지, city: 서울, zipCode: 89067\n\nPhonenumbers: 354-5563-4638, 471-9212-1826\n\nHobbies: 등산, 독서, 게임\n\nName: 정민준\n\nAge: 22\n\nIsmarried: False\n\nCarownership: False\n\nAddress: street: 690번지, city: 서울, zipCode: 70635\n\nPhonenumbers: 468-2796-2152, 922-5760-7030\n\nHobbies: 여행, 등산, 게임\n\nName: 이민준\n\nAge: 79\n\nIsmarried: True\n\nCarownership: False\n\nAddress: street: 151번지, city: 서울, zipCode: 79118\n\nPhonenumbers: 751-2823-8259, 722-7267-9516\n\nHobbies: 게임, 영화 감상, 음악 감상\n\nName: 최도윤\n\nAge: 64\n\nIs

In [71]:
print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'data/client.html'}


Name: 박시우

Age: 31

Ismarried: True

Carownership: True

Address: street: 312번지, city: 서울, zipCode: 83795

Phonenumbers: 483-4639-1933, 947-4179-7976

Hobbies: 요리, 음악 감상, 사진 촬영

Name: 정수아

Age: 31

Ismarried: False

Carownership: True

Address: street: 877번지, city: 서울, zipCode: 36780

Phonenumbers: 337-5721-3227, 387-3768-9586

Hobbies: 여행, 음악 감상, 등산

Name: 최도윤

Age: 43

Ismarried: False

Carownership: True

Address: street: 175번지, city: 서울, zipCode: 89067

Phonenumbers: 354-5563-4638, 471-9212-


In [72]:
from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader("data/client.html")
docs = loader.load()
docs

[Document(page_content='Sample DataName: 박시우Age: 31Ismarried: TrueCarownership: TrueAddress: street: 312번지, city: 서울, zipCode: 83795Phonenumbers: 483-4639-1933, 947-4179-7976Hobbies: 요리, 음악 감상, 사진 촬영Name: 정수아Age: 31Ismarried: FalseCarownership: TrueAddress: street: 877번지, city: 서울, zipCode: 36780Phonenumbers: 337-5721-3227, 387-3768-9586Hobbies: 여행, 음악 감상, 등산Name: 최도윤Age: 43Ismarried: FalseCarownership: TrueAddress: street: 175번지, city: 서울, zipCode: 89067Phonenumbers: 354-5563-4638, 471-9212-1826Hobbies: 등산, 독서, 게임Name: 정민준Age: 22Ismarried: FalseCarownership: FalseAddress: street: 690번지, city: 서울, zipCode: 70635Phonenumbers: 468-2796-2152, 922-5760-7030Hobbies: 여행, 등산, 게임Name: 이민준Age: 79Ismarried: TrueCarownership: FalseAddress: street: 151번지, city: 서울, zipCode: 79118Phonenumbers: 751-2823-8259, 722-7267-9516Hobbies: 게임, 영화 감상, 음악 감상Name: 최도윤Age: 64Ismarried: FalseCarownership: TrueAddress: street: 855번지, city: 서울, zipCode: 21216Phonenumbers: 462-4433-5968, 483-1709-4850Hobbies: 독서, 등산

In [73]:
print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'data/client.html', 'title': 'Sample Data'}


Sample DataName: 박시우Age: 31Ismarried: TrueCarownership: TrueAddress: street: 312번지, city: 서울, zipCode: 83795Phonenumbers: 483-4639-1933, 947-4179-7976Hobbies: 요리, 음악 감상, 사진 촬영Name: 정수아Age: 31Ismarried: FalseCarownership: TrueAddress: street: 877번지, city: 서울, zipCode: 36780Phonenumbers: 337-5721-3227, 387-3768-9586Hobbies: 여행, 음악 감상, 등산Name: 최도윤Age: 43Ismarried: FalseCarownership: TrueAddress: street: 175번지, city: 서울, zipCode: 89067Phonenumbers: 354-5563-4638, 471-9212-1826Hobbies: 등산, 독서, 게임Name


## JSON

- 참고: https://python.langchain.com/docs/modules/data_connection/document_loaders/json


In [21]:
from langchain_community.document_loaders import JSONLoader

import json
from pathlib import Path
from pprint import pprint


file_path = "data/people.json"
data = json.loads(Path(file_path).read_text())

pprint(data)

[{'address': {'city': '서울', 'street': '312번지', 'zipCode': '83795'},
  'age': 31,
  'carOwnership': True,
  'hobbies': ['요리', '음악 감상', '사진 촬영'],
  'isMarried': True,
  'name': '박시우',
  'phoneNumbers': ['483-4639-1933', '947-4179-7976']},
 {'address': {'city': '서울', 'street': '877번지', 'zipCode': '36780'},
  'age': 31,
  'carOwnership': True,
  'hobbies': ['여행', '음악 감상', '등산'],
  'isMarried': False,
  'name': '정수아',
  'phoneNumbers': ['337-5721-3227', '387-3768-9586']},
 {'address': {'city': '서울', 'street': '175번지', 'zipCode': '89067'},
  'age': 43,
  'carOwnership': True,
  'hobbies': ['등산', '독서', '게임'],
  'isMarried': False,
  'name': '최도윤',
  'phoneNumbers': ['354-5563-4638', '471-9212-1826']},
 {'address': {'city': '서울', 'street': '690번지', 'zipCode': '70635'},
  'age': 22,
  'carOwnership': False,
  'hobbies': ['여행', '등산', '게임'],
  'isMarried': False,
  'name': '정민준',
  'phoneNumbers': ['468-2796-2152', '922-5760-7030']},
 {'address': {'city': '서울', 'street': '151번지', 'zipCode': '7911

In [24]:
type(data[0])

dict

JSONLoader 를 사용

JSON 데이터의 메시지 키 내 content 필드 아래의 값을 추출하고 싶다고 가정해 보겠습니다. 이 작업은 아래와 같이 JSONLoader를 통해 쉽게 수행할 수 있습니다.


In [47]:
loader = JSONLoader(
    file_path="data/people.json",
    jq_schema=".[].phoneNumbers",
    text_content=False,
)

data = loader.load()

pprint(data)

[Document(page_content="['483-4639-1933', '947-4179-7976']", metadata={'source': '/Users/teddy/Dev/github/langchain-tutorial/tutorial/part2-langchain/07-RAG/data/people.json', 'seq_num': 1}),
 Document(page_content="['337-5721-3227', '387-3768-9586']", metadata={'source': '/Users/teddy/Dev/github/langchain-tutorial/tutorial/part2-langchain/07-RAG/data/people.json', 'seq_num': 2}),
 Document(page_content="['354-5563-4638', '471-9212-1826']", metadata={'source': '/Users/teddy/Dev/github/langchain-tutorial/tutorial/part2-langchain/07-RAG/data/people.json', 'seq_num': 3}),
 Document(page_content="['468-2796-2152', '922-5760-7030']", metadata={'source': '/Users/teddy/Dev/github/langchain-tutorial/tutorial/part2-langchain/07-RAG/data/people.json', 'seq_num': 4}),
 Document(page_content="['751-2823-8259', '722-7267-9516']", metadata={'source': '/Users/teddy/Dev/github/langchain-tutorial/tutorial/part2-langchain/07-RAG/data/people.json', 'seq_num': 5}),
 Document(page_content="['462-4433-5968'

In [48]:
data[0].metadata

{'source': '/Users/teddy/Dev/github/langchain-tutorial/tutorial/part2-langchain/07-RAG/data/people.json',
 'seq_num': 1}

In [49]:
print(data[0].page_content)

['483-4639-1933', '947-4179-7976']


## TXT Loader


In [61]:
from langchain_community.document_loaders import TextLoader

loader = TextLoader("data/appendix-keywords.txt")
docs = loader.load()
print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'data/appendix-keywords.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어


## File Directory


[참고]

mac 유저는 `brew install poppler` 명령어로 설치가 선행되어야 합니다.


In [130]:
from langchain_community.document_loaders import DirectoryLoader

loader = DirectoryLoader(".", glob="data/*.pdf")
docs = loader.load()

print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

PdfReadError("Invalid Elementary Object starting with b'\\xbb' @1393499: b'F4\\n/BaseFont /G\\xb8\\xb6\\xc4\\xcf \\xbb\\xea\\xbd\\xba Bold\\n/Encoding /Identity-H\\n\\n/DescendantFonts [ 247 0 R\\n'")
'DescendantFonts'
PDF text extraction failed, skip text extraction...


문서의 수: 3

[메타데이터]

{'source': 'data/[DI]_ChatGPT의_파급_효과와_기관의_LLM_도입_전략.pdf'}


Digital Insight 2023

NAGS atte

ChatGPT?2l Dts S2tet Jizto] LLM &Bi MEF

cael ee Saar AGENCY

Digital Insight 2023 ChatGPT2| Df} Hz}2} 7|z2| LLM SY et

Contents

meeees™ FM 112 acl 24a - 01

Ba ao) &Sctransfer Learning)

?|2 2&\(Foundation Model) - 02 I crt-39] SSé Ao] Bg - 04 Dy crr-32 9lst est - 06

Gi um 2 #2. 07 Fa ets! Lum st - 07

ro

ChatGPT $=3}7} 22 MYIAR Olst al Hal 7}SSt- 10 ABall OIE Se BI szso) ce oge aey aa. 11

SEA! AA SAAC! AB - 12

PALO] Al AA BARS + 14

AMH|AOIA, AE AB|AS - 15


In [129]:
loader = DirectoryLoader(".", glob="data/*.txt", show_progress=True)
docs = loader.load()

print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])


[A
100%|██████████| 5/5 [00:00<00:00, 35.21it/s]

문서의 수: 5

[메타데이터]

{'source': 'data/appendix-keywords-CP949.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다. 예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다. 연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다. 예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다. 연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다. 예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다. 연관키워드: 토큰화, 자연어





In [123]:
loader = DirectoryLoader("../", glob="**/*.txt", use_multithreading=True)
docs = loader.load()

print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[1].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[1].page_content[:500])

CPU times: user 7 µs, sys: 0 ns, total: 7 µs
Wall time: 8.82 µs
문서의 수: 5

[메타데이터]

{'source': '../07-RAG/data/appendix-keywords.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다. 예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다. 연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다. 예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다. 연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다. 예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다. 연관키워드: 토큰화, 자연어


In [117]:
from langchain_community.document_loaders import PythonLoader

loader = DirectoryLoader(".", glob="**/*.py", loader_cls=PythonLoader)
docs = loader.load()

print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'data/audio_utils.py'}


import re
import os
from pytube import YouTube
from moviepy.editor import AudioFileClip, VideoFileClip
from pydub import AudioSegment
from pydub.silence import detect_nonsilent


def extract_abr(abr):
    youtube_audio_pattern = re.compile(r"\d+")
    kbps = youtube_audio_pattern.search(abr)
    if kbps:
        kbps = kbps.group()
        return int(kbps)
    else:
        return 0


def get_audio_filepath(filename):
    # audio 폴더가 없으면 생성
    if not os.path.isdir("audio"):
        os.mkdir("au


## TextLoader를 통한 파일 인코딩 자동 감지

이 예제에서는 TextLoader 클래스를 사용하여 디렉토리에서 임의의 파일 목록을 대량으로 로드할 때 유용한 몇 가지 전략을 살펴보겠습니다.

먼저 문제를 설명하기 위해 임의의 인코딩으로 여러 개의 텍스트를 로드해 보겠습니다.


- `silent_errors`: 디렉토리로더에 silent_errors 매개변수를 전달하여 로드할 수 없는 파일을 건너뛰고 로드 프로세스를 계속할 수 있습니다.
- `autodetect_encoding`: 또한 로더 클래스에 자동 감지\_인코딩을 전달하여 실패하기 전에 파일 인코딩을 자동으로 감지하도록 요청할 수도 있습니다.


In [101]:
path = "data/"

text_loader_kwargs = {"autodetect_encoding": True}

loader = DirectoryLoader(
    path,
    glob="**/*.txt",
    loader_cls=TextLoader,
    silent_errors=True,
    loader_kwargs=text_loader_kwargs,
)
docs = loader.load()

`data/appendix-keywords.txt` 파일과 파일명이 유사한 파생 파일들은 모두 인코딩 방식이 다른 파일들입니다.


In [102]:
doc_sources = [doc.metadata["source"] for doc in docs]
doc_sources

['data/appendix-keywords-CP949.txt',
 'data/reference.txt',
 'data/appendix-keywords-EUCKR.txt',
 'data/appendix-keywords.txt',
 'data/appendix-keywords-utf8.txt']

In [113]:
print("[메타데이터]\n")
print(docs[2].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[2].page_content[:500])

[메타데이터]

{'source': 'data/appendix-keywords-EUCKR.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어


In [112]:
print("[메타데이터]\n")
print(docs[3].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[3].page_content[:500])

[메타데이터]

{'source': 'data/appendix-keywords.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어


In [111]:
print("[메타데이터]\n")
print(docs[4].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[4].page_content[:500])

[메타데이터]

{'source': 'data/appendix-keywords-utf8.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어
