# Loader Interface
- loader 객체: 다양한 loader 도구(클래스)를 통해 객체를 생성
- `load()`: 전체 문서를 로드하여 반환
- `load_and_split()`: 문서를 split한 결과를 반환

In [1]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

## PyPDFLoader
- PDF 문서를 불러올 때 사용

In [4]:
from langchain.document_loaders import PyPDFLoader

# PDF 파일 로드. 파일의 경로 입력
loader = PyPDFLoader("./data/SPRI_AI_Brief_2023년12월호_F.pdf")

# 페이지 별 문서 로드
split_docs = loader.load_and_split()

print(f"문서의 수: {len(split_docs)}")

문서의 수: 23


In [5]:
split_docs[1]

Document(page_content='2023 년 12월호\nⅠ. 인공지능 산업 동향 브리프\n 1. 정책/법제 \n   ▹ 미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표  ························· 1\n   ▹ G7, 히로시마 AI 프로세스를 통해 AI 기업 대상 국제 행동강령에 합의··························· 2\n   ▹ 영국 AI 안전성 정상회의에 참가한 28개국, AI 위험에 공동 대응 선언··························· 3\n   ▹ 미국 법원, 예술가들이 생성 AI 기업에 제기한 저작권 소송 기각····································· 4\n   ▹ 미국 연방거래위원회 , 저작권청에 소비자 보호와 경쟁 측면의 AI 의견서 제출················· 5\n   ▹ EU AI 법 3자 협상, 기반모델 규제 관련 견해차로 난항··················································· 6\n \n 2. 기업/산업 \n   ▹ 미국 프런티어 모델 포럼, 1,000 만 달러 규모의 AI 안전 기금 조성································ 7\n   ▹ 코히어 , 데이터 투명성 확보를 위한 데이터 출처 탐색기 공개  ······································· 8\n   ▹ 알리바바 클라우드 , 최신 LLM ‘통이치엔원 2.0’ 공개 ······················································ 9\n   ▹ 삼성전자 , 자체 개발 생성 AI ‘삼성 가우스 ’ 공개 ··························································· 10\n   ▹ 구글, 앤스로픽에 20억 달러 투자로 생성 AI 협력 강화 ···········································

## PyMuPDF
- PDF 내에 모든 텍스트를 문자열 형식으로 로드하여 하나의 큰 문자열로 합친 뒤, 이를 split하는 방식

In [8]:
import fitz

# 파일열기
doc = fitz.open("./data/SPRI_AI_Brief_2023년12월호_F.pdf")


# 페이지별로 문서를 읽어오면서 하나의 문자열에 append 하여 결합
texts = ""
for page in doc:
    texts += page.get_text()

# 일부 글자만 출력
print(texts[3000:4000])

 개발하고, 주택 임대 시 AI 알고리즘 차별을 막기 위한 명확한 
지침을 제공하며, 보건복지 부문에서 책임 있는 AI 배포와 사용을 위한 전략을 마련 
n (소비자 보호와 근로자 지원) 의료 분야에서 책임 있는 AI 사용을 촉진하고 맞춤형 개인교습 등 학교 
내 AI 교육 도구 관련 자원을 개발하며, AI로 인한 근로자 피해를 완화하고 이점을 극대화하는 원칙과 
모범사례를 마련
n (혁신과 경쟁 촉진) 국가AI연구자원(National Artificial Intelligence Research Resource, NAIRR)*을 
통해 미국 전역의 AI 연구를 촉진하고, 중소기업과 개발자에 기술과 인프라를 지원
* 국가 차원에서 AI 연구 인프라를 확충해 더 많은 AI 연구자에게 인프라를 지원하는 프로그램 
∙비자 기준과 인터뷰 절차의 현대화와 간소화로 AI 관련 주요 분야의 전문 지식을 갖춘 외국인들이 미국에서 
공부하고 취업할 수 있도록 지원
☞ 출처 : The White House, Executive Order on the Safe, Secure, and Trustworthy Development and Use of 
Artificial Intelligence (E.O. 14110), 2023.10.30.
SPRi AI Brief |  
2023-12월호
2
G7, 히로시마 AI 프로세스를 통해 AI 기업 대상 국제 행동강령에 합의
n G7이 첨단 AI 시스템을 개발하는 기업을 대상으로 AI 위험 식별과 완화를 위해 자발적인 
채택을 권고하는 AI 국제 행동강령을 마련
n 행동강령은 AI 수명주기 전반에 걸친 위험 평가와 완화, 투명성과 책임성의 보장, 정보공유와 
이해관계자 간 협력, 보안 통제, 콘텐츠 인증과 출처 확인 등의 조치를 요구
KEY Contents
£ G7, 첨단 AI 시스템의 위험 관리를 위한 국제 행동강령 마련
n 주요 7개국(G7)*은 2023년 10월 30일 ‘히로시마 AI 프로세스’를 통해 AI 기업 대상의 AI 국제 
행동강령(I

In [9]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=2000,
    chunk_overlap=50,
    length_function=len,
    separators=["\n\n", "\n", "(?<=\. )", " ", ""],
)

split_texts = text_splitter.split_text(texts)
print(f"문서의 수: {len(split_texts)}")

문서의 수: 15


## PDFPlumber
- 페이지당 하나의 문서를 반환하며, PDF 내용과 자세한 메타데이터를 포함한다.

In [11]:
from langchain_community.document_loaders import PDFPlumberLoader

loader = PDFPlumberLoader("./data/SPRI_AI_Brief_2023년12월호_F.pdf")
docs = loader.load()
print(f"문서의 수: {len(docs)}")

문서의 수: 23


In [12]:
docs[0].metadata

{'source': './data/SPRI_AI_Brief_2023년12월호_F.pdf',
 'file_path': './data/SPRI_AI_Brief_2023년12월호_F.pdf',
 'page': 0,
 'total_pages': 23,
 'Author': 'dj',
 'Creator': 'Hwp 2018 10.0.0.13462',
 'Producer': 'Hancom PDF 1.3.0.542',
 'CreationDate': "D:20231208132838+09'00'",
 'ModDate': "D:20231208132838+09'00'",
 'PDFVersion': '1.4'}

In [14]:
docs[3].page_content

'1. 정책/법제 2. 기업/산업 3. 기술/연구 4. 인력/교육\n미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표\nKEY Contents\nn 미국 바이든 대통령이 ‘안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령’에 서명하고\n광범위한 행정 조치를 명시\nn 행정명령은 △AI의 안전과 보안 기준 마련 △개인정보보호 △형평성과 시민권 향상 △소비자\n보호 △노동자 지원 △혁신과 경쟁 촉진 △국제협력을 골자로 함\n£바이든 대통령, AI 행정명령 통해 안전하고 신뢰할 수 있는 AI 개발과 활용 추진\nn 미국 바이든 대통령이 2023년 10월 30일 연방정부 차원에서 안전하고 신뢰할 수 있는 AI 개발과\n사용을 보장하기 위한 행정명령을 발표\n∙ 행정명령은 △AI의 안전과 보안 기준 마련 △개인정보보호 △형평성과 시민권 향상 △소비자 보호\n△노동자 지원 △혁신과 경쟁 촉진 △국제협력에 관한 내용을 포괄\nn (AI 안전과 보안 기준) 강력한 AI 시스템을 개발하는 기업에게 안전 테스트 결과와 시스템에 관한\n주요 정보를 미국 정부와 공유할 것을 요구하고, AI 시스템의 안전성과 신뢰성 확인을 위한 표준 및\nAI 생성 콘텐츠 표시를 위한 표준과 모범사례 확립을 추진\n∙ △1026 플롭스(FLOPS, Floating Point Operation Per Second)를 초과하는 컴퓨팅 성능 또는 생물학적\n서열 데이터를 주로 사용하고 1023플롭스를 초과하는 컴퓨팅 성능을 사용하는 모델 △단일 데이터센터에서\n1,000Gbit/s 이상의 네트워킹으로 연결되며 AI 훈련에서 이론상 최대 1020 플롭스를 처리할 수 있는\n컴퓨팅 용량을 갖춘 컴퓨팅 클러스터가 정보공유 요구대상\nn (형평성과 시민권 향상) 법률, 주택, 보건 분야에서 AI의 무책임한 사용으로 인한 차별과 편견 및 기타\n문제를 방지하는 조치를 확대\n∙ 형사사법 시스템에서 AI 사용 모범사례를 개발하고, 주택 임대 시 AI 알고리즘 차별을 막기 위한 명확한\

# UnstructuredPDFLoader
- 내부적으로 텍스트 덩어리마다 서로 다른 "element"를 가지고 있으며, `mode="elements"`를 지정하면 덩어리별로 문서를 반환한다.

In [21]:
from langchain_community.document_loaders import UnstructuredPDFLoader

loader = UnstructuredPDFLoader("./data/SPRI_AI_Brief_2023년12월호_F.pdf", mode="elements")
docs = loader.load()
print(f"문서의 수: {len(docs)}")

[nltk_data] Downloading package punkt to /home/dudaji/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/dudaji/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


문서의 수: 652


In [22]:
docs[0].metadata

{'source': './data/SPRI_AI_Brief_2023년12월호_F.pdf',
 'coordinates': {'points': ((256.579467, 282.444348),
   (256.579467, 303.42387300000007),
   (355.4236898438, 303.42387300000007),
   (355.4236898438, 282.444348)),
  'system': 'PixelSpace',
  'layout_width': 612,
  'layout_height': 858},
 'file_directory': './data',
 'filename': 'SPRI_AI_Brief_2023년12월호_F.pdf',
 'languages': ['eng'],
 'last_modified': '2024-06-02T16:44:24',
 'page_number': 1,
 'filetype': 'application/pdf',
 'category': 'UncategorizedText'}

In [23]:
docs[3].metadata


{'source': './data/SPRI_AI_Brief_2023년12월호_F.pdf',
 'coordinates': {'points': ((157.56, 270.88800000000003),
   (157.56, 281.928),
   (223.522032, 281.928),
   (223.522032, 270.88800000000003)),
  'system': 'PixelSpace',
  'layout_width': 612,
  'layout_height': 858},
 'file_directory': './data',
 'filename': 'SPRI_AI_Brief_2023년12월호_F.pdf',
 'languages': ['eng'],
 'last_modified': '2024-06-02T16:44:24',
 'page_number': 2,
 'parent_id': '681f54ee913d24083279b457d31994e9',
 'filetype': 'application/pdf',
 'category': 'ListItem'}

In [24]:
docs[10].page_content


'2. 기업/산업'

## PyPDF Directory
폴더 안에 있는 모든 PDF 파일을 로드

In [25]:
from langchain_community.document_loaders import PyPDFDirectoryLoader

loader = PyPDFDirectoryLoader("./data/")
docs = loader.load()

In [26]:
print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[10].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[10].page_content[:500])

문서의 수: 23

[메타데이터]

{'source': 'data/SPRI_AI_Brief_2023년12월호_F.pdf', 'page': 10}


SPRi AI Brief |  
2023-12 월호
8코히어 , 데이터 투명성 확보를 위한 데이터 출처 탐색기 공개
n코히어와 12개 기관이  광범위한 데이터셋에 대한 감사를 통해 원본 데이터 출처, 재라이선스 상태, 
작성자 등 다양한 정보를 제공하는 ‘데이터 출처 탐색기 ’ 플랫폼을 출시
n대화형 플랫폼을 통해 개발자는 데이터셋의 라이선스 상태를 쉽게 파악할 수 있으며 데이터셋의 
구성과 계보도 추적 가능KEY Contents
£데이터 출처 탐색기 , 광범위한 데이터셋 정보 제공을 통해 데이터 투명성 향상
nAI 기업 코히어 (Cohere) 가 매사추세츠 공과⼤(MIT), 하버드 ⼤ 로스쿨 , 카네기멜론 ⼤ 등 12개 기관과  
함께 2023 년 10월 25일 ‘데이터 출처 탐색기 (Data Provenance Explorer)’ 플랫폼을 공개
∙AI 모델 훈련에 사용되는 데이터셋의 불분명한 출처로 인해 데이터 투명성이 확보되지 않아 다양한 
법적·윤리적 문제가 발생
∙이에 연구


## CSV
- 한 row가 문서 하나가 된다

In [30]:
from langchain_community.document_loaders.csv_loader import CSVLoader


loader = CSVLoader(file_path="data/titanic.csv")
data = loader.load()

In [31]:
len(data)

20

In [33]:
print(data[10])
print(data[10].page_content)


page_content='PassengerId: 11\nSurvived: 1\nPclass: 3\nName: Sandstrom, Miss. Marguerite Rut\nSex: female\nAge: 4\nSibSp: 1\nParch: 1\nTicket: PP 9549\nFare: 16.7\nCabin: G6\nEmbarked: S' metadata={'source': 'data/titanic.csv', 'row': 10}
PassengerId: 11
Survived: 1
Pclass: 3
Name: Sandstrom, Miss. Marguerite Rut
Sex: female
Age: 4
SibSp: 1
Parch: 1
Ticket: PP 9549
Fare: 16.7
Cabin: G6
Embarked: S


## HTML
- 기본 mode는 single이지만 elements로 하면 unstructured 라이브러리를 통해 HTML을 쪼개서 문서를 반환한다.

In [34]:
from langchain_community.document_loaders import UnstructuredHTMLLoader

loader = UnstructuredHTMLLoader("data/client.html")
docs = loader.load()
docs

[Document(page_content='Name: 박시우\n\nAge: 31\n\nIsmarried: True\n\nCarownership: True\n\nAddress: street: 312번지, city: 서울, zipCode: 83795\n\nPhonenumbers: 483-4639-1933, 947-4179-7976\n\nHobbies: 요리, 음악 감상, 사진 촬영\n\nName: 정수아\n\nAge: 31\n\nIsmarried: False\n\nCarownership: True\n\nAddress: street: 877번지, city: 서울, zipCode: 36780\n\nPhonenumbers: 337-5721-3227, 387-3768-9586\n\nHobbies: 여행, 음악 감상, 등산\n\nName: 최도윤\n\nAge: 43\n\nIsmarried: False\n\nCarownership: True\n\nAddress: street: 175번지, city: 서울, zipCode: 89067\n\nPhonenumbers: 354-5563-4638, 471-9212-1826\n\nHobbies: 등산, 독서, 게임\n\nName: 정민준\n\nAge: 22\n\nIsmarried: False\n\nCarownership: False\n\nAddress: street: 690번지, city: 서울, zipCode: 70635\n\nPhonenumbers: 468-2796-2152, 922-5760-7030\n\nHobbies: 여행, 등산, 게임\n\nName: 이민준\n\nAge: 79\n\nIsmarried: True\n\nCarownership: False\n\nAddress: street: 151번지, city: 서울, zipCode: 79118\n\nPhonenumbers: 751-2823-8259, 722-7267-9516\n\nHobbies: 게임, 영화 감상, 음악 감상\n\nName: 최도윤\n\nAge: 64\n\nIs

In [36]:
print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'data/client.html'}


Name: 박시우

Age: 31

Ismarried: True

Carownership: True

Address: street: 312번지, city: 서울, zipCode: 83795

Phonenumbers: 483-4639-1933, 947-4179-7976

Hobbies: 요리, 음악 감상, 사진 촬영

Name: 정수아

Age: 31

Ismarried: False

Carownership: True

Address: street: 877번지, city: 서울, zipCode: 36780

Phonenumbers: 337-5721-3227, 387-3768-9586

Hobbies: 여행, 음악 감상, 등산

Name: 최도윤

Age: 43

Ismarried: False

Carownership: True

Address: street: 175번지, city: 서울, zipCode: 89067

Phonenumbers: 354-5563-4638, 471-9212-


In [43]:
loader = UnstructuredHTMLLoader("data/client.html", mode="elements")
docs = loader.load()
docs

[Document(page_content='Name: 박시우', metadata={'source': 'data/client.html', 'category_depth': 0, 'last_modified': '2024-06-02T17:03:39', 'languages': ['eng'], 'file_directory': 'data', 'filename': 'client.html', 'filetype': 'text/html', 'category': 'Title'}),
 Document(page_content='Age: 31', metadata={'source': 'data/client.html', 'category_depth': 0, 'last_modified': '2024-06-02T17:03:39', 'languages': ['eng'], 'file_directory': 'data', 'filename': 'client.html', 'filetype': 'text/html', 'category': 'Title'}),
 Document(page_content='Ismarried: True', metadata={'source': 'data/client.html', 'category_depth': 0, 'last_modified': '2024-06-02T17:03:39', 'languages': ['eng'], 'file_directory': 'data', 'filename': 'client.html', 'filetype': 'text/html', 'category': 'Title'}),
 Document(page_content='Carownership: True', metadata={'source': 'data/client.html', 'category_depth': 0, 'last_modified': '2024-06-02T17:03:39', 'languages': ['eng'], 'file_directory': 'data', 'filename': 'client.ht

### BSHTMLLoader
- html 파일을 로드하고, beautiful soup으로 파싱

In [46]:
from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader("data/client.html")
docs = loader.load()
docs

[Document(page_content='Sample DataName: 박시우Age: 31Ismarried: TrueCarownership: TrueAddress: street: 312번지, city: 서울, zipCode: 83795Phonenumbers: 483-4639-1933, 947-4179-7976Hobbies: 요리, 음악 감상, 사진 촬영Name: 정수아Age: 31Ismarried: FalseCarownership: TrueAddress: street: 877번지, city: 서울, zipCode: 36780Phonenumbers: 337-5721-3227, 387-3768-9586Hobbies: 여행, 음악 감상, 등산Name: 최도윤Age: 43Ismarried: FalseCarownership: TrueAddress: street: 175번지, city: 서울, zipCode: 89067Phonenumbers: 354-5563-4638, 471-9212-1826Hobbies: 등산, 독서, 게임Name: 정민준Age: 22Ismarried: FalseCarownership: FalseAddress: street: 690번지, city: 서울, zipCode: 70635Phonenumbers: 468-2796-2152, 922-5760-7030Hobbies: 여행, 등산, 게임Name: 이민준Age: 79Ismarried: TrueCarownership: FalseAddress: street: 151번지, city: 서울, zipCode: 79118Phonenumbers: 751-2823-8259, 722-7267-9516Hobbies: 게임, 영화 감상, 음악 감상Name: 최도윤Age: 64Ismarried: FalseCarownership: TrueAddress: street: 855번지, city: 서울, zipCode: 21216Phonenumbers: 462-4433-5968, 483-1709-4850Hobbies: 독서, 등산

In [47]:
print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'data/client.html', 'title': 'Sample Data'}


Sample DataName: 박시우Age: 31Ismarried: TrueCarownership: TrueAddress: street: 312번지, city: 서울, zipCode: 83795Phonenumbers: 483-4639-1933, 947-4179-7976Hobbies: 요리, 음악 감상, 사진 촬영Name: 정수아Age: 31Ismarried: FalseCarownership: TrueAddress: street: 877번지, city: 서울, zipCode: 36780Phonenumbers: 337-5721-3227, 387-3768-9586Hobbies: 여행, 음악 감상, 등산Name: 최도윤Age: 43Ismarried: FalseCarownership: TrueAddress: street: 175번지, city: 서울, zipCode: 89067Phonenumbers: 354-5563-4638, 471-9212-1826Hobbies: 등산, 독서, 게임Name


## JSONLoader
- JSON 파일을 로드할 때 쓰이며, 내부적으로 `jq` 패키지를 사용하므로 `jq` 문법에 맞춰서 사용해야 한다.

In [48]:
from langchain_community.document_loaders import JSONLoader

import json
from pathlib import Path
from pprint import pprint


file_path = "data/people.json"
data = json.loads(Path(file_path).read_text())

pprint(data)

[{'address': {'city': '서울', 'street': '312번지', 'zipCode': '83795'},
  'age': 31,
  'carOwnership': True,
  'hobbies': ['요리', '음악 감상', '사진 촬영'],
  'isMarried': True,
  'name': '박시우',
  'phoneNumbers': ['483-4639-1933', '947-4179-7976']},
 {'address': {'city': '서울', 'street': '877번지', 'zipCode': '36780'},
  'age': 31,
  'carOwnership': True,
  'hobbies': ['여행', '음악 감상', '등산'],
  'isMarried': False,
  'name': '정수아',
  'phoneNumbers': ['337-5721-3227', '387-3768-9586']},
 {'address': {'city': '서울', 'street': '175번지', 'zipCode': '89067'},
  'age': 43,
  'carOwnership': True,
  'hobbies': ['등산', '독서', '게임'],
  'isMarried': False,
  'name': '최도윤',
  'phoneNumbers': ['354-5563-4638', '471-9212-1826']},
 {'address': {'city': '서울', 'street': '690번지', 'zipCode': '70635'},
  'age': 22,
  'carOwnership': False,
  'hobbies': ['여행', '등산', '게임'],
  'isMarried': False,
  'name': '정민준',
  'phoneNumbers': ['468-2796-2152', '922-5760-7030']},
 {'address': {'city': '서울', 'street': '151번지', 'zipCode': '7911

In [51]:
loader = JSONLoader(
    file_path="data/people.json",
    jq_schema=".[].phoneNumbers", # page_content에 들어갈 요소를 jq 문법으로 지정
    text_content=False,
)

data = loader.load()

pprint(data)

[Document(page_content="['483-4639-1933', '947-4179-7976']", metadata={'source': '/home/dudaji/nopro-ws/gitRepo/llm-study/Langchain/07-document_loader/data/people.json', 'seq_num': 1}),
 Document(page_content="['337-5721-3227', '387-3768-9586']", metadata={'source': '/home/dudaji/nopro-ws/gitRepo/llm-study/Langchain/07-document_loader/data/people.json', 'seq_num': 2}),
 Document(page_content="['354-5563-4638', '471-9212-1826']", metadata={'source': '/home/dudaji/nopro-ws/gitRepo/llm-study/Langchain/07-document_loader/data/people.json', 'seq_num': 3}),
 Document(page_content="['468-2796-2152', '922-5760-7030']", metadata={'source': '/home/dudaji/nopro-ws/gitRepo/llm-study/Langchain/07-document_loader/data/people.json', 'seq_num': 4}),
 Document(page_content="['751-2823-8259', '722-7267-9516']", metadata={'source': '/home/dudaji/nopro-ws/gitRepo/llm-study/Langchain/07-document_loader/data/people.json', 'seq_num': 5}),
 Document(page_content="['462-4433-5968', '483-1709-4850']", metadata=

# Text Loader

In [52]:
from langchain_community.document_loaders import TextLoader

loader = TextLoader("data/appendix-keywords.txt")
docs = loader.load()
print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'data/appendix-keywords.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어


# File Directory
- 폴더 안에 특정 문서들을 한번에 로드할 수 있다.
- 내부적으로 [`UnstructuredLoader`](https://python.langchain.com/v0.1/docs/integrations/document_loaders/unstructured_file/)를 사용한다.
- Default로 single thread에서 동작하지만 `use_multithreading=True` 옵션을 통해 multi threading으로 로드할 수 있다.

In [53]:
from langchain_community.document_loaders import DirectoryLoader

loader = DirectoryLoader(".", glob="data/*.pdf")
docs = loader.load()

print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'data/SPRI_AI_Brief_2023년12월호_F.pdf'}


2023년 12월호

2023년 12월호

Ⅰ. 인공지능 산업 동향 브리프

1. 정책/법제

▹ 미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표 ························· 1

▹ G7, 히로시마 AI 프로세스를 통해 AI 기업 대상 국제 행동강령에 합의 ··························· 2

▹ 영국 AI 안전성 정상회의에 참가한 28개국, AI 위험에 공동 대응 선언 ··························· 3

▹ 미국 법원, 예술가들이 생성 AI 기업에 제기한 저작권 소송 기각 ····································· 4

▹ 미국 연방거래위원회, 저작권청에 소비자 보호와 경쟁 측면의 AI 의견서 제출 ················· 5

▹ EU AI 법 3자 협상, 기반모델 규제 관련 견해차로 난항 ············································


In [54]:
loader = DirectoryLoader(".", glob="data/*.txt", show_progress=True)
docs = loader.load()

print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

100%|██████████| 2/2 [00:00<00:00, 10.01it/s]

문서의 수: 2

[메타데이터]

{'source': 'data/appendix-keywords-CP949.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다. 예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다. 연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다. 예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다. 연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다. 예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다. 연관키워드: 토큰화, 자연어





위에서 언급했듯이 내부적으로 `UnstructuredLoader`를 사용한다고 했지만, 이는 `loader_cls` 옵션을 통해 바꿀 수 있다.

In [55]:
from langchain_community.document_loaders import PythonLoader

loader = DirectoryLoader(".", glob="**/*.py", loader_cls=PythonLoader)
docs = loader.load()

print(f"문서의 수: {len(docs)}\n")
print("[메타데이터]\n")
print(docs[0].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[0].page_content[:500])

문서의 수: 1

[메타데이터]

{'source': 'data/audio_utils.py'}


import re
import os
from pytube import YouTube
from moviepy.editor import AudioFileClip, VideoFileClip
from pydub import AudioSegment
from pydub.silence import detect_nonsilent


def extract_abr(abr):
    youtube_audio_pattern = re.compile(r"\d+")
    kbps = youtube_audio_pattern.search(abr)
    if kbps:
        kbps = kbps.group()
        return int(kbps)
    else:
        return 0


def get_audio_filepath(filename):
    # audio 폴더가 없으면 생성
    if not os.path.isdir("audio"):
        os.mkdir("au


# TextLoader 인코딩 자동감지
- 대량으로 text 파일을 로드할 때 유용한 옵션
- `silent_errors`: 로드할 수 없는 파일은 건너뛰고 계속 다음 로드 프로세스 진행
- `autodetect_encoding`: 파일 인코딩을 자동으로 감지하도록 요청

In [65]:
path = "data/"

# text_loader_kwargs = {"autodetect_encoding": True}

loader = DirectoryLoader(
    path,
    glob="**/*.txt",
    loader_cls=TextLoader,
    silent_errors=True,
    # loader_kwargs=text_loader_kwargs,
)
docs = loader.load()

Error loading file data/appendix-keywords-CP949.txt: Error loading data/appendix-keywords-CP949.txt
Error loading file data/appendix-keywords-EUCKR.txt: Error loading data/appendix-keywords-EUCKR.txt


In [70]:
path = "data/"

text_loader_kwargs = {"autodetect_encoding": True}

loader = DirectoryLoader(
    path,
    glob="**/*.txt",
    loader_cls=TextLoader,
    silent_errors=True,
    loader_kwargs=text_loader_kwargs, # 자동 인코딩 감지를 통해 원래 에러가 발생한 파일도 정상적으로 로드할 수 있다.
)
docs = loader.load()

In [67]:
doc_sources = [doc.metadata["source"] for doc in docs]
doc_sources

['data/chain-of-density.txt',
 'data/reference.txt',
 'data/appendix-keywords-CP949.txt',
 'data/appendix-keywords-utf8.txt',
 'data/appendix-keywords.txt',
 'data/appendix-keywords-EUCKR.txt']

In [68]:
print("[메타데이터]\n")
print(docs[2].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[2].page_content[:500])

[메타데이터]

{'source': 'data/appendix-keywords-CP949.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어


In [69]:
print("[메타데이터]\n")
print(docs[3].metadata)
print("\n========= [앞부분] 미리보기 =========\n")
print(docs[3].page_content[:500])

[메타데이터]

{'source': 'data/appendix-keywords-utf8.txt'}


Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어
