### 문서 저장

In [1]:
from langchain.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain_huggingface import HuggingFaceEmbeddings

# 임베딩 모델을 로드
embeddings = HuggingFaceEmbeddings(
    model_name="snunlp/KR-SBERT-V40K-klueNLI-augSTS"
)

# PDF 파일을 로드하고 페이지를 분할
loader = PyPDFLoader("data/대한민국헌법(헌법)(제00010호)(19880225).pdf")
pages = loader.load_and_split()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
docs = text_splitter.split_documents(pages)

# Chroma DB에 문서 저장
db = Chroma.from_documents(docs, embeddings)

  from .autonotebook import tqdm as notebook_tqdm


### 문서 검색

In [2]:
query = "대통령의 임기는?"

# 유사 문서 검색
docs = db.similarity_search(query)
print(docs[0])

page_content='후임자를 선거한다.
 
제69조 대통령은 취임에 즈음하여 다음의 선서를 한다.
“나는 헌법을 준수하고 국가를 보위하며 조국의 평화적 통일과 국민의 자유와 복리의 증진 및 민족문화의 창달에
노력하여 대통령으로서의 직책을 성실히 수행할 것을 국민 앞에 엄숙히 선서합니다.”
 
제70조 대통령의 임기는 5년으로 하며, 중임할 수 없다.
 
제71조 대통령이 궐위되거나 사고로 인하여 직무를 수행할 수 없을 때에는 국무총리, 법률이 정한 국무위원의 순서로
그 권한을 대행한다.
 
제72조 대통령은 필요하다고 인정할 때에는 외교ㆍ국방ㆍ통일 기타 국가안위에 관한 중요정책을 국민투표에 붙일 수
있다.
 
제73조 대통령은 조약을 체결ㆍ비준하고, 외교사절을 신임ㆍ접수 또는 파견하며, 선전포고와 강화를 한다.
 
제74조 ①대통령은 헌법과 법률이 정하는 바에 의하여 국군을 통수한다.
②국군의 조직과 편성은 법률로 정한다.' metadata={'creationdate': '2024-04-01T21:26:24+09:00', 'creator': 'PyPDF', 'moddate': '2024-04-01T21:26:24+09:00', 'page': 6, 'page_label': '7', 'producer': 'iText 2.1.7 by 1T3XT', 'source': 'data/대한민국헌법(헌법)(제00010호)(19880225).pdf', 'total_pages': 14}


In [3]:
# 유사 문서 검색 및 유사도 출력
db.similarity_search_with_score(query)

[(Document(metadata={'creationdate': '2024-04-01T21:26:24+09:00', 'creator': 'PyPDF', 'moddate': '2024-04-01T21:26:24+09:00', 'page': 6, 'page_label': '7', 'producer': 'iText 2.1.7 by 1T3XT', 'source': 'data/대한민국헌법(헌법)(제00010호)(19880225).pdf', 'total_pages': 14}, page_content='후임자를 선거한다.\n \n제69조 대통령은 취임에 즈음하여 다음의 선서를 한다.\n“나는 헌법을 준수하고 국가를 보위하며 조국의 평화적 통일과 국민의 자유와 복리의 증진 및 민족문화의 창달에\n노력하여 대통령으로서의 직책을 성실히 수행할 것을 국민 앞에 엄숙히 선서합니다.”\n \n제70조 대통령의 임기는 5년으로 하며, 중임할 수 없다.\n \n제71조 대통령이 궐위되거나 사고로 인하여 직무를 수행할 수 없을 때에는 국무총리, 법률이 정한 국무위원의 순서로\n그 권한을 대행한다.\n \n제72조 대통령은 필요하다고 인정할 때에는 외교ㆍ국방ㆍ통일 기타 국가안위에 관한 중요정책을 국민투표에 붙일 수\n있다.\n \n제73조 대통령은 조약을 체결ㆍ비준하고, 외교사절을 신임ㆍ접수 또는 파견하며, 선전포고와 강화를 한다.\n \n제74조 ①대통령은 헌법과 법률이 정하는 바에 의하여 국군을 통수한다.\n②국군의 조직과 편성은 법률로 정한다.'),
  339.7977600097656),
 (Document(metadata={'creationdate': '2024-04-01T21:26:24+09:00', 'creator': 'PyPDF', 'moddate': '2024-04-01T21:26:24+09:00', 'page': 9, 'page_label': '10', 'producer': 'iText 2.1.7 by 1T3XT', 'source': 'data/대한민국헌법(헌법)(제000

### 로컬디스크에 저장 및 로드

In [4]:
# Chroma DB에서 문서 삭제
Chroma().delete_collection()

  Chroma().delete_collection()


In [5]:
from langchain.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain_huggingface import HuggingFaceEmbeddings

# PDF 파일을 로드하고 페이지를 분할
loader = PyPDFLoader("data/대한민국헌법(헌법)(제00010호)(19880225).pdf")
pages = loader.load_and_split()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
docs = text_splitter.split_documents(pages)

# 임베딩 모델을 로드
ko_embedding = HuggingFaceEmbeddings(
    model_name="snunlp/KR-SBERT-V40K-klueNLI-augSTS"
)

# 디스크에 저장
db2 = Chroma.from_documents(docs, ko_embedding, persist_directory="./chroma_db")

# 디스크에서 로드
db3 = Chroma(persist_directory="./chroma_db", embedding_function=ko_embedding)

query = "대통령의 임기는?"
result = db3.similarity_search(query)
print(result[0].page_content)

후임자를 선거한다.
 
제69조 대통령은 취임에 즈음하여 다음의 선서를 한다.
“나는 헌법을 준수하고 국가를 보위하며 조국의 평화적 통일과 국민의 자유와 복리의 증진 및 민족문화의 창달에
노력하여 대통령으로서의 직책을 성실히 수행할 것을 국민 앞에 엄숙히 선서합니다.”
 
제70조 대통령의 임기는 5년으로 하며, 중임할 수 없다.
 
제71조 대통령이 궐위되거나 사고로 인하여 직무를 수행할 수 없을 때에는 국무총리, 법률이 정한 국무위원의 순서로
그 권한을 대행한다.
 
제72조 대통령은 필요하다고 인정할 때에는 외교ㆍ국방ㆍ통일 기타 국가안위에 관한 중요정책을 국민투표에 붙일 수
있다.
 
제73조 대통령은 조약을 체결ㆍ비준하고, 외교사절을 신임ㆍ접수 또는 파견하며, 선전포고와 강화를 한다.
 
제74조 ①대통령은 헌법과 법률이 정하는 바에 의하여 국군을 통수한다.
②국군의 조직과 편성은 법률로 정한다.
