In [1]:
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import UnstructuredFileLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings, CacheBackedEmbeddings
from langchain.vectorstores import Chroma
from langchain.storage import LocalFileStore

In [2]:
__import__('pysqlite3')
import sys
sys.modules['sqlite3'] = sys.modules.pop('pysqlite3')

In [3]:
file_path = "../files/MEPC 80차 결과 보고서_송부 20230713_한국해운협회 해무팀.pdf"
cache_dir = LocalFileStore("./.cache/")

In [4]:
splitter = CharacterTextSplitter.from_tiktoken_encoder(
    separator="\n",
    chunk_size=600,
    chunk_overlap=100,
)
loader = UnstructuredFileLoader(file_path)

docs = loader.load_and_split(text_splitter=splitter)

embeddings = OpenAIEmbeddings()

cached_embeddings = CacheBackedEmbeddings.from_bytes_store(embeddings, cache_dir)

vectorstore = Chroma.from_documents(docs, cached_embeddings)

In [5]:
results = vectorstore.similarity_search("where does winston live")

results

[Document(page_content='보고서를 제출할 예정이다.\n이러한 WtW로 평가된 연료 적용 및 효과를 보기 위해서는 2027년 도입예정\n인 GFS+Levy의 적용이 필요하며, 연료 공급지역 및 항로별 취항선사 적용을\n위한 유불리 사항 파악 및 케이스별 대처가 필요한 상황이다.\n4. 바이오연료 사용 임시지침 승인\n지속 가능한 바이오연료를 현행 IMO 규제(DCS, CII 등)에 조기 적용할 수 있\n도록 CO2 배출계수를 ‘0’으로 산정할 것을 제안하는 결의서가 인도에 의해 제\n안되었다. 이에 대해 LCA 지침서 추가개발까지의 시간이 추가적으로 필요하고', metadata={'source': '../files/MEPC 80차 결과 보고서_송부 20230713_한국해운협회 해무팀.pdf'}),
 Document(page_content='되었다. “Mid-century”의 주장 근거는 글래스고 기후 합의 문구 내용에 포함\n되었음을 근거로 하였으며, 지지 국가는 중국, 브라질, 아르헨티나, 남아공, 우\n르과이, 사우디아라비아, 벨라루스, 러시아, 쿠바, 파라과이, 인도네시아, 페루,\n베네수엘라, 에콰도르 등이 지지하였다.\n글래스고 기후 합의문 문구 : The main goal was to secure global net\nzero by mid-century and keep a maximum of 1.5 C degrees of\nwarming within reach.\n“at least before 2050”을 지지하는 근거는 IPCC AR 61) 보고서 문구를 인용\n한 것으로써 지지국가는 우리나라, EU, 미국, 영국, 캐나다, 노르웨이, 군소도', metadata={'source': '../files/MEPC 80차 결과 보고서_송부 20230713_한국해운협회 해무팀.pdf'}),
 Document(page_content='변환 계수(Cf) 값을 정의할 수 있도록 하고 있고, 이에 따라 IMO LCA 가이드\n라인을 기반으로한 Wt