In [12]:
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import UnstructuredFileLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings, CacheBackedEmbeddings
from langchain.storage import LocalFileStore

cache_dir = LocalFileStore("./.cache/")


splitter = CharacterTextSplitter.from_tiktoken_encoder(
    separator="\n",
    chunk_size=600,
    chunk_overlap=100,
)

loader = UnstructuredFileLoader("./files/anna_short.txt")

docs = loader.load_and_split(text_splitter=splitter)

embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small",  # 모델 지정
)

cached_embeddings = CacheBackedEmbeddings.from_bytes_store(
    embeddings, cache_dir
)

vectorstore = Chroma.from_documents(docs, cached_embeddings)

In [15]:
results = vectorstore.similarity_search("")

results

[Document(page_content='……이러니까 삼차원은.\n그렇게 됐으니 철저하게 못 본 척하자. 나는 불지도 못하는 휘파람을 불면서 메뉴를 읽는 척 가장한다.\n그런 내 배려도 덧없이 야나미는 이쪽으로 와 맞은편 자리에 앉았다.\n실화냐. 왜 날 가만두지 않는 건데.\n"같은 반인 누쿠미즈 군, 맞지?"\n"으, 응. 야나미 씨, 있었구나. 전혀 알아차리지 못했어"\n우와, 완전 국어책 읽기잖아.\n"이, 이 일은 아무에게도 말하지 말아줘!"\n"그, 그래. 나는 아무것도 못 봤어. 괜찮아"\n"그래, 그렇다구! 누쿠미즈 군은 아무것도 보지 않았으니까!"', metadata={'source': './files/anna_short.txt'}),
 Document(page_content='……이러니까 삼차원은.\n그렇게 됐으니 철저하게 못 본 척하자. 나는 불지도 못하는 휘파람을 불면서 메뉴를 읽는 척 가장한다.\n그런 내 배려도 덧없이 야나미는 이쪽으로 와 맞은편 자리에 앉았다.\n실화냐. 왜 날 가만두지 않는 건데.\n"같은 반인 누쿠미즈 군, 맞지?"\n"으, 응. 야나미 씨, 있었구나. 전혀 알아차리지 못했어"\n우와, 완전 국어책 읽기잖아.\n"이, 이 일은 아무에게도 말하지 말아줘!"\n"그, 그래. 나는 아무것도 못 봤어. 괜찮아"\n"그래, 그렇다구! 누쿠미즈 군은 아무것도 보지 않았으니까!"', metadata={'source': './files/anna_short.txt'}),
 Document(page_content='……이러니까 삼차원은.\n그렇게 됐으니 철저하게 못 본 척하자. 나는 불지도 못하는 휘파람을 불면서 메뉴를 읽는 척 가장한다.\n그런 내 배려도 덧없이 야나미는 이쪽으로 와 맞은편 자리에 앉았다.\n실화냐. 왜 날 가만두지 않는 건데.\n"같은 반인 누쿠미즈 군, 맞지?"\n"으, 응. 야나미 씨, 있었구나. 전혀 알아차리지 못했어"\n우와, 완전 국어책 읽기잖아.\n"이, 이 일은 아무에게도 말하지 말아줘!"\n"그,