In [2]:
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import UnstructuredFileLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings, CacheBackedEmbeddings
from langchain.storage import LocalFileStore

cache_dir = LocalFileStore("./.cache/")

splitter = CharacterTextSplitter.from_tiktoken_encoder(
    separator="\n",
    chunk_size=600,
    chunk_overlap=100,
)

loader = UnstructuredFileLoader("./files/anna_short.txt")

docs = loader.load_and_split(text_splitter=splitter)

embeddings = OpenAIEmbeddings()

vectorstore = Chroma.from_documents(docs, embeddings)

In [3]:
results = vectorstore.similarity_search("who is anna")

results

[Document(page_content='확실히 전학생인 히메미야 카렌은 찍소리도 못할 미소녀다.\n야나미도 귀여움으론 밀리지 않겠지만, 게임이나 애니메이션의 메인 히로인을 맡을 정도의 화려함──그것만큼은 타고나야 하는 법이다.\n나는 야나미에게 다소나마 친근감을 느끼면서 위로하는 말투로 묻는다.\n"역시 야나미 씨랑 하카마다 사귀고 있었구나"\n"뭐? 시, 싫다, 그렇게 보였을라나. 쬐끄맸던 시절부터 잘 어울린다고 들었거든. 역시 외부에선 그렇게 보이는구나. 에헤헤"\n붉어진 뺨을 부끄러운 듯 손으로 덮는 야나미.\n어, 그 말은 즉……?', metadata={'source': './files/anna_short.txt'}),
 Document(page_content='야나미의 손에서 전표를 받는다. 진짜 얼마나 먹은 거야.\n하카마다 녀석, 스테이크 세트 같은 걸 주문 했잖아. 야나미는 야나미 대로 허세 부리듯 샐러드랑 수프만 주문했나 싶더니, 아무래도 부족했던 듯 햄버그 세트랑 디저트를 추가 주문했잖아. 뭔데 이 무계획성.\n"됐어, 내가 대신 낼 테니까 월요일날 돌려줘"\n아아, 집에 가는 길에 라노벨 한 보따리 사들이려고 했는데.\n그렇긴 하지만 나도 사정을 듣고 말았으니 클래스메이트를 내다 버릴 정도로 박정하지도 않다.', metadata={'source': './files/anna_short.txt'}),
 Document(page_content='"……사과하지 말라구, 바보"\n그나저나 난 도대체 무슨 상황을 맞닥뜨린 거지. 인연 없는 인싸 세계의 사건이긴 해도 나에게도 인정이란 게 있다. 여기는 못 본 척하자.\n메뉴판으로 얼굴을 숨기고 시간이 지나가길 바라는 나는 그만 눈을 의심하고 말았다.\n──윽?! 설마, 설마 그런 짓을!\n지금 막 차였던 소녀, 야나미 안나. 그녀가 천천히 컵으로 손을 뻗는 것이었다.\n자신을 막 차버린 남자, 하카마다 소스케의 컵으로.\n──그만둬! 그런 슬픈 짓은 멈추라고!', metadata={'source':