In [1]:
from dotenv import load_dotenv
load_dotenv()

True

In [8]:
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings
from langchain.storage import InMemoryStore
from langchain.retrievers import ParentDocumentRetriever

In [3]:
loaders = [
    TextLoader("./data/appendix-keywords.txt")
]

docs = []

for loader in loaders:
    docs.extend(loader.load())

In [4]:
len(docs)

1

In [9]:
embedding = OpenAIEmbeddings(model="text-embedding-3-small")
child_splitter = RecursiveCharacterTextSplitter(chunk_size=200)

vector_store = Chroma(
    collection_name="full-documents", embedding_function=embedding
)

store = InMemoryStore()

In [11]:
retriever = ParentDocumentRetriever(
    vectorstore=vector_store,
    docstore=store,
    child_splitter=child_splitter
)

In [14]:
# 문서를 검색기에 추가합니다. docs는 문서 목록이고, ids는 문서의 고유 식별자 목록입니다.
retriever.add_documents(docs, ids=None, add_to_docstore=True)

In [15]:
vector_store.similarity_search("Word2Vec")

[Document(metadata={'doc_id': '8c319922-48f5-4823-a633-d544c20f005f', 'source': './data/appendix-keywords.txt'}, page_content='정의: Word2Vec은 단어를 벡터 공간에 매핑하여 단어 간의 의미적 관계를 나타내는 자연어 처리 기술입니다. 이는 단어의 문맥적 유사성을 기반으로 벡터를 생성합니다.\n예시: Word2Vec 모델에서 "왕"과 "여왕"은 서로 가까운 위치에 벡터로 표현됩니다.\n연관키워드: 자연어 처리, 임베딩, 의미론적 유사성'),
 Document(metadata={'doc_id': '8c319922-48f5-4823-a633-d544c20f005f', 'source': './data/appendix-keywords.txt'}, page_content='예시: Word2Vec 모델에서 "왕"과 "여왕"은 서로 가까운 위치에 벡터로 표현됩니다.\n연관키워드: 자연어 처리, 임베딩, 의미론적 유사성\nLLM (Large Language Model)'),
 Document(metadata={'doc_id': '8c319922-48f5-4823-a633-d544c20f005f', 'source': './data/appendix-keywords.txt'}, page_content='TF-IDF (Term Frequency-Inverse Document Frequency)'),
 Document(metadata={'doc_id': '8c319922-48f5-4823-a633-d544c20f005f', 'source': './data/appendix-keywords.txt'}, page_content='정의: TF-IDF는 문서 내에서 단어의 중요도를 평가하는 데 사용되는 통계적 척도입니다. 이는 문서 내 단어의 빈도와 전체 문서 집합에서 그 단어의 희소성을 고려합니다.\n예시: 많은 문서에서 자주 등장하지 않는 단어는 높은 TF-IDF 값을 가집니다.\n연관

In [16]:
# 저장소의 모든 키를 리스트로 반환합니다.
list(store.yield_keys())

['8c319922-48f5-4823-a633-d544c20f005f']

In [19]:
sub_docs=vector_store.similarity_search("Word2Vec")


In [20]:
sub_docs[0].page_content

'정의: Word2Vec은 단어를 벡터 공간에 매핑하여 단어 간의 의미적 관계를 나타내는 자연어 처리 기술입니다. 이는 단어의 문맥적 유사성을 기반으로 벡터를 생성합니다.\n예시: Word2Vec 모델에서 "왕"과 "여왕"은 서로 가까운 위치에 벡터로 표현됩니다.\n연관키워드: 자연어 처리, 임베딩, 의미론적 유사성'