# 다중 벡터저장소 검색기(MultiVectorRetriever)

LangChain에서는 문서를 다양한 상황에서 효율적으로 쿼리할 수 있는 특별한 기능, 바로 `MultiVectorRetriever`를 제공합니다. 이 기능을 사용하면 문서를 여러 벡터로 저장하고 관리할 수 있어, 정보 검색의 정확도와 효율성을 대폭 향상시킬 수 있습니다. 오늘은 이 `MultiVectorRetriever`를 활용해 문서당 여러 벡터를 생성하는 몇 가지 방법을 살펴보겠습니다.

**문서당 여러 벡터 생성 방법 소개**

1. **작은 청크 생성**: 문서를 더 작은 단위로 나눈 후, 각 청크에 대해 별도의 임베딩을 생성합니다. 이 방식을 사용하면 문서의 특정 부분에 좀 더 세심한 주의를 기울일 수 있습니다. 이 과정은 `ParentDocumentRetriever`를 통해 구현할 수 있어, 세부 정보에 대한 탐색이 용이해집니다.

2. **요약 임베딩**: 각 문서의 요약을 생성하고, 이 요약으로부터 임베딩을 만듭니다. 이 요약 임베딩은 문서의 핵심 내용을 신속하게 파악하는 데 큰 도움이 됩니다. 문서 전체를 분석하는 대신 핵심적인 요약 부분만을 활용하여 효율성을 극대화할 수 있습니다.

3. **가설 질문 활용**: 각 문서에 대해 적합한 가설 질문을 만들고, 이 질문에 기반한 임베딩을 생성합니다. 특정 주제나 내용에 대해 깊이 있는 탐색을 원할 때 이 방법이 유용합니다. 가설 질문은 문서의 내용을 다양한 관점에서 접근하게 해주며, 더 광범위한 이해를 가능하게 합니다.

4. **수동 추가 방식**: 사용자가 문서 검색 시 고려해야 할 특정 질문이나 쿼리를 직접 추가할 수 있습니다. 이 방법을 통해 사용자는 검색 과정에서 보다 세밀한 제어를 할 수 있으며, 자신의 요구 사항에 맞춘 맞춤형 검색이 가능해집니다.

`MultiVectorRetriever`를 통해 이러한 다양한 접근 방식을 유연하게 활용함으로써, 사용자는 필요한 정보를 보다 정확하고 빠르게 찾을 수 있습니다. LangChain의 이 기능은 정보 검색 작업을 보다 효과적으로 만들어주는 훌륭한 도구입니다.


## 사용 방법


텍스트 파일에서 데이터를 로드하고, 로드된 문서들을 지정된 크기로 분할하는 전처리 과정을 수행합니다.

분할된 문서들은 추후 벡터화 및 검색 등의 작업에 사용될 수 있습니다.


In [1]:
from langchain.storage import InMemoryByteStore
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.retrievers.multi_vector import MultiVectorRetriever

loaders = [
    # 첫 번째 데이터를 로드합니다.
    TextLoader("./data/ai-story.txt"),
    # 두 번째 데이터를 로드합니다.
    TextLoader("./data/appendix-keywords.txt"),
]
docs = []  # 빈 문서 리스트를 초기화합니다.
for loader in loaders:
    docs.extend(loader.load())  # 각 로더에서 문서를 로드하여 docs 리스트에 추가합니다.

데이터로부터 로드한 원본 도큐먼트는 `docs` 변수에 담았습니다.


## 작은 청크 생성

대용량 정보를 검색하는 경우, 더 작은 단위로 정보를 임베딩하는 것이 유용할 수 있습니다.

이를 통해 임베딩은 의미론적 의미를 최대한 근접하게 포착하면서도, 가능한 한 많은 맥락을 하위 단계로 전달할 수 있습니다.

`ParentDocumentRetriever`가 수행하는 작업이 바로 이것입니다.


In [2]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

In [3]:
# 자식 청크를 인덱싱하는 데 사용할 벡터 저장소
import uuid

vectorstore = Chroma(
    collection_name="full_documents", embedding_function=OpenAIEmbeddings()
)
# 부모 문서의 저장소 계층
store = InMemoryByteStore()

id_key = "doc_id"
# 검색기 (시작 시 비어 있음)
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    byte_store=store,
    id_key=id_key,
)

# 문서 ID를 생성합니다.
doc_ids = [str(uuid.uuid4()) for _ in docs]
# 두개의 생성된 id를 확인합니다.
doc_ids

['72cda610-ea10-4953-b6c5-92bbfc6d5afd',
 '2d5252a7-3080-42c9-8cbe-6bf625d41c9f']

여기서 큰 청크로 분할하기 위한 `parent_text_splitter`

더 작은 청크로 분할하기 위한 `child_text_splitter` 를 정의합니다.


In [4]:
# RecursiveCharacterTextSplitter 객체를 생성합니다.
parent_text_splitter = RecursiveCharacterTextSplitter(chunk_size=4000)

# 더 작은 청크를 생성하는 데 사용할 분할기
child_text_splitter = RecursiveCharacterTextSplitter(chunk_size=400)

- `parent_text_splitter`를 사용하여 문서를 큰 청크 단위로 분할합니다.
- 각 문서의 메타데이터에 `"doc_id"`를 키로 하고 생성한 `uuid` 를 입력합니다.
- 최종적으로 `parent_docs` 리스트에는 원본 문서들이 큰 단위로 분할된 하위 문서들이 저장되며, 각 문서에는 원본 문서의 ID가 메타데이터로 포함됩니다.


In [5]:
parent_docs = []

for i, doc in enumerate(docs):
    _id = doc_ids[i]  # 현재 문서의 ID를 가져옵니다.
    # 현재 문서를 하위 문서로 분할합니다.
    parent_doc = parent_text_splitter.split_documents([doc])
    for _doc in parent_doc:  # 분할된 문서에 대해 반복합니다.
        # 문서의 메타데이터에 ID를 저장합니다.
        _doc.metadata[id_key] = _id
    parent_docs.extend(parent_doc)  # 분할된 문서를 리스트에 추가합니다.

- `child_text_splitter`를 사용하여 문서를 더 작은 청크로 분할합니다.
- 각 문서의 메타데이터에 `"doc_id"`를 키로 하고 생성한 `uuid` 를 입력합니다. 이는 작게 분할된 청크에 문서의 ID 를 부여하기 위함입니다.
- 최종적으로 `child_docs` 리스트에는 원본 문서들이 작게 분할된 하위 문서들이 저장되며, 각 하위 문서에는 원본 문서의 ID가 메타데이터로 포함됩니다.


In [6]:
child_docs = []  # 하위 문서를 저장할 리스트를 초기화합니다.
for i, doc in enumerate(docs):
    _id = doc_ids[i]  # 현재 문서의 ID를 가져옵니다.
    # 현재 문서를 하위 문서로 분할합니다.
    child_doc = child_text_splitter.split_documents([doc])
    for _doc in child_doc:  # 분할된 하위 문서에 대해 반복합니다.
        # 하위 문서의 메타데이터에 ID를 저장합니다.
        _doc.metadata[id_key] = _id
    child_docs.extend(child_doc)  # 분할된 하위 문서를 리스트에 추가합니다.

각각 분할된 청크의 수를 확인합니다.


In [7]:
print(f"분할된 parent_docs의 개수: {len(parent_docs)}")
print(f"분할된 child_docs의 개수: {len(child_docs)}")

분할된 parent_docs의 개수: 4
분할된 child_docs의 개수: 54


벡터저장소에 새롭게 생성한 작게 쪼개진 하위문서 집합을 추가합니다.

다음으로는 상위 문서는 생성한 UUID 와 맵핑하여 `docstore` 에 추가합니다.

- `mset()` 메서드를 통해 문서 ID와 문서 내용을 key-value 쌍으로 문서 저장소에 저장합니다.

(예시) `list(zip(doc_ids, docs))[0]`

```
('36d475a5-9f1a-40ab-aeb1-ba720fa229d8',
 Document(page_content='Scikit Learn\n\nScikit-learn은 Python 언어를 위한 또 다른 핵심 라이브러리로, 기계 학습의 다양한 알고리즘을 구현하기 위해 설계되었습니다. 이 라이브러리는 2007년 David Cournapeau에 의해 프로젝트가 시작되었으며, 그 후로 커뮤니티의 광범위한 기여를 받아 현재까지 발전해왔습니다. ...))
```


In [8]:
# 벡터 저장소에 하위 문서를 추가합니다.
retriever.vectorstore.add_documents(parent_docs)
retriever.vectorstore.add_documents(child_docs)

# 문서 저장소에 문서 ID와 문서를 매핑하여 저장합니다.
retriever.docstore.mset(list(zip(doc_ids, docs)))

주어진 키워드에 대한 유사도 검색을 수행합니다. 가장 유사도가 높은 첫 번째 문서 조각을 출력합니다.


In [9]:
# vectorstore의 유사도 검색을 수행합니다.
retriever.vectorstore.similarity_search("Word2Vec 의 정의?")

[Document(page_content='Word2Vec의 성공 이후, 이와 유사한 다른 단어 임베딩 기법들도 개발되었습니다. 그러나 Word2Vec은 그 간결함과 효율성, 높은 성능으로 인해 여전히 광범위하게 사용되며, NLP 분야에서 기본적인 도구로 자리 잡았습니다. Word2Vec는 단순한 텍스트 데이터를 통해 복잡한 언어의 의미 구조를 학습할 수 있는 강력한 방법을 제공함으로써, 컴퓨터가 인간 언어를 이해하는 방식을 혁신적으로 개선하였습니다.', metadata={'doc_id': '72cda610-ea10-4953-b6c5-92bbfc6d5afd', 'source': './data/ai-story.txt'}),
 Document(page_content='Word2Vec은 크게 두 가지 모델 아키텍처로 구성됩니다: Continuous Bag-of-Words (CBOW)와 Skip-Gram입니다. CBOW 모델은 주변 단어(맥락)를 기반으로 특정 단어를 예측하는 반면, Skip-Gram 모델은 하나의 단어로부터 주변 단어들을 예측합니다. 두 모델 모두 딥러닝이 아닌, 단순화된 신경망 구조를 사용하여 대규모 텍스트 데이터에서 학습할 수 있으며, 매우 효율적입니다.', metadata={'doc_id': '72cda610-ea10-4953-b6c5-92bbfc6d5afd', 'source': './data/ai-story.txt'}),
 Document(page_content='Word2Vec의 벡터 표현은 다양한 NLP 작업에 활용될 수 있습니다. 예를 들어, 단어의 유사도 측정, 문장이나 문서의 벡터 표현 생성, 기계 번역, 감정 분석 등이 있습니다. 또한, 벡터 연산을 통해 단어 간의 의미적 관계를 추론하는 것이 가능해집니다. 예를 들어, "king" - "man" + "woman"과 같은 벡터 연산을 수행하면, 결과적으로 "queen"과 유사한 벡터를 가진 단어를 찾을 수 있습니다.', metadata={'doc_id': '72cda610-ea10-

다음과 같이 `score_threshold` 를 추가하여 유사도 검색을 수행할 수 있습니다.

유사도 검색 결과에 유사도 점수가 0.5 이상인 결과만 반환합니다.

또한, `k` 의 계수도 지정할 수 있으며, `k` 는 검색되는 문서의 개수를 의미합니다.


In [13]:
# score_threshold를 사용하여 유사도 검색을 수행합니다.
retriever.vectorstore.similarity_search_with_relevance_scores(
    "Word2Vec 의 정의?", score_threshold=0.5, k=3
)

[(Document(page_content='Word2Vec의 성공 이후, 이와 유사한 다른 단어 임베딩 기법들도 개발되었습니다. 그러나 Word2Vec은 그 간결함과 효율성, 높은 성능으로 인해 여전히 광범위하게 사용되며, NLP 분야에서 기본적인 도구로 자리 잡았습니다. Word2Vec는 단순한 텍스트 데이터를 통해 복잡한 언어의 의미 구조를 학습할 수 있는 강력한 방법을 제공함으로써, 컴퓨터가 인간 언어를 이해하는 방식을 혁신적으로 개선하였습니다.', metadata={'doc_id': '72cda610-ea10-4953-b6c5-92bbfc6d5afd', 'source': './data/ai-story.txt'}),
  0.8502118705599201),
 (Document(page_content='Word2Vec은 크게 두 가지 모델 아키텍처로 구성됩니다: Continuous Bag-of-Words (CBOW)와 Skip-Gram입니다. CBOW 모델은 주변 단어(맥락)를 기반으로 특정 단어를 예측하는 반면, Skip-Gram 모델은 하나의 단어로부터 주변 단어들을 예측합니다. 두 모델 모두 딥러닝이 아닌, 단순화된 신경망 구조를 사용하여 대규모 텍스트 데이터에서 학습할 수 있으며, 매우 효율적입니다.', metadata={'doc_id': '72cda610-ea10-4953-b6c5-92bbfc6d5afd', 'source': './data/ai-story.txt'}),
  0.843839109014391),
 (Document(page_content='Word2Vec의 벡터 표현은 다양한 NLP 작업에 활용될 수 있습니다. 예를 들어, 단어의 유사도 측정, 문장이나 문서의 벡터 표현 생성, 기계 번역, 감정 분석 등이 있습니다. 또한, 벡터 연산을 통해 단어 간의 의미적 관계를 추론하는 것이 가능해집니다. 예를 들어, "king" - "man" + "woman"과 같은 벡터 연산을 수행하면, 결과적으로 "queen"과 유사한 벡터를 가진 단어를 

`retriever` 객체의 `get_relevant_documents` 메서드를 호출하여 관련된 문서를 검색합니다.

주어진 쿼리에 관련성이 높은 문서를 검색합니다.

여기서는 2개의 도큐먼트 안에 "Word2Vec" 의 정의가 포함되었기 때문에 2개의 문서 모두 검색 결과로 나왔습니다.


In [14]:
relevant_doc = retriever.get_relevant_documents("Word2Vec 의 정의?")
len(relevant_doc)

2

첫 번째로 찾은 문서의 내용의 문자열 길이를 확인하면 문서 전체가 출력됨을 확인할 수 있습니다.


In [15]:
# Retriever가 반환하는 문서의 길이를 확인합니다.
len(retriever.get_relevant_documents("Word2Vec 의 정의?")[0].page_content)

7482

리트리버(retriever)가 벡터 데이터베이스에서 기본적으로 수행하는 검색 유형은 유사도 검색입니다.

LangChain Vector Stores는 [Max Marginal Relevance](https://api.python.langchain.com/en/latest/vectorstores/langchain_core.vectorstores.VectorStore.html#langchain_core.vectorstores.VectorStore.max_marginal_relevance_search)를 통한 검색도 지원하므로, 이를 대신 사용하고 싶다면 다음과 같이 `search_type` 속성을 설정하면 됩니다.


- `retriever` 객체의 `search_type` 속성을 `SearchType.mmr`로 설정합니다.
  - 이는 검색 시 MMR(Maximal Marginal Relevance) 알고리즘을 사용하도록 지정하는 것입니다.


In [16]:
from langchain.retrievers.multi_vector import SearchType

# 검색 유형을 MMR(Maximal Marginal Relevance)로 설정
retriever.search_type = SearchType.mmr

# 검색어로 관련 문서를 검색하고, 첫 번째 문서의 페이지 내용 길이를 반환
len(retriever.get_relevant_documents("Word2Vec의 정의")[0].page_content)

7482

## 요약본(summary)을 벡터저장소에 저장

요약은 종종 청크(chunk)의 내용을 보다 정확하게 추출할 수 있어 더 나은 검색 결과를 얻을 수 있습니다.

여기서는 요약을 생성하는 방법과 이를 임베딩하는 방법에 대해 설명합니다.


In [17]:
import uuid

from langchain_core.documents import Document
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI


chain = (
    {"doc": lambda x: x.page_content}  # 입력 데이터에서 페이지 내용을 추출하는 함수
    # 문서 요약을 위한 프롬프트 템플릿 생성
    | ChatPromptTemplate.from_template(
        "Summarize the following document in Korean:\n\n{doc}"
    )
    # OpenAI의 ChatGPT 모델을 사용하여 요약 생성 (최대 재시도 횟수: 0)
    | ChatOpenAI(max_retries=0)
    | StrOutputParser()  # 생성된 요약 결과를 문자열로 파싱
)

- `chain.batch` 메서드를 사용하여 `docs` 리스트의 문서들을 일괄 처리합니다.
- 여기서 `max_concurrency` 매개변수를 5로 설정하여 최대 5개의 문서를 동시에 처리할 수 있도록 합니다.


In [18]:
# 최대 동시성을 5로 설정하여 문서 배치 처리
summaries = chain.batch(docs, {"max_concurrency": 5})

요약된 내용을 출력하여 결과를 확인합니다.


In [19]:
# 요약을 출력합니다.
print(summaries[0])

Scikit-learn은 Python을 위한 핵심 머신 러닝 라이브러리로, 다양한 알고리즘을 구현하기 위해 만들어졌다. 이 라이브러리는 2007년 David Cournapeau가 시작한 프로젝트로, 지금까지 커뮤니티의 기여를 받아 계속 발전해왔다. Scikit-learn은 분류, 회귀, 군집화, 차원 축소 등 다양한 작업을 지원하며, 사용이 쉬운 API로 제공되어 연구자와 개발자가 복잡한 데이터 과학 문제를 해결할 수 있도록 돕는다. 또한, 다양한 기계 학습 모델을 통합하는 점이 강점이며, 데이터 처리와 모델 평가를 위한 도구들도 제공한다. Scikit-learn은 범용성이 높아서 다양한 분야에서 사용될 수 있고, 지속적인 개선과 업데이트로 사용자들에게 최신 기술을 제공한다. 이러한 특징으로 Scikit-learn은 기계 학습을 시작하는 사람들에게 인기 있는 선택지로 자리를 잡았다.


In [20]:
# 요약을 출력합니다.
print(summaries[1])

의미론적 검색은 사용자의 질의를 이해하여 관련된 결과를 반환하는 방식이며, 임베딩은 텍스트 데이터를 저차원 벡터로 변환하는 과정을 뜻합니다. 토큰은 텍스트를 작은 단위로 분할하고, 토크나이저는 이를 처리하는 도구입니다. 벡터스토어는 벡터 데이터를 저장하는 시스템이고, SQL은 데이터베이스 관리 언어입니다. CSV와 JSON은 데이터 형식을 저장하거나 교환하는 데 사용되며, 트랜스포머는 딥러닝 모델 중 하나입니다. HuggingFace는 NLP를 위한 라이브러리이고, 디지털 변환은 기업을 혁신하는 과정을 말합니다. 크롤링은 웹 데이터 수집을 의미하며, Word2Vec은 단어 간 의미적 관계를 나타내는 기술입니다. LLM은 대규모 언어 모델을 의미하며, FAISS는 벡터 검색을 위한 라이브러리입니다. 오픈 소스는 소프트웨어 협업과 혁신을 위한 개방된 소스 코드를 말하고, 구조화된 데이터는 정해진 형식에 따라 조직된 데이터를 의미합니다. 파서는 데이터를 구조화된 형태로 변환하는 도구이며, TF-IDF는 문서 내 단어의 중요도를 평가하는 통계적 척도입니다. 딥러닝은 복잡한 문제 해결을 위한 기계 학습 기술이고, 스키마는 데이터의 구조를 정의하는 청사진입니다. DataFrame은 데이터 분석에 사용되는 테이블 형태의 데이터 구조이며, Attention 메커니즘은 중요한 정보에 더 집중하는 기법입니다. 판다스는 데이터 분석을 위한 파이썬 라이브러리이고, GPT는 생성적 언어 모델입니다. InstructGPT는 특정 지시에 따라 작업을 수행하는 GPT 모델이며, 키워드 검색은 정보 검색 방법 중 하나입니다. 페이지 랭크는 웹 페이지의 중요도를 평가하는 알고리즘이고, 데이터 마이닝은 유용한 정보를 발굴하는 과정입니다. 멀티모달은 여러 종류의 데이터를 결합하여 처리하는 기술을 의미합니다.


`Chroma` 벡터 저장소를 초기화하여 자식 청크(child chunks)를 인덱싱합니다. 이때 `OpenAIEmbeddings`를 임베딩 함수로 사용합니다.

- 문서 ID를 나타내는 키로 `"doc_id"`를 사용합니다.


In [21]:
# 요약 정보를 저장할 벡터 저장소를 생성합니다.
vectorstore = Chroma(collection_name="summaries",
                     embedding_function=OpenAIEmbeddings())
# 부모 문서를 저장할 저장소를 생성합니다.
store = InMemoryByteStore()
# 문서 ID를 저장할 키 이름을 지정합니다.
id_key = "doc_id"
# 검색기를 초기화합니다. (시작 시 비어 있음)
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,  # 벡터 저장소
    byte_store=store,  # 바이트 저장소
    id_key=id_key,  # 문서 ID 키
)
# 문서 ID를 생성합니다.
doc_ids = [str(uuid.uuid4()) for _ in docs]

요약된 문서와 메타데이터(여기서는 생성한 요약본에 대한 `Document ID` 입니다)를 저장합니다.


In [22]:
summary_docs = [
    # 요약된 내용을 페이지 콘텐츠로 하고, 문서 ID를 메타데이터로 포함하는 Document 객체를 생성합니다.
    Document(page_content=s, metadata={id_key: doc_ids[i]})
    for i, s in enumerate(
        summaries
    )  # summaries 리스트의 각 요약과 인덱스에 대해 반복합니다.
]

요약본의 문서의 개수는 원본 문서의 개수와 일치합니다.


In [23]:
# 요약본의 문서의 개수
len(summary_docs)

2

- `retriever.vectorstore.add_documents(summary_docs)`를 통해 `summary_docs`를 벡터 저장소에 추가합니다.
- `retriever.docstore.mset(list(zip(doc_ids, docs)))`를 사용하여 `doc_ids`와 `docs`를 매핑하여 문서 저장소에 저장합니다.


In [24]:
retriever.vectorstore.add_documents(
    summary_docs
)  # 요약된 문서를 벡터 저장소에 추가합니다.

# 문서 ID와 문서를 매핑하여 문서 저장소에 저장합니다.
retriever.docstore.mset(list(zip(doc_ids, docs)))

다음으로는 원본 청크(chunk) 데이터를 벡터 저장소에 추가하는 코드입니다.


In [25]:
# RecursiveCharacterTextSplitter 객체를 생성합니다.
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000)

split_docs = []
split_docs_ids = []

for i, doc in enumerate(docs):
    _id = doc_ids[i]  # 현재 문서의 ID를 가져옵니다.
    # 현재 문서를 하위 문서로 분할합니다.
    split_doc = text_splitter.split_documents([doc])
    for _doc in split_doc:  # 분할된 문서에 대해 반복합니다.
        # 문서의 메타데이터에 ID를 저장합니다.
        _doc.metadata[id_key] = _id
        split_docs_ids.append(_id)
    split_docs.extend(split_doc)  # 분할된 문서를 리스트에 추가합니다.

분할된 문서의 개수를 출력합니다.


In [26]:
print(f"분할된 문서의 개수: {len(split_docs)}")

분할된 문서의 개수: 17


마지막으로 분할된 문서를 벡터 저장소에 추가합니다.


In [27]:
# 문서를 검색기의 벡터 저장소에 추가합니다.
retriever.vectorstore.add_documents(split_docs)

['e5c629c1-569a-4e94-ad84-35aafb766caf',
 '50635cd4-4783-478c-bd98-f07dc32cd498',
 'e4b66c21-3b6b-4985-acae-e327fedefc01',
 '8897cc61-6002-479c-9531-9ea0f43065f0',
 '9396aaef-77d0-4ed8-a8bf-682e85ad6ae3',
 '76bc6c95-dcf0-4656-900e-f50e72539fb3',
 '497f4790-57ac-4234-a1f1-80c2389d0ca8',
 'f67434d4-d4ea-40f8-8538-9c4ddcb6c485',
 '8475a19a-b181-4483-8ef5-2d465467a34a',
 'b9c68687-d11d-41a5-ab27-d700993a7ad5',
 '06476f8b-7deb-4318-8abd-0357e1474b8e',
 '09877995-c050-47f1-813a-87eaab69c0f7',
 'e694a261-1b52-4d11-9f15-da9ef3c5b35d',
 '6e909fa4-d402-4079-a9d1-38a7b4fd3575',
 '96acceb4-5d20-418c-9bfe-661d0a9b989e',
 '04d000ee-5050-4c32-aeee-37c98cbc4677',
 '9f01c835-8102-4931-8ef1-0f872e1da4ff']

`vectorstore` 객체의 `similarity_search` 메서드를 사용하여 유사도 검색을 수행합니다.


In [28]:
# 유사도 검색을 수행합니다.
result_docs = vectorstore.similarity_search("Word2Vec의 정의가 뭐야?")

In [29]:
# 1개의 결과 문서를 출력합니다.
result_docs[0]

Document(page_content='Word2Vec의 성공 이후, 이와 유사한 다른 단어 임베딩 기법들도 개발되었습니다. 그러나 Word2Vec은 그 간결함과 효율성, 높은 성능으로 인해 여전히 광범위하게 사용되며, NLP 분야에서 기본적인 도구로 자리 잡았습니다. Word2Vec는 단순한 텍스트 데이터를 통해 복잡한 언어의 의미 구조를 학습할 수 있는 강력한 방법을 제공함으로써, 컴퓨터가 인간 언어를 이해하는 방식을 혁신적으로 개선하였습니다.', metadata={'doc_id': 'e0c4ac38-5b34-4c78-af87-d39bd1f32d2a', 'source': './data/ai-story.txt'})

`retriever` 객체의 `get_relevant_documents` 메서드를 사용하여 질문과 관련된 문서를 검색합니다.


In [30]:
# 관련된 문서를 검색하여 가져옵니다.
retrieved_docs = retriever.get_relevant_documents("Word2Vec 의 정의가 뭐야?")
len(retrieved_docs)

2

`retrieved_docs[0].page_content`의 길이를 반환합니다. 문서를 반환하기 때문에 페이지 내용의 길이는 청크보다 일반적으로 큽니다.


In [31]:
# 검색된 문서의 첫 번째 문서의 페이지 내용의 길이를 반환합니다.
len(retrieved_docs[0].page_content)

7482

## 가설 쿼리(Hypothetical Queries)

LLM은 특정 문서에 대해 가정할 수 있는 질문 목록을 생성하는 데에도 사용될 수 있습니다.

이렇게 생성된 질문들은 임베딩(embedding)될 수 있으며, 이를 통해 문서의 내용을 더욱 깊이 있게 탐색하고 이해할 수 있습니다.

가정 질문 생성은 문서의 주요 주제와 개념을 파악하는 데 도움이 되며, 독자들이 문서 내용에 대해 더 많은 궁금증을 갖도록 유도할 수 있습니다.


- `functions` 리스트에는 하나의 딕셔너리 요소가 포함되어 있습니다.
- 딕셔너리는 `name`, `description`, `parameters` 키를 가지고 있습니다.
- `name`은 함수의 이름을 나타내는 문자열입니다.
- `description`은 함수의 설명을 나타내는 문자열입니다.
- `parameters`는 함수의 매개변수를 정의하는 딕셔너리입니다.
  - `type`은 매개변수의 타입을 나타내며, 여기서는 "object"로 설정되어 있습니다.
  - `properties`는 객체의 속성을 정의하는 딕셔너리입니다.
    - `questions`는 "array" 타입의 속성으로, 각 요소는 "string" 타입입니다.
  - `required`는 필수 속성을 나타내는 리스트이며, 여기서는 `questions`가 필수로 지정되어 있습니다.


In [32]:
functions = [
    {
        "name": "hypothetical_questions",  # 함수의 이름을 지정합니다.
        "description": "Generate hypothetical questions",  # 함수에 대한 설명을 작성합니다.
        "parameters": {  # 함수의 매개변수를 정의합니다.
            "type": "object",  # 매개변수의 타입을 객체로 지정합니다.
            "properties": {  # 객체의 속성을 정의합니다.
                "questions": {  # 'questions' 속성을 정의합니다.
                    "type": "array",  # 'questions'의 타입을 배열로 지정합니다.
                    "items": {
                        "type": "string"
                    },  # 배열의 요소 타입을 문자열로 지정합니다.
                },
            },
            "required": ["questions"],  # 필수 매개변수로 'questions'를 지정합니다.
        },
    }
]

`ChatPromptTemplate`을 사용하여 주어진 문서를 기반으로 3개의 가상 질문을 생성하는 프롬프트 템플릿을 정의합니다.

- `ChatOpenAI`를 사용하여 GPT 모델을 초기화하고, `functions`와 `function_call`을 설정하여 가상 질문 생성 함수를 호출합니다.
- `JsonKeyOutputFunctionsParser`를 사용하여 생성된 가상 질문을 파싱하고, `questions` 키에 해당하는 값을 추출합니다.


In [33]:
from langchain.output_parsers.openai_functions import JsonKeyOutputFunctionsParser

chain = (
    {"doc": lambda x: x.page_content}
    # 아래 문서를 사용하여 답변할 수 있는 가상의 질문을 정확히 3개 생성하도록 요청합니다. 이 숫자는 조정될 수 있습니다.
    | ChatPromptTemplate.from_template(
        "Generate a list of exactly 3 hypothetical questions that the below document could be used to answer. Answer in Korean:\n\n{doc}"
    )
    | ChatOpenAI(max_retries=0, model="gpt-4-turbo-preview").bind(
        functions=functions, function_call={"name": "hypothetical_questions"}
    )
    # 출력에서 "questions" 키에 해당하는 값을 추출합니다.
    | JsonKeyOutputFunctionsParser(key_name="questions")
)

`chain.invoke(docs[0])` 호출하여 첫 번째 문서에 대한 답변을 출력합니다.

- 출력은 생성한 3개의 가설 쿼리(Hypothetical Queries) 가 담겨 있습니다.


In [34]:
# 주어진 문서에 대해 체인을 실행합니다.
chain.invoke(docs[0])

['scikit-learn을 사용하여 어떤 종류의 기계 학습 모델을 개발할 수 있습니까?',
 'NLP 기술은 어떤 산업 분야에서 활용될 수 있습니까?',
 'SciPy 라이브러리를 사용하여 어떤 종류의 과학적 계산을 수행할 수 있습니까?']

`chain.batch` 메서드를 사용하여 `docs` 데이터에 대해 동시에 여러 개의 요청을 처리합니다.

- `docs` 매개변수는 처리할 문서 데이터를 나타냅니다.
- `max_concurrency` 매개변수는 동시에 처리할 수 있는 최대 요청 수를 지정합니다. 이 예시에서는 5로 설정되어 있습니다.
- 이 메서드는 `docs` 데이터의 각 항목에 대해 `chain` 객체의 작업을 수행하고, 최대 5개의 요청을 동시에 처리합니다.
- 처리 결과는 `hypothetical_questions` 변수에 저장됩니다.


In [35]:
# 문서 목록에 대해 가설적 질문을 일괄 처리하여 생성합니다. 최대 동시성은 5로 설정되어 있습니다.
hypothetical_questions = chain.batch(docs, {"max_concurrency": 5})

In [36]:
print(hypothetical_questions[0])
print(hypothetical_questions[1])

['Scikit-learn 라이브러리를 사용하여 어떤 유형의 기계 학습 문제를 해결할 수 있습니까?', '자연어 처리(NLP) 기술을 활용하여 어떤 종류의 문제를 해결할 수 있습니까?', 'Word2Vec을 사용하여 어떻게 단어 간의 의미적 관계를 파악할 수 있습니까?']
['자연어 처리 기술을 활용한 의미론적 검색의 장점은 무엇인가요?', '인공 지능 모델에서 텍스트 데이터를 처리하는 과정은 어떻게 이루어지나요?', '대규모 언어 모델(GPT)이 자연어 이해와 생성 작업에서 어떻게 활용되나요?']


아래는 이전에 진행했던 방식과 동일하게 생성한 가설 쿼리(Hypothetical Queries) 를 벡터저장소에 저장하는 과정입니다.


In [37]:
# 자식 청크를 인덱싱하는 데 사용할 벡터 저장소
vectorstore = Chroma(
    collection_name="hypo-questions", embedding_function=OpenAIEmbeddings()
)
# 부모 문서의 저장소 계층
store = InMemoryByteStore()
id_key = "doc_id"
# 검색기 (시작 시 비어 있음)
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    byte_store=store,
    id_key=id_key,
)
doc_ids = [str(uuid.uuid4()) for _ in docs]  # 문서 ID 생성

`question_docs` 리스트에 메타데이터(문서 ID) 를 추가합니다.


In [38]:
question_docs = []
# hypothetical_questions 리스트를 순회하면서 인덱스와 질문 리스트를 가져옵니다.
for i, question_list in enumerate(hypothetical_questions):
    question_docs.extend(  # question_docs 리스트에 Document 객체를 추가합니다.
        # 질문 리스트의 각 질문에 대해 Document 객체를 생성하고, 메타데이터에 해당 질문의 문서 ID를 포함시킵니다.
        [Document(page_content=s, metadata={
                  id_key: doc_ids[i]}) for s in question_list]
    )

가설 쿼리를 문서에 추가하고, 원본 문서를 `docstore` 에 추가합니다.


In [39]:
retriever.vectorstore.add_documents(
    question_docs
)  # 질문 문서를 벡터 저장소에 추가합니다.
# 문서 ID와 문서를 매핑하여 문서 저장소에 저장합니다.
retriever.docstore.mset(list(zip(doc_ids, docs)))

`vectorstore` 객체의 `similarity_search` 메서드를 사용하여 유사도 검색을 수행합니다.


In [40]:
# 유사한 문서를 벡터 저장소에서 검색합니다.
result_docs = vectorstore.similarity_search("Word2Vec에 대한 정의는 뭐야?")

아래는 유사도 검색 결과입니다.

여기서는 생성한 가설 쿼리만 추가해 놓은 상태이기 때문에, 생성한 가설 쿼리 중 유사도가 가장 높은 문서를 반환합니다.


In [41]:
# 유사도 검색 결과를 출력합니다.
result_docs

[Document(page_content='Word2Vec을 사용하여 어떻게 단어 간의 의미적 관계를 파악할 수 있습니까?', metadata={'doc_id': 'e013fa57-0570-4193-ab77-5f8f068594bf'}),
 Document(page_content='인공 지능 모델에서 텍스트 데이터를 처리하는 과정은 어떻게 이루어지나요?', metadata={'doc_id': '8163db6a-5927-4c3a-ab37-094e335ec8ee'}),
 Document(page_content='자연어 처리 기술을 활용한 의미론적 검색의 장점은 무엇인가요?', metadata={'doc_id': '8163db6a-5927-4c3a-ab37-094e335ec8ee'}),
 Document(page_content='대규모 언어 모델(GPT)이 자연어 이해와 생성 작업에서 어떻게 활용되나요?', metadata={'doc_id': '8163db6a-5927-4c3a-ab37-094e335ec8ee'})]

이전 단계에서 분할한 문서도 벡터저장소에 추가합니다.


In [42]:
# 문서를 검색기의 벡터 저장소에 추가합니다.
retriever.vectorstore.add_documents(split_docs)

['3ea6e39d-3c12-4505-bdda-dc41165c98ba',
 '00f6a5f8-3c31-488a-9a15-d85b19253a09',
 '0c4e2a80-993a-4b45-87c8-80d6f47e4aa1',
 '1b00caf9-a3bd-424e-8aee-0f622ad29f98',
 'a7dcf8ff-2d39-4b7d-a1c3-9546c1dbfa87',
 'e1c61135-2d7b-460c-8191-3ea158b46f5a',
 'abb2cebb-8c43-442b-b7ee-5edfe1c4c3c2',
 'fc5aa98a-3bfd-4fdf-930a-da492518cf69',
 '06b2ea20-4351-4555-8db3-e6e5a8fb1bcc',
 '8a1cda27-a12b-4026-9a81-a77717ba404e',
 '27cda25e-fa76-4e27-b849-b60c2046800a',
 '874257d1-c7f7-45af-88f2-0d80b4b3a0b5',
 'e618645b-163b-4792-a2c1-8b05672e9098',
 'af145a18-b974-4d4b-b2e3-28bd7d782b4c',
 '0062342b-aca7-40da-b0a7-f667c65c8622',
 'cc270694-a8fb-4514-8692-6e700518b890',
 'ade11598-78ec-4bd7-82f8-998055ae79af']

`retriever` 객체의 `get_relevant_documents` 메서드를 사용하여 쿼리와 관련된 문서를 검색합니다.


In [43]:
# 관련된 문서를 검색하여 가져옵니다.
retrieved_docs = retriever.get_relevant_documents("Word2Vec에 대한 정의가 뭐야?")
len(retrieved_docs)

2

검색 결과인 `retrieved_docs[0].page_content`의 길이를 확인합니다.


In [44]:
# 검색된 문서의 첫 번째 문서의 페이지 내용의 길이를 반환합니다.
len(retrieved_docs[0].page_content)

7482