# Multi-Vector 🦜🔗


## Overview
Multi-Vector là một phương pháp tiên tiến của giai đoạn Indexing (lập chỉ mục) trong retrieval (truy xuất).

Thông thường, các tài liệu thô, được chia thành chunk (đoạn) của bạn có thể *không* phải là văn bản tối ưu để lấy embeddings (nhúng). 

Có thể xảy ra trường hợp một văn bản thay thế được suy ra từ các tài liệu gốc của bạn sẽ tốt hơn. Điều này có thể bao gồm summaries (tóm tắt), hypothetical questions (câu hỏi giả định), extractions (trích xuất) hoặc child documents (tài liệu con).

Mục tiêu của multi-vector retrieval (truy xuất đa vector) là có thêm embeddings (nhúng) trong quá trình retrieval (truy xuất) của bạn, có thể phù hợp hơn với các queries (truy vấn) dự kiến của bạn.


![](https://retrieval-tutorials.vercel.app/assets/images/MultiVector-a662f0115469e34ca0fc32eec9f9d9ca.gif)

### Why is this helpful?​

Điều này hữu ích khi có một dạng đã được xử lý hoặc suy ra từ các tài liệu gốc của bạn phù hợp hơn với quá trình search (tìm kiếm) của bạn. Hãy coi đây như một bước pre-processing (tiền xử lý) trên các tài liệu của bạn, nhằm mục đích phù hợp hơn với nhu cầu search (tìm kiếm) của bạn.


In [1]:
from langchain.vectorstores import  FAISS
from langchain_ollama.embeddings import OllamaEmbeddings

embeddings = OllamaEmbeddings(model='bge-m3:latest')
chapter_summaries_vectorstore =  FAISS.load_local("data/chapter_summaries_vector_store", embeddings, allow_dangerous_deserialization=True)

### Multi retriever

In [None]:
from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain.storage import InMemoryStore

id_key = "doc_id" # This is the key that we will tell the retriever to connect the summaries and original docs on

docstore = InMemoryStore()

retriever = MultiVectorRetriever(
    vectorstore=chapter_summaries_vectorstore,
    docstore=docstore,
    id_key=id_key, # "Hey, what should we join on?"
)