## Parent retrievers

Al fragmentar documentos para su procesamiento y recuperaci√≥n, a menudo nos enfrentamos a un dilema: 

Por un lado, se podr√≠an preferir documentos m√°s reducidos, de modo que los `embeddings` puedan reflejar su significado de manera m√°s exacta y espec√≠fica. Cuando un documento es demasiado extenso, existe el riesgo de que los `embeddings` pierdan su significado y precisi√≥n.

Por otro lado, es crucial mantener documentos con una longitud considerable para preservar el contexto de cada fragmento, y as√≠ garantizar la coherencia e integridad de la informaci√≥n.

`ParentDocumentRetriever` aborda eficazmente esta contradicci√≥n al dividir y almacenar fragmentos de datos concisos. Durante el proceso de recuperaci√≥n, este sistema primero accede a los fragmentos m√°s peque√±os y posteriormente identifica y busca los identificadores principales de dichos fragmentos, retornando finalmente los documentos de mayor tama√±o. 

Es crucial aclarar que el t√©rmino "documento principal" hace referencia al documento fuente del que se extrajo un fragmento peque√±o. Esto puede ser el documento √≠ntegro original o un segmento m√°s amplio del mismo.

**Ejemplo:**

Por ejemplo, si se est√° procesando un libro, podr√≠amos querer fragmentar cada cap√≠tulo o secci√≥n para obtener `embeddings` m√°s precisos sobre los temas tratados en cada uno. En este caso, un cap√≠tulo ser√≠a un "documento principal", y cada fragmento o secci√≥n del cap√≠tulo representar√≠a un fragmento m√°s peque√±o.

1. **Proceso de Fragmentaci√≥n:**
   - El libro se divide en cap√≠tulos.
   - Cada cap√≠tulo se fragmenta en secciones m√°s peque√±as.

2. **Proceso de Recuperaci√≥n:**
   - `ParentDocumentRetriever` recupera primero las secciones m√°s peque√±as del cap√≠tulo.
   - Luego, identifica y recupera el cap√≠tulo completo (documento principal) bas√°ndose en los fragmentos peque√±os.

Este enfoque permite una b√∫squeda y recuperaci√≥n de informaci√≥n m√°s eficiente y precisa, asegurando que cada fragmento recuperado mantenga su contexto original y, al mismo tiempo, brinde un entendimiento profundo y detallado de su contenido.

![Parent Retrievers](./diagrams/slide_diagrama_01.png)

## Librer√≠as

In [1]:
from functools import partial

from dotenv import load_dotenv
from langchain.embeddings import OpenAIEmbeddings
from langchain.retrievers import ParentDocumentRetriever
from langchain.storage import InMemoryStore
from langchain.text_splitter import Language, RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma

from src.langchain_docs_loader import LangchainDocsLoader, num_tokens_from_string

load_dotenv()

False

## Funciones de utilidad

In [4]:
get_vectorstore = partial(
    Chroma,
    embedding_function=OpenAIEmbeddings(),
)

## Carga de datos

In [5]:
loader = LangchainDocsLoader()
docs = loader.load()
len(docs)

1163

## Recuperaci√≥n de los documentos completos

In [9]:
child_splitter=RecursiveCharacterTextSplitter.from_language(
    language=Language.MARKDOWN,
    chunk_size=100,
    chunk_overlap=10,
    length_function=num_tokens_from_string,
)

vectorstore=get_vectorstore(collection_name="full_documents")

store=InMemoryStore()

retriever=ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter
)

retriever.add_documents(docs)

La cantidad de documentos en nuestra `Store` es igual a la cantidad de documentos en nuestro dataset.

In [11]:
len(list(store.yield_keys()))

1163

Al buscar documentos directamente en la `VectorStore`, obtendr√°s fragmentos de documentos que fueron procesados por el `TextSplitter`.

In [12]:
query = "Does the MultiQueryRetriever might be able to overcome some of the limitations of...?"

In [13]:
full_documents_similarity = vectorstore.similarity_search(
    query,
)
full_documents_similarity

[Document(page_content='address these problems, but can be tedious. The `MultiQueryRetriever` automates the process of prompt tuning by using an LLM to generate multiple queries from different perspectives for a given user input query. For each query, it retrieves a set of relevant documents and takes the unique union across all queries to get a larger set of potentially relevant documents. By generating multiple perspectives on the same question, the `MultiQueryRetriever` might be able to overcome some of the limitations of the', metadata={'description': 'The Fleet AI team is on a mission to embed the world‚Äôs most important', 'doc_id': '09bcdad3-51ca-4f3f-9dbf-b7034270354f', 'language': 'en', 'source': 'https://python.langchain.com/docs/integrations/retrievers/fleet_context', 'title': 'Fleet AI Libraries Context | ü¶úÔ∏èüîó Langchain'}),
 Document(page_content='be able to overcome some of the limitations of the distance-based retrieval and get a richer set of results.By generating

Si ahora realizas una b√∫squeda en el `ParentDocumentRetriever`, obtendr√°s los documentos completos.
Esto se debe a que el `ParentDocumentRetriever` primero busca los fragmentos que hacen `match` con la `query`, despu√©s busca los documentos completos sin repeticiones y finalmente devuelve el resultado.

In [14]:
full_documents_retriever = retriever.get_relevant_documents(
    query,
)
full_documents_retriever

[Document(page_content='# Fleet AI Libraries Context\n\nThe Fleet AI team is on a mission to embed the world‚Äôs most important\ndata. They‚Äôve started by embedding the top 1200 Python libraries to\nenable code generation with up-to-date knowledge. They‚Äôve been kind\nenough to share their embeddings of the [LangChain\ndocs](https://python.langchain.com/docs/get_started/introduction) and\n[API\nreference](https://api.python.langchain.com/en/latest/api_reference.html).\n\nLet‚Äôs take a look at how we can use these embeddings to power a docs\nretrieval system and ultimately a simple code generating chain!\n\n```python\n%pip install --upgrade --quiet  langchain fleet-context langchain-openai pandas faiss-cpu # faiss-gpu for CUDA supported GPU\n```\n\n```python\nfrom operator import itemgetter\nfrom typing import Any, Optional, Type\n\nimport pandas as pd\nfrom langchain.retrievers import MultiVectorRetriever\nfrom langchain.schema import Document\nfrom langchain_community.vectorstores 

Puedes corroborar que el `ParentDocumentRetriever` est√° regresando el subconjunto `√∫nico` de documentos completos al comparar el n√∫mero de documentos recuperados por el `VectorStore` y el `ParentDocumentRetriever`.

In [15]:
[doc.metadata["source"] for doc in full_documents_similarity], [
    doc.metadata["source"] for doc in full_documents_retriever
]

(['https://python.langchain.com/docs/integrations/retrievers/fleet_context',
  'https://python.langchain.com/docs/integrations/retrievers/fleet_context',
  'https://python.langchain.com/docs/integrations/retrievers/fleet_context',
  'https://python.langchain.com/docs/modules/data_connection/retrievers/MultiQueryRetriever'],
 ['https://python.langchain.com/docs/integrations/retrievers/fleet_context',
  'https://python.langchain.com/docs/modules/data_connection/retrievers/MultiQueryRetriever'])

## Recuperaci√≥n de fragmentos largos en lugar de documentos completos

Los documentos pueden ser muy grandes para ser recuperados en su totalidad y ser √∫tiles. 

Por ejemplo, un documento completo podr√≠a ser un libro, pero quiz√° s√≥lo necesito un cap√≠tulo para responder a mi pregunta. O quiz√° s√≥lo necesito un par de p√°rrafos.

Si planeas utilizar los documentos recuperados en un proceso de `Retrival Augmented Generation` (RAG), es posible que los documentos gigantes ni siquiera puedan ser procesados por la ventana de contexto del modelo de lenguaje.

Para este caso, el `ParentDocumentRetriever` puede ser configurado para romper los documentos en fragmentos peque√±os, buscar sobre ellos y luego devolver fragmentos m√°s largos (sin ser el documento completo).

In [16]:
## TODO: Add parent splitter
parent_splitter=RecursiveCharacterTextSplitter.from_language(
    language=Language.MARKDOWN,
    chunk_size=400,
    chunk_overlap=40,
    length_function=num_tokens_from_string
)
child_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.MARKDOWN,
    chunk_size=100,
    chunk_overlap=10,
    length_function=num_tokens_from_string,
)

vectorstore = get_vectorstore(collection_name="big_fragments")

store = InMemoryStore()

retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter,
    parent_splitter=parent_splitter,
)

retriever.add_documents(docs)

Ahora hay m√°s documentos en el `Store` dado que cada documento se ha dividido en fragmentos m√°s peque√±os.

In [None]:
len(list(store.yield_keys()))

In [None]:
vectorstore.similarity_search(
    query,
)

In [None]:
retriever.get_relevant_documents(
    query,
)