# Ensemble Retriever

El `EnsembleRetriever` toma una lista de buscadores (`retrievers`) como entrada y agrupa (`ensemble`) los resultados de sus métodos `get_relevant_documents()`, para después reorganizar los resultados usando el algoritmo de Fusión de Rango Recíproco (`Reciprocal Rank Fusion`).

Al aprovechar las fortalezas de diferentes algoritmos, el `EnsembleRetriever` puede lograr un rendimiento mejor que cualquier algoritmo individual.

Un patrón común es combinar un buscador disperso (como BM25) con un buscador denso (como similaridad de incrustación/embedding), ya que sus fortalezas son complementarias. Esto también se conoce como "búsqueda híbrida".

- **Buscador Disperso (Sparse Retriever)**: Es eficaz para encontrar documentos relevantes basados en palabras clave.
- **Buscador Denso (Dense Retriever)**: Es eficaz para encontrar documentos relevantes basados en similitud semántica.

## Librerías

In [1]:
from dotenv import load_dotenv
from langchain.embeddings import OpenAIEmbeddings
from langchain.retrievers import BM25Retriever, EnsembleRetriever
from langchain.vectorstores import Chroma

from src.langchain_docs_loader import load_langchain_docs_splitted

load_dotenv()

False

In [2]:
import os
os.environ["OPENAI_API_KEY"]="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"

## Carga de datos

In [3]:
docs = load_langchain_docs_splitted()

## Inicialización de retrievers independientes

In [5]:
bm25_retriever = BM25Retriever.from_documents(docs)
bm25_retriever.k = 2

vector_retriever = Chroma.from_documents(
    docs[100], embedding=OpenAIEmbeddings()
).as_retriever(search_kwargs={"k": 2})

AttributeError: 'tuple' object has no attribute 'page_content'

## Ensamblaje de retrievers

In [None]:
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, vector_retriever], weights=[0.5, 0.5]
)

In [None]:
ensemble_retriever.get_relevant_documents(
    "¿Cómo utilizar un retriever con langchain expression language?"
)