# PR√ÅCTICA: Mejorando la Relevancia en un Sistema RAG

## 1. Preparaci√≥n del entorno

Instalamos las librer√≠as necesarias:

In [None]:
# pip install chromadb sentence-transformers


Importamos los m√≥dulos principales:

## 2. Crear una mini base de conocimiento

Vamos a simular una base de datos con textos sobre tecnolog√≠a, astronom√≠a y animales.

In [7]:
base_conocimiento = {
    "Tecnolog√≠a": [
        "La inteligencia artificial (IA) es un campo de la inform√°tica que se enfoca en la creaci√≥n de sistemas que pueden razonar, aprender y actuar de manera inteligente.",
        "Python es un lenguaje de programaci√≥n de alto nivel muy popular para el desarrollo web, el an√°lisis de datos y el aprendizaje autom√°tico.",
        "Blockchain es una tecnolog√≠a de registro distribuido que permite almacenar datos de manera segura y transparente.",
        "El Internet de las Cosas (IoT) conecta objetos cotidianos a internet, permitiendo la comunicaci√≥n y el control remoto."
    ],
    "Astronom√≠a": [
        "La V√≠a L√°ctea es la galaxia espiral donde se encuentra nuestro Sistema Solar.",
        "Un agujero negro es una regi√≥n del espacio de la que nada, ni siquiera la luz, puede escapar debido a la inmensa gravedad.",
        "Marte, el planeta rojo, es un objetivo clave para la exploraci√≥n espacial debido a la posibilidad de albergar vida pasada o futura.",
        "Una supernova es una explosi√≥n estelar extremadamente brillante y poderosa."
    ],
    "Animales": [
        "El guepardo es el animal terrestre m√°s r√°pido, capaz de alcanzar velocidades de hasta 120 km/h en r√°fagas cortas.",
        "Los pulpos son conocidos por su alta inteligencia, capacidad de camuflaje y tener tres corazones.",
        "La migraci√≥n anual del √±u en el Serengeti es uno de los mayores espect√°culos de la vida salvaje en la Tierra.",
        "Las abejas desempe√±an un papel vital en la polinizaci√≥n de muchas especies de plantas, incluyendo gran parte de los cultivos."
    ]
}


In [8]:
def mostrar_categorias(db):
    """Muestra todas las categor√≠as disponibles en la base de conocimiento."""
    print("--- üìÇ Categor√≠as Disponibles ---")
    for categoria in db.keys():
        print(f"- **{categoria}**")
    print("-" * 30)


In [9]:
def obtener_datos_por_categoria(db, categoria):
    """
    Retorna los textos asociados a una categor√≠a espec√≠fica.
    Retorna una lista vac√≠a si la categor√≠a no existe.
    """
    return db.get(categoria, [])


In [10]:
mostrar_categorias(base_conocimiento)

--- üìÇ Categor√≠as Disponibles ---
- **Tecnolog√≠a**
- **Astronom√≠a**
- **Animales**
------------------------------


In [11]:
categoria_buscada = "Tecnolog√≠a"
datos_tecnologia = obtener_datos_por_categoria(base_conocimiento, categoria_buscada)

In [12]:
print(f"--- üí° Textos sobre {categoria_buscada} ---")
if datos_tecnologia:
    for i, texto in enumerate(datos_tecnologia, 1):
        print(f"**{i}.** {texto}")
else:
    print(f"No se encontraron datos para la categor√≠a '{categoria_buscada}'.")
print("-" * 30)

# 3. Buscar datos en otra categor√≠a (ejemplo: Animales)
categoria_animales = "Animales"
datos_animales = obtener_datos_por_categoria(base_conocimiento, categoria_animales)

print(f"--- üêæ Textos sobre {categoria_animales} ---")
for i, texto in enumerate(datos_animales, 1):
    print(f"**{i}.** {texto}")
print("-" * 30)

--- üí° Textos sobre Tecnolog√≠a ---
**1.** La inteligencia artificial (IA) es un campo de la inform√°tica que se enfoca en la creaci√≥n de sistemas que pueden razonar, aprender y actuar de manera inteligente.
**2.** Python es un lenguaje de programaci√≥n de alto nivel muy popular para el desarrollo web, el an√°lisis de datos y el aprendizaje autom√°tico.
**3.** Blockchain es una tecnolog√≠a de registro distribuido que permite almacenar datos de manera segura y transparente.
**4.** El Internet de las Cosas (IoT) conecta objetos cotidianos a internet, permitiendo la comunicaci√≥n y el control remoto.
------------------------------
--- üêæ Textos sobre Animales ---
**1.** El guepardo es el animal terrestre m√°s r√°pido, capaz de alcanzar velocidades de hasta 120 km/h en r√°fagas cortas.
**2.** Los pulpos son conocidos por su alta inteligencia, capacidad de camuflaje y tener tres corazones.
**3.** La migraci√≥n anual del √±u en el Serengeti es uno de los mayores espect√°culos de la vida

## 3. Crear la base vectorial (ChromaDB)

Creamos una colecci√≥n donde almacenaremos los embeddings de los textos.

In [13]:
import chromadb
from chromadb.utils import embedding_functions

In [14]:
# 1. Configurar el cliente ChromaDB
# Usaremos un cliente persistente, lo que significa que guardar√° los datos
# en un directorio local para que persistan entre sesiones.
CHROMA_PATH = "chroma_db_tech"
chroma_client = chromadb.PersistentClient(path=CHROMA_PATH)

print(f"Base de datos ChromaDB configurada en el directorio: {CHROMA_PATH}")

Base de datos ChromaDB configurada en el directorio: chroma_db_tech


In [15]:
# 2. Configurar el Modelo de Embeddings
# Usaremos un modelo de Hugging Face de la librer√≠a 'sentence-transformers'
# que es excelente para tareas de embeddings de texto.
EMBEDDING_MODEL = "all-MiniLM-L6-v2"
hf_ef = embedding_functions.SentenceTransformerEmbeddingFunction(
    model_name=EMBEDDING_MODEL
)

  from tqdm.autonotebook import tqdm, trange





In [16]:
# 3. Crear la Colecci√≥n
# Una "colecci√≥n" en ChromaDB es donde se almacenan los textos (documentos)
# y sus representaciones vectoriales (embeddings).
COLLECTION_NAME = "base_conocimiento_tecnologia_astronomia_animales"
collection = chroma_client.get_or_create_collection(
    name=COLLECTION_NAME,
    embedding_function=hf_ef,
    metadata={"hnsw:space": "cosine"} # Define la m√©trica de distancia
)

print(f"Colecci√≥n '{COLLECTION_NAME}' creada (o cargada si ya exist√≠a).")

Colecci√≥n 'base_conocimiento_tecnologia_astronomia_animales' creada (o cargada si ya exist√≠a).


In [17]:
# 4. Preparar los datos de la mini base de conocimiento (del punto anterior)

# Aplanamos los datos para que sean m√°s f√°ciles de ingresar a ChromaDB.
# Tambi√©n creamos IDs √∫nicos y metadatos (la categor√≠a original).
documentos = []
metadatos = []
ids = []
id_counter = 1


for categoria, textos in base_conocimiento.items():
    for texto in textos:
        documentos.append(texto)
        metadatos.append({"categoria": categoria})
        ids.append(f"doc_{id_counter}")
        id_counter += 1


In [18]:

# 5. Agregar los documentos a la Colecci√≥n (C√°lculo de Embeddings)
# Chroma calcula autom√°ticamente los embeddings de los 'documentos' usando 'hf_ef'.
print("\nIniciando la inserci√≥n de documentos y c√°lculo de embeddings...")
collection.add(
    documents=documentos,
    metadatas=metadatos,
    ids=ids
)
print(f"¬°√âxito! Se insertaron {len(documentos)} documentos en la base vectorial.")

print(f"Documentos totales en la colecci√≥n: {collection.count()}")


Iniciando la inserci√≥n de documentos y c√°lculo de embeddings...
¬°√âxito! Se insertaron 12 documentos en la base vectorial.
Documentos totales en la colecci√≥n: 12


## 4. Realizar una b√∫squeda sem√°ntica b√°sica

Consultamos algo relacionado con animales dom√©sticos:

In [19]:
# 1. Definir la consulta (el texto de entrada)
pregunta_usuario = "¬øQu√© informaci√≥n tienes sobre animales dom√©sticos o mascotas?"

print(f"\n--- üß† Realizando B√∫squeda Sem√°ntica ---")
print(f"Pregunta: **{pregunta_usuario}**")


--- üß† Realizando B√∫squeda Sem√°ntica ---
Pregunta: **¬øQu√© informaci√≥n tienes sobre animales dom√©sticos o mascotas?**


In [20]:
# 2. Realizar la consulta en la colecci√≥n
# ChromaDB convertir√° autom√°ticamente la pregunta_usuario en un vector
# y buscar√° los vectores m√°s similares dentro de la colecci√≥n.
resultados = collection.query(
    query_texts=[pregunta_usuario], # La pregunta que queremos vectorizar y buscar
    n_results=2,                    # Queremos los 2 resultados m√°s relevantes
    # Puedes a√±adir where={} para filtrar por metadatos, por ejemplo:
    # where={"categoria": "Animales"}
)


In [21]:
# 3. Procesar y mostrar los resultados
print("\n--- üéØ Resultados de la B√∫squeda ---")

# Los resultados vienen en formato de lista de listas (aunque solo consultamos una vez)
# Usaremos el primer elemento [0] de cada lista.
documentos_relevantes = resultados['documents'][0]
distancias = resultados['distances'][0]
metadatos_relevantes = resultados['metadatas'][0]

if documentos_relevantes:
    for i, (doc, meta, dist) in enumerate(zip(documentos_relevantes, metadatos_relevantes, distancias)):
        # La distancia es una medida de qu√© tan lejos est√° el embedding del documento
        # del embedding de la pregunta. Una distancia menor indica mayor similitud.

        print(f"\n**{i + 1}. Documento Relevante** (Distancia: {dist:.4f})")
        print(f"   -> **Categor√≠a:** {meta['categoria']}")
        print(f"   -> **Texto:** {doc}")
else:
    print("No se encontraron documentos relevantes.")

print("-" * 40)


--- üéØ Resultados de la B√∫squeda ---

**1. Documento Relevante** (Distancia: 0.4664)
   -> **Categor√≠a:** Animales
   -> **Texto:** El guepardo es el animal terrestre m√°s r√°pido, capaz de alcanzar velocidades de hasta 120 km/h en r√°fagas cortas.

**2. Documento Relevante** (Distancia: 0.5237)
   -> **Categor√≠a:** Animales
   -> **Texto:** Los pulpos son conocidos por su alta inteligencia, capacidad de camuflaje y tener tres corazones.
----------------------------------------


## 5. Optimizaci√≥n 1: Chunking Estrat√©gico

Supongamos que tenemos textos largos. Vamos a dividirlos en chunks l√≥gicos con solapamiento (simulado).

In [22]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

texto_largo_ejemplo = """
La inteligencia artificial (IA) es un campo de la inform√°tica que se enfoca en la creaci√≥n de sistemas que pueden razonar, aprender y actuar de manera inteligente. Los modelos de lenguaje grande (LLMs) como GPT-4 han revolucionado la interacci√≥n humana con la tecnolog√≠a. Estos modelos son entrenados en vastos conjuntos de datos para predecir la siguiente palabra, permitiendo generar texto coherente y relevante.

Sin embargo, el universo es mucho m√°s que bits y bytes. La V√≠a L√°ctea es la galaxia espiral donde se encuentra nuestro Sistema Solar, conteniendo miles de millones de estrellas. En su centro reside un agujero negro supermasivo, Sagitario A*, cuya inmensa gravedad dicta el movimiento de todo lo que le rodea. Estudiar estos fen√≥menos requiere telescopios potentes y an√°lisis de datos avanzados.

En la Tierra, la biolog√≠a nos ofrece maravillas como el pulpo, un animal conocido por su alta inteligencia. Los pulpos son maestros del camuflaje, capaces de cambiar el color y la textura de su piel en un instante para mimetizarse con el entorno. Adem√°s, poseen un sistema circulatorio √∫nico con tres corazones. Su capacidad de resolver problemas los hace fascinantes para la neurociencia.
"""


In [23]:
# 2. Configurar el Text Splitter
# Usaremos un RecursiveCharacterTextSplitter que intenta dividir por diferentes
# caracteres (saltos de l√≠nea, puntos, etc.) para mantener el contexto.
text_splitter = RecursiveCharacterTextSplitter(
    # Tama√±o m√°ximo de cada chunk
    chunk_size=300,
    # Tama√±o del solapamiento entre chunks adyacentes
    chunk_overlap=50,
    # Separadores preferidos (los predeterminados son buenos)
    separators=["\n\n", "\n", ".", " ", ""]
)


In [24]:
# 3. Aplicar el Chunking
# La funci√≥n .create_documents toma el texto y lo divide seg√∫n la configuraci√≥n.
chunks_documentos = text_splitter.create_documents([texto_largo_ejemplo])

print(f"\n--- ‚úÇÔ∏è Resultado del Chunking Estrat√©gico ---")
print(f"Texto original dividido en {len(chunks_documentos)} chunks.")


--- ‚úÇÔ∏è Resultado del Chunking Estrat√©gico ---
Texto original dividido en 6 chunks.


In [25]:
# 4. Preparar la nueva estructura de datos para ChromaDB
nuevos_documentos = []
nuevos_metadatos = []
nuevos_ids = []
id_base = 100 # Usamos IDs diferentes para distinguirlos

print("\nChunks generados (ejemplo):")
for i, chunk in enumerate(chunks_documentos):
    chunk_text = chunk.page_content
    # Simulamos asignar una categor√≠a basada en el contenido inicial (no ideal, pero simple)
    if "IA" in chunk_text or "GPT-4" in chunk_text:
        categoria = "Tecnolog√≠a_Chunked"
    elif "V√≠a L√°ctea" in chunk_text or "agujero negro" in chunk_text:
        categoria = "Astronom√≠a_Chunked"
    elif "pulpo" in chunk_text or "biolog√≠a" in chunk_text:
        categoria = "Animales_Chunked"
    else:
        categoria = "General_Chunked"

    nuevos_documentos.append(chunk_text)
    nuevos_metadatos.append({
        "categoria": categoria,
        "source": "Art√≠culo Largo",
        "chunk_id": i
    })
    nuevos_ids.append(f"chunk_{id_base + i}")
    print(f"**Chunk {i}:** (Solapamiento) {chunk_text[:70]}...") # Mostramos solo el inicio


Chunks generados (ejemplo):
**Chunk 0:** (Solapamiento) La inteligencia artificial (IA) es un campo de la inform√°tica que se e...
**Chunk 1:** (Solapamiento) . Estos modelos son entrenados en vastos conjuntos de datos para prede...
**Chunk 2:** (Solapamiento) Sin embargo, el universo es mucho m√°s que bits y bytes. La V√≠a L√°ctea ...
**Chunk 3:** (Solapamiento) . En su centro reside un agujero negro supermasivo, Sagitario A*, cuya...
**Chunk 4:** (Solapamiento) En la Tierra, la biolog√≠a nos ofrece maravillas como el pulpo, un anim...
**Chunk 5:** (Solapamiento) . Adem√°s, poseen un sistema circulatorio √∫nico con tres corazones. Su ...


In [26]:
# 5. Sobreescribir o a√±adir a la Colecci√≥n (Re-indexaci√≥n)

# NOTA IMPORTANTE: Para este ejemplo, vamos a *limpiar* la colecci√≥n
# para que solo contenga los chunks, o usar una nueva.
# Aqu√≠ simplemente a√±adiremos los nuevos chunks:
# collection.add(...)

# Para asegurarnos de no mezclar datos si el script se ejecuta muchas veces,
# vamos a usar un cliente nuevo y una colecci√≥n temporal para este chunk:
CHROMA_PATH_CHUNKS = "chroma_db_chunked"
chroma_client_chunked = chromadb.PersistentClient(path=CHROMA_PATH_CHUNKS)
COLLECTION_NAME_CHUNKS = "base_conocimiento_chunked"

# Creamos o cargamos la nueva colecci√≥n con los embeddings redefinidos (hf_ef debe estar definido)
collection_chunked = chroma_client_chunked.get_or_create_collection(
    name=COLLECTION_NAME_CHUNKS,
    embedding_function=hf_ef, # Asume que hf_ef est√° definido del paso 3
    metadata={"hnsw:space": "cosine"}
)

print("\nIniciando la inserci√≥n de CHUNKS y c√°lculo de embeddings...")
collection_chunked.add(
    documents=nuevos_documentos,
    metadatas=nuevos_metadatos,
    ids=nuevos_ids
)

print(f"¬°√âxito! Se insertaron {collection_chunked.count()} CHUNKS en la nueva base vectorial.")
print("-" * 50)


Iniciando la inserci√≥n de CHUNKS y c√°lculo de embeddings...
¬°√âxito! Se insertaron 6 CHUNKS en la nueva base vectorial.
--------------------------------------------------


## 6. Optimizaci√≥n 2: Re-ranking

Vamos a mejorar la b√∫squeda sem√°ntica seleccionando los resultados m√°s relevantes mediante una segunda evaluaci√≥n (re-ranking).

In [28]:
from sentence_transformers import CrossEncoder

# 1. Cargar el modelo Re-ranker (Cross-Encoder)
# Los Cross-Encoders son modelos que toman un par de (consulta, documento)
# y devuelven una puntuaci√≥n de similitud. Son m√°s lentos que los bi-encoders
# pero mucho m√°s precisos para clasificar la relevancia.
RERANKER_MODEL = 'cross-encoder/ms-marco-MiniLM-L-6-v2'
cross_encoder = CrossEncoder(RERANKER_MODEL)

In [30]:

print(f"\n--- üîÑ Modelo Cross-Encoder cargado: {RERANKER_MODEL} ---")

# 2. Definir la Consulta
pregunta_usuario_rerank = "¬øQu√© informaci√≥n tienes sobre el comportamiento de los animales acu√°ticos?"

# 3. Paso 1: Recuperaci√≥n Inicial (Usando la colecci√≥n con Chunks)
# Asumimos que 'collection_chunked' est√° cargada del paso 5.
# Recuperamos un n√∫mero mayor de resultados (ej. 5) para tener un buen pool para re-rankear.
NUM_RESULTS_RETRIEVED = 5
print(f"Buscando los {NUM_RESULTS_RETRIEVED} chunks iniciales m√°s cercanos...")

resultados_iniciales = collection_chunked.query(
    query_texts=[pregunta_usuario_rerank],
    n_results=NUM_RESULTS_RETRIEVED,
)

documentos_recuperados = resultados_iniciales['documents'][0]
metadatos_recuperados = resultados_iniciales['metadatas'][0]

# 4. Paso 2: Preparar los pares (Consulta, Documento) para el Cross-Encoder
# El Cross-Encoder necesita una lista de tuplas: [(pregunta, chunk_1), (pregunta, chunk_2), ...]
pares_para_rerank = [
    (pregunta_usuario_rerank, chunk) for chunk in documentos_recuperados
]

# 5. Paso 3: Obtener las Puntuaciones de Relevancia del Cross-Encoder
# El m√©todo .predict() devuelve una puntuaci√≥n para cada par. Una puntuaci√≥n m√°s alta es mejor.
puntuaciones = cross_encoder.predict(pares_para_rerank)

# 6. Paso 4: Combinar Resultados y Reordenar
# Creamos una lista de diccionarios que incluye el chunk, metadato y la nueva puntuaci√≥n.
resultados_combinados = []
for doc, meta, score in zip(documentos_recuperados, metadatos_recuperados, puntuaciones):
    resultados_combinados.append({
        'document': doc,
        'metadata': meta,
        'rerank_score': score
    })

# Ordenar la lista por la puntuaci√≥n del re-ranker (de mayor a menor)
resultados_ordenados = sorted(
    resultados_combinados,
    key=lambda x: x['rerank_score'],
    reverse=True
)

# 7. Mostrar los resultados Re-rankeados (solo los top 2)
NUM_FINAL_RESULTS = 2
print(f"\n--- ‚ú® Resultados Finales Re-rankeados (Top {NUM_FINAL_RESULTS}) ---")

for i, resultado in enumerate(resultados_ordenados[:NUM_FINAL_RESULTS]):
    print(f"\n**{i + 1}. Documento Relevante** (Puntuaci√≥n: {resultado['rerank_score']:.4f})")
    print(f"   -> **Categor√≠a:** {resultado['metadata']['categoria']}")
    print(f"   -> **Texto:** {resultado['document']}")

print("-" * 50)


--- üîÑ Modelo Cross-Encoder cargado: cross-encoder/ms-marco-MiniLM-L-6-v2 ---
Buscando los 5 chunks iniciales m√°s cercanos...

--- ‚ú® Resultados Finales Re-rankeados (Top 2) ---

**1. Documento Relevante** (Puntuaci√≥n: -4.3383)
   -> **Categor√≠a:** Animales_Chunked
   -> **Texto:** En la Tierra, la biolog√≠a nos ofrece maravillas como el pulpo, un animal conocido por su alta inteligencia. Los pulpos son maestros del camuflaje, capaces de cambiar el color y la textura de su piel en un instante para mimetizarse con el entorno

**2. Documento Relevante** (Puntuaci√≥n: -8.9486)
   -> **Categor√≠a:** Astronom√≠a_Chunked
   -> **Texto:** . En su centro reside un agujero negro supermasivo, Sagitario A*, cuya inmensa gravedad dicta el movimiento de todo lo que le rodea. Estudiar estos fen√≥menos requiere telescopios potentes y an√°lisis de datos avanzados.
--------------------------------------------------


## 7. Optimizaci√≥n 3: B√∫squeda h√≠brida

Combinaremos b√∫squeda por palabra clave + sem√°ntica.

In [31]:
def simulacion_sparse_retrieval(pregunta, documentos_chunked):
    """
    Simula la b√∫squeda por palabra clave (BM25/Sparse) buscando cualquier
    documento cuyo texto contenga al menos una palabra clave de la pregunta.
    """
    palabras_clave = set(pregunta.lower().split())
    resultados_sparse = []
    
    for i, doc_data in enumerate(documentos_chunked):
        texto = doc_data['document'].lower()
 
        if any(keyword in texto for keyword in palabras_clave if len(keyword) > 3):
             resultados_sparse.append({
                'id': doc_data['id'],
                'document': doc_data['document'],
                'metadata': doc_data['metadata']
            })

    return resultados_sparse[:5]

In [32]:
all_chroma_data = collection_chunked.get(include=['metadatas', 'documents'])
all_chunks_data = [
    {'id': all_chroma_data['ids'][i], 
     'document': all_chroma_data['documents'][i], 
     'metadata': all_chroma_data['metadatas'][i]} 
    for i in range(len(all_chroma_data['ids']))
]

# 2. Definir la Consulta y realizar ambas b√∫squedas
pregunta_hibrida = "Dame informaci√≥n sobre el agujero negro en el centro de nuestra galaxia."

# A. B√∫squeda Sem√°ntica (Dense)
print(f"\n--- üîé B√∫squeda Sem√°ntica ---")
# Recuperamos 10 resultados para el pool
resultados_dense = collection_chunked.query(
    query_texts=[pregunta_hibrida],
    n_results=10,
    include=['documents', 'metadatas', 'distances']
)

# B. B√∫squeda por Palabra Clave (Sparse Simulation)
print(f"--- üîë B√∫squeda por Palabra Clave ---")
resultados_sparse = simulacion_sparse_retrieval(pregunta_hibrida, all_chunks_data)
print(f"Palabra clave recuper√≥ {len(resultados_sparse)} chunks.")


# 3. Aplicar Reciprocal Rank Fusion (RRF)
# Funci√≥n RRF para combinar y reordenar las dos listas de resultados
def rank_fusion(dense_results, sparse_results, k=60):
    """Implementa Reciprocal Rank Fusion (RRF) para combinar rankings."""
    fused_scores = {}
    
    # A. Procesar resultados Sem√°nticos (Dense)
    # dense_results es el output de ChromaDB query
    ids_dense = dense_results['ids'][0]
    for rank, doc_id in enumerate(ids_dense, 1):
        score = 1 / (rank + k)
        fused_scores[doc_id] = fused_scores.get(doc_id, 0) + score

    # B. Procesar resultados Palabra Clave (Sparse)
    # sparse_results es una lista de diccionarios que simula la respuesta sparse
    for rank, result in enumerate(sparse_results, 1):
        doc_id = result['id']
        score = 1 / (rank + k)
        fused_scores[doc_id] = fused_scores.get(doc_id, 0) + score
        
    # C. Obtener el ranking final basado en la puntuaci√≥n RRF
    ranked_ids = sorted(fused_scores, key=fused_scores.get, reverse=True)
    
    # Recuperar los detalles completos de los chunks (simulando una llamada a la DB)
    final_results = []
    
    # Mapear IDs a documentos completos para la salida final
    id_to_doc = {d['id']: d for d in all_chunks_data}
    
    for doc_id in ranked_ids:
        if doc_id in id_to_doc:
            final_results.append({
                'document': id_to_doc[doc_id]['document'],
                'metadata': id_to_doc[doc_id]['metadata'],
                'rrf_score': fused_scores[doc_id]
            })
            
    return final_results

# 4. Ejecutar y mostrar la B√∫squeda H√≠brida
resultados_hibridos = rank_fusion(resultados_dense, resultados_sparse)

print("\n--- üåê Resultados Finales H√≠bridos (RRF) ---")
# Mostramos los 3 resultados m√°s relevantes
for i, resultado in enumerate(resultados_hibridos[:3]):
    print(f"\n**{i + 1}. Documento H√≠brido** (RRF Score: {resultado['rrf_score']:.4f})")
    print(f"   -> **Categor√≠a:** {resultado['metadata']['categoria']}")
    print(f"   -> **Texto:** {resultado['document'][:100]}...")

print("-" * 60)

Number of requested results 10 is greater than number of elements in index 6, updating n_results = 6



--- üîé B√∫squeda Sem√°ntica ---
--- üîë B√∫squeda por Palabra Clave ---
Palabra clave recuper√≥ 1 chunks.

--- üåê Resultados Finales H√≠bridos (RRF) ---

**1. Documento H√≠brido** (RRF Score: 0.0328)
   -> **Categor√≠a:** Astronom√≠a_Chunked
   -> **Texto:** . En su centro reside un agujero negro supermasivo, Sagitario A*, cuya inmensa gravedad dicta el mov...

**2. Documento H√≠brido** (RRF Score: 0.0161)
   -> **Categor√≠a:** Astronom√≠a_Chunked
   -> **Texto:** Sin embargo, el universo es mucho m√°s que bits y bytes. La V√≠a L√°ctea es la galaxia espiral donde se...

**3. Documento H√≠brido** (RRF Score: 0.0159)
   -> **Categor√≠a:** Animales_Chunked
   -> **Texto:** En la Tierra, la biolog√≠a nos ofrece maravillas como el pulpo, un animal conocido por su alta inteli...
------------------------------------------------------------


## Extensi√≥n 

Implementa un cach√© simple que guarde los √∫ltimos resultados de consulta.
Tip: Usa un diccionario {consulta: resultados} y revisa si la consulta ya existe antes de buscar otra vez.

In [34]:
class QueryCache:
    """
    Un cach√© simple que almacena los resultados de b√∫squedas anteriores
    para evitar procesamiento redundante.
    """
    def __init__(self, max_size=5):
        # El diccionario para almacenar los resultados: {consulta_str: resultados}
        self.cache = {}
        # L√≠mite de entradas para mantener el cach√© gestionable (LRU simple)
        self.max_size = max_size
        print(f"‚úÖ Cach√© inicializado con tama√±o m√°ximo: {self.max_size}")

    def get_results(self, query):
        """
        Retorna los resultados si la consulta existe en el cach√©.
        Mueve la consulta al final (simulaci√≥n LRU) para mantenerla fresca.
        """
        if query in self.cache:
            # Simulaci√≥n simple de "usado recientemente": borra y reinserta
            # para moverlo al "final" del orden de inserci√≥n (mantenerlo fresco).
            results = self.cache.pop(query)
            self.cache[query] = results
            print(f"‚û°Ô∏è CACH√â HIT: Resultados devueltos para la consulta: '{query[:30]}...'")
            return results
        
        print(f"‚ùå CACH√â MISS: La consulta no est√° en el cach√©.")
        return None

    def store_results(self, query, results):
        """
        Almacena los resultados de una nueva consulta. Si el cach√© est√° lleno,
        elimina la entrada m√°s antigua (el primer elemento insertado, simple LRU).
        """
        # 1. Chequeo de L√≠mite (Simulaci√≥n de "Least Recently Used - LRU")
        if len(self.cache) >= self.max_size:
            # Elimina el primer elemento (el m√°s antiguo/menos recientemente usado)
            oldest_key = next(iter(self.cache))
            self.cache.pop(oldest_key)
            print(f"üóëÔ∏è Cach√© lleno. Eliminada la entrada m√°s antigua: '{oldest_key[:30]}...'")

        # 2. Almacenar el nuevo resultado
        self.cache[query] = results
        print(f"‚ûï Resultado almacenado en cach√© para: '{query[:30]}...'")

    def clear(self):
        """Vac√≠a completamente el cach√©."""
        self.cache = {}
        print("Cach√© limpiado.")

In [36]:
query_cache = QueryCache(max_size=3)


def buscar_hibrida_optimizada(query, cache_instance):
    """
    Simula la funci√≥n de b√∫squeda h√≠brida (lenta) que utiliza el cach√©.
    """
    # 1. Revisar Cach√©
    cached_results = cache_instance.get_results(query)
    if cached_results is not None:
        return cached_results

    # 2. Si hay CACH√â MISS (Simular la b√∫squeda lenta)
    import time
    print("...Ejecutando b√∫squeda sem√°ntica, sparse y RRF (simulaci√≥n de 2s)...")
    time.sleep(2)  # Simula el tiempo que tomar√≠a la b√∫squeda real y el re-ranking
    
    # Simular los resultados finales (lista de diccionarios)
    simulated_results = [
        {"document": f"Chunk relevante para '{query}'...", "score": 0.95},
        {"document": f"Chunk secundario para '{query}'...", "score": 0.88},
    ]

    # 3. Almacenar resultados
    cache_instance.store_results(query, simulated_results)
    return simulated_results

# --- Escenario 1: Nueva Consulta (CACH√â MISS) ---
consulta_A = "¬øQu√© informaci√≥n tienes sobre el agujero negro en el centro de nuestra galaxia?"
print("\n--- Intento 1 (Consulta A) ---")
resultados_A = buscar_hibrida_optimizada(consulta_A, query_cache)
# print(resultados_A)

# --- Escenario 2: Repetici√≥n Inmediata (CACH√â HIT) ---
print("\n--- Intento 2 (Consulta A - Repetida) ---")
resultados_A_repetido = buscar_hibrida_optimizada(consulta_A, query_cache)
# ¬°Tiempo de espera evitado!

# --- Escenario 3: Nueva Consulta (CACH√â MISS) ---
consulta_B = "¬øCu√°l es el animal terrestre m√°s r√°pido del mundo?"
print("\n--- Intento 3 (Consulta B) ---")
resultados_B = buscar_hibrida_optimizada(consulta_B, query_cache)

# --- Escenario 4: Nueva Consulta que llena el cach√© y elimina el m√°s antiguo ---
consulta_C = "Menciona los beneficios del blockchain."
print("\n--- Intento 4 (Consulta C - L√≠mite de Cach√©) ---")
resultados_C = buscar_hibrida_optimizada(consulta_C, query_cache)
# La Consulta A fue eliminada porque era la m√°s antigua y el cach√© solo permite 3 entradas.

# --- Escenario 5: Volver a consultar A (Ahora ser√° CACH√â MISS) ---
print("\n--- Intento 5 (Consulta A - Eliminada) ---")
resultados_A_re_miss = buscar_hibrida_optimizada(consulta_A, query_cache)
# ¬°Vuelve a ejecutar la b√∫squeda lenta!

‚úÖ Cach√© inicializado con tama√±o m√°ximo: 3

--- Intento 1 (Consulta A) ---
‚ùå CACH√â MISS: La consulta no est√° en el cach√©.
...Ejecutando b√∫squeda sem√°ntica, sparse y RRF (simulaci√≥n de 2s)...
‚ûï Resultado almacenado en cach√© para: '¬øQu√© informaci√≥n tienes sobre ...'

--- Intento 2 (Consulta A - Repetida) ---
‚û°Ô∏è CACH√â HIT: Resultados devueltos para la consulta: '¬øQu√© informaci√≥n tienes sobre ...'

--- Intento 3 (Consulta B) ---
‚ùå CACH√â MISS: La consulta no est√° en el cach√©.
...Ejecutando b√∫squeda sem√°ntica, sparse y RRF (simulaci√≥n de 2s)...
‚ûï Resultado almacenado en cach√© para: '¬øCu√°l es el animal terrestre m...'

--- Intento 4 (Consulta C - L√≠mite de Cach√©) ---
‚ùå CACH√â MISS: La consulta no est√° en el cach√©.
...Ejecutando b√∫squeda sem√°ntica, sparse y RRF (simulaci√≥n de 2s)...
‚ûï Resultado almacenado en cach√© para: 'Menciona los beneficios del bl...'

--- Intento 5 (Consulta A - Eliminada) ---
‚û°Ô∏è CACH√â HIT: Resultados devueltos para 