# 07 - Reranking y Optimizaci√≥n de Retrieval

## Curso de LLMs y Aplicaciones de IA

**Duraci√≥n estimada:** 2 horas

---

## √çndice

1. [Introducci√≥n al Reranking](#intro)
2. [Cross-Encoder](#cross)
3. [Bi-Encoder (Dense Retrieval)](#bi)
4. [LLM como Reranker](#llm)
5. [Estrategias combinadas](#combinadas)
6. [Ejercicios pr√°cticos](#ejercicios)

---

## Objetivos de aprendizaje

Al finalizar este notebook, ser√°s capaz de:
- Entender por qu√© el reranking mejora la calidad del RAG
- Implementar Cross-Encoder para reranking preciso
- Comparar Bi-Encoder vs Cross-Encoder
- Combinar m√∫ltiples estrategias de retrieval

<a name="intro"></a>
## 1. Introducci√≥n al Reranking

### ¬øPor qu√© necesitamos Reranking?

La primera fase de retrieval (Bi-Encoder + similitud coseno) es **r√°pida pero imprecisa**. El reranking a√±ade una segunda fase m√°s precisa pero m√°s costosa.

```
Query ‚Üí [Bi-Encoder] ‚Üí Top 50 candidatos ‚Üí [Reranker] ‚Üí Top 5 finales
         (r√°pido)                           (preciso)
```

### Tipos de Rerankers

| Tipo | Descripci√≥n | Precisi√≥n | Velocidad |
|------|-------------|-----------|----------|
| **Cross-Encoder** | Eval√∫a (query, doc) juntos | Alta | Lenta |
| **Bi-Encoder** | Embeddings separados | Media | R√°pida |
| **LLM Reranker** | LLM eval√∫a relevancia | Muy alta | Muy lenta |

In [1]:
# Install required libraries (all free)
#!pip install -q sentence-transformers torch

In [2]:
import warnings
warnings.filterwarnings('ignore')

# Sample documents for testing
query = "¬øCu√°les son las aplicaciones m√°s prometedoras de la IA en medicina?"

documents = [
    "La IA puede acelerar el descubrimiento de nuevos medicamentos para diversos tipos de c√°ncer.",
    "En cardiolog√≠a, los modelos predictivos ayudan a identificar pacientes con alto riesgo de infarto.",
    "Los sistemas de IA permiten analizar im√°genes m√©dicas para detectar tumores en etapas tempranas.",
    "La IA ha demostrado ser √∫til en el monitoreo de enfermedades cr√≥nicas como la diabetes.",
    "La IA se utiliza para personalizar tratamientos oncol√≥gicos seg√∫n el perfil gen√©tico.",
    "En neurolog√≠a, se emplea IA para detectar patrones de deterioro cognitivo.",
    "Algoritmos se han integrado en hospitales para optimizar la gesti√≥n de camas.",
    "La IA permite predecir respuestas a inmunoterapia en pacientes con melanoma.",
    "Me gusta el helado de chocolate.",  # Irrelevant
    "El tiempo est√° muy agradable hoy.",  # Irrelevant
]

print(f"Query: {query}")
print(f"Documentos: {len(documents)}")

Query: ¬øCu√°les son las aplicaciones m√°s prometedoras de la IA en medicina?
Documentos: 10


<a name="cross"></a>
## 2. Cross-Encoder

El **Cross-Encoder** procesa query y documento **juntos** a trav√©s del modelo, permitiendo atenci√≥n cruzada entre ellos.

In [3]:
from sentence_transformers import CrossEncoder

# Load Cross-Encoder model (free, open source)
print("Cargando Cross-Encoder...")
cross_encoder = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-6-v2")
print("Modelo cargado ‚úì")

Cargando Cross-Encoder...


Loading weights: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 105/105 [00:00<00:00, 1096.17it/s, Materializing param=classifier.weight]
[1mBertForSequenceClassification LOAD REPORT[0m from: cross-encoder/ms-marco-MiniLM-L-6-v2
Key                          | Status     |  | 
-----------------------------+------------+--+-
bert.embeddings.position_ids | UNEXPECTED |  | 

[3mNotes:
- UNEXPECTED[3m	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.[0m


Modelo cargado ‚úì


In [4]:
# Create (query, document) pairs
pairs = [(query, doc) for doc in documents]

# Get relevance scores
scores = cross_encoder.predict(pairs)

# Sort by score
results = sorted(zip(documents, scores), key=lambda x: x[1], reverse=True)

print("\nüî¥ Reranking con Cross-Encoder:")
print("=" * 60)
for i, (doc, score) in enumerate(results, 1):
    emoji = "‚úÖ" if score > 0 else "‚ùå"
    print(f"{i}. {emoji} Score: {score:.4f}")
    print(f"   {doc[:70]}...\n")


üî¥ Reranking con Cross-Encoder:
1. ‚ùå Score: -9.9813
   La IA se utiliza para personalizar tratamientos oncol√≥gicos seg√∫n el p...

2. ‚ùå Score: -10.0438
   La IA ha demostrado ser √∫til en el monitoreo de enfermedades cr√≥nicas ...

3. ‚ùå Score: -10.1135
   La IA permite predecir respuestas a inmunoterapia en pacientes con mel...

4. ‚ùå Score: -10.1852
   La IA puede acelerar el descubrimiento de nuevos medicamentos para div...

5. ‚ùå Score: -10.3119
   El tiempo est√° muy agradable hoy....

6. ‚ùå Score: -10.7006
   Los sistemas de IA permiten analizar im√°genes m√©dicas para detectar tu...

7. ‚ùå Score: -10.8199
   Algoritmos se han integrado en hospitales para optimizar la gesti√≥n de...

8. ‚ùå Score: -10.8908
   En neurolog√≠a, se emplea IA para detectar patrones de deterioro cognit...

9. ‚ùå Score: -10.9315
   En cardiolog√≠a, los modelos predictivos ayudan a identificar pacientes...

10. ‚ùå Score: -10.9830
   Me gusta el helado de chocolate....



<a name="bi"></a>
## 3. Bi-Encoder (Dense Retrieval)

El **Bi-Encoder** genera embeddings **separados** para query y documentos, luego calcula similitud.

In [5]:
from sentence_transformers import SentenceTransformer, util

# Load Bi-Encoder model
print("Cargando Bi-Encoder...")
bi_encoder = SentenceTransformer("all-MiniLM-L6-v2")
print("Modelo cargado ‚úì")

Cargando Bi-Encoder...


Loading weights: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 103/103 [00:00<00:00, 1112.50it/s, Materializing param=pooler.dense.weight]
[1mBertModel LOAD REPORT[0m from: sentence-transformers/all-MiniLM-L6-v2
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

[3mNotes:
- UNEXPECTED[3m	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.[0m


Modelo cargado ‚úì


In [6]:
# Encode query and documents separately
query_embedding = bi_encoder.encode(query, convert_to_tensor=True)
doc_embeddings = bi_encoder.encode(documents, convert_to_tensor=True)

# Calculate similarities
similarities = util.cos_sim(query_embedding, doc_embeddings)[0]

# Sort by similarity
results_bi = sorted(zip(documents, similarities.tolist()), 
                    key=lambda x: x[1], reverse=True)

print("\nüîµ Ranking con Bi-Encoder:")
print("=" * 60)
for i, (doc, score) in enumerate(results_bi, 1):
    emoji = "‚úÖ" if score > 0.3 else "‚ùå"
    print(f"{i}. {emoji} Score: {score:.4f}")
    print(f"   {doc[:70]}...\n")


üîµ Ranking con Bi-Encoder:
1. ‚úÖ Score: 0.5146
   Algoritmos se han integrado en hospitales para optimizar la gesti√≥n de...

2. ‚úÖ Score: 0.4947
   La IA se utiliza para personalizar tratamientos oncol√≥gicos seg√∫n el p...

3. ‚úÖ Score: 0.4938
   La IA puede acelerar el descubrimiento de nuevos medicamentos para div...

4. ‚úÖ Score: 0.4393
   La IA ha demostrado ser √∫til en el monitoreo de enfermedades cr√≥nicas ...

5. ‚úÖ Score: 0.4010
   El tiempo est√° muy agradable hoy....

6. ‚úÖ Score: 0.3870
   Me gusta el helado de chocolate....

7. ‚úÖ Score: 0.3823
   En neurolog√≠a, se emplea IA para detectar patrones de deterioro cognit...

8. ‚úÖ Score: 0.3372
   La IA permite predecir respuestas a inmunoterapia en pacientes con mel...

9. ‚úÖ Score: 0.3301
   Los sistemas de IA permiten analizar im√°genes m√©dicas para detectar tu...

10. ‚ùå Score: 0.2693
   En cardiolog√≠a, los modelos predictivos ayudan a identificar pacientes...



### Comparaci√≥n: Cross-Encoder vs Bi-Encoder

In [7]:
import time

# Benchmark speed
n_docs = 100
test_docs = documents * 10  # Create 100 documents

# Bi-Encoder timing
start = time.time()
q_emb = bi_encoder.encode(query, convert_to_tensor=True)
d_embs = bi_encoder.encode(test_docs, convert_to_tensor=True)
sims = util.cos_sim(q_emb, d_embs)
bi_time = time.time() - start

# Cross-Encoder timing
start = time.time()
pairs = [(query, doc) for doc in test_docs]
scores = cross_encoder.predict(pairs)
cross_time = time.time() - start

print("Comparaci√≥n de velocidad:")
print(f"  Bi-Encoder:    {bi_time:.3f}s para {n_docs} docs")
print(f"  Cross-Encoder: {cross_time:.3f}s para {n_docs} docs")
print(f"  Cross-Encoder es {cross_time/bi_time:.1f}x m√°s lento")

Comparaci√≥n de velocidad:
  Bi-Encoder:    0.241s para 100 docs
  Cross-Encoder: 0.397s para 100 docs
  Cross-Encoder es 1.6x m√°s lento


<a name="llm"></a>
## 4. LLM como Reranker

Un LLM puede evaluar la relevancia de documentos con alta precisi√≥n, pero es el m√©todo m√°s costoso.

In [8]:
import os
from getpass import getpass

if 'GROQ_API_KEY' not in os.environ:
    os.environ['GROQ_API_KEY'] = getpass("Introduce tu GROQ API Key: ")

from langchain_groq import ChatGroq

llm = ChatGroq(model_name="llama-3.3-70b-versatile", temperature=0)
print("LLM configurado ‚úì")

Introduce tu GROQ API Key:  ¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑


LLM configurado ‚úì


In [9]:
def llm_rerank(query: str, documents: list, top_k: int = 5) -> list:
    """Use LLM to rerank documents by relevance."""
    
    # Format documents with indices
    doc_list = "\n".join([f"[{i+1}] {doc}" for i, doc in enumerate(documents)])
    
    prompt = f"""Ordena los siguientes documentos por relevancia para la pregunta.
Devuelve SOLO los n√∫meros de los {top_k} documentos m√°s relevantes, separados por comas.

Pregunta: {query}

Documentos:
{doc_list}

Top {top_k} m√°s relevantes (solo n√∫meros, ej: 3,1,5,2,4):"""
    
    response = llm.invoke(prompt)
    
    # Parse response
    try:
        indices = [int(x.strip()) - 1 for x in response.content.split(",")[:top_k]]
        return [(documents[i], i+1) for i in indices if 0 <= i < len(documents)]
    except:
        return [(doc, i) for i, doc in enumerate(documents[:top_k], 1)]

# Test LLM reranking
print("üü£ Reranking con LLM:")
print("=" * 60)

llm_results = llm_rerank(query, documents, top_k=5)
for i, (doc, original_idx) in enumerate(llm_results, 1):
    print(f"{i}. (original #{original_idx}) {doc[:60]}...")

üü£ Reranking con LLM:
1. (original #1) La IA puede acelerar el descubrimiento de nuevos medicamento...
2. (original #3) Los sistemas de IA permiten analizar im√°genes m√©dicas para d...
3. (original #5) La IA se utiliza para personalizar tratamientos oncol√≥gicos ...
4. (original #2) En cardiolog√≠a, los modelos predictivos ayudan a identificar...
5. (original #4) La IA ha demostrado ser √∫til en el monitoreo de enfermedades...


<a name="combinadas"></a>
## 5. Estrategias Combinadas

La mejor pr√°ctica es combinar Bi-Encoder (r√°pido, primera fase) con Cross-Encoder (preciso, segunda fase).

In [10]:
def two_stage_retrieval(query: str, documents: list, 
                        bi_model, cross_model,
                        first_k: int = 10, final_k: int = 5):
    """
    Two-stage retrieval:
    1. Bi-Encoder for fast initial retrieval
    2. Cross-Encoder for precise reranking
    """
    # Stage 1: Bi-Encoder
    q_emb = bi_model.encode(query, convert_to_tensor=True)
    d_embs = bi_model.encode(documents, convert_to_tensor=True)
    sims = util.cos_sim(q_emb, d_embs)[0]
    
    # Get top-k candidates
    top_indices = sims.argsort(descending=True)[:first_k]
    candidates = [(documents[i], sims[i].item()) for i in top_indices]
    
    print(f"Stage 1 (Bi-Encoder): {len(candidates)} candidatos")
    
    # Stage 2: Cross-Encoder
    pairs = [(query, doc) for doc, _ in candidates]
    scores = cross_model.predict(pairs)
    
    # Final ranking
    final_results = sorted(zip([c[0] for c in candidates], scores), 
                          key=lambda x: x[1], reverse=True)[:final_k]
    
    print(f"Stage 2 (Cross-Encoder): {len(final_results)} resultados finales")
    
    return final_results

# Test two-stage retrieval
print("\nüî∂ Two-Stage Retrieval:")
print("=" * 60)

final_results = two_stage_retrieval(
    query, documents,
    bi_encoder, cross_encoder,
    first_k=8, final_k=5
)

print("\nResultados finales:")
for i, (doc, score) in enumerate(final_results, 1):
    print(f"{i}. Score: {score:.4f}")
    print(f"   {doc[:70]}...\n")


üî∂ Two-Stage Retrieval:
Stage 1 (Bi-Encoder): 8 candidatos
Stage 2 (Cross-Encoder): 5 resultados finales

Resultados finales:
1. Score: -9.9813
   La IA se utiliza para personalizar tratamientos oncol√≥gicos seg√∫n el p...

2. Score: -10.0438
   La IA ha demostrado ser √∫til en el monitoreo de enfermedades cr√≥nicas ...

3. Score: -10.1135
   La IA permite predecir respuestas a inmunoterapia en pacientes con mel...

4. Score: -10.1852
   La IA puede acelerar el descubrimiento de nuevos medicamentos para div...

5. Score: -10.3119
   El tiempo est√° muy agradable hoy....



<a name="ejercicios"></a>
## 6. Ejercicios Pr√°cticos

### Ejercicio 1: Comparar rankings

In [11]:
# Exercise 1: Compare all three methods on a new query

new_query = "¬øC√≥mo ayuda la inteligencia artificial a diagnosticar enfermedades?"

# Get rankings from all three methods
# 1. Bi-Encoder
# 2. Cross-Encoder  
# 3. LLM

# Compare which documents appear in top 3 for each
# Are they the same? Different?

print(f"Query: {new_query}")
print("\nCompara los rankings de cada m√©todo...")

Query: ¬øC√≥mo ayuda la inteligencia artificial a diagnosticar enfermedades?

Compara los rankings de cada m√©todo...


## Resumen

En este notebook hemos aprendido:

1. **Reranking**: Segunda fase para mejorar precisi√≥n
2. **Cross-Encoder**: Preciso pero lento
3. **Bi-Encoder**: R√°pido pero menos preciso
4. **LLM Reranker**: Muy preciso pero costoso
5. **Two-stage**: Combinar lo mejor de ambos

### Recomendaciones

| Escenario | Estrategia recomendada |
|-----------|------------------------|
| Latencia cr√≠tica | Solo Bi-Encoder |
| Precisi√≥n cr√≠tica | Two-stage (Bi + Cross) |
| Pocos documentos | Cross-Encoder directo |
| M√°xima precisi√≥n | LLM Reranker |

En el siguiente notebook veremos **Agentes**, que combinan LLMs con herramientas y razonamiento.

---

## Referencias

- [Sentence Transformers](https://www.sbert.net/)
- [Cross-Encoders for Reranking](https://www.sbert.net/examples/applications/cross-encoder/README.html)

In [12]:
import session_info
session_info.show(html = False)

-----
ipykernel                   7.2.0
langchain_groq              1.1.2
sentence_transformers       5.2.2
session_info                v1.0.1
torch                       2.10.0+cpu
-----
IPython             9.10.0
jupyter_client      8.8.0
jupyter_core        5.9.1
-----
Python 3.13.1 (tags/v3.13.1:0671451, Dec  3 2024, 19:06:28) [MSC v.1942 64 bit (AMD64)]
Windows-11-10.0.26200-SP0
-----
Session information updated at 2026-02-09 17:25
