<a href="https://colab.research.google.com/github/rubuntu/Taller_Introduccion_a_Ciencia_de_Datos_IA_e_Ingenieria_de_Datos/blob/main/sesion_17_escalando_el_prototipo_con_llamaindex.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìò Sesi√≥n 17 - Escalando el prototipo con LlamaIndex + Modelos Abiertos Cuantizados

## üéØ Objetivos

- Introducir **LlamaIndex** como framework para construir RAGs m√°s robustos.  
- Aprender c√≥mo indexar datasets completos y ejecutar consultas.  
- Explorar el uso de **modelos de pesos abiertos cuantizados**.
- Evaluar la recuperaci√≥n con m√©tricas b√°sicas y probar calidad de respuestas.  

---

## 1. üöÄ Instalaci√≥n de dependencias

In [None]:
%%capture
# Instalaci√≥n de librer√≠as necesarias en Colab
!pip install transformers accelerate bitsandbytes
!pip install llama-index-core llama-index-embeddings-huggingface llama-index-llms-huggingface
!pip install wikipedia-api
!pip install chromadb==0.4.24
!pip install llama-index-vector-stores-chroma



Antes de empezar, necesitamos instalar las librer√≠as clave:

* `transformers`: para cargar y usar el modelo Mistral.
* `bitsandbytes`: nos permite usar cuantizaci√≥n en 4 bits y ahorrar memoria en GPU.
* `accelerate`: maneja la asignaci√≥n autom√°tica de dispositivos (CPU/GPU).
* `llama-index`: framework para crear RAGs (Retrieval-Augmented Generation).
* `chromadb`: motor vectorial que servir√° como base de datos sem√°ntica.
* `wikipedia-api`: descargar√° textos de Wikipedia en espa√±ol.

---

## 2. üì• Carga del modelo Mistral

In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

fourbit_models = [
    "unsloth/mistral-7b-bnb-4bit",
    "unsloth/mistral-7b-instruct-v0.2-bnb-4bit",
    "unsloth/llama-2-7b-bnb-4bit",
    "unsloth/llama-2-13b-bnb-4bit",
    "unsloth/codellama-34b-bnb-4bit",
    "unsloth/tinyllama-bnb-4bit",
    "unsloth/gemma-7b-bnb-4bit",
    "unsloth/gemma-2b-bnb-4bit",
] # More models at https://huggingface.co/unsloth

# üì• Descargamos el modelo Mistral desde Hugging Face
model_id = "unsloth/mistral-7b-instruct-v0.3-bnb-4bit"

# Tokenizador
tokenizer = AutoTokenizer.from_pretrained(model_id)

# Cargar modelo en GPU
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
)

Aqu√≠ descargamos el modelo **Mistral-7B-Instruct-v0.3** de Hugging Face y lo cargamos en memoria.

* `AutoTokenizer` prepara el texto para que el modelo lo entienda.
* `device_map="auto"` hace que se cargue en GPU autom√°ticamente si est√° disponible (ej. T4 en Colab).

---

## 3. üîå Conexi√≥n con LlamaIndex

In [None]:
from llama_index.llms.huggingface import HuggingFaceLLM
from llama_index.core import Settings

# Crear LLM
llm = HuggingFaceLLM(model=model, tokenizer=tokenizer)

# Configurar como LLM por defecto
Settings.llm = llm


* `HuggingFaceLLM` envuelve el modelo de Hugging Face para que LlamaIndex pueda usarlo.
* `Settings.llm` = llm indica que todas las operaciones de LlamaIndex usar√°n Mistral como motor LLM.

---

## 4. ‚úÖ Prueba r√°pida del modelo

In [None]:
response = llm.complete("Cuentame de Paraguay.")
print(response)

Aqu√≠ hacemos una prueba inicial para verificar que Mistral est√° funcionando y que responde en **espa√±ol**.

---

## 5. üìö Descarga de documentos de Wikipedia (Paraguay)

In [None]:
import wikipediaapi

# Configuraci√≥n de Wikipedia API
wiki_wiki = wikipediaapi.Wikipedia(
    language='es',
    user_agent='MiProyectoRAG/1.0 (https://github.com/rubuntu)'
)

# Lista de p√°ginas a descargar
paginas = [
    "Paraguay",
    "Geograf√≠a de Paraguay",
    "Econom√≠a de Paraguay",
    "Cultura de Paraguay",
    "Historia de Paraguay",
    "Asunci√≥n",
    "Guerra de la Triple Alianza",
    "Guerra del Chaco",
]

# Descargar y almacenar textos
docs_texts = []
for titulo in paginas:
    page = wiki_wiki.page(titulo)
    if page.exists():
        docs_texts.append(page.text)
        print(f"Cargado: {titulo}")
print(f"Total documentos cargados: {len(docs_texts)}")

Aqu√≠ usamos la API de Wikipedia para descargar m√∫ltiples art√≠culos relacionados con **Paraguay**.

* Se definen las p√°ginas de inter√©s (historia, geograf√≠a, guerras, cultura, etc.).
* Cada art√≠culo se descarga en espa√±ol y se guarda en `docs_texts`.
* As√≠ construimos nuestro **corpus de conocimiento**.

---

## 6. üìÇ Indexaci√≥n de documentos

In [None]:
from llama_index.core import Document, VectorStoreIndex, Settings
from llama_index.vector_stores.chroma import ChromaVectorStore
from llama_index.llms.huggingface import HuggingFaceLLM
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core.node_parser import SentenceSplitter
import chromadb

# 1. Configurar LLM
llm = HuggingFaceLLM(model=model, tokenizer=tokenizer)
Settings.llm = llm

# 2. Configurar embeddings
embed_model = HuggingFaceEmbedding(model_name="intfloat/multilingual-e5-base")
Settings.embed_model = embed_model

# 3. Documentos
documents = [Document(text=doc) for doc in docs_texts]

# 4. Dividir en nodos
splitter = SentenceSplitter(chunk_size=1000, chunk_overlap=200)
nodes = splitter.get_nodes_from_documents(documents)

# 5. Cliente Chroma
chroma_client = chromadb.EphemeralClient()
# OR: chroma_client = chromadb.PersistentClient(path="./chroma_db")

# 6. Create collection and vector store
chroma_collection = chroma_client.get_or_create_collection(name="paraguay")
vector_store = ChromaVectorStore(chroma_collection=chroma_collection)

# 7. Crear √≠ndice
index = VectorStoreIndex(nodes, vector_store=vector_store)

print("‚úÖ √çndice creado con colecci√≥n 'paraguay'")

# 8. Consulta de prueba
query_engine = index.as_query_engine()
response = query_engine.query("¬øCu√°l es la capital de Paraguay?")
print("üîé Respuesta:", response)




* Settings.llm = llm ‚Üí define que todas las consultas usen Mistral como generador.
* Settings.embed_model = embed_model ‚Üí define que los documentos se indexen con embeddings de Hugging Face en lugar de OpenAI.
* Elegimos intfloat/multilingual-e5-base, que funciona muy bien en espa√±ol.
* Transformamos cada texto en un `Document` de LlamaIndex.
* Inicializamos Chroma como nuestra base vectorial.
* Construimos un **√≠ndice sem√°ntico** para consultas r√°pidas y contextuales.

---

## 7. üîé Consultas al √≠ndice

In [None]:
system_prompt = """Eres un asistente experto en historia, geograf√≠a y cultura de Paraguay.
Debes responder SIEMPRE en espa√±ol, de forma clara y concisa.
Si no sabes la respuesta, admite que no lo sabes.
"""

query_engine = index.as_query_engine(
    system_prompt=system_prompt
)

# Ejemplo de consultas
preguntas = [
    "¬øCu√°les son los principales r√≠os de Paraguay?",
    "¬øQu√© importancia tiene la ciudad de Asunci√≥n?",
    "¬øQu√© pa√≠ses participaron en la Guerra de la Triple Alianza?",
    "Resume la econom√≠a de Paraguay en pocas frases"
]

for q in preguntas:
    response = query_engine.query(q)
    print("Pregunta:", q)
    print("Respuesta:", response, "\n")

* `system_prompt` define las instrucciones iniciales para el modelo. Aqu√≠ le decimos expl√≠citamente: ‚ÄúResponde siempre en espa√±ol‚Äù. Esto asegura consistencia incluso si alguna pregunta llega o se genera una respuesta en ingl√©s
* `index.as_query_engine()` crea un motor de consulta listo para preguntas en lenguaje natural.
* Probamos con preguntas t√≠picas sobre geograf√≠a, historia y econom√≠a de Paraguay.
* El modelo recupera fragmentos relevantes y responde en espa√±ol.

---

## 7. üß™ Evaluaciones b√°sicas



In [None]:
def preparar_queries_multi_chunk(index, queries_texto):
    queries_final = []
    for q in queries_texto:
        expected_ids = []
        for ref in q["reference"]:
            for node in index.docstore.docs.values():
                if ref.lower() in node.text.lower():
                    expected_ids.append(node.node_id)
        expected_ids = list(set(expected_ids))  # quitar duplicados
        queries_final.append({
            "query": q["query"],
            "expected_ids": expected_ids,
            "reference": q["reference"]
        })
    return queries_final


# ------------------------------
# Dataset en texto
# ------------------------------
queries_texto = [
    {"query": "¬øCu√°l es la capital de Paraguay?", "reference": ["Asunci√≥n"]},
    {"query": "¬øQu√© guerra enfrent√≥ Paraguay contra Bolivia?", "reference": ["Guerra del Chaco"]},
]

queries = preparar_queries_multi_chunk(index, queries_texto)
print("Queries preparadas (multi-chunk):")
for q in queries:
    print(q)


# ------------------------------
# Retriever con top_k alto
# ------------------------------
from llama_index.core.evaluation import RetrieverEvaluator

retriever = index.as_retriever(similarity_top_k=200)
retriever_evaluator = RetrieverEvaluator.from_metric_names(
    ["hit_rate", "mrr"], retriever=retriever
)


# ------------------------------
# Evaluaci√≥n sin reranker
# ------------------------------
results = []
for q in queries:
    res = retriever_evaluator.evaluate(
        query=q["query"],
        expected_ids=q["expected_ids"]
    )
    results.append(res)

print("\n=== Resultados sin reranker ===")
for r in results:
    print("Query:", r.query)
    print("Expected IDs:", len(r.expected_ids))
    print("Retrieved IDs (top 5):", r.retrieved_ids[:5])
    print("Metrics:", {k: v.score for k, v in r.metric_dict.items()})
    print("‚Äî")

# M√©tricas agregadas
hit_rate_avg = sum(r.metric_dict["hit_rate"].score for r in results) / len(results)
mrr_avg = sum(r.metric_dict["mrr"].score for r in results) / len(results)

print(f"\nHit Rate promedio: {hit_rate_avg:.2f}")
print(f"MRR promedio: {mrr_avg:.2f}")


# ------------------------------
# Recall@k
# ------------------------------
def compute_recall_at_k(results, k=3):
    recalls = []
    for r in results:
        expected = set(r.expected_ids)
        retrieved_topk = set(r.retrieved_ids[:k])
        intersect = expected.intersection(retrieved_topk)
        recall = len(intersect) / len(expected) if expected else 0.0
        recalls.append(recall)
    return sum(recalls) / len(recalls)

for k in [3, 5, 10, 20]:
    recall_at_k = compute_recall_at_k(results, k=k)
    print(f"Recall@{k} promedio: {recall_at_k:.2f}")


# ------------------------------
# A√±adir Re-ranker
# ------------------------------
from llama_index.core.postprocessor import SentenceTransformerRerank

reranker = SentenceTransformerRerank(
    model="cross-encoder/ms-marco-MiniLM-L-6-v2",  # r√°pido y liviano
    top_n=10
)

from llama_index.core import QueryBundle

print("\n=== Resultados con reranker ===")
for q in queries:
    # Recuperar candidatos
    retrieved_nodes = retriever.retrieve(q["query"])
    # Re-rankear (ahora con QueryBundle)
    query_bundle = QueryBundle(q["query"])
    reranked_nodes = reranker.postprocess_nodes(retrieved_nodes, query_bundle)
    reranked_ids = [n.node_id for n in reranked_nodes]

    expected = set(q["expected_ids"])
    retrieved_topk = set(reranked_ids[:10])
    intersect = expected.intersection(retrieved_topk)
    recall = len(intersect) / len(expected) if expected else 0.0

    print("Query:", q["query"])
    print("Top 5 IDs re-rankeados:", reranked_ids[:5])
    print("Recall@10 (con reranker):", round(recall, 2))
    print("‚Äî")



* Definimos un `retriever` que devuelve los 3 documentos m√°s similares.
* Usamos `RetrieverEvaluator` para obtener metricas.
* Creamos un dataset de prueba con preguntas y respuestas esperadas.
* As√≠ validamos si el sistema recupera informaci√≥n relevante.

---

### Calidad de respuesta

In [None]:
query = "Resume brevemente la historia de Paraguay."
response = query_engine.query(query)
print("Respuesta generada:", response)

Aqu√≠ evaluamos la **calidad de la respuesta generada**.
El modelo debe devolver un resumen coherente y en espa√±ol sobre la historia de Paraguay.

---


## 8. ‚ùì Preguntas de discusi√≥n

### 1. ¬øQu√© ventajas aporta LlamaIndex frente a implementar embeddings + vector DB manualmente?

- **Abstracci√≥n de complejidad**: en lugar de escribir decenas de l√≠neas de c√≥digo para manejar embeddings, base vectorial, consulta y recuperaci√≥n, LlamaIndex lo encapsula en APIs de alto nivel como `VectorStoreIndex` y `QueryEngine`.  
- **Integraci√≥n con m√∫ltiples backends**: soporta distintos motores de embeddings, bases vectoriales (Chroma, Weaviate, Pinecone, FAISS, etc.) y LLMs, sin tener que reescribir l√≥gica de integraci√≥n.  
- **Extensibilidad**: provee componentes modulares (retrievers, evaluadores, response synthesizers) que se pueden personalizar.  
- **Productividad**: permite centrarse en la l√≥gica de negocio y evaluaci√≥n de resultados, en lugar de la infraestructura.  
- **Evaluaci√≥n integrada**: ya incorpora utilidades para medir "hit_rate", "mrr".  

En resumen: **menos c√≥digo, m√°s rapidez y flexibilidad**.

---

### 2. ¬øC√≥mo se podr√≠a evaluar la calidad de las respuestas en un RAG real?

La evaluaci√≥n en un sistema RAG (Retrieval-Augmented Generation) debe considerar dos niveles:

1. **Calidad de recuperaci√≥n**:  
   - M√©tricas cl√°sicas de IR (Information Retrieval):  
     - *Recall@k* ‚Üí ¬øcu√°ntas de las respuestas correctas se encuentran en el top-k recuperado?  
     - *Precision@k* ‚Üí ¬øqu√© proporci√≥n de los documentos recuperados son relevantes?  
     - *MRR* (Mean Reciprocal Rank) ‚Üí mide la posici√≥n del primer documento relevante.  
   - Estas m√©tricas permiten cuantificar si el sistema realmente trae el contexto adecuado.  

2. **Calidad de la respuesta generada por el LLM**:  
   - **Autom√°tica**: comparar con respuestas de referencia (*exact match*, *BLEU*, *ROUGE*, *BERTScore*).  
   - **LLM-as-a-judge**: usar otro LLM para evaluar criterios como coherencia, cobertura y exactitud.  
   - **Humana**: encuestas de usuarios, validaci√≥n por expertos del dominio.  
   - **Evaluaci√≥n factual**: detectar alucinaciones y verificar citas contra fuentes.  

En la pr√°ctica, se combinan m√©tricas autom√°ticas + validaci√≥n humana para un panorama m√°s realista.

---

### 3. ¬øEn qu√© casos NO usar√≠as RAG?

Aunque poderoso, **RAG no siempre es la mejor soluci√≥n**. Ejemplos de casos donde no conviene:

- **Datos muy estructurados y peque√±os**: si la informaci√≥n ya est√° en una base de datos relacional bien dise√±ada, una simple consulta SQL es m√°s eficiente y precisa.  
- **Consultas determin√≠sticas**: cuando las respuestas deben ser exactas, como en sistemas bancarios o m√©dicos cr√≠ticos, donde no se puede tolerar ‚Äúalucinaciones‚Äù del modelo.  
- **Dominio cerrado con vocabulario limitado**: si el conocimiento se puede representar en reglas o tablas, un sistema simb√≥lico puede ser m√°s adecuado.  
- **Restricciones de costo o latencia**: RAG introduce pasos adicionales (generaci√≥n de embeddings, b√∫squeda en vector DB, inferencia de LLM), lo que puede aumentar el tiempo de respuesta y consumo de recursos.  
- **Confidencialidad extrema**: cuando no se puede permitir almacenar o indexar informaci√≥n sensible, ni siquiera en bases vectoriales privadas.  

üëâ En resumen: **RAG es ideal cuando tenemos grandes corpus no estructurados y queremos respuestas en lenguaje natural**, pero no siempre es la herramienta m√°s eficiente o segura para todo escenario.

---