<a href="https://colab.research.google.com/github/rubuntu/Taller_Introduccion_a_Ciencia_de_Datos_IA_e_Ingenieria_de_Datos/blob/main/sesion_16_fundamentos_de_rag_con_hugging_face_chromadb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìò Sesi√≥n 16 ‚Äì Fundamentos de RAG con Hugging Face + ChromaDB

## Objetivos

* Comprender los conceptos b√°sicos de RAG y su arquitectura.
* Aprender a transformar texto ‚Üí embeddings ‚Üí almacenar en base vectorial.
* Construir un mini-RAG con ChromaDB y Hugging Face embeddings.

---

## Contenido

1. **Concepto de RAG**:

   * Separar *memoria a largo plazo* (vector store) del LLM.
   * Flujo: **Pregunta ‚Üí Embedding ‚Üí Recuperaci√≥n ‚Üí Contexto ‚Üí LLM ‚Üí Respuesta**.

2. **Primer prototipo**:

   * Usar `sentence-transformers` de Hugging Face para embeddings.
   * Guardar y consultar embeddings en **ChromaDB**.
   * Pasar contexto recuperado a un LLM (ej. `transformers` o `openai`).




---



## 1. ¬øQu√© es RAG?

* **RAG** = *Retrieval-Augmented Generation*.
* Es una t√©cnica que combina dos mundos:

  1. **Recuperaci√≥n de informaci√≥n (IR / search engine)** ‚Üí buscar documentos relevantes en una base de datos.
  2. **Generaci√≥n con modelos de lenguaje (LLM)** ‚Üí producir una respuesta en lenguaje natural.

üëâ La idea principal: **el modelo no depende solo de lo que tiene en sus pesos, sino que se ‚Äúalimenta‚Äù de fuentes externas actualizadas**.

Ejemplo:

> Preguntas: *‚Äú¬øQui√©n es el actual presidente de Paraguay?‚Äù*
>
> * Un LLM puro (sin RAG) puede fallar si no est√° actualizado.
> * Un RAG consulta primero en su base/vector store con datos recientes ‚Üí encuentra el documento correcto ‚Üí luego el LLM genera la respuesta bas√°ndose en ese contexto.

---

## 2. Arquitectura b√°sica de RAG

Se suele dividir en **4 pasos principales**:

### üîπ Paso 1. **Indexaci√≥n (offline)**

* Se prepara una colecci√≥n de documentos (ej: art√≠culos de Wikipedia, PDFs, noticias, etc.).
* Se dividen en **chunks** (trozos) para que no sean demasiado largos.
* Cada chunk se convierte en un **embedding vectorial** (ej: usando *SentenceTransformers*).
* Los embeddings se guardan en un **vector store** (ChromaDB, Pinecone, Weaviate, FAISS, etc.) junto con el texto original.

### üîπ Paso 2. **Consulta del usuario**

* El usuario hace una pregunta en lenguaje natural.
* Esa pregunta tambi√©n se convierte en un **embedding**.

### üîπ Paso 3. **Recuperaci√≥n**

* Se busca en el vector store los **chunks m√°s similares** al embedding de la pregunta.
* Estos fragmentos relevantes forman el **contexto** que se pasar√° al modelo.

### üîπ Paso 4. **Generaci√≥n**

* Se construye un **prompt** que combina:

  * La pregunta del usuario.
  * Los documentos recuperados como *contexto*.
* Se env√≠a este prompt al **LLM** (Gemma, Mistral, Llama, Qwen, etc.).
* El modelo genera la respuesta final, apoy√°ndose en el contexto.

---

## 3. Diagrama de flujo simplificado

```
Usuario ‚Üí Pregunta
   ‚Üì
Embeddings de la pregunta
   ‚Üì
Vector Store (ChromaDB) ‚Üí Recupera chunks relevantes
   ‚Üì
Construcci√≥n del Prompt (Contexto + Pregunta)
   ‚Üì
LLM (ej: Gemma-3n) ‚Üí Genera respuesta
   ‚Üì
Respuesta final al usuario
```

---

## 4. Beneficios de RAG

* **Actualizaci√≥n din√°mica:** basta con cambiar la base de datos, no hay que reentrenar el LLM.
* **Precisi√≥n y grounding:** el modelo se apoya en fuentes externas verificables.
* **Eficiencia:** usar un LLM relativamente peque√±o + base vectorial puede superar a un LLM gigante sin RAG.
* **Menor alucinaci√≥n:** como el modelo tiene el contexto correcto, es menos probable que invente informaci√≥n.

---

## 5. Limitaciones y desaf√≠os

* **Calidad de la base:** si la base de documentos es pobre, el LLM no podr√° responder bien.
* **Chunking:** si se cortan mal los textos, puede faltar contexto.
* **Ventana de contexto:** los LLM tienen l√≠mite en la cantidad de tokens que pueden recibir.
* **Coste de recuperaci√≥n:** b√∫squedas vectoriales en bases muy grandes requieren optimizaci√≥n.

---

‚úÖ **En resumen:**
RAG es una arquitectura que **ampl√≠a la memoria de los LLM** conect√°ndolos a una base de conocimiento externa. Esto permite respuestas m√°s precisas, actualizadas y con respaldo en datos, en lugar de depender solo de lo aprendido durante el entrenamiento del modelo.

---

## Demo C√≥digo

In [None]:
# ========================
# Instalaci√≥n de librer√≠as
# ========================
%%capture
!pip install -q -U wikipedia-api chromadb bitsandbytes gradio


In [None]:
# ========================
# 1. Cargar datos de Wikipedia (Paraguay)
# ========================
import wikipediaapi

wiki_wiki = wikipediaapi.Wikipedia(
    language='es',
    user_agent='MiProyectoRAG/1.0 (https://github.com/rubuntu)'
)

paginas = [
    "Paraguay",
    "Geograf√≠a de Paraguay",
    "Econom√≠a de Paraguay",
    "Cultura de Paraguay",
    "Historia de Paraguay",
    "Asunci√≥n",
    "Guerra de la Triple Alianza",
    "Guerra del Chaco",
]

docs = []
for titulo in paginas:
    page = wiki_wiki.page(titulo)
    if page.exists():
        docs.append(page.text)
        print(f"Cargado: {titulo}")
print(f"Total documentos cargados: {len(docs)}")


In [None]:
# ========================
# 2. Chunking para RAG
# ========================
def chunk_text(text, max_chars=1200, overlap=200):
    chunks, start = [], 0
    while start < len(text):
        end = start + max_chars
        chunk = text[start:end]
        chunks.append(chunk)
        start += max_chars - overlap
    return chunks

all_chunks = []
for doc in docs:
    all_chunks.extend(chunk_text(doc))

print(f"Total chunks creados: {len(all_chunks)}")


Explicaci√≥n:

* **Objetivo:** dividir documentos largos en fragmentos (*chunks*) m√°s peque√±os para que los embeddings y el LLM los procesen mejor en RAG.
* **Par√°metros:**

  * `max_chars=1200` ‚Üí tama√±o m√°ximo de cada chunk en caracteres.
  * `overlap=200` ‚Üí solapamiento entre chunks para no perder continuidad.
* **Funcionamiento:** avanza por el texto tomando bloques de 1200 caracteres, retrocede 200 y sigue ‚Üí as√≠ asegura que frases no queden cortadas.
* **Resultado:** `all_chunks` contiene todos los fragmentos de todos los documentos, listos para generar embeddings e indexar en ChromaDB.

üëâ En pocas palabras: **corta los documentos grandes en trozos solapados, m√°s f√°ciles de buscar y recuperar en el RAG.**


In [None]:
# ========================
# 3. Embeddings y ChromaDB
# ========================
from sentence_transformers import SentenceTransformer
import chromadb

emb_model = SentenceTransformer("all-MiniLM-L6-v2")
embeddings = emb_model.encode(all_chunks, batch_size=16, show_progress_bar=True)

client = chromadb.Client()
collection = client.create_collection("paraguay_wiki")

for i, chunk in enumerate(all_chunks):
    collection.add(documents=[chunk], embeddings=[embeddings[i].tolist()], ids=[str(i)])

print("‚úÖ Base vectorial creada con ChromaDB.")


Explicaci√≥n:

* Se carga un **modelo de embeddings** (`all-MiniLM-L6-v2`) para convertir texto en vectores num√©ricos que capturan su significado.
* Se generan embeddings para todos los *chunks* de texto (`emb_model.encode`).
* Se crea una **colecci√≥n en ChromaDB** llamada `"paraguay_wiki"`.
* Cada chunk se guarda en la colecci√≥n junto con su embedding y un ID √∫nico.
* Resultado: ya tienes una **base vectorial** lista para buscar y recuperar fragmentos relevantes en un flujo RAG.

üëâ En pocas palabras: **convierte los chunks en vectores y los indexa en ChromaDB para poder hacer b√∫squedas sem√°nticas.**


In [None]:
# ========================
# 4. Cargar Modelo
# ========================
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "unsloth/gemma-3n-E2B-it-unsloth-bnb-4bit"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True, use_fast=False)
llm = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    trust_remote_code=True
)

print("‚úÖ Modelo cargado:", model_id)


Explicaci√≥n:

* Se usa **Hugging Face Transformers** para cargar un **tokenizer** y un **modelo de lenguaje causal (LLM)**.
* `model_id` apunta a **`unsloth/gemma-3n-E2B-it-unsloth-bnb-4bit`**, una versi√≥n de **Gemma-3n** (variante **E2B**) ya **quantizada en 4 bits con Unsloth**, lo que la hace m√°s ligera.
* El **tokenizer** convierte texto en tokens (IDs num√©ricos).
* El **modelo LLM** (cargado con `AutoModelForCausalLM`) genera texto a partir de esos tokens.
* `device_map="auto"` env√≠a autom√°ticamente el modelo a GPU si est√° disponible.

üëâ En pocas palabras: **se carga Gemma-3n (E2B, quantizado 4-bit) con Unsloth, optimizado para bajo consumo de memoria y buen rendimiento en tareas de chat/instrucci√≥n.**




In [None]:
# ========================
# 5. Funci√≥n RAG
# ========================
def to_gemma_chat(user_text):
    return f"<bos><start_of_turn>user\n{user_text}<end_of_turn>\n<start_of_turn>model\n"

def rag_answer(question, top_k=3, max_new_tokens=200, show_context=False):
    # Recuperar contexto
    query_emb = emb_model.encode([question])
    results = collection.query(query_embeddings=query_emb.tolist(), n_results=top_k)
    context = "\n".join(results["documents"][0])

    if show_context:
        print("\n--- CONTEXTO ---")
        print(context[:1000] + ("..." if len(context) > 1000 else ""))
        print("--- FIN CONTEXTO ---\n")

    # Prompt
    prompt = f"""
Responde a la pregunta bas√°ndote √∫nicamente en el siguiente contexto.
No incluir la palabra "Contexto" en la respuesta.
Si el contexto no contiene la respuesta, responde "No lo s√©".

Contexto:
{context}

Pregunta: {question}

Respuesta:
"""
    chat_prompt = to_gemma_chat(prompt)

    inputs = tokenizer(chat_prompt, return_tensors="pt", truncation=True, max_length=4096).to("cuda")
    outputs = llm.generate(
        **inputs,
        max_new_tokens=max_new_tokens,
        do_sample=True,
        temperature=0.3,
        top_p=0.9,
        pad_token_id=tokenizer.eos_token_id
    )
    decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)

    # --- limpieza de la salida ---
    # cortar donde empieza <start_of_turn>model
    if "<start_of_turn>model" in decoded:
        answer = decoded.split("<start_of_turn>model")[-1].strip()
    else:
        # fallback: quitar el prompt entero si aparece
        answer = decoded.replace(chat_prompt, "").strip()

    return answer




---

Explicaci√≥n

1. **to\_gemma\_chat**

   * Adapta el texto del *prompt* al formato especial que entiende **Gemma** (`<bos><start_of_turn>user ... <start_of_turn>model`).

2. **rag\_answer**

   * **Recupera contexto:** convierte la pregunta a embedding y busca en ChromaDB los chunks m√°s similares (`top_k`).
   * **Construye el prompt:** inserta el contexto + la pregunta en una instrucci√≥n clara (‚Äúresponde solo con el contexto o di ‚ÄòNo lo s√©‚Äô‚Äù).
   * **Prepara el chat\_prompt:** lo transforma al formato de Gemma usando `to_gemma_chat`.
   * **Genera respuesta:** pasa el prompt al modelo (`llm.generate`), limitando longitud y usando sampling controlado (`temperature`, `top_p`).
   * **Limpieza:** elimina el eco del prompt y se queda solo con la respuesta del modelo.
   * **Devuelve la respuesta final.**

---

üëâ Resumen: (Pregunta ‚Üí Embedding ‚Üí B√∫squeda en Chroma ‚Üí Prompt ‚Üí LLM ‚Üí Respuesta)    
La funci√≥n **RAG** toma una pregunta ‚Üí busca los fragmentos de texto relevantes ‚Üí arma un prompt con ese contexto ‚Üí lo da al modelo (Gemma) ‚Üí limpia la salida ‚Üí devuelve la respuesta clara.

---


In [None]:
# ========================
# 6. Preguntas de ejemplo
# ========================
questions = [
    "¬øCu√°l es la capital de Paraguay?",
    "¬øQui√©n fue Francisco Solano L√≥pez?",
    "¬øQu√© papel tuvo Paraguay en la Guerra de la Triple Alianza?",
    "¬øCu√°les son los principales productos de exportaci√≥n de Paraguay?"
]

for q in questions:
    print("\n‚ùì", q)
    print("üí°", rag_answer(q, ))

In [None]:
# ========================
# 7. Interfaz con Gradio
# ========================
import gradio as gr

def ask_question(query):
    return rag_answer(query)

demo = gr.Interface(
    fn=ask_question,
    inputs=gr.Textbox(lines=2, placeholder="Escribe tu pregunta sobre Paraguay..."),
    outputs="text",
    title="RAG sobre Paraguay (Wikipedia + LLM)",
    description="Haz preguntas sobre Paraguay usando RAG con ChromaDB y un modelo abierto (Gemma)."
)

demo.launch(share=True)


---

# üìò Preguntas de discusi√≥n sobre RAG

---

## 1. ¬øPor qu√© un LLM necesita un vector store externo para RAG?

* **Limitaci√≥n de memoria de los LLM:**
  Un LLM no puede "recordar" informaci√≥n fuera de lo que se entren√≥. Si se quiere consultar datos **actualizados o muy espec√≠ficos**, hay que tener una fuente externa.

* **B√∫squeda eficiente:**
  El vector store convierte textos en **embeddings** (vectores num√©ricos). Eso permite hacer b√∫squedas sem√°nticas r√°pidas en miles o millones de documentos.
  Ejemplo: la pregunta *‚Äú¬øCu√°l es la capital de Paraguay?‚Äù* se convierte en un vector ‚Üí se compara contra todos los chunks ‚Üí se recuperan los m√°s relevantes.

* **Ventaja sobre embeddings directos:**
  Sin un vector store, tendr√≠as que comparar la pregunta con todos los documentos cada vez (coste enorme). Con un motor especializado (ChromaDB, FAISS, Pinecone) esto se resuelve en milisegundos usando t√©cnicas como *Approximate Nearest Neighbors (ANN)*.

üëâ En resumen: el vector store es el **‚Äúcerebro externo‚Äù** que permite al LLM acceder a datos organizados y recuperarlos de forma r√°pida y precisa.

---

## 2. ¬øQu√© limitaciones tendr√≠a un mini-RAG con pocas docenas de documentos?

* **Cobertura limitada:**
  Con pocos documentos, la base de conocimiento es reducida ‚Üí el modelo solo puede responder a preguntas relacionadas con ese corpus.

* **Alto riesgo de ‚ÄúNo s√©‚Äù o alucinaciones:**
  Si la informaci√≥n buscada no est√° en esos documentos, el modelo puede inventar respuestas o decir que no sabe.

* **Menor diversidad sem√°ntica:**
  Un vector store peque√±o no ofrece gran variedad de embeddings ‚Üí recupera siempre los mismos textos aunque no sean perfectos.

* **Buen caso de uso:**
  Es √∫til como **demo educativo o POC (proof of concept)**, pero insuficiente para producci√≥n donde se requieren millones de art√≠culos, actualizaciones peri√≥dicas y calidad robusta.

---

## 3. ¬øC√≥mo escalar√≠as esto a millones de documentos?

Para llevar un RAG de un prototipo a producci√≥n a gran escala, habr√≠a que:

* **Indexaci√≥n distribuida:**

  * Usar bases vectoriales dise√±adas para grandes vol√∫menes (Pinecone, Weaviate, Milvus, Vespa, FAISS con sharding).
  * Permitir b√∫squeda paralela en varios nodos.

* **Preprocesamiento avanzado:**

  * Buen chunking din√°mico (seg√∫n p√°rrafos, secciones, etc.).
  * Enriquecer con metadatos (fecha, fuente, tipo de documento) para filtrar m√°s r√°pido.

* **T√©cnicas de b√∫squeda h√≠brida:**

  * Combinar **b√∫squeda sem√°ntica** (embeddings) con **b√∫squeda lexical** (BM25, keyword search).
  * Esto reduce falsos positivos y mejora la relevancia.

* **Optimizaci√≥n de embeddings:**

  * Usar modelos m√°s robustos y multiling√ºes.
  * Batch processing para indexar millones de textos sin colapsar memoria.

* **Pipeline escalable:**

  * Arquitectura de microservicios: un servicio para embeddings, otro para indexaci√≥n, otro para retrieval.
  * Cachear consultas frecuentes.
  * Actualizar la base vectorial de manera incremental (streaming ingestion).

üëâ En pocas palabras: pasar de un mini-RAG a millones de documentos requiere **infraestructura especializada, almacenamiento distribuido y t√©cnicas de b√∫squeda h√≠brida para mantener velocidad y precisi√≥n.**

---

