# Ejercicio 11 : Asistente RAG Conversacional

## Objetivo de la práctica

Construir un asistente que:

1. Recibe una pregunta del usuario
2. Recupera texto relevante de un corpus (ej. libro de Baeza-Yates)
3. Genera una respuesta basada en los documentos encontrados
4. Mantiene el historial de conversación


## Parte 0: Librerías necesarias
- openai
- faiss-cpu
- sentence-transformers

In [1]:
!pip install openai faiss-cpu sentence-transformers PyMuPDF scikit-learn



## Parte 1: Carga del corpus

Aquí se debe cargar el corpus con los documentos en PDF.

- Libro de Stanford
- Libro BM25
- Paper: Marcia Bates (1989). The design of browsing and berrypicking techniques for the online search interface

In [2]:
import pymupdf
import pandas as pd
import re

In [3]:
pdf_files = {
    "stanford": "/content/irbookonlinereading.pdf",
    "bm25": "/content/foundations_bm25_review.pdf",
    "bates": "/content/bates1989.pdf"
}

all_data = []

for label, path in pdf_files.items():
    doc = pymupdf.open(path)

    for i, page in enumerate(doc):
        text = page.get_text()

        # Eliminar pies de página y encabezados comunes
        text = re.sub(r"Online edition\s*\(c\)\s*2009\s*Cambridge\s*UP", "", text, flags=re.IGNORECASE)
        text = re.sub(r"(?i)information retrieval|chapter \d+|page \d+|cambridge university press", "", text)

        # Limpieza general
        text = re.sub(r"\n{2,}", "\n", text).strip()

        # Separar por secciones visibles
        secciones = re.split(r"(?:^|\n)([A-Z][^\n]{5,100})\n", text)

        for j in range(1, len(secciones), 2):
            titulo = secciones[j].strip()
            contenido = secciones[j + 1].strip()
            if contenido:
                all_data.append({
                    "source": label,
                    "page": i + 1,
                    "section": titulo,
                    "content": contenido
                })



In [4]:
df = pd.DataFrame(all_data)
df

Unnamed: 0,source,page,section,content
0,stanford,1,Introduction,to
1,stanford,1,Information,"Retrieval\nDraft of April 1, 2009"
2,stanford,3,Introduction,to
3,stanford,3,Information,Retrieval
4,stanford,3,Christopher D. Manning,Prabhakar Raghavan
...,...,...,...,...
6530,bates,18,"User/Computer Interface, AFIPS Press, 1971, pp...","[42] R.A. Bolt, Spatial Data Management System..."
6531,bates,18,"Person and Computer', International Journal of...","pp. 229-244. \n[44] D. Michel, 'When Does it M..."
6532,bates,18,"Bibliographic Retrieval Systems?', manuscript,...",nia Graduate School of Library and Information...
6533,bates,18,NY: Syracuse University School of Information ...,"[47] M.J. Bates, 'What is a Reference Book? A ..."


## Parte 2: Procesamiento del Corpus

Aquí se debe obtener el corpus procesado. El corpus estará formado por documentos que corresponden a las secciones (o subsecciones) de los libros. Cada documento debe indicar a qué libro corresponde, así como las páginas en las que está dentro de ese libro.

Recuerden que los documentos procesados no deben contener textos o caracteres ajenos al tema del que tratan.  

In [5]:
from nltk.corpus import stopwords
import nltk
nltk.download('stopwords')
nltk.download('punkt_tab')
nltk.download('wordnet')

from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
import unicodedata

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [6]:
# Inicializadores
stop_words = set(stopwords.words('english'))
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

# Paso 1: limpieza inicial (elimina stopwords, símbolos)
def clean_doc(doc):
    words = word_tokenize(doc)
    word_filtered = [w for w in words if w not in stop_words and w.isalpha()]
    return ' '.join(word_filtered)

df['limpio'] = df['content'].apply(clean_doc)

In [7]:
# Paso 2: preprocesamiento final (minúsculas, sin acentos, sin stopwords)
def preprocess_doc(doc):
    # minúsculas
    doc = doc.lower()
    # normalizar y eliminar acentos
    doc = unicodedata.normalize('NFKD', doc).encode('ASCII', 'ignore').decode('utf-8')
    # tokenizar
    words = word_tokenize(doc)
    # filtrar stopwords y símbolos
    words_filtered = [w for w in words if w not in stop_words and w.isalpha()]
    return ' '.join(words_filtered)

In [8]:
df['preprocessed'] = df['limpio'].apply(preprocess_doc)
df

Unnamed: 0,source,page,section,content,limpio,preprocessed
0,stanford,1,Introduction,to,,
1,stanford,1,Information,"Retrieval\nDraft of April 1, 2009",Retrieval Draft April,retrieval draft april
2,stanford,3,Introduction,to,,
3,stanford,3,Information,Retrieval,Retrieval,retrieval
4,stanford,3,Christopher D. Manning,Prabhakar Raghavan,Prabhakar Raghavan,prabhakar raghavan
...,...,...,...,...,...,...
6530,bates,18,"User/Computer Interface, AFIPS Press, 1971, pp...","[42] R.A. Bolt, Spatial Data Management System...",Bolt Spatial Data Management System Cambridge ...,bolt spatial data management system cambridge ...
6531,bates,18,"Person and Computer', International Journal of...","pp. 229-244. \n[44] D. Michel, 'When Does it M...",pp Michel Does Make Sense Use Graphic Represen...,pp michel make sense use graphic representatio...
6532,bates,18,"Bibliographic Retrieval Systems?', manuscript,...",nia Graduate School of Library and Information...,nia Graduate School Library Information Scienc...,nia graduate school library information scienc...
6533,bates,18,NY: Syracuse University School of Information ...,"[47] M.J. Bates, 'What is a Reference Book? A ...",Bates Reference Book A Theoretical Empirical A...,bates reference book theoretical empirical ana...


## Parte 3: Cálculo de Embeddings e Indexación en base de datos vectorial

Aquí, una vez que se ha calculado el embedding de cada documento, se deberá indexar este embedding en una base de datos vectorial como FAISS, ChromaDB o Pinecone

In [9]:
from sentence_transformers import SentenceTransformer
import numpy as np
import faiss

In [10]:
# Cargar modelo de embeddings
model = SentenceTransformer("all-MiniLM-L6-v2")

# Usamos la columna preprocesada
texts = df['preprocessed'].tolist()

# Calcular los embeddings
embeddings = model.encode(texts)

# 4. Añadir embeddings al DataFrame como listas
df['embedding'] = [e.tolist() for e in embeddings]

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


In [11]:
# Crear el índice FAISS
dimension = embeddings[0].shape[0]
index = faiss.IndexFlatL2(dimension)
index.add(np.array(embeddings))

In [12]:
df[['source', 'page', 'section', 'limpio','preprocessed', 'embedding']].head(3)

Unnamed: 0,source,page,section,limpio,preprocessed,embedding
0,stanford,1,Introduction,,,"[-0.1188383623957634, 0.04829869046807289, -0...."
1,stanford,1,Information,Retrieval Draft April,retrieval draft april,"[-0.07818040251731873, 0.05266556516289711, -0..."
2,stanford,3,Introduction,,,"[-0.1188383623957634, 0.04829869046807289, -0...."


## Parte 4: Búsqueda y obtención del contexto

En esta parte debemos definir una _query_ y buscar los documentos que más se relacionan con ella.

Estos documentos formarán el contexto que vamos a entregar al LLM.

In [13]:
def buscar_contexto(query, k=5):
    # Convertir la consulta a embedding
    query_embedding = model.encode([query])

    # Buscar en el índice FAISS
    distances, indices = index.search(np.array(query_embedding), k)

    # Recuperar los documentos más similares
    resultados = []
    for idx in indices[0]:
        doc = df.iloc[idx]
        resultados.append({
            "source": doc['source'],
            "page": doc['page'],
            "section": doc['section'],
            "texto_original": doc['content'],
            "preprocesado": doc['preprocessed'],
            "embedding": doc['embedding']
        })

    return resultados


In [14]:
query = "What is the probabilistic model in information retrieval?"
top_docs = buscar_contexto(query, k=5)

In [15]:
# Mostrar resultados
for i, doc in enumerate(top_docs):
    print(f"\n🔹 Resultado {i+1}")
    print(f" Fuente: {doc['source']} | Página: {doc['page']}")
    print(f" Sección: {doc['section']}")
    print(f" Texto original:\n{doc['texto_original'][:300]}...")


🔹 Resultado 1
 Fuente: stanford | Página: 256
 Sección: There is more than one possible retrieval model which has a probabilistic
 Texto original:
basis. Here, we will introduce probability theory and the Probability Rank-
ing Principle (Sections 11.1–11.2), and then concentrate on the Binary Inde-
pendence Model (Section 11.3), which is the original and still most inﬂuential
probabilistic retrieval model. Finally, we will introduce related bu...

🔹 Resultado 2
 Fuente: bm25 | Página: 1
 Sección: DOI: 10.1561/1500000019
 Texto original:
The Probabilistic Relevance Framework:...

🔹 Resultado 3
 Fuente: bm25 | Página: 3
 Sección: DOI: 10.1561/1500000019
 Texto original:
The Probabilistic Relevance Framework:...

🔹 Resultado 4
 Fuente: bm25 | Página: 56
 Sección: TREC-14: Enterprise track,” in The Fourteenth Text Retrieval Conference
 Texto original:
(TREC 2005), 2005.
[14] F. Crestani, M. Lalmas, C. J. van Rijsbergen, and I. Campbell, ““Is this doc-
ument relevant? ... probably”: A surv

## Parte 5: Generación de Respuesta

Aquí, entregamos el contexto al LLM, y él nos responde a la _query_ con una explicación en lenguaje natural.

In [16]:
from sentence_transformers import SentenceTransformer
import google.generativeai as genai
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
# Modelo para obtener vectores (FAISS)
embedder = SentenceTransformer("all-MiniLM-L6-v2")

# Modelo de generación (Gemini)
genai.configure(api_key="AIzaSyBIneOq3oTSICC3CM04okPmwUmdN2sX6Wk") #My API
#genai.configure(api_key="AIzaSyAPnyFm28ySglSKRZoHzH95Zz3JXWzJFCU") #API Sergio
model = genai.GenerativeModel("gemini-1.5-flash")

# Historial de conversación
chat_history = []


In [22]:
# Buscar contexto en FAISS
def buscar_contexto(query, k=5):
    query_embedding = embedder.encode([query])
    D, I = index.search(np.array(query_embedding), k)

    resultados = []
    for idx in I[0]:
        doc = df.iloc[idx]
        resultados.append({
            "source": doc['source'],
            "page": doc['page'],
            "section": doc['section'],
            "texto_original": doc['content'],
            "preprocesado": doc['preprocessed'],
            "embedding": doc['embedding']
        })
    return resultados

# Verifica si la pregunta es del mismo tema usando FAISS
def es_relevante_con_historial(query, threshold=0.4):
    if not chat_history:
        return False

    # Get the embedding of the last query in history
    last_query_embedding = embedder.encode([chat_history[-1]["query"]])

    # Create a temporary FAISS index for the last query embedding
    dimension = last_query_embedding.shape[1]
    temp_index = faiss.IndexFlatL2(dimension)
    temp_index.add(np.array(last_query_embedding))

    # Encode the current query
    current_query_embedding = embedder.encode([query])

    # Search the temporary index with the current query embedding
    distances, indices = temp_index.search(np.array(current_query_embedding), 1)
    distance_threshold = np.sqrt(2 * (1 - threshold)) # Calculate L2 distance threshold from cosine similarity threshold

    return distances[0][0] <= distance_threshold


# Generar respuesta con Gemini
def generar_respuesta(query, contexto):
    contexto_texto = "\n".join(
        [f"[{c['source']} - pág {c['page']} - {c['section']}]\n{c['texto_original']}" for c in contexto]
    )

    prompt = f"""Eres una aplicación de Retrieval Augmented Generation que responde de forma clara, precisa y que siempre responde en español.
    Si no tienes suficiente información, responde claramente que no lo sabes.

Contexto:
{contexto_texto}

Pregunta:
El usuario está preguntando sobre: {query}

Respuesta:"""

    respuesta = model.generate_content(prompt)
    return respuesta.text

MAX_SECCIONES_CONTEXTO = 10  # Puedes ajustar a 15 o más si Gemini lo tolera

# Conversación completa con contexto acumulado
def conversar(query, k=5):
    global chat_history

    # Verificar si la nueva pregunta es del mismo tema
    if not es_relevante_con_historial(query):
        chat_history.clear()

    # Buscar nuevo contexto
    contexto_actual = buscar_contexto(query, k=k)

    # Guardar en el historial
    chat_history.append({
        "query": query,
        "context": contexto_actual
    })

    # Acumular contexto sin repetir textos
    contexto_total = []
    vistos = set()
    for turno in chat_history:
        for c in turno["context"]:
            if c["texto_original"] not in vistos:
                contexto_total.append(c)
                vistos.add(c["texto_original"])

    # CONTROL DE MEMORIA: si se excede el límite, reinicia
    if len(contexto_total) > MAX_SECCIONES_CONTEXTO:
        print("\n⚠️ La memoria conversacional está llena. Se ha reiniciado el contexto.")
        chat_history.clear()
        contexto_total = contexto_actual

    # Generar respuesta con el contexto acumulado (limitado)
    respuesta = generar_respuesta(query, contexto_total)

    print(f"\n👦 Usuario: {query}")
    print(f"\n💻 Gemini:\n{respuesta}")

In [23]:
conversar("What is the probabilistic model in information retrieval?")


👦 Usuario: What is the probabilistic model in information retrieval?

💻 Gemini:
El modelo probabilístico en recuperación de información (IR) busca determinar la probabilidad de que un documento sea relevante para una consulta dada.  El marco probabilístico de relevancia (PRF) es un marco formal para la recuperación de documentos basado en trabajos de los años 70 y 80.  Este marco ha dado lugar a algoritmos exitosos como BM25 y BM25F.  Dentro del PRF, el Modelo de Independencia Binaria (Binary Independence Model) es un modelo probabilístico original e influyente.  Existen otros modelos probabilísticos relacionados, algunos de los cuales utilizan recuentos de términos, como Okapi BM25.  La investigación en PRF también ha llevado al desarrollo de modelos que incorporan metadatos del documento, como información de estructura y enlaces.



In [24]:
conversar("How does BM25 relate to that?")


👦 Usuario: How does BM25 relate to that?

💻 Gemini:
La información proporcionada no describe explícitamente la relación entre BM25 y el método de suavizado Add-one mencionado en el contexto de Stanford.  El texto sobre BM25 explica la fórmula y algunos parámetros (b y k1),  mencionando su compatibilidad con el peso RSJ, pero no establece una conexión directa con el suavizado Add-one. Por lo tanto, no puedo responder a la pregunta sobre cómo se relaciona BM25 con el suavizado Add-one basándome en el texto proporcionado.



In [25]:
conversar("What did Marcia Bates propose?")


👦 Usuario: What did Marcia Bates propose?

💻 Gemini:
No tengo información sobre las propuestas de Marcia Bates en el contexto proporcionado.  El texto solo menciona autores y sus publicaciones, sin detalles sobre sus contribuciones específicas.



In [20]:
# Usar esta funcion
print("💻 Bienvenido al sistema RAG conversacional (escribe 'salir' para terminar)\n")

while True:
    pregunta = input("👦 Tú: ")
    if pregunta.strip().lower() == "salir":
        print("\n Gracias, que tengas un buen dia.")
        break
    if not pregunta.strip():
        continue
    conversar(pregunta)

💻 Bienvenido al sistema RAG conversacional (escribe 'salir' para terminar)

👦 Tú: What is search binary tree?

💻 Gemini:
Un árbol de búsqueda binario (binary search tree) es una estructura de datos en forma de árbol donde cada nodo interno representa una prueba binaria.  La búsqueda de un término comienza en la raíz del árbol.  Dependiendo del resultado de la prueba, la búsqueda continúa en uno de los dos subárboles debajo de ese nodo.  Para que la búsqueda sea eficiente (con un número de comparaciones O(log M)), el árbol debe estar balanceado; es decir, el número de términos en los dos subárboles de cualquier nodo debe ser igual o diferir en uno.  Sin embargo, mantener este balance al insertar o eliminar términos (rebalanceo) es un problema. Una solución es permitir que el número de subárboles bajo un nodo interno varíe dentro de un intervalo fijo, como en el caso del árbol B, que se puede considerar como una "colapsión" de múltiples niveles de un árbol binario en uno solo.  Esto es e