## Examen

**Nombre: Danny Tipan**

## Importaciones y Descarga de Recursos NLTK

In [14]:
import pandas as pd
import json
import nltk
import re
import os 
print("Verificando recursos de NLTK...")
try:
    nltk.data.find('corpora/stopwords')
except nltk.downloader.DownloadError:
    nltk.download('stopwords')
    print("Recurso 'stopwords' de NLTK descargado.")

try:
    nltk.data.find('tokenizers/punkt')
except nltk.downloader.DownloadError:
    nltk.download('punkt')
    print("Recurso 'punkt' de NLTK descargado.")

print("Recursos de NLTK asegurados.")

Verificando recursos de NLTK...
Recursos de NLTK asegurados.


## Creación del Subconjunto del Corpus

In [9]:
# --- CONFIGURACIÓN DE RUTAS DE ARCHIVOS ---
LARGE_CORPUS_FILE_PATH = 'data/arxiv-metadata-oai-snapshot.json'
SUBSET_CORPUS_FILE_PATH = 'data/arxiv_subset_1_percent.jsonl'
QUERIES_FILE_PATH = 'data/queries.txt'

# --- GENERACIÓN DEL SUBSET DEL 1% ---
NUM_DOCS_TO_KEEP = 25000 

if not os.path.exists(SUBSET_CORPUS_FILE_PATH):
    print(f"El archivo subconjunto '{SUBSET_CORPUS_FILE_PATH}' no existe.")
    print(f"Generando subconjunto de aproximadamente {NUM_DOCS_TO_KEEP} documentos desde '{LARGE_CORPUS_FILE_PATH}'...")

    if not os.path.exists(LARGE_CORPUS_FILE_PATH):
        print(f"Error: El archivo original grande '{LARGE_CORPUS_FILE_PATH}' no fue encontrado.")
        print("Asegúrate de haberlo colocado en la carpeta 'data/'.")
    else:
        count = 0
        with open(LARGE_CORPUS_FILE_PATH, 'r', encoding='utf-8') as infile, \
             open(SUBSET_CORPUS_FILE_PATH, 'w', encoding='utf-8') as outfile:
            for line in infile:
                if count < NUM_DOCS_TO_KEEP:
                    try:
                        # Validar que es JSON válido antes de escribirlo
                        json.loads(line)
                        outfile.write(line)
                        count += 1
                    except json.JSONDecodeError:
                        # Omitir líneas que no son JSON válido (si las hay)
                        continue
                else:
                    break # Detenerse una vez que se han procesado suficientes documentos

        print(f"Subconjunto creado con {count} documentos en '{SUBSET_CORPUS_FILE_PATH}'")
else:
    print(f"El archivo subconjunto '{SUBSET_CORPUS_FILE_PATH}' ya existe. ¡Saltando la generación del subconjunto!")

El archivo subconjunto 'data/arxiv_subset_1_percent.jsonl' ya existe. ¡Saltando la generación del subconjunto!


## Carga del Corpus y Consultas

In [21]:
import pandas as pd
import json
import os 

# --- CONFIGURACIÓN DE RUTAS DE ARCHIVOS ----
SUBSET_CORPUS_FILE_PATH = 'data/arxiv_subset_1_percent.jsonl'
QUERIES_FILE_PATH = 'data/queries.txt'
# --- Cargar el Corpus de Documentos (usando el SUBSET) ---
data = []
try:
    with open(SUBSET_CORPUS_FILE_PATH, 'r', encoding='utf-8') as f:
        for line in f:
            data.append(json.loads(line))
    df = pd.DataFrame(data)
    print(f"\nCorpus de documentos (subset) cargado exitosamente. Número de documentos: {len(df)}")
    print("Primeros 5 documentos del corpus:")
    print(df.head())
    print("\nColumnas disponibles en el DataFrame:")
    print(df.columns)

except FileNotFoundError:
    print(f"Error: El archivo '{SUBSET_CORPUS_FILE_PATH}' no fue encontrado.")
    print("Asegúrate de que la ruta y el nombre del archivo sean correctos y de haber ejecutado la celda anterior para crearlo.")
except json.JSONDecodeError:
    print(f"Error: No se pudo decodificar el archivo JSON '{SUBSET_CORPUS_FILE_PATH}'. Verifica que el formato sea válido (JSON Lines).")
except Exception as e:
    print(f"Ocurrió un error inesperado al cargar el corpus: {e}")

# --- Cargar el Archivo de Consultas ---
queries = []
try:
    with open(QUERIES_FILE_PATH, 'r', encoding='utf-8') as f:
        queries = [line.strip() for line in f if line.strip()]
    print(f"\nArchivo de consultas cargado exitosamente. Número de consultas: {len(queries)}")
    print("Consultas cargadas:")
    for i, q in enumerate(queries):
        print(f"{i+1}. {q}")
except FileNotFoundError:
    print(f"Error: El archivo '{QUERIES_FILE_PATH}' no fue encontrado. Asegúrate de que la ruta y el nombre del archivo sean correctos.")
except Exception as e:
    print(f"Ocurrió un error inesperado al cargar las consultas: {e}")


Corpus de documentos (subset) cargado exitosamente. Número de documentos: 25000
Primeros 5 documentos del corpus:
          id           submitter  \
0  0704.0001      Pavel Nadolsky   
1  0704.0002        Louis Theran   
2  0704.0003         Hongjun Pan   
3  0704.0004        David Callan   
4  0704.0005  Alberto Torchinsky   

                                             authors  \
0  C. Bal\'azs, E. L. Berger, P. M. Nadolsky, C.-...   
1                    Ileana Streinu and Louis Theran   
2                                        Hongjun Pan   
3                                       David Callan   
4           Wael Abu-Shammala and Alberto Torchinsky   

                                               title  \
0  Calculation of prompt diphoton production cros...   
1           Sparsity-certifying Graph Decompositions   
2  The evolution of the Earth-Moon system based o...   
3  A determinant of Stirling cycle numbers counts...   
4  From dyadic $\Lambda_{\alpha}$ to $\Lambda_{\a..

## Implementación del Preprocesamiento

In [11]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Cargar las stopwords 
stop_words = set(stopwords.words('english'))

def preprocess_text(text):
    """
    Realiza las operaciones de preprocesamiento sobre un texto:
    1. Convierte a minúsculas.
    2. Elimina signos de puntuación.
    3. Tokeniza.
    4. Elimina stopwords.
    """
    if not isinstance(text, str):
        return "" # Retorna cadena vacía para NaN/None

    text = text.lower()  # 1. Convertir a minúsculas
    # 2. Eliminar signos de puntuación y reemplazar por espacios simples
    text = re.sub(r'[^\w\s]', ' ', text)
    # Eliminar múltiples espacios y recortar extremos
    text = re.sub(r'\s+', ' ', text).strip()

    tokens = word_tokenize(text)  # 3. Tokenizar
    # 4. Eliminar stopwords y tokens que no son alfabéticos
    tokens = [word for word in tokens if word not in stop_words and word.isalpha()]
    return " ".join(tokens)

# --- Aplicar Preprocesamiento al DataFrame ---
print("\nIniciando preprocesamiento de títulos y abstracts...")

# Preprocesar la columna 'title' y crear 'processed_title'
if 'title' in df.columns:
    df['processed_title'] = df['title'].apply(preprocess_text)
    print("Títulos preprocesados.")
else:
    print("Advertencia: Columna 'title' no encontrada. Creando columna 'processed_title' vacía.")
    df['processed_title'] = ""

# Preprocesar la columna 'abstract' y crear 'processed_abstract'
if 'abstract' in df.columns:
    df['processed_abstract'] = df['abstract'].apply(preprocess_text)
    print("Abstracts preprocesados.")
else:
    print("Advertencia: Columna 'abstract' no encontrada. Creando columna 'processed_abstract' vacía.")
    df['processed_abstract'] = ""

# Crear el texto indexable combinando título y resumen procesados
df['indexable_text'] = df['processed_title'] + " " + df['processed_abstract']

# Limpiar cualquier doble espacio que pueda surgir de la concatenación
df['indexable_text'] = df['indexable_text'].str.replace(r'\s+', ' ', regex=True).str.strip()

# --- Mostrar Resultados del Preprocesamiento ---
print("\nPreprocesamiento completado. Vista previa de los datos preprocesados:")
display_cols = ['id', 'title', 'abstract', 'processed_title', 'processed_abstract', 'indexable_text']
display_cols = [col for col in display_cols if col in df.columns] # Solo mostrar columnas existentes

print(df[display_cols].head())

# Verificar un ejemplo detallado
if not df.empty and 'id' in df.columns:
    print("\nEjemplo detallado de un documento original vs. preprocesado (primer documento):")
    example_doc_idx = 0
    if example_doc_idx < len(df):
        example_doc = df.iloc[example_doc_idx]
        print(f"ID: {example_doc.get('id', 'N/A')}")
        print(f"Título original: {example_doc.get('title', 'N/A')}")
        print(f"Abstract original: {example_doc.get('abstract', 'N/A')}")
        print(f"Título preprocesado: {example_doc.get('processed_title', 'N/A')}")
        print(f"Abstract preprocesado: {example_doc.get('processed_abstract', 'N/A')}")
        print(f"Texto indexable final: {example_doc.get('indexable_text', 'N/A')}")
    else:
        print("No hay documentos en el DataFrame para mostrar el ejemplo.")
else:
    print("El DataFrame está vacío o le falta la columna 'id', no hay datos para preprocesar o mostrar.")


Iniciando preprocesamiento de títulos y abstracts...
Títulos preprocesados.
Abstracts preprocesados.

Preprocesamiento completado. Vista previa de los datos preprocesados:
          id                                              title  \
0  0704.0001  Calculation of prompt diphoton production cros...   
1  0704.0002           Sparsity-certifying Graph Decompositions   
2  0704.0003  The evolution of the Earth-Moon system based o...   
3  0704.0004  A determinant of Stirling cycle numbers counts...   
4  0704.0005  From dyadic $\Lambda_{\alpha}$ to $\Lambda_{\a...   

                                            abstract  \
0    A fully differential calculation in perturba...   
1    We describe a new algorithm, the $(k,\ell)$-...   
2    The evolution of Earth-Moon system is descri...   
3    We show that a determinant of Stirling cycle...   
4    In this paper we show how to compute the $\L...   

                                     processed_title  \
0  calculation prompt diphoton 

## Indexacion

## Indexación con TF-IDF

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer

print("\n--- Paso 2.1: Indexación con TF-IDF ---")

# Inicializar el vectorizador TF-IDF
tfidf_vectorizer = TfidfVectorizer(min_df=5, max_df=0.8)
tfidf_matrix = tfidf_vectorizer.fit_transform(df['indexable_text'])

print(f"Matriz TF-IDF creada con forma: {tfidf_matrix.shape}")
print(f"Número de términos únicos (features) en el vocabulario TF-IDF: {len(tfidf_vectorizer.get_feature_names_out())}")


--- Paso 2.1: Indexación con TF-IDF ---
Matriz TF-IDF creada con forma: (25000, 13752)
Número de términos únicos (features) en el vocabulario TF-IDF: 13752


## Indexación con BM25

In [13]:
from rank_bm25 import BM25Okapi

print("\n--- Paso 2.2: Indexación con BM25 ---")
tokenized_corpus_bm25 = [doc.split(" ") for doc in df['indexable_text']]
bm25_model = BM25Okapi(tokenized_corpus_bm25)

print("Modelo BM25 inicializado.")
print(f"Corpus tokenizado para BM25 con {len(tokenized_corpus_bm25)} documentos.")


--- Paso 2.2: Indexación con BM25 ---
Modelo BM25 inicializado.
Corpus tokenizado para BM25 con 25000 documentos.


## Indexación con Embeddings (FAISS)

In [7]:
from sentence_transformers import SentenceTransformer
import numpy as np
import faiss

print("\n--- Paso 2.3: Indexación con Embeddings (FAISS) ---")
embedding_model_name = 'all-MiniLM-L6-v2'
try:
    embedding_model = SentenceTransformer(embedding_model_name)
    print(f"Modelo de embeddings '{embedding_model_name}' cargado exitosamente.")
except Exception as e:
    print(f"Error al cargar el modelo de embeddings '{embedding_model_name}': {e}")
    print("Asegúrate de tener conexión a internet o de haber descargado el modelo previamente.")
    embedding_model = None 

if embedding_model is not None:
    # 2. Generar embeddings para todos los documentos
    print(f"Generando embeddings para {len(df)} documentos. Esto puede tomar un tiempo...")
    # Usamos .tolist() para asegurar que la entrada sea una lista de cadenas
    document_embeddings = embedding_model.encode(df['indexable_text'].tolist(), show_progress_bar=True)
    print(f"Embeddings de documentos creados con forma: {document_embeddings.shape}")

    # 3. Crear el índice FAISS
    # FAISS trabaja con vectores numpy de tipo float32
    dimension = document_embeddings.shape[1] # La dimensión de los embeddings generados
    faiss_index = faiss.IndexFlatL2(dimension) # IndexFlatL2 usa distancia euclidiana (L2)
    faiss_index.add(np.array(document_embeddings).astype('float32')) # Añadir los embeddings al índice

    print(f"Índice FAISS creado con {faiss_index.ntotal} vectores.")
else:
    print("Saltando la creación del índice FAISS debido a que el modelo de embeddings no se cargó.")


--- Paso 2.3: Indexación con Embeddings (FAISS) ---


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Modelo de embeddings 'all-MiniLM-L6-v2' cargado exitosamente.
Generando embeddings para 25000 documentos. Esto puede tomar un tiempo...


Batches:   0%|          | 0/782 [00:00<?, ?it/s]

Embeddings de documentos creados con forma: (25000, 384)
Índice FAISS creado con 25000 vectores.


# Recuperación

## Implementación de las Funciones de Búsqueda

In [None]:
import numpy as np 
# --- Funciones de Búsqueda ---

def search_tfidf(query, top_k=10):
    """
    Realiza una búsqueda utilizando el modelo TF-IDF.
    query: La cadena de consulta.
    top_k: Número de documentos más relevantes a retornar.
    """
    if 'tfidf_vectorizer' not in globals() or 'tfidf_matrix' not in globals():
        print("Error: El vectorizador TF-IDF o la matriz no están disponibles. Asegúrate de ejecutar la celda de indexación TF-IDF.")
        return []

    processed_query = preprocess_text(query)
    if not processed_query:
        print("Advertencia: La consulta preprocesada está vacía.")
        return []

    # Transformar la consulta en un vector TF-IDF
    query_vector = tfidf_vectorizer.transform([processed_query])
    cosine_similarities = (tfidf_matrix.dot(query_vector.T)).toarray().flatten()
    top_indices = cosine_similarities.argsort()[-top_k:][::-1]

    results = []
    for i_doc in top_indices:
        # Asegurarse de que el índice es válido para df
        if i_doc < len(df):
            doc = df.iloc[i_doc]
            results.append({
                'id': doc.get('id', 'N/A'),
                'title': doc.get('title', 'N/A'),
                'abstract_snippet': doc.get('abstract', 'N/A')[:300] + '...' if isinstance(doc.get('abstract'), str) and len(doc.get('abstract')) > 300 else doc.get('abstract', 'N/A')
            })
    return results

def search_bm25(query, top_k=10):
    """
    Realiza una búsqueda utilizando el modelo BM25.
    query: La cadena de consulta.
    top_k: Número de documentos más relevantes a retornar.
    """
    if 'bm25_model' not in globals() or 'tokenized_corpus_bm25' not in globals():
        print("Error: El modelo BM25 o el corpus tokenizado no están disponibles. Asegúrate de ejecutar la celda de indexación BM25.")
        return []

    processed_query = preprocess_text(query)
    if not processed_query:
        print("Advertencia: La consulta preprocesada está vacía.")
        return []

    tokenized_query = processed_query.split(" ")

    # Obtener los scores de relevancia para cada documento
    doc_scores = bm25_model.get_scores(tokenized_query)

    # Obtener los índices de los top-k documentos más relevantes
    top_indices = doc_scores.argsort()[-top_k:][::-1]

    results = []
    for i_doc in top_indices:
        if i_doc < len(df):
            doc = df.iloc[i_doc]
            results.append({
                'id': doc.get('id', 'N/A'),
                'title': doc.get('title', 'N/A'),
                'abstract_snippet': doc.get('abstract', 'N/A')[:300] + '...' if isinstance(doc.get('abstract'), str) and len(doc.get('abstract')) > 300 else doc.get('abstract', 'N/A')
            })
    return results

def search_faiss(query, top_k=10):
    """
    Realiza una búsqueda utilizando el índice FAISS (basado en embeddings).
    query: La cadena de consulta.
    top_k: Número de documentos más relevantes a retornar.
    """
    if 'embedding_model' not in globals() or 'faiss_index' not in globals():
        print("Error: El modelo de embeddings o el índice FAISS no están disponibles. Asegúrate de ejecutar la celda de indexación de Embeddings.")
        return []
    if embedding_model is None or faiss_index is None: # Comprobar si se cargaron correctamente
        print("Error: Modelo de embeddings o índice FAISS no inicializados correctamente.")
        return []

    processed_query = preprocess_text(query)
    if not processed_query:
        print("Advertencia: La consulta preprocesada está vacía.")
        return []

    # Generar el embedding para la consulta
    query_embedding = embedding_model.encode([processed_query])
    # FAISS requiere arrays de float32
    query_embedding = np.array(query_embedding).astype('float32')

    # Realizar la búsqueda en FAISS
    # D: Distancias, I: Índices de los documentos recuperados
    distances, top_indices = faiss_index.search(query_embedding, top_k)

    results = []
    for i_doc in top_indices[0]: # top_indices[0] contiene los índices de los top-k resultados para la primera consulta
        if i_doc < len(df):
            doc = df.iloc[i_doc]
            results.append({
                'id': doc.get('id', 'N/A'),
                'title': doc.get('title', 'N/A'),
                'abstract_snippet': doc.get('abstract', 'N/A')[:300] + '...' if isinstance(doc.get('abstract'), str) and len(doc.get('abstract')) > 300 else doc.get('abstract', 'N/A')
            })
    return results


# RAG

 ## Implementación del Módulo RAG

In [None]:
import google.generativeai as genai
import numpy as np # Todavía necesario para FAISS

print("\n--- Paso 4: RAG (Retrieval-Augmented Generation) con Google Gemini Flash ---")

# --- 1. Configurar el Cliente de Gemini ---
GEMINI_API_KEY = "AIzaSyAggMkVW2px2MKCrGRWkMHllN75M24Qx4M" 
genai.configure(api_key=GEMINI_API_KEY)

# --- 2. Cargar el modelo de Gemini ---
try:
    gemini_model = genai.GenerativeModel('gemini-2.5-flash')
    print("Modelo Gemini 2.5 Flash cargado exitosamente.")
except Exception as e:
    print(f"Error al cargar el modelo Gemini: {e}")
    gemini_model = None # Manejar el caso de error

def generate_rag_response(query, retrieved_docs, max_context_length=3000): # Aumentamos el context_length para Gemini
    """
    Genera una respuesta utilizando el modelo RAG con Gemini.
    query: La consulta del usuario.
    retrieved_docs: Lista de diccionarios con los documentos recuperados (top-k).
    max_context_length: Longitud máxima del contexto a pasar al LLM (en caracteres).
    """
    if gemini_model is None:
        return "Lo siento, el modelo Gemini no pudo cargarse. No puedo generar una respuesta RAG."

    context_parts = []
    # Tomar el top-3 documentos del índice vectorial (FAISS)
    # y construir un contexto a partir de sus títulos y abstracts completos.
    for i, doc_info in enumerate(retrieved_docs[:3]):
        doc_id = doc_info.get('id')
        if doc_id:
            # Buscar el documento completo en el DataFrame original 'df' usando el ID
            original_doc = df[df['id'] == doc_id]
            if not original_doc.empty:
                title = original_doc.iloc[0].get('title', 'N/A')
                abstract = original_doc.iloc[0].get('abstract', 'N/A')
                context_parts.append(f"Documento {i+1} (ID: {doc_id}):\nTítulo: {title}\nAbstract: {abstract}\n")
            else:
                context_parts.append(f"Documento {i+1} (ID: {doc_id}): Contenido no encontrado en el DataFrame original.\n")
        else:
            context_parts.append(f"Documento {i+1}: ID no disponible.\n")

    full_context = "\n\n".join(context_parts)

    # Truncar el contexto si es demasiado largo para el modelo de lenguaje
    # Gemini 2.5 Flash tiene una ventana de contexto más grande, pero sigue siendo limitada.
    if len(full_context) > max_context_length:
        full_context = full_context[:max_context_length] + "\n[...Contexto truncado...]"
        print(f"Advertencia: Contexto truncado a {max_context_length} caracteres.")

    print(f"\nContexto generado para RAG (fragmento):\n---\n{full_context[:500]}...\n---")


    # Construir el prompt para Gemini
    # Pedimos a Gemini que responda la pregunta basándose en el contexto y justifique.
    prompt = (
        f"Eres un asistente de investigación de IA. Basado EXCLUSIVAMENTE en la siguiente información "
        f"proporcionada en los documentos, responde a la pregunta. "
        f"Luego, justifica brevemente por qué los documentos proporcionados son relevantes para la consulta.\n\n"
        f"--- Documentos de Contexto ---\n{full_context}\n\n"
        f"--- Pregunta ---\n{query}\n\n"
        f"--- Respuesta y Justificación ---"
    )

    # Generar la respuesta usando el modelo de Gemini
    try:
        response = gemini_model.generate_content(
            contents=prompt,
            # Puedes ajustar parámetros como temperature para controlar la creatividad
            generation_config=genai.types.GenerationConfig(temperature=0.2)
        )
        # Acceder al texto generado
        answer = response.text
        final_response = (
            f"**Pregunta:** {query}\n\n"
            f"**Respuesta Generada (con Gemini):**\n{answer}\n"
        )
    except Exception as e:
        final_response = f"Ocurrió un error al generar la respuesta RAG con Gemini: {e}. " \
                         "Esto podría deberse a un problema de la API, límite de tokens, o contexto demasiado largo."
        print(final_response) # Imprimir error para depuración

    return final_response



--- Paso 4: RAG (Retrieval-Augmented Generation) con Google Gemini Flash ---
Modelo Gemini 2.5 Flash cargado exitosamente.


# Evaluación

In [None]:
from collections import Counter

print("\n--- Paso 5: Evaluación ---")

# --- 5.1: Evaluación de Modelos de Recuperación (TF-IDF, BM25, FAISS) ---

# Itera sobre cada consulta en la lista 'queries'
# Asegúrate de que 'queries' haya sido cargado previamente (ej. en Celda 3)
for query_idx, evaluation_query in enumerate(queries):
    print(f"\n{'='*80}")
    print(f"--- Evaluando para la Consulta #{query_idx + 1}: '{evaluation_query}' ---")
    print(f"{'='*80}")

    # Realizar búsquedas con cada modelo (top-10)
    # Asegúrate de que search_tfidf, search_bm25, search_faiss estén definidas en celdas anteriores
    print("\nRealizando búsquedas con cada modelo (top-10)...")
    tfidf_results = search_tfidf(evaluation_query, top_k=10)
    bm25_results = search_bm25(evaluation_query, top_k=10)
    faiss_results = search_faiss(evaluation_query, top_k=10)

    # Extraer IDs de los resultados
    tfidf_ids = {doc['id'] for doc in tfidf_results if 'id' in doc}
    bm25_ids = {doc['id'] for doc in bm25_results if 'id' in doc}
    faiss_ids = {doc['id'] for doc in faiss_results if 'id' in doc}

    # --- Comparación de Resultados ---

    print("\n--- Comparación de Documentos Recuperados (Top-10 IDs) ---")
    print(f"TF-IDF IDs: {list(tfidf_ids)}")
    print(f"BM25 IDs:   {list(bm25_ids)}")
    print(f"FAISS IDs:  {list(faiss_ids)}")

    # Documentos en común entre pares de modelos
    common_tfidf_bm25 = tfidf_ids.intersection(bm25_ids)
    common_tfidf_faiss = tfidf_ids.intersection(faiss_ids)
    common_bm25_faiss = bm25_ids.intersection(faiss_ids)
    common_all_three = tfidf_ids.intersection(bm25_ids, faiss_ids)

    print(f"\nDocumentos en común (IDs):")
    print(f"  TF-IDF y BM25: {len(common_tfidf_bm25)} documentos - {list(common_tfidf_bm25)}")
    print(f"  TF-IDF y FAISS: {len(common_tfidf_faiss)} documentos - {list(common_tfidf_faiss)}")
    print(f"  BM25 y FAISS: {len(common_bm25_faiss)} documentos - {list(common_bm25_faiss)}")
    print(f"  Común a los tres: {len(common_all_three)} documentos - {list(common_all_three)}")

    # --- Diferencias en el Ordenamiento (Simple Coincidencia en Top-K) ---
    # La función count_top_k_overlap debe estar definida en una celda anterior
    overlap_tfidf_bm25 = count_top_k_overlap(tfidf_results, bm25_results)
    overlap_tfidf_faiss = count_top_k_overlap(tfidf_results, faiss_results)
    overlap_bm25_faiss = count_top_k_overlap(bm25_results, faiss_results)

    print("\n--- Similitud entre Rankings (Documentos coincidentes en Top-10) ---")
    print(f"  Coincidencias TF-IDF y BM25: {overlap_tfidf_bm25} de 10")
    print(f"  Coincidencias TF-IDF y FAISS: {overlap_tfidf_faiss} de 10")
    print(f"  Coincidencias BM25 y FAISS: {overlap_bm25_faiss} de 10")

    # Análisis cualitativo breve sobre el ordenamiento y diferencias
    print("\n--- Análisis de Diferencias en el Ordenamiento ---")
    print("Observaciones:")
    print("  - Los modelos basados en conteo de palabras (TF-IDF, BM25) suelen tener más coincidencias entre sí.")
    print("  - El modelo de embeddings (FAISS) a menudo recupera documentos semánticamente similares, incluso si no comparten muchas palabras clave exactas con la consulta o con los otros modelos.")
    print("  - Si hay pocas o ninguna coincidencia entre FAISS y los otros, podría indicar que la consulta es muy específica en términos de palabras clave o que el significado semántico no se alinea bien con las palabras literales.")

    # --- Generación de la Tabla Comparativa en Markdown ---
    print("\n### **Tabla Comparativa de Resultados entre Modelos para esta Consulta**")
    print(f"\nPara la consulta de evaluación: \"{evaluation_query}\", se obtuvieron los siguientes resultados en el Top-10 de cada modelo:")
    print("\n| Modelo     | IDs Recuperados (Top-10)                                                                                                                   |")
    print("| :--------- | :----------------------------------------------------------------------------------------------------------------------------------------- |")
    print(f"| **TF-IDF** | {list(tfidf_ids)} |")
    print(f"| **BM25** | {list(bm25_ids)} |")
    print(f"| **FAISS** | {list(faiss_ids)} |")

    print("\n<br>") # Salto de línea en Markdown

    print("**Coincidencias de Documentos en el Top-10:**")
    print("\nLa siguiente tabla resume el número de documentos coincidentes en el Top-10 entre cada par de modelos, y los documentos comunes a los tres.")
    print("\n| Comparación           | Cantidad de Coincidencias (IDs en Top-10) | IDs de Documentos Coincidentes                                                                                                                                                                                                            |")
    print("| :-------------------- | :---------------------------------------- | :---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |")
    print(f"| **TF-IDF vs BM25** | {overlap_tfidf_bm25} | {list(common_tfidf_bm25)} |")
    print(f"| **TF-IDF vs FAISS** | {overlap_tfidf_faiss} | {list(common_tfidf_faiss)} |")
    print(f"| **BM25 vs FAISS** | {overlap_bm25_faiss} | {list(common_bm25_faiss)} |")
    print(f"| **Común a los Tres** | {len(common_all_three)} | {list(common_all_three)} |")

    print("\n<br>") # Salto de línea en Markdown

    print("**Observaciones Cualitativas sobre la Coincidencia:**")
    print("\n* **TF-IDF y BM25** suelen mostrar una mayor superposición en sus resultados. Esto se debe a que ambos son modelos basados en la frecuencia de términos y las palabras clave exactas. BM25 a menudo refina la relevancia, pero su fundamento sigue siendo léxico.")
    print("* **FAISS (Embeddings)** frecuentemente presenta un conjunto de documentos recuperados distinto en comparación con TF-IDF y BM25. Esto resalta la capacidad de los embeddings para capturar la similitud semántica (el significado subyacente) incluso si los documentos no comparten muchas palabras clave exactas con la consulta o entre sí. Las diferencias en los resultados sugieren que los embeddings pueden encontrar documentos conceptualmente relevantes que los métodos léxicos podrían pasar por alto.")


    # --- NUEVA PARTE: Mostrar contenido de los documentos recuperados por FAISS ---
    print("\n--- Contenido Detallado de los Documentos Recuperados por FAISS (Top-10) ---")
    # Reutilizamos la función display_results del Paso 3
    if faiss_results:
        for i, res in enumerate(faiss_results):
            print(f"{i+1}. ID: {res['id']}")
            print(f"   Título: {res['title']}")
            print(f"   Abstract (fragmento): {res['abstract_snippet']}")
            print("-" * 20)
    else:
        print("No hay resultados de FAISS para mostrar.")

    # --- 5.2: Análisis de la Respuesta Generada con RAG ---
    print("\n--- Análisis de la Respuesta RAG ---")
    print(f"Generando respuesta RAG para la consulta: '{evaluation_query}' (usando top-3 FAISS docs)")
    rag_retrieved_docs = search_faiss(evaluation_query, top_k=3) # Obtener los docs para RAG

    if rag_retrieved_docs:
        # Asegúrate de que generate_rag_response esté definida en una celda anterior
        rag_final_answer = generate_rag_response(evaluation_query, rag_retrieved_docs)
        print("\n" + "="*50)
        print("Respuesta RAG para Análisis:")
        print(rag_final_answer)
        print("="*50)


    else:
        print("No se pudieron recuperar documentos para el análisis RAG.")
    print(f"\n{'='*80}\n") # Separador para la siguiente consulta


--- Paso 5: Evaluación ---

--- Evaluando para la Consulta #1: 'diphoton production cross sections' ---

Realizando búsquedas con cada modelo (top-10)...

--- Comparación de Documentos Recuperados (Top-10 IDs) ---
TF-IDF IDs: ['0706.2117', '0705.0349', '0706.2813', '0707.2294', '0705.4313', '0707.4589', '0706.0851', '0704.0001', '0708.1443', '0708.1277']
BM25 IDs:   ['0709.0422', '0706.2117', '0705.0349', '0706.2813', '0705.4313', '0706.3235', '0707.4589', '0706.0851', '0704.0001', '0708.1277']
FAISS IDs:  ['0706.0701', '0709.1026', '0707.2294', '0705.2744', '0705.3884', '0706.0851', '0709.2478', '0704.0001', '0707.2375', '0708.1277']

Documentos en común (IDs):
  TF-IDF y BM25: 8 documentos - ['0706.2117', '0705.0349', '0706.2813', '0705.4313', '0707.4589', '0706.0851', '0704.0001', '0708.1277']
  TF-IDF y FAISS: 4 documentos - ['0708.1277', '0704.0001', '0707.2294', '0706.0851']
  BM25 y FAISS: 3 documentos - ['0704.0001', '0708.1277', '0706.0851']
  Común a los tres: 3 documentos -

# Informe

### **6.1. Implementación de la Arquitectura**

La arquitectura del sistema de Recuperación de Información ha sido diseñada e implementada siguiendo un flujo modular, abarcando desde la preparación de los datos hasta la generación de respuestas aumentadas. Se utilizó un entorno de desarrollo en Jupyter Notebook/Visual Studio Code, lo que facilitó la experimentación y el análisis paso a paso.

Los componentes clave de la arquitectura son los siguientes:

1.  **Ingesta y Preprocesamiento:**
    * Se inicia con la carga de un subconjunto del 1% del corpus de artículos científicos de arXiv y un conjunto de consultas.
    * Los textos (títulos y resúmenes) son sometidos a un preprocesamiento riguroso que incluye la conversión a minúsculas, eliminación de signos de puntuación y eliminación de stopwords. Esto prepara los datos para una indexación efectiva y reduce el ruido.

2.  **Indexación:**
    * Los documentos preprocesados son indexados utilizando tres modelos distintos para permitir diversas estrategias de recuperación:
        * **TF-IDF (Term Frequency-Inverse Document Frequency):** Un modelo de bolsa de palabras que pondera la importancia de los términos en función de su frecuencia en el documento y en todo el corpus.
        * **BM25 (Okapi BM25):** Una función de ranking basada en la probabilidad que mejora la relevancia de los documentos con respecto a la consulta, ajustándose a la longitud del documento y la saturación de términos.
        * **Embeddings con FAISS:** Los documentos son transformados en representaciones vectoriales densas (embeddings) utilizando un modelo de lenguaje pre-entrenado (`all-MiniLM-L6-v2`). Estos embeddings capturan el significado semántico de los textos. FAISS (Facebook AI Similarity Search) se utiliza para crear un índice eficiente que permite la búsqueda rápida de vectores similares.

3.  **Recuperación:**
    * Se implementan funciones de búsqueda específicas para cada modelo de indexación (`search_tfidf`, `search_bm25`, `search_faiss`).
    * Estas funciones toman una consulta, la preprocesan y utilizan el índice correspondiente para devolver los documentos más relevantes, mostrando su identificador, título y un fragmento del resumen.

4.  **RAG (Retrieval-Augmented Generation):**
    * Este módulo integra la recuperación de información con un modelo generativo avanzado.
    * Para una consulta dada, se recuperan los 3 documentos más relevantes utilizando el índice vectorial (FAISS).
    * El contenido de estos documentos se pasa como contexto a un modelo de lenguaje grande (LLM), específicamente **Google Gemini 2.5 Flash**, configurado a través de la API `google.generativeai`.
    * El LLM utiliza este contexto para generar una respuesta coherente a la consulta, que no solo resume la información relevante sino que también puede justificar la elección de los documentos.

5.  **Evaluación:**
    * Se realiza una comparación cuantitativa y cualitativa de los resultados de recuperación de TF-IDF, BM25 y FAISS. Esto incluye la identificación de documentos comunes en los top-10, diferencias en el ordenamiento y el cálculo de la similitud entre rankings.
    * Se lleva a cabo un análisis de la respuesta generada por el módulo RAG, verificando su coherencia y el uso efectivo de la información recuperada.

Esta arquitectura modular permite la flexibilidad para experimentar con diferentes modelos de recuperación y la robustez para integrar capacidades avanzadas de generación de lenguaje, proporcionando un sistema completo para la búsqueda y síntesis de información.

## Tabla comparativa

In [None]:
print("\n### **6.2. Tabla Comparativa de Resultados entre Modelos**")

evaluation_query = queries[0] # Tomamos la primera consulta para la evaluación

print(f"\nPara la consulta de evaluación: \"{evaluation_query}\", se obtuvieron los siguientes resultados en el Top-10 de cada modelo:")

# Realizar búsquedas con cada modelo (top-10)
# Asegúrate de que search_tfidf, search_bm25, search_faiss estén definidas
tfidf_results = search_tfidf(evaluation_query, top_k=10)
bm25_results = search_bm25(evaluation_query, top_k=10)
faiss_results = search_faiss(evaluation_query, top_k=10)

# Extraer IDs de los resultados
tfidf_ids = {doc['id'] for doc in tfidf_results if 'id' in doc}
bm25_ids = {doc['id'] for doc in bm25_results if 'id' in doc}
faiss_ids = {doc['id'] for doc in faiss_results if 'id' in doc}

# Documentos en común entre pares de modelos
common_tfidf_bm25 = tfidf_ids.intersection(bm25_ids)
common_tfidf_faiss = tfidf_ids.intersection(faiss_ids)
common_bm25_faiss = bm25_ids.intersection(faiss_ids)
common_all_three = tfidf_ids.intersection(bm25_ids, faiss_ids)

# --- Diferencias en el Ordenamiento (Simple Coincidencia en Top-K) ---
# Asegúrate de que count_top_k_overlap esté definida
def count_top_k_overlap(list1, list2, k=10):
    """Cuenta cuántos IDs del top-K de list1 están en el top-K de list2."""
    set1 = {doc['id'] for doc in list1[:k] if 'id' in doc}
    set2 = {doc['id'] for doc in list2[:k] if 'id' in doc}
    return len(set1.intersection(set2))

overlap_tfidf_bm25 = count_top_k_overlap(tfidf_results, bm25_results)
overlap_tfidf_faiss = count_top_k_overlap(tfidf_results, faiss_results)
overlap_bm25_faiss = count_top_k_overlap(bm25_results, faiss_results)


# --- Impresión de la Tabla Comparativa en Markdown ---
print("\n| Modelo     | IDs Recuperados (Top-10)                                                                                                                   |")
print("| :--------- | :----------------------------------------------------------------------------------------------------------------------------------------- |")
print(f"| **TF-IDF** | {list(tfidf_ids)} |")
print(f"| **BM25** | {list(bm25_ids)} |")
print(f"| **FAISS** | {list(faiss_ids)} |")

print("\n<br>") 

print("**Coincidencias de Documentos en el Top-10:**")
print("\nLa siguiente tabla resume el número de documentos coincidentes en el Top-10 entre cada par de modelos, y los documentos comunes a los tres.")
print("\n| Comparación           | Cantidad de Coincidencias (IDs en Top-10) | IDs de Documentos Coincidentes                                                                                                                                                                                                            |")
print("| :-------------------- | :---------------------------------------- | :---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |")
print(f"| **TF-IDF vs BM25** | {overlap_tfidf_bm25} | {list(common_tfidf_bm25)} |")
print(f"| **TF-IDF vs FAISS** | {overlap_tfidf_faiss} | {list(common_tfidf_faiss)} |")
print(f"| **BM25 vs FAISS** | {overlap_bm25_faiss} | {list(common_bm25_faiss)} |")
print(f"| **Común a los Tres** | {len(common_all_three)} | {list(common_all_three)} |")

print("\n<br>") 

print("**Observaciones Cualitativas sobre la Coincidencia:**")
print("\n* **TF-IDF y BM25** suelen mostrar una mayor superposición en sus resultados. Esto se debe a que ambos son modelos basados en la frecuencia de términos y las palabras clave exactas. BM25 a menudo refina la relevancia, pero su fundamento sigue siendo léxico.")
print("* **FAISS (Embeddings)** frecuentemente presenta un conjunto de documentos recuperados distinto en comparación con TF-IDF y BM25. Esto resalta la capacidad de los embeddings para capturar la similitud semántica (el significado subyacente) incluso si los documentos no comparten muchas palabras clave exactas con la consulta o entre sí. Las diferencias en los resultados sugieren que los embeddings pueden encontrar documentos conceptualmente relevantes que los métodos léxicos podrían pasar por alto.")


### **6.2. Tabla Comparativa de Resultados entre Modelos**

Para la consulta de evaluación: "diphoton production cross sections", se obtuvieron los siguientes resultados en el Top-10 de cada modelo:

| Modelo     | IDs Recuperados (Top-10)                                                                                                                   |
| :--------- | :----------------------------------------------------------------------------------------------------------------------------------------- |
| **TF-IDF** | ['0706.2117', '0705.0349', '0706.2813', '0707.2294', '0705.4313', '0707.4589', '0706.0851', '0704.0001', '0708.1443', '0708.1277'] |
| **BM25** | ['0709.0422', '0706.2117', '0705.0349', '0706.2813', '0705.4313', '0706.3235', '0707.4589', '0706.0851', '0704.0001', '0708.1277'] |
| **FAISS** | ['0706.0701', '0709.1026', '0707.2294', '0705.2744', '0705.3884', '0706.0851', '0709.2478', '0704.0001', '0707.2375', '0708.1277'] |

<br>
**Coincidencias de Documentos en el Top-

## Ejemplo de una consulta y su respuesta generada con RAG.

In [None]:
# Usamos la misma consulta de evaluación
evaluation_query = queries[0]

print(f"\n--- Ejemplo de RAG para la consulta: '{evaluation_query}' ---")

print("\n--- Documentos Recuperados por FAISS (Top-3 para Contexto RAG) ---")
# Obtener los top-3 documentos de FAISS para usar como contexto RAG
rag_retrieved_docs = search_faiss(evaluation_query, top_k=3)

if rag_retrieved_docs:
    for i, doc in enumerate(rag_retrieved_docs):
        print(f"{i+1}. ID: {doc['id']}")
        print(f"   Título: {doc['title']}")
        print(f"   Abstract (fragmento): {doc['abstract_snippet']}")
        print("-" * 20)
else:
    print("No se pudieron recuperar documentos para el contexto RAG.")

print("\n--- Respuesta Generada con RAG ---")
if rag_retrieved_docs:
    rag_final_answer = generate_rag_response(evaluation_query, rag_retrieved_docs)
    print("\n" + "="*50)
    print("Respuesta RAG:")
    print(rag_final_answer)
    print("="*50)
else:
    print("No se pudo generar una respuesta RAG debido a la falta de documentos recuperados.")


--- Ejemplo de RAG para la consulta: 'diphoton production cross sections' ---

--- Documentos Recuperados por FAISS (Top-3 para Contexto RAG) ---
1. ID: 0708.1277
   Título: Resummation of Hadroproduction Cross-sections at High Energy
   Abstract (fragmento):   We reconsider the high energy resummation of photoproduction,
electroproduction and hadroproduction cross-sections, in the light of recent
progress in the resummation of perturbative parton evolution to NLO in
logarithms of Q^2 and x. We show in particular that the when the coupling runs
the drama...
--------------------
2. ID: 0704.0001
   Título: Calculation of prompt diphoton production cross sections at Tevatron and
  LHC energies
   Abstract (fragmento):   A fully differential calculation in perturbative quantum chromodynamics is
presented for the production of massive photon pairs at hadron colliders. All
next-to-leading order perturbative contributions from quark-antiquark,
gluon-(anti)quark, and gluon-gluon subprocesses

## Diferencias entre Modelos y Utilidad del RAG

### **6.4. Diferencias entre Modelos y Utilidad del RAG**

#### **Diferencias Clave entre Modelos de Recuperación (TF-IDF, BM25, FAISS)**

La evaluación de los modelos TF-IDF, BM25 y FAISS ha revelado diferencias fundamentales en cómo abordan la relevancia de los documentos y, por lo tanto, en los resultados que recuperan.

* **TF-IDF y BM25 (Modelos Basados en Términos/Lexicales):**
    * **Mecanismo:** Ambos se centran en la frecuencia de los términos (palabras clave) en la consulta y en los documentos. TF-IDF pondera la importancia de un término en un documento en relación con su rareza en todo el corpus. BM25 es una mejora probabilística de TF-IDF que maneja mejor la longitud del documento y la saturación de términos.
    * **Tipo de Coincidencia:** Son muy efectivos para encontrar documentos que contienen las **palabras clave exactas** de la consulta o sus variantes morfológicas. Su fortaleza radica en la coincidencia léxica.
    * **Similitud en Resultados:** Como se observó en la tabla comparativa, TF-IDF y BM25 suelen tener un alto grado de superposición en sus documentos recuperados, ya que ambos operan bajo principios similares de conteo de términos. Las diferencias radican principalmente en el ordenamiento y el ajuste de relevancia de BM25.

* **FAISS con Embeddings (Modelo Basado en Semántica/Vectorial):**
    * **Mecanismo:** A diferencia de los modelos léxicos, FAISS opera sobre **embeddings** (representaciones vectoriales densas) de los documentos y la consulta. Estos embeddings son generados por modelos de lenguaje pre-entrenados que capturan el significado y el contexto semántico de las palabras y frases. La búsqueda se basa en la similitud de estos vectores en un espacio de alta dimensión.
    * **Tipo de Coincidencia:** Su principal ventaja es la capacidad de encontrar documentos que son **semánticamente similares** a la consulta, incluso si no comparten palabras clave explícitas. Esto es crucial para consultas que usan sinónimos, paráfrasis o conceptos relacionados.
    * **Diferencias en Resultados:** FAISS a menudo recupera un conjunto de documentos distinto en comparación con TF-IDF y BM25. Esto es una indicación de su capacidad para descubrir conexiones conceptuales que los modelos léxicos podrían pasar por alto. Las bajas coincidencias con los otros modelos no necesariamente significan peor rendimiento, sino una perspectiva de relevancia diferente (semántica vs. léxica).

En resumen, mientras que TF-IDF y BM25 sobresalen en la recuperación de documentos por coincidencia de palabras clave, FAISS ofrece una poderosa capacidad de búsqueda semántica, lo cual es invaluable para consultas más complejas o abstractas.

#### **Utilidad del RAG (Retrieval-Augmented Generation)**

El módulo RAG representa una evolución significativa sobre los sistemas de recuperación de información tradicionales. Su utilidad se manifiesta en varias áreas clave:

1.  **Respuestas Sintetizadas y Coherentes:** A diferencia de los sistemas de IR clásicos que solo devuelven una lista de documentos (lo que requiere que el usuario lea y sintetice la información), RAG utiliza un LLM para procesar el contenido de los documentos recuperados y generar una **respuesta directa y coherente** a la consulta del usuario. Esto mejora drásticamente la experiencia del usuario.
2.  **Reducción de Alucinaciones:** Al "anclar" la generación del LLM en información real y verificable extraída de una base de datos de conocimiento (nuestro corpus), RAG **minimiza el riesgo de que el modelo genere información incorrecta o "alucine"** datos que no existen. El LLM opera dentro de los límites del contexto proporcionado.
3.  **Justificación y Transparencia:** Como se demostró en el ejemplo, el LLM puede ser instruido para justificar su respuesta haciendo referencia a la información de los documentos fuente. Esto añade una capa de **transparencia** y permite al usuario verificar la procedencia de la información.
4.  **Manejo de Información Novedosa o Específica del Dominio:** Los LLMs pre-entrenados tienen un conocimiento vasto, pero limitado a su fecha de entrenamiento. RAG les permite acceder y utilizar información **nueva o muy específica de un dominio** (como artículos científicos recientes en nuestro caso) que no estaba en sus datos de entrenamiento, manteniendo el modelo "actualizado" y relevante.
5.  **Eficiencia y Costo:** En muchos casos, RAG puede ofrecer un rendimiento comparable al de LLMs mucho más grandes y costosos, o a LLMs finetuneados, al enfocar la generación en un subconjunto relevante de información.

En conclusión, RAG transforma un sistema de recuperación de documentos en un verdadero **sistema de respuesta a preguntas**, capaz de comprender consultas complejas y proporcionar respuestas precisas y fundamentadas, lo que lo convierte en una herramienta invaluable para aplicaciones de búsqueda, soporte al cliente, análisis de documentos y más.