# Agent Evaluation with RAGAS

We will use the RAGAS library to evaluate the performance our Gemini agent. RAGAS is a framework designed to assess the capabilities of AI agents in various tasks.

This notebook uses the functions in `ragas_eval.py` to evaluate our RAG pipeline
across different hyperparameter combinations.

The parameters for the evaluation are as follows:
* chunk_size
* top_k
* temperature

In [1]:
%load_ext autoreload
%autoreload 2

## Mount on Colab

In [2]:
from google.colab import drive
drive.mount("/content/drive")

Mounted at /content/drive


In [1]:
ROOT_DIR = "/content/drive/MyDrive/Proyectos/Insurance-Chatbot/Insurance_Chatbot_project/api_ai/model_evaluation"
%cd $ROOT_DIR

/content/drive/MyDrive/Proyectos/Insurance-Chatbot/Insurance_Chatbot_project/api_ai/model_evaluation


In [None]:
%ls $ROOT_DIR

Evaluate_Model.ipynb  ragas_eval.py


In [4]:
!pip install langchain-community langchain-google-genai duckduckgo-search pypdf faiss-cpu python-dotenv ragas pandas datasets

Collecting langchain-community
  Downloading langchain_community-0.3.25-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-google-genai
  Downloading langchain_google_genai-2.1.5-py3-none-any.whl.metadata (5.2 kB)
Collecting duckduckgo-search
  Downloading duckduckgo_search-8.0.4-py3-none-any.whl.metadata (16 kB)
Collecting pypdf
  Downloading pypdf-5.6.0-py3-none-any.whl.metadata (7.2 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.11.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.8 kB)
Collecting python-dotenv
  Downloading python_dotenv-1.1.0-py3-none-any.whl.metadata (24 kB)
Collecting ragas
  Downloading ragas-0.2.15-py3-none-any.whl.metadata (9.0 kB)
Collecting langchain-core<1.0.0,>=0.3.65 (from langchain-community)
  Downloading langchain_core-0.3.65-py3-none-any.whl.metadata (5.8 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (f

In [2]:
# Imports
import sys
sys.path.append('..')

import os
import sys
import warnings
import pandas as pd
from datetime import datetime

# Suprimir warnings innecesarios
warnings.filterwarnings("ignore", category=FutureWarning)
warnings.filterwarnings("ignore", category=UserWarning)

from generative_resp import pdf_process_utils
import ragas_eval as ragas_eval

project_root = os.path.dirname(ROOT_DIR)
sys.path.append(project_root)

In [3]:
def main():
    """
    Función principal que carga los documentos y ejecuta la evaluación.
    """
    print("\n" + "="*60)
    print("🚀 INICIANDO EVALUACIÓN RAG SIMPLIFICADA")
    print(f"📅 Fecha y Hora: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
    print("="*60)

    # Definir la ruta al directorio de los PDFs
    pdf_directory = os.path.join(project_root, 'generative_resp', 'polizas')

    if not os.path.isdir(pdf_directory):
        print(f"❌ Error: El directorio de PDFs no se encuentra en: {pdf_directory}")
        return

    print(f"📁 Cargando documentos desde: {pdf_directory}...")

    # Cargar los documentos. La división inicial no es crítica, ya que cada
    # configuración la re-dividirá según su 'chunk_size'.
    all_documents = pdf_process_utils.load_split_pdfs(
        pdf_dir=pdf_directory,
        chunk_size=1000,
        chunk_overlap=100
    )

    if not all_documents:
        print("❌ No se pudieron cargar los documentos. Abortando.")
        return

    print(f"✅ {len(all_documents)} chunks de documentos cargados inicialmente.")

    # --- Ejecutar la evaluación ---
    print("\n▶️ Lanzando el proceso de evaluación de RAGAS...")

    try:
        results_df = ragas_eval.run_evaluation(original_docs=all_documents)

        if results_df is not None:
            print("\n" + "="*60)
            print("🎉 ¡EVALUACIÓN COMPLETADA!")
            print("="*60)
            print("📊 Resumen de Resultados Finales (Promedio por combinación):")

            # Imprimir el DataFrame de resultados con un formato más limpio
            pd.set_option('display.max_rows', None)
            pd.set_option('display.max_columns', None)
            pd.set_option('display.width', 100)
            pd.set_option('display.colheader_justify', 'center')
            pd.set_option('display.precision', 4)

            print(results_df)

            # Guardar resultados en un archivo CSV
            results_path = 'ragas_simplified_results.csv'
            results_df.to_csv(results_path, index=False)
            print(f"\n💾 Resultados guardados en: {results_path}")

        else:
            print("\n❌ La evaluación no produjo resultados.")

    except Exception as e:
        print(f"\n❌ Ocurrió un error crítico durante la evaluación: {e}")
        import traceback
        traceback.print_exc()

In [4]:
if __name__ == "__main__":
    main()


🚀 INICIANDO EVALUACIÓN RAG SIMPLIFICADA
📅 Fecha y Hora: 2025-06-16 00:02:29
📁 Cargando documentos desde: /content/drive/MyDrive/Proyectos/Insurance-Chatbot/Insurance_Chatbot_project/api_ai/generative_resp/polizas...
Split 267 documents into 699 chunks.
✅ 699 chunks de documentos cargados inicialmente.

▶️ Lanzando el proceso de evaluación de RAGAS...
Configurando dependencias de RAGAS (LLM y Embeddings)...


  hf_embeddings = HuggingFaceEmbeddings(


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.5k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

✅ Dependencias de RAGAS configuradas exitosamente.

🧪 Evaluando Configuración #1/4: Creative & Balanced
   Hiperparámetros: chunk_size=1000, top_k=4, temp=0.3
  - Evaluando pregunta 1/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...
  - Evaluando pregunta 2/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...
  - Evaluando pregunta 3/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...
  - Evaluando pregunta 4/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...

  📊 Resultados promedio para la configuración:
     - faithfulness: 0.9500
     - answer_relevancy: 0.6379
     - context_precision: 0.3750
     - context_recall: 0.5000

--------------------------------------------------
⏳ PAUSA EXTRA LARGA (300s) para la siguiente configuración...
--------------------------------------------------

🧪 Evaluando Configuración #2/4: Wide Context Sweep
   Hiperparámetros: chunk_size=1200, top_k=6, temp=0.1
  - Evaluando pregunta 1/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...
  - Evaluando pregunta 2/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerMinutePerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 10
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 51
}
].
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerMinutePerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 10
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 48
}
].


    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...
  - Evaluando pregunta 3/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...
  - Evaluando pregunta 4/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...

  📊 Resultados promedio para la configuración:
     - faithfulness: 1.0000
     - answer_relevancy: 0.4784
     - context_precision: 0.3750
     - context_recall: 0.5000

--------------------------------------------------
⏳ PAUSA EXTRA LARGA (300s) para la siguiente configuración...
--------------------------------------------------

🧪 Evaluando Configuración #3/4: Balanced Natural
   Hiperparámetros: chunk_size=1000, top_k=3, temp=0.2
  - Evaluando pregunta 1/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...
  - Evaluando pregunta 2/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...
  - Evaluando pregunta 3/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...
  - Evaluando pregunta 4/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...

  📊 Resultados promedio para la configuración:
     - faithfulness: 1.0000
     - answer_relevancy: 0.6302
     - context_precision: 0.3750
     - context_recall: 0.5000

--------------------------------------------------
⏳ PAUSA EXTRA LARGA (300s) para la siguiente configuración...
--------------------------------------------------

🧪 Evaluando Configuración #4/4: Dense Precision
   Hiperparámetros: chunk_size=1800, top_k=2, temp=0.15
  - Evaluando pregunta 1/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...
  - Evaluando pregunta 2/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...
  - Evaluando pregunta 3/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...
  - Evaluando pregunta 4/4...


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

    ✅ Éxito (resultado procesado desde lista).
    ⏳ Pausa de 180 segundos para proteger la cuota...

  📊 Resultados promedio para la configuración:
     - faithfulness: 1.0000
     - answer_relevancy: 0.6481
     - context_precision: 0.3750
     - context_recall: 0.5000

🎉 ¡EVALUACIÓN COMPLETADA!
📊 Resumen de Resultados Finales (Promedio por combinación):
    combination_name    faithfulness  answer_relevancy  context_precision  context_recall
0  Creative & Balanced      0.95           0.6379             0.375              0.5     
1   Wide Context Sweep      1.00           0.4784             0.375              0.5     
2     Balanced Natural      1.00           0.6302             0.375              0.5     
3      Dense Precision      1.00           0.6481             0.375              0.5     

💾 Resultados guardados en: ragas_simplified_results.csv


## Results

After running the evaluation, we will obtain a table with the results for each combination of hyperparameters.

| **Name of combination** | **chunk_size** | **top_k** | **temperature** |
|------------------|------------------|----------|----------|
| Creative & Balanced          | 1000          | 4     | 0.3     |
| Wide Context Sweep          | 1200          | 6     | 0.1     |
| Balanced Natural          | 1000          | 3     | 0.2     |
| Dense Precision          | 1800          | 2     | 0.15     |

 The results were saved on **ragas_simplified_results.csv**


In [5]:
results = pd.read_csv('ragas_simplified_results.csv')
results

Unnamed: 0,combination_name,faithfulness,answer_relevancy,context_precision,context_recall
0,Creative & Balanced,0.95,0.6379,0.375,0.5
1,Wide Context Sweep,1.0,0.4784,0.375,0.5
2,Balanced Natural,1.0,0.6302,0.375,0.5
3,Dense Precision,1.0,0.6481,0.375,0.5


The best hyperparameters combination is:
**Dense Precision**:

* chunk_size: *1800*
* top_k: *2*  
* temperature: *0.15*