# **Introduction** 

## **How to use?**

You can load any RAG system from our module (`rag`) where the pipeline is already implemented. The documents from the 5 TSFs have already been vectorized and indexed to the database, so you just need to indicate the path of these vectors.

The RAG systems implemented are:

1. **Naive RAG**
2. **Advanced RAG**
3. **Hybrid RAG**
4. **Advanced-Hybrid RAG**
5. **AsyncMultiQuery RAG**

In [1]:
from rag import NaiveRAG

  from .autonotebook import tqdm as notebook_tqdm


resource module not available on Windows


In [3]:
path_vector_storage = "./src/evaluation_retrieval/vector_storage/03_cenizas_espesado/03_cenizas_nomic"
embedding_type = "nomic"
embedding_model_name = "nomic-embed-text-v1.5"

pipeline_rag = NaiveRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name
)

In [None]:
response = pipeline_rag.query("Tipo de dep√≥sito?")
response

Response(response='El tipo de dep√≥sito mencionado en el contexto es un "Dep√≥sito de Relaves Espesados". Este dep√≥sito tiene una superficie aproximada de 50 hect√°reas y una pendiente media de 3%. La capacidad de depositaci√≥n es de 7.600.000 m¬≥, lo que equivale a 12,4 millones de toneladas de relaves espesados. \n\nEl dise√±o del dep√≥sito incluye componentes como un muro de confinamiento, un vertedero de descarga, una piscina de aguas claras, una planta de espesamiento y floculaci√≥n, as√≠ como tuber√≠as de descarga de relaves y de recuperaci√≥n de aguas. La tasa de depositaci√≥n de relaves espesados es de 2.929 toneladas por d√≠a.\n\nAdem√°s, se considera que el relave ser√° depositado en capas homog√©neas, guiado mediante camellones de tierra, y se proyecta una pendiente de depositaci√≥n de 3%, aunque la pendiente natural de depositaci√≥n del relave es de 7%. \n\nSi necesitas m√°s informaci√≥n espec√≠fica sobre alg√∫n aspecto del dep√≥sito, h√°zmelo saber.', source_nodes=[NodeWi

Now let's use our proposal.

In [1]:
from rag import AsyncMultiQueryRAG

  from .autonotebook import tqdm as notebook_tqdm


resource module not available on Windows


In [2]:
path_vector_storage = "./src/evaluation_retrieval/vector_storage/03_cenizas_espesado/03_cenizas_nomic"
embedding_type = "nomic"
embedding_model_name = "nomic-embed-text-v1.5"

pipeline_rag = AsyncMultiQueryRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name
)

Cargando Cross-Encoder...


In [3]:
response = pipeline_rag.query("Tipo de dep√≥sito?")
response

Desempaquetando Lista: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5/5 [00:00<?, ?it/s]


Total de nodos filtrados: 4


Response(response='El tipo de dep√≥sito mencionado en el contexto se refiere a dep√≥sitos de est√©ril y dep√≥sitos de relaves espesados. A continuaci√≥n, se detallan las caracter√≠sticas de cada uno:\n\n1. **Dep√≥sito de Est√©ril (existente)**:\n   - **Estructura**: Ubicado a unos 200 metros frente a la bocamina.\n   - **Dimensi√≥n**: Ocupa una superficie aproximada de 1,5 hect√°reas.\n\n2. **Dep√≥sito de Est√©ril (proyectado)**:\n   - **Estructura**: Nueva zona de depositaci√≥n de est√©ril, ubicada al suroeste del dep√≥sito existente.\n   - **Capacidad**: Capacidad de depositaci√≥n proyectada de 2,0 millones de toneladas.\n\n3. **Dep√≥sito de Est√©ril (proyecto en operaci√≥n)**:\n   - **Estructura**: Construcci√≥n de un dep√≥sito para recibir el material est√©ril proveniente de la mina rajo.\n   - **Dimensiones**: Aproximadamente 40 hect√°reas de superficie y 56 metros de altura.\n\n4. **Pilas Dump o Pilas Est√°ticas (proyecto pendiente)**:\n   - **Estructura**: Instalaci√≥n para lixi

In [5]:
from IPython.display import display, Markdown

display(Markdown(response.response))

El tipo de dep√≥sito mencionado en el contexto se refiere a dep√≥sitos de est√©ril y dep√≥sitos de relaves espesados. A continuaci√≥n, se detallan las caracter√≠sticas de cada uno:

1. **Dep√≥sito de Est√©ril (existente)**:
   - **Estructura**: Ubicado a unos 200 metros frente a la bocamina.
   - **Dimensi√≥n**: Ocupa una superficie aproximada de 1,5 hect√°reas.

2. **Dep√≥sito de Est√©ril (proyectado)**:
   - **Estructura**: Nueva zona de depositaci√≥n de est√©ril, ubicada al suroeste del dep√≥sito existente.
   - **Capacidad**: Capacidad de depositaci√≥n proyectada de 2,0 millones de toneladas.

3. **Dep√≥sito de Est√©ril (proyecto en operaci√≥n)**:
   - **Estructura**: Construcci√≥n de un dep√≥sito para recibir el material est√©ril proveniente de la mina rajo.
   - **Dimensiones**: Aproximadamente 40 hect√°reas de superficie y 56 metros de altura.

4. **Pilas Dump o Pilas Est√°ticas (proyecto pendiente)**:
   - **Estructura**: Instalaci√≥n para lixiviar mineral de baja ley y ley marginal proveniente de la mina rajo sin chancar.
   - **Dimensiones**: Aproximadamente 32 hect√°reas de superficie para mineral de baja ley y 40 hect√°reas para mineral de ley marginal.

5. **Dep√≥sito de Relaves Espesados**:
   - **Estructura**: Se menciona un procedimiento para la operaci√≥n normal del proyecto de dep√≥sito de relaves espesados, que incluye la disposici√≥n de los relaves en forma de pulpas.

Si necesitas informaci√≥n m√°s espec√≠fica sobre alg√∫n tipo de dep√≥sito, por favor ind√≠calo.

What we did not mention in our paper (since it was not the focus) is that by increasing the probability of finding the pieces of text (nodes) that contain the information, we improve the response quality of the LLM.

# **Paper AsyncMultiQuery TSF-RAG**

Now we are going to replicate what is indicated in the article by evaluating each embedding model and each RAG system for the 5 TSFs.

## **5. Experimental setup and results**

### **5.2 Embeddings evaluation**

#### **1. Sand Tailing Dams (STD)**

##### **1.1 Model: All-MiniLM-L6-v2**

In [6]:
from evaluation_retrieval import EmbeddingEvaluatorV3

evaluator = EmbeddingEvaluatorV3(results_dir="./src/results/01_tranque_retrieval_evaluation")

# Una sola l√≠nea para evaluar todo
results, df = evaluator.quick_evaluate(
    model_config={"model_type": "huggingface", "model_id": "sentence-transformers/all-MiniLM-L6-v2"},
    storage_path="./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_all_mini_L6_v2",
    ground_truth_path="./src/evaluation_retrieval/ground_truth_retrieval/01_tranque_ground_truth_evaluacion.json",
    top_k=13
)

üöÄ EVALUACI√ìN R√ÅPIDA INICIADA
ü§ñ Cargando modelo tipo: huggingface
üìÅ Storage path: ./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_all_mini_L6_v2
   üì¶ Modelo HuggingFace: sentence-transformers/all-MiniLM-L6-v2
‚úÖ Modelo cargado exitosamente!
üìã Cargando ground truth: ./src/evaluation_retrieval/ground_truth_retrieval/01_tranque_ground_truth_evaluacion.json
‚úÖ Ground truth cargado exitosamente!
  üìä Tipo de dep√≥sito: tranque_de_relaves
  üìà N√∫mero de matrices: 6
  üîç Total de par√°metros: 9
    ‚Ä¢ matriz_1: 2 par√°metros
    ‚Ä¢ matriz_2: 3 par√°metros
    ‚Ä¢ matriz_4: 1 par√°metros
    ‚Ä¢ matriz_6: 1 par√°metros
    ‚Ä¢ matriz_7: 1 par√°metros
    ‚Ä¢ matriz_8: 1 par√°metros
üöÄ Iniciando evaluaci√≥n completa (top_k=13)...
üìä Total de par√°metros a evaluar: 9

üìà Evaluando matriz: matriz_1 (2 par√°metros)


                                                                       

    üìä Promedio matriz matriz_1:
       Precision: 0.3077
       Recall:    0.0889
       F1-Score:  0.1379
       AP:        0.0760

üìà Evaluando matriz: matriz_2 (3 par√°metros)


                                                               

    üìä Promedio matriz matriz_2:
       Precision: 0.0513
       Recall:    0.3333
       F1-Score:  0.0889
       AP:        0.1389

üìà Evaluando matriz: matriz_4 (1 par√°metros)


                                                               

    üìä Promedio matriz matriz_4:
       Precision: 0.1538
       Recall:    0.6667
       F1-Score:  0.2500
       AP:        0.1162

üìà Evaluando matriz: matriz_6 (1 par√°metros)


                                                               

    üìä Promedio matriz matriz_6:
       Precision: 0.0000
       Recall:    0.0000
       F1-Score:  0.0000
       AP:        0.0000

üìà Evaluando matriz: matriz_7 (1 par√°metros)


                                                               

    üìä Promedio matriz matriz_7:
       Precision: 0.0769
       Recall:    0.3333
       F1-Score:  0.1250
       AP:        0.3333

üìà Evaluando matriz: matriz_8 (1 par√°metros)


                                                               

    üìä Promedio matriz matriz_8:
       Precision: 0.0769
       Recall:    0.3333
       F1-Score:  0.1250
       AP:        0.0278

‚úÖ Evaluaci√≥n completa terminada!
üìä Total evaluaciones realizadas: 9

üìà RESUMEN DE EVALUACI√ìN DE EMBEDDINGS
ü§ñ Modelo: sentence-transformers/all-MiniLM-L6-v2
üèóÔ∏è  Tipo de dep√≥sito: tranque_de_relaves
üìÖ Fecha evaluaci√≥n: 2025-10-26 22:21:52
üéØ Top-K evaluado: 13
üìä Total par√°metros: 9

üåç M√âTRICAS GLOBALES (Promedio de todos los par√°metros):
--------------------------------------------------
Precision:     0.1197
Recall:        0.2790
F1-Score:      0.1158
Avg Precision: 0.1162

üìä M√âTRICAS POR MATRIZ:
--------------------------------------------------

üìà matriz_1:
  Precision:     0.3077
  Recall:        0.0889
  F1-Score:      0.1379
  Avg Precision: 0.0760

üìà matriz_2:
  Precision:     0.0513
  Recall:        0.3333
  F1-Score:      0.0889
  Avg Precision: 0.1389

üìà matriz_4:
  Precision:     0.1538
  Recall: 



### **5.3 Comparison of RAG systems**

In [None]:
from evaluation_rag import auto_evaluation_rag
from llms_modules import LLMEvaluator

  from .autonotebook import tqdm as notebook_tqdm


resource module not available on Windows


#### **1. Naive RAG System Evaluation**

This section evaluates the 5 TSFs for the RAG system called Naive.

In [None]:
from rag import NaiveRAG

##### **1.1 Sand Tailing Dams (STD)**

In [3]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/01_STD_Tranque_GT.xlsx"
nombre_excel = "01_STD_NaiveRAG_nomic.xlsx"

pipeline_rag = NaiveRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

Evaluaci√≥n Matriz:   0%|          | 0/8 [00:00<?, ?it/s]

Matriz 1


Evaluaci√≥n Matriz:  12%|‚ñà‚ñé        | 1/8 [00:19<02:17, 19.71s/it]

Matriz 2


Evaluaci√≥n Matriz:  25%|‚ñà‚ñà‚ñå       | 2/8 [00:28<01:19, 13.20s/it]

Matriz 3


Evaluaci√≥n Matriz:  38%|‚ñà‚ñà‚ñà‚ñä      | 3/8 [00:33<00:46,  9.35s/it]

Matriz 4


Evaluaci√≥n Matriz:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 4/8 [00:38<00:31,  7.85s/it]

Matriz 5


Evaluaci√≥n Matriz:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 5/8 [00:48<00:25,  8.47s/it]

Matriz 6


Evaluaci√≥n Matriz:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 6/8 [00:57<00:17,  8.89s/it]

Matriz 7


Evaluaci√≥n Matriz:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 7/8 [01:11<00:10, 10.53s/it]

Matriz 8


Evaluaci√≥n Matriz: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [01:22<00:00, 10.37s/it]


El tiempo en evaluar fue: 83.2460584640503


##### **1.2 Filtered Tailings Deposit (FTD)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/02_kozan_filtrado/02_kozan_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/02_FTD_Filtrado_GT.xlsx"
nombre_excel = "01_FTD_NaiveRAG_nomic.xlsx"

pipeline_rag = NaiveRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

##### **1.3 Thickened Tailings Deposit (TTD)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/03_cenizas_espesado/03_cenizas_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/03_TTD_Espesado_GT.xlsx"
nombre_excel = "01_TTD_NaiveRAG_nomic.xlsx"

pipeline_rag = NaiveRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

##### **1.4 Tailings Embankments (TE)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/04_enami_embalse/04_enami_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/04_TE_Embalse_GT.xlsx"
nombre_excel = "01_TE_NaiveRAG_nomic.xlsx"

pipeline_rag = NaiveRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

##### **1.5 Paste Tailings Deposits (PTD)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/05_florida_pasta/05_florida_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/05_PTD_EnPasta_GT.xlsx"
nombre_excel = "01_PTD_NaiveRAG_nomic.xlsx"

pipeline_rag = NaiveRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

#### **2. Advanced RAG System Evaluation**

In [None]:
from rag import AdvancedRAG

##### **2.1 Sand Tailing Dams (STD)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/01_STD_Tranque_GT.xlsx"
nombre_excel = "02_STD_AdvancedRAG_nomic.xlsx"

cross_encoder_model_name="cross-encoder/ms-marco-MiniLM-L-6-v2"
top_n = 5

pipeline_rag = AdvancedRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
    cross_encoder_model_name=cross_encoder_model_name,
    top_n=top_n
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

Evaluaci√≥n Matriz:   0%|          | 0/8 [00:00<?, ?it/s]

Matriz 1


Evaluaci√≥n Matriz:  12%|‚ñà‚ñé        | 1/8 [00:23<02:43, 23.29s/it]

Matriz 2


Evaluaci√≥n Matriz:  25%|‚ñà‚ñà‚ñå       | 2/8 [00:37<01:47, 17.91s/it]

Matriz 3


Evaluaci√≥n Matriz:  38%|‚ñà‚ñà‚ñà‚ñä      | 3/8 [00:43<01:01, 12.36s/it]

Matriz 4


Evaluaci√≥n Matriz:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 4/8 [00:50<00:41, 10.45s/it]

Matriz 5


Evaluaci√≥n Matriz:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 5/8 [01:01<00:31, 10.51s/it]

Matriz 6


Evaluaci√≥n Matriz:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 6/8 [01:12<00:21, 10.90s/it]

Matriz 7


Evaluaci√≥n Matriz:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 7/8 [01:29<00:12, 12.66s/it]

Matriz 8


Evaluaci√≥n Matriz: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [01:45<00:00, 13.14s/it]

El tiempo en evaluar fue: 105.29558682441711





##### **2.2 Filtered Tailings Deposit (FTD)**

In [None]:
path_vector_storage="./src/evaluation_retrieval/vector_storage/02_kozan_filtrado/02_kozan_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/02_FTD_Filtrado_GT.xlsx"
nombre_excel = "02_FTD_NaiveRAG_nomic.xlsx"

cross_encoder_model_name="cross-encoder/ms-marco-MiniLM-L-6-v2"
top_n = 5

pipeline_rag = AdvancedRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
    cross_encoder_model_name=cross_encoder_model_name,
    top_n=top_n
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

##### **2.3 Thickened Tailings Deposit (TTD)**

In [None]:
path_vector_storage="./src/evaluation_retrieval/vector_storage/03_cenizas_espesado/03_cenizas_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/03_TTD_Espesado_GT.xlsx"
nombre_excel = "02_TTD_AdvancedRAG_nomic.xlsx"

cross_encoder_model_name="cross-encoder/ms-marco-MiniLM-L-6-v2"
top_n = 5

pipeline_rag = AdvancedRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
    cross_encoder_model_name=cross_encoder_model_name,
    top_n=top_n
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

##### **2.4 Tailings Embankments (TE)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/04_enami_embalse/04_enami_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/04_TE_Embalse_GT.xlsx"
nombre_excel = "02_TE_AdvancedRAG_nomic.xlsx"

cross_encoder_model_name="cross-encoder/ms-marco-MiniLM-L-6-v2"
top_n = 5

pipeline_rag = AdvancedRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
    cross_encoder_model_name=cross_encoder_model_name,
    top_n=top_n
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

##### **2.5 Paste Tailings Deposits (PTD)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/05_florida_pasta/05_florida_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/05_PTD_EnPasta_GT.xlsx"
nombre_excel = "02_PTD_AdvancedRAG_nomic.xlsx"

cross_encoder_model_name="cross-encoder/ms-marco-MiniLM-L-6-v2"
top_n = 5

pipeline_rag = AdvancedRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
    cross_encoder_model_name=cross_encoder_model_name,
    top_n=top_n
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

#### **3. Hybrid RAG System Evaluation**

In [None]:
from rag import HybridRAG

##### **3.1 Sand Tailing Dams (STD)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_nomic"
path_bm25 = "./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_bm25"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/01_STD_Tranque_GT.xlsx"
nombre_excel = "03_STD_HybridRAG_nomic.xlsx"

pipeline_rag = HybridRAG(
    path_vector_storage=path_vector_storage,
    path_bm25=path_bm25,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

Evaluaci√≥n Matriz:   0%|          | 0/8 [00:00<?, ?it/s]

Matriz 1


Evaluaci√≥n Matriz:  12%|‚ñà‚ñé        | 1/8 [00:18<02:09, 18.49s/it]

Matriz 2


Evaluaci√≥n Matriz:  25%|‚ñà‚ñà‚ñå       | 2/8 [00:29<01:23, 13.98s/it]

Matriz 3


Evaluaci√≥n Matriz:  38%|‚ñà‚ñà‚ñà‚ñä      | 3/8 [00:32<00:46,  9.25s/it]

Matriz 4


Evaluaci√≥n Matriz:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 4/8 [00:39<00:31,  8.00s/it]

Matriz 5


Evaluaci√≥n Matriz:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 5/8 [00:50<00:27,  9.13s/it]

Matriz 6


Evaluaci√≥n Matriz:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 6/8 [00:57<00:16,  8.38s/it]

Matriz 7


Evaluaci√≥n Matriz:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 7/8 [01:13<00:11, 11.12s/it]

Matriz 8


Evaluaci√≥n Matriz: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [01:22<00:00, 10.28s/it]

El tiempo en evaluar fue: 82.45992946624756





##### **3.2 Filtered Tailings Deposit (FTD)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/02_kozan_filtrado/02_kozan_nomic"
path_bm25 = "./src/evaluation_retrieval/vector_storage/02_kozan_filtrado/02_kozan_filtrado_bm25"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/02_FTD_Filtrado_GT.xlsx"
nombre_excel = "03_FTD_HybridRAG_nomic.xlsx"


pipeline_rag = HybridRAG(
    path_vector_storage=path_vector_storage,
    path_bm25=path_bm25,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

##### **3.3 Thickened Tailings Deposit (TTD)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/03_cenizas_espesado/03_cenizas_nomic"
path_bm25 = "./src/evaluation_retrieval/vector_storage/03_cenizas_espesado/03_cenizas_espesado_bm25"

embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/03_TTD_Espesado_GT.xlsx"
nombre_excel = "03_TTD_HybridRAG_nomic.xlsx"


pipeline_rag = HybridRAG(
    path_vector_storage=path_vector_storage,
    path_bm25=path_bm25,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

##### **3.4 Tailings Embankments (TE)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/04_enami_embalse/04_enami_nomic"
path_bm25 = "./src/evaluation_retrieval/vector_storage/04_enami_embalse/04_enami_embalse_bm25"

embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/04_TE_Embalse_GT.xlsx"
nombre_excel = "03_TE_HybridRAG_nomic.xlsx"


pipeline_rag = HybridRAG(
    path_vector_storage=path_vector_storage,
    path_bm25=path_bm25,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

##### **3.5 Paste Tailings Deposits (PTD)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/05_florida_pasta/05_florida_nomic"
path_bm25 = "./src/evaluation_retrieval/vector_storage/05_florida_pasta/05_florida_pasta_bm25"

embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/05_PTD_EnPasta_GT.xlsx"
nombre_excel = "03_PTD_HybridRAG_nomic.xlsx"


pipeline_rag = HybridRAG(
    path_vector_storage=path_vector_storage,
    path_bm25=path_bm25,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

#### **4. Advanced-Hybrid RAG System Evaluation**

In [None]:
from rag import AdvancedHybridRAG

##### **4.1 Sand Tailing Dams (STD)**

In [7]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_nomic"
path_bm25 = "./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_bm25"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/01_STD_Tranque_GT.xlsx"
nombre_excel = "04_STD_AdvancedHybridRAG_nomic.xlsx"

cross_encoder_model_name="cross-encoder/ms-marco-MiniLM-L-6-v2"
top_n = 5

pipeline_rag = AdvancedHybridRAG(
    path_vector_storage=path_vector_storage,
    path_bm25=path_bm25,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
    cross_encoder_model_name=cross_encoder_model_name,
    top_n=top_n
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

Evaluaci√≥n Matriz:   0%|          | 0/8 [00:00<?, ?it/s]

Matriz 1


Evaluaci√≥n Matriz:  12%|‚ñà‚ñé        | 1/8 [00:21<02:29, 21.39s/it]

Matriz 2


Evaluaci√≥n Matriz:  25%|‚ñà‚ñà‚ñå       | 2/8 [00:35<01:42, 17.03s/it]

Matriz 3


Evaluaci√≥n Matriz:  38%|‚ñà‚ñà‚ñà‚ñä      | 3/8 [00:40<00:57, 11.60s/it]

Matriz 4


Evaluaci√≥n Matriz:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 4/8 [00:47<00:39,  9.97s/it]

Matriz 5


Evaluaci√≥n Matriz:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 5/8 [00:57<00:29,  9.92s/it]

Matriz 6


Evaluaci√≥n Matriz:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 6/8 [01:06<00:19,  9.67s/it]

Matriz 7


Evaluaci√≥n Matriz:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 7/8 [01:22<00:11, 11.62s/it]

Matriz 8


Evaluaci√≥n Matriz: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [01:31<00:00, 11.48s/it]


El tiempo en evaluar fue: 92.1056878566742


##### **4.2 Filtered Tailings Deposit (FTD)**

##### **4.3 Thickened Tailings Deposit (TTD)**

##### **4.4 Tailings Embankments (TE)**

##### **4.5 Paste Tailings Deposits (PTD)**

#### **5. AsyncMultiQuery RAG System Evaluation**

In [None]:
from rag import AsyncMultiQueryRAGV2

##### **5.1 Sand Tailing Dams (STD)**

In [None]:
embedding_configs = [
    EmbeddingConfig(
        name="minilm",
        embedding_type="huggingface",
        model_name="sentence-transformers/all-MiniLM-L6-v2",
        path_vector_storage="./evaluation_retrieval/vector_storage/05_florida_pasta/05_florida_all_mini_L6_v2"
    ),
    EmbeddingConfig(
        name="nomic",
        embedding_type="nomic",
        model_name="nomic-embed-text-v1.5",
        path_vector_storage="./evaluation_retrieval/vector_storage/05_florida_pasta/05_florida_nomic"
    )
]

# Crear instancia del sistema RAG
rag_system = AsyncMultiEmbeddingRAGV2(
    embedding_configs=embedding_configs,
    top_k=13,
    top_n=5
)

pipeline_rag = AsyncMultiQueryRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

##### **5.2 Filtered Tailings Deposit (FTD)**

##### **5.3 Thickened Tailings Deposit (TTD)**

##### **5.4 Tailings Embankments (TE)**

##### **5.5 Paste Tailings Deposits (PTD)**