# **Introduction** 

## **How to use?**

You can load any RAG system from our module (`rag`) where the pipeline is already implemented. The documents from the 5 TSFs have already been vectorized and indexed to the database, so you just need to indicate the path of these vectors.

The RAG systems implemented are:

1. **Naive RAG**
2. **Advanced RAG**
3. **Hybrid RAG**
4. **Advanced-Hybrid RAG**
5. **AsyncMultiQuery RAG**

In [1]:
from rag import NaiveRAG

  from .autonotebook import tqdm as notebook_tqdm


resource module not available on Windows


In [3]:
path_vector_storage = "./src/evaluation_retrieval/vector_storage/03_cenizas_espesado/03_cenizas_nomic"
embedding_type = "nomic"
embedding_model_name = "nomic-embed-text-v1.5"

pipeline_rag = NaiveRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name
)

In [None]:
response = pipeline_rag.query("Tipo de depósito?")
response

Response(response='El tipo de depósito mencionado en el contexto es un "Depósito de Relaves Espesados". Este depósito tiene una superficie aproximada de 50 hectáreas y una pendiente media de 3%. La capacidad de depositación es de 7.600.000 m³, lo que equivale a 12,4 millones de toneladas de relaves espesados. \n\nEl diseño del depósito incluye componentes como un muro de confinamiento, un vertedero de descarga, una piscina de aguas claras, una planta de espesamiento y floculación, así como tuberías de descarga de relaves y de recuperación de aguas. La tasa de depositación de relaves espesados es de 2.929 toneladas por día.\n\nAdemás, se considera que el relave será depositado en capas homogéneas, guiado mediante camellones de tierra, y se proyecta una pendiente de depositación de 3%, aunque la pendiente natural de depositación del relave es de 7%. \n\nSi necesitas más información específica sobre algún aspecto del depósito, házmelo saber.', source_nodes=[NodeWithScore(node=TextNode(id_

Now let's use our proposal.

In [1]:
from rag import AsyncMultiQueryRAG

  from .autonotebook import tqdm as notebook_tqdm


resource module not available on Windows


In [2]:
path_vector_storage = "./src/evaluation_retrieval/vector_storage/03_cenizas_espesado/03_cenizas_nomic"
embedding_type = "nomic"
embedding_model_name = "nomic-embed-text-v1.5"

pipeline_rag = AsyncMultiQueryRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name
)

Cargando Cross-Encoder...


In [3]:
response = pipeline_rag.query("Tipo de depósito?")
response

Desempaquetando Lista: 100%|██████████| 5/5 [00:00<?, ?it/s]


Total de nodos filtrados: 4


Response(response='El tipo de depósito mencionado en el contexto se refiere a depósitos de estéril y depósitos de relaves espesados. A continuación, se detallan las características de cada uno:\n\n1. **Depósito de Estéril (existente)**:\n   - **Estructura**: Ubicado a unos 200 metros frente a la bocamina.\n   - **Dimensión**: Ocupa una superficie aproximada de 1,5 hectáreas.\n\n2. **Depósito de Estéril (proyectado)**:\n   - **Estructura**: Nueva zona de depositación de estéril, ubicada al suroeste del depósito existente.\n   - **Capacidad**: Capacidad de depositación proyectada de 2,0 millones de toneladas.\n\n3. **Depósito de Estéril (proyecto en operación)**:\n   - **Estructura**: Construcción de un depósito para recibir el material estéril proveniente de la mina rajo.\n   - **Dimensiones**: Aproximadamente 40 hectáreas de superficie y 56 metros de altura.\n\n4. **Pilas Dump o Pilas Estáticas (proyecto pendiente)**:\n   - **Estructura**: Instalación para lixiviar mineral de baja ley 

In [5]:
from IPython.display import display, Markdown

display(Markdown(response.response))

El tipo de depósito mencionado en el contexto se refiere a depósitos de estéril y depósitos de relaves espesados. A continuación, se detallan las características de cada uno:

1. **Depósito de Estéril (existente)**:
   - **Estructura**: Ubicado a unos 200 metros frente a la bocamina.
   - **Dimensión**: Ocupa una superficie aproximada de 1,5 hectáreas.

2. **Depósito de Estéril (proyectado)**:
   - **Estructura**: Nueva zona de depositación de estéril, ubicada al suroeste del depósito existente.
   - **Capacidad**: Capacidad de depositación proyectada de 2,0 millones de toneladas.

3. **Depósito de Estéril (proyecto en operación)**:
   - **Estructura**: Construcción de un depósito para recibir el material estéril proveniente de la mina rajo.
   - **Dimensiones**: Aproximadamente 40 hectáreas de superficie y 56 metros de altura.

4. **Pilas Dump o Pilas Estáticas (proyecto pendiente)**:
   - **Estructura**: Instalación para lixiviar mineral de baja ley y ley marginal proveniente de la mina rajo sin chancar.
   - **Dimensiones**: Aproximadamente 32 hectáreas de superficie para mineral de baja ley y 40 hectáreas para mineral de ley marginal.

5. **Depósito de Relaves Espesados**:
   - **Estructura**: Se menciona un procedimiento para la operación normal del proyecto de depósito de relaves espesados, que incluye la disposición de los relaves en forma de pulpas.

Si necesitas información más específica sobre algún tipo de depósito, por favor indícalo.

What we did not mention in our paper (since it was not the focus) is that by increasing the probability of finding the pieces of text (nodes) that contain the information, we improve the response quality of the LLM.

# **Paper AsyncMultiQuery TSF-RAG**

Now we are going to replicate what is indicated in the article by evaluating each embedding model and each RAG system for the 5 TSFs.

## **5. Experimental setup and results**

### **5.2 Embeddings evaluation**

#### **1. Sand Tailing Dams (STD)**

##### **1.1 Model: All-MiniLM-L6-v2**

In [6]:
from evaluation_retrieval import EmbeddingEvaluatorV3

evaluator = EmbeddingEvaluatorV3(results_dir="./src/results/01_tranque_retrieval_evaluation")

# Una sola línea para evaluar todo
results, df = evaluator.quick_evaluate(
    model_config={"model_type": "huggingface", "model_id": "sentence-transformers/all-MiniLM-L6-v2"},
    storage_path="./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_all_mini_L6_v2",
    ground_truth_path="./src/evaluation_retrieval/ground_truth_retrieval/01_tranque_ground_truth_evaluacion.json",
    top_k=13
)

🚀 EVALUACIÓN RÁPIDA INICIADA
🤖 Cargando modelo tipo: huggingface
📁 Storage path: ./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_all_mini_L6_v2
   📦 Modelo HuggingFace: sentence-transformers/all-MiniLM-L6-v2
✅ Modelo cargado exitosamente!
📋 Cargando ground truth: ./src/evaluation_retrieval/ground_truth_retrieval/01_tranque_ground_truth_evaluacion.json
✅ Ground truth cargado exitosamente!
  📊 Tipo de depósito: tranque_de_relaves
  📈 Número de matrices: 6
  🔍 Total de parámetros: 9
    • matriz_1: 2 parámetros
    • matriz_2: 3 parámetros
    • matriz_4: 1 parámetros
    • matriz_6: 1 parámetros
    • matriz_7: 1 parámetros
    • matriz_8: 1 parámetros
🚀 Iniciando evaluación completa (top_k=13)...
📊 Total de parámetros a evaluar: 9

📈 Evaluando matriz: matriz_1 (2 parámetros)


                                                                       

    📊 Promedio matriz matriz_1:
       Precision: 0.3077
       Recall:    0.0889
       F1-Score:  0.1379
       AP:        0.0760

📈 Evaluando matriz: matriz_2 (3 parámetros)


                                                               

    📊 Promedio matriz matriz_2:
       Precision: 0.0513
       Recall:    0.3333
       F1-Score:  0.0889
       AP:        0.1389

📈 Evaluando matriz: matriz_4 (1 parámetros)


                                                               

    📊 Promedio matriz matriz_4:
       Precision: 0.1538
       Recall:    0.6667
       F1-Score:  0.2500
       AP:        0.1162

📈 Evaluando matriz: matriz_6 (1 parámetros)


                                                               

    📊 Promedio matriz matriz_6:
       Precision: 0.0000
       Recall:    0.0000
       F1-Score:  0.0000
       AP:        0.0000

📈 Evaluando matriz: matriz_7 (1 parámetros)


                                                               

    📊 Promedio matriz matriz_7:
       Precision: 0.0769
       Recall:    0.3333
       F1-Score:  0.1250
       AP:        0.3333

📈 Evaluando matriz: matriz_8 (1 parámetros)


                                                               

    📊 Promedio matriz matriz_8:
       Precision: 0.0769
       Recall:    0.3333
       F1-Score:  0.1250
       AP:        0.0278

✅ Evaluación completa terminada!
📊 Total evaluaciones realizadas: 9

📈 RESUMEN DE EVALUACIÓN DE EMBEDDINGS
🤖 Modelo: sentence-transformers/all-MiniLM-L6-v2
🏗️  Tipo de depósito: tranque_de_relaves
📅 Fecha evaluación: 2025-10-26 22:21:52
🎯 Top-K evaluado: 13
📊 Total parámetros: 9

🌍 MÉTRICAS GLOBALES (Promedio de todos los parámetros):
--------------------------------------------------
Precision:     0.1197
Recall:        0.2790
F1-Score:      0.1158
Avg Precision: 0.1162

📊 MÉTRICAS POR MATRIZ:
--------------------------------------------------

📈 matriz_1:
  Precision:     0.3077
  Recall:        0.0889
  F1-Score:      0.1379
  Avg Precision: 0.0760

📈 matriz_2:
  Precision:     0.0513
  Recall:        0.3333
  F1-Score:      0.0889
  Avg Precision: 0.1389

📈 matriz_4:
  Precision:     0.1538
  Recall:        0.6667
  F1-Score:      0.2500
  Avg Precisi



### **5.3 Comparison of RAG systems**

In [2]:
from rag import NaiveRAG, AdvancedRAG, HybridRAG, AdvancedHybridRAG, AsyncMultiQueryRAG
from evaluation_rag import auto_evaluation_rag
from llms_modules import LLMEvaluator

  from .autonotebook import tqdm as notebook_tqdm


resource module not available on Windows


#### **1. Naive RAG System Evaluation**

This section evaluates the 5 TSFs for the RAG system called Naive.

##### **1.1 Sand Tailing Dams (STD)**

In [3]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/01_STD_Tranque_GT.xlsx"
nombre_excel = "01_STD_NaiveRAG_nomic.xlsx"

pipeline_rag = NaiveRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

Evaluación Matriz:   0%|          | 0/8 [00:00<?, ?it/s]

Matriz 1


Evaluación Matriz:  12%|█▎        | 1/8 [00:19<02:17, 19.71s/it]

Matriz 2


Evaluación Matriz:  25%|██▌       | 2/8 [00:28<01:19, 13.20s/it]

Matriz 3


Evaluación Matriz:  38%|███▊      | 3/8 [00:33<00:46,  9.35s/it]

Matriz 4


Evaluación Matriz:  50%|█████     | 4/8 [00:38<00:31,  7.85s/it]

Matriz 5


Evaluación Matriz:  62%|██████▎   | 5/8 [00:48<00:25,  8.47s/it]

Matriz 6


Evaluación Matriz:  75%|███████▌  | 6/8 [00:57<00:17,  8.89s/it]

Matriz 7


Evaluación Matriz:  88%|████████▊ | 7/8 [01:11<00:10, 10.53s/it]

Matriz 8


Evaluación Matriz: 100%|██████████| 8/8 [01:22<00:00, 10.37s/it]


El tiempo en evaluar fue: 83.2460584640503


##### **1.2 Filtered Tailings Deposit (FTD)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/02_FTD_Filtrado_GT.xlsx"
nombre_excel = "01_FTD_NaiveRAG_nomic.xlsx"

pipeline_rag = NaiveRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

##### **1.3 Thickened Tailings Deposit (TTD)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/03_TTD_Espesado_GT.xlsx"
nombre_excel = "01_TTD_NaiveRAG_nomic.xlsx"

pipeline_rag = NaiveRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

##### **1.4 Tailings Embankments (TE)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/04_TE_Embalse_GT.xlsx"
nombre_excel = "01_TE_NaiveRAG_nomic.xlsx"

pipeline_rag = NaiveRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

##### **1.5 Paste Tailings Deposits (PTD)**

In [None]:
import time 

path_vector_storage="./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/05_PTD_EnPasta_GT.xlsx"
nombre_excel = "01_PTD_NaiveRAG_nomic.xlsx"

pipeline_rag = NaiveRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
)

llm_evaluador = LLMEvaluator()

inicio = time.time()
auto_evaluation_rag(
    path_ground_truth=path_ground_truth_rag,
    name_excel=nombre_excel,
    pipeline_rag=pipeline_rag,
    llm_evaluador=llm_evaluador
)
fin = time.time()
tiempo = fin - inicio
print("El tiempo en evaluar fue:", tiempo)

#### **2. Advanced RAG System Evaluation**

##### **1.1 Sand Tailing Dams (STD)**

##### **1.2 Filtered Tailings Deposit (FTD)**

##### **1.3 Thickened Tailings Deposit (TTD)**

##### **1.4 Tailings Embankments (TE)**

##### **1.5 Paste Tailings Deposits (PTD)**

In [17]:
excel_file['Matriz 1']

Unnamed: 0,Parametro 1,Unnamed: 1
0,Pregunta,Respuesta
1,¿Cuál es el tipo de depósito de relaves al que...,Depósito de relaves tranque
2,Parametro 2,
3,Pregunta,Respuesta
4,¿Cuál fue el método de construcción del tranqu...,"eje central, considerando un talud de aguas ar..."


In [10]:
path_vector_storage="./src/evaluation_retrieval/vector_storage/01_cerro_negro_tranque/01_cerro_negro_nomic"
embedding_type="nomic"
embedding_model_name="nomic-embed-text-v1.5"

path_ground_truth_rag = "./src/evaluation_rag/rag_ground_truth/01_STD_Tranque_GT.xlsx"
nombre_excel = "01_STD_NaiveRAG_nomic.xlsx"

pipeline_rag = NaiveRAG(
    path_vector_storage=path_vector_storage,
    embedding_type=embedding_type,
    embedding_model_name=embedding_model_name,
)

In [11]:
pipeline_rag.query("¿Cuál es el tipo de TSF?")

Response(response='El Tranque Nº 6 es del tipo convencional, lo que significa que los relaves son procesados a través de un sistema de clasificación que separa la fracción gruesa (arena) de la fracción fina (lamas). La altura del muro del tranque es de 38,0 metros en su condición actual y se proyecta que alcanzará 47,5 metros con la ampliación. La inclinación del talud aguas abajo es de 1:3,0 en la condición actual y de 1:2,7 con el proyecto. \n\nLos factores de seguridad calculados para la condición estática son 2,65 en la situación actual y 2,13 con el proyecto, mientras que para la condición sísmica son 1,47 y 1,30, respectivamente. Estos valores cumplen con los criterios de diseño, que requieren que sean mayores a 1,2.\n\nEn resumen, el tipo de Tranque de Relaves Nº 6 es convencional, con un muro resistente de arenas y lamas, y se encuentra en proceso de ampliación.', source_nodes=[NodeWithScore(node=TextNode(id_='75f5240e-737e-41e8-9695-8b2510e19282', embedding=None, metadata={'pa