In this tutorial, we will show you how to use Haystack to evaluate the performance of a RAG pipeline.

We will use the dataset from the [ARAGOG - Advanced Retrieval Augmented Generation Output Grading (ARAGOG)](https://arxiv.org/pdf/2404.01037) paper.
The dataset is composed of a collection of 13 public AI/LLM-ArXiv research papers and 107 question-answer (QA) pairs. The (QA) pairs generated with the assistance of GPT-4, and then each pair was validated/corrected by humans.

We will use the following Haystack components to evaluate the performance of a RAG pipeline:

- [ContextRelevance](https://docs.haystack.deepset.ai/docs/contextrelevanceevaluator)
- [Faithfulness](https://docs.haystack.deepset.ai/docs/faithfulnessevaluator)
- [Semantic Answer Similarity](https://docs.haystack.deepset.ai/docs/sasevaluator)


We will build a RAG pipeline and then evaluate it using the ARAGOG dataset by varying three parameters:

- `top_k`: the maximum number of documents returned by the retriever
- `embedding_model`: the model used to encode the documents and the question
- `chunk_size`: the number of tokens in the input text that the model can process at once

# Let's first install haystack and the needed dependencies

In [None]:
%%bash

pip install haystack-ai "git+https://github.com/deepset-ai/haystack.git@main"
pip install "sentence-transformers>=2.2.0"
pip install pypdf
git clone https://github.com/deepset-ai/haystack-evaluation

# Let's define a base path for the dataset

In [43]:
base_path = "haystack-evaluation/datasets/ARAGOG"

## We need to define a function to load the dataset the questions and answers

In [44]:
import json
from typing import Tuple, List

def read_question_answers() -> Tuple[List[str], List[str]]:
    with open(base_path+"/eval_questions.json", "r") as f:
        data = json.load(f)
        questions = data["questions"]
        answers = data["ground_truths"]
    return questions, answers

## We will define an indexing pipeline which depend on two parameters `embedding_model` and the `chunk_size`

In [45]:
from haystack import Pipeline
from haystack.document_stores.in_memory import InMemoryDocumentStore
from haystack.components.converters import PyPDFToDocument
from haystack.components.embedders import SentenceTransformersDocumentEmbedder
from haystack.components.preprocessors import DocumentCleaner, DocumentSplitter
from haystack.components.writers import DocumentWriter
from haystack.document_stores.types import DuplicatePolicy

def indexing(embedding_model: str, chunk_size: int):
    files_path = base_path+"/papers_for_questions"
    document_store = InMemoryDocumentStore()
    pipeline = Pipeline()
    pipeline.add_component("converter", PyPDFToDocument())
    pipeline.add_component("cleaner", DocumentCleaner())
    pipeline.add_component("splitter", DocumentSplitter(split_length=chunk_size))  # splitting by word
    pipeline.add_component("writer", DocumentWriter(document_store=document_store, policy=DuplicatePolicy.SKIP))
    pipeline.add_component("embedder", SentenceTransformersDocumentEmbedder(embedding_model))
    pipeline.connect("converter", "cleaner")
    pipeline.connect("cleaner", "splitter")
    pipeline.connect("splitter", "embedder")
    pipeline.connect("embedder", "writer")
    pdf_files = [files_path+"/"+f_name for f_name in os.listdir(files_path)]
    pipeline.run({"converter": {"sources": pdf_files}})

    return document_store

## We will define a function to run each query over a RAG architecture.

## Notice that we run the RAG pipeline wrapped within a try/except, to avoid breaking the whole process if at some point there's an error while communicating with OpenAI API.

In [46]:
from haystack import Pipeline
from haystack.components.builders import PromptBuilder, AnswerBuilder
from haystack.components.embedders import SentenceTransformersTextEmbedder
from haystack.components.generators import OpenAIGenerator
from haystack.components.retrievers import InMemoryEmbeddingRetriever


def basic_rag(document_store, embedding_model, top_k=2):
    template = """
        You have to answer the following question based on the given context information only.
        If the context is empty or just a '\n' answer with None, example: "None".

        Context:
        {% for document in documents %}
            {{ document.content }}
        {% endfor %}

        Question: {{question}}
        Answer:
        """

    basic_rag = Pipeline()
    basic_rag.add_component("query_embedder", SentenceTransformersTextEmbedder(
        model=embedding_model, progress_bar=False
    ))
    basic_rag.add_component("retriever", InMemoryEmbeddingRetriever(document_store, top_k=top_k))
    basic_rag.add_component("prompt_builder", PromptBuilder(template=template))
    basic_rag.add_component("llm", OpenAIGenerator(model="gpt-3.5-turbo"))
    basic_rag.add_component("answer_builder", AnswerBuilder())

    basic_rag.connect("query_embedder", "retriever.query_embedding")
    basic_rag.connect("retriever", "prompt_builder.documents")
    basic_rag.connect("prompt_builder", "llm")
    basic_rag.connect("llm.replies", "answer_builder.replies")
    basic_rag.connect("llm.meta", "answer_builder.meta")
    basic_rag.connect("retriever", "answer_builder.documents")

    return basic_rag

In [47]:
from tqdm import tqdm
from pathlib import Path
from openai import BadRequestError

def run_basic_rag(doc_store, sample_questions, embedding_model, top_k):
    """
    A function to run the basic rag model on a set of sample questions and answers
    """

    rag = basic_rag(document_store=doc_store, embedding_model=embedding_model, top_k=top_k)

    predicted_answers = []
    retrieved_contexts = []
    for q in tqdm(sample_questions):
        try:
            response = rag.run(
                data={"query_embedder": {"text": q}, "prompt_builder": {"question": q}, "answer_builder": {"query": q}})
            predicted_answers.append(response["answer_builder"]["answers"][0].data)
            retrieved_contexts.append([d.content for d in response['answer_builder']['answers'][0].documents])
        except BadRequestError as e:
            print(f"Error with question: {q}")
            print(e)
            predicted_answers.append("error")
            retrieved_contexts.append(retrieved_contexts)

    return retrieved_contexts, predicted_answers

## We will define another function to run every predicted answer and ground truth labels through the Evaluators

In [48]:
from haystack.components.evaluators import ContextRelevanceEvaluator, FaithfulnessEvaluator, SASEvaluator
from haystack.evaluation import EvaluationRunResult

def run_evaluation(sample_questions, sample_answers, retrieved_contexts, predicted_answers, embedding_model):
    context_relevance = ContextRelevanceEvaluator(raise_on_failure=False)
    faithfulness = FaithfulnessEvaluator(raise_on_failure=False)
    sas = SASEvaluator(model=embedding_model)
    sas.warm_up()

    results = {
        "context_relevance": context_relevance.run(sample_questions, retrieved_contexts),
        "faithfulness": faithfulness.run(sample_questions, retrieved_contexts, predicted_answers),
        "sas": sas.run(predicted_answers, sample_answers),
    }

    inputs = {'questions': sample_questions, "true_answers": sample_answers, "predicted_answers": predicted_answers}

    return results, inputs

## We also need a function to orchestrate everything, indexing, running the dataset over the RAG for each possible parameter combination, and running the evaluation.
## Notice that for each parameter combination, two `.csv` files are generated:
- one containing the aggregated scores, starting with: `score_report_*`
- another with the full detailed scores for each query, stating with: `detailed_report_*`

In [49]:
def parameter_tuning(questions, answers, out_path: str):
    """
    Run the basic RAG model with different parameters, and evaluate the results.

    The parameters to be tuned are: embedding model, top_k, and chunk_size.
    """
    embedding_models = {
        "sentence-transformers/all-MiniLM-L6-v2",
        "sentence-transformers/msmarco-distilroberta-base-v2",
        "sentence-transformers/all-mpnet-base-v2"
    }
    top_k_values = [1, 2, 3]
    chunk_sizes = [64, 128, 256]

    # create results directory if it does not exist using Pathlib
    out_path = Path(out_path)
    out_path.mkdir(exist_ok=True)

    for embedding_model in embedding_models:
        for chunk_size in chunk_sizes:
            print(f"Indexing documents with {embedding_model} model with a chunk_size={chunk_size}")
            doc_store = indexing(embedding_model, chunk_size)
            for top_k in top_k_values:
                name_params = f"{embedding_model.split('/')[-1]}__top_k:{top_k}__chunk_size:{chunk_size}"
                print(name_params)
                print("Running RAG pipeline")
                retrieved_contexts, predicted_answers = run_basic_rag(doc_store, questions, embedding_model, top_k)
                print(f"Running evaluation")
                results, inputs = run_evaluation(questions, answers, retrieved_contexts, predicted_answers, embedding_model)
                eval_results = EvaluationRunResult(run_name=name_params, inputs=inputs, results=results)
                eval_results.score_report().to_csv(f"{out_path}/score_report_{name_params}.csv",index=False)
                eval_results.to_pandas().to_csv(f"{out_path}/detailed_{name_params}.csv",index=False)

# We can then start the whole process:
  1. Running the RAG pipeline for each query, collecting the generated answers and the retrieved contexts
  2. Call the Haystack Evaluators to compute the performance based on RAG pipeline output and the ground truth data

NOTE: this can take some time due to the parameter search, because of this, we will run the evaluation only for the first 10 questions of the dataset

In [50]:
sample_size = 10
all_questions, all_answers = read_question_answers()
questions = all_questions[0:sample_size]
answers = all_answers[0:sample_size]

In [51]:
questions

['What are the two main tasks BERT is pre-trained on?',
 'What model sizes are reported for BERT, and what are their specifications?',
 "How does BERT's architecture facilitate the use of a unified model across diverse NLP tasks?",
 'Can you describe the modifications LLaMA makes to the transformer architecture for improved performance?',
 "How does LLaMA's approach to embedding layer optimization differ from traditional transformer models, and what are the specific benefits of these modifications?",
 'How were the questions for the multitask test sourced, and what was the criteria for their inclusion?',
 "How does BERT's performance on the GLUE benchmark compare to previous state-of-the-art models?",
 'What significant improvements does BERT bring to the SQuAD v1.1,v2.0 and v13.5 tasks compared to prior models?',
 'What unique aspect of the LLaMA training dataset distinguishes it from datasets used by models like GPT-3, Chinchilla, and PaLM?',
 'What detailed methodology does LLaMA ut

In [52]:
answers

['Masked LM (MLM) and Next Sentence Prediction (NSP).',
 'BERTBASE (L=12, H=768, A=12, Total Parameters=110M) and BERTLARGE (L=24, H=1024, A=16, Total Parameters=340M).',
 'BERT uses a multi-layer bidirectional Transformer encoder architecture, allowing for minimal task-specific architecture modifications in fine-tuning.',
 ' LLaMA incorporates pre-normalization (using RMSNorm), the SwiGLU activation function, and rotary embeddings (RoPE) into its transformer architecture for enhanced training stability and performance.',
 'LLaMA introduces optimizations in its embedding layer through techniques like factorized embeddings and the use of advanced activation functions, such as SwiGLU, for efficient computation and memory usage. These modifications benefit the model by enhancing learning efficiency and enabling the scaling of model parameters without a proportional increase in computational demand.',
 'Questions were manually collected by graduate and undergraduate students from freely av

# We also need to define our OpenAI API credentials

In [18]:
import os
from getpass import getpass
from haystack.components.generators import OpenAIGenerator

if "OPENAI_API_KEY" not in os.environ:
    os.environ["OPENAI_API_KEY"] = getpass("Enter OpenAI API key:")
generator = OpenAIGenerator(model="gpt-3.5-turbo")

# Let's start the process

In [19]:
parameter_tuning(questions, answers, "results")

Indexing documents with sentence-transformers/msmarco-distilroberta-base-v2 model with a chunk_size=64


Batches: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 82/82 [00:19<00:00,  4.13it/s]


msmarco-distilroberta-base-v2__top_k:1__chunk_size:64
Running RAG pipeline


  0%|                                                                                                                                                                                                                                                 | 0/10 [00:00<?, ?it/s]huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:13<00:00,  1.34s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:17<00:00,  1.75s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:13<00:00,  1.34s/it]


msmarco-distilroberta-base-v2__top_k:2__chunk_size:64
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:11<00:00,  1.19s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:23<00:00,  2.38s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:16<00:00,  1.67s/it]


msmarco-distilroberta-base-v2__top_k:3__chunk_size:64
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:16<00:00,  1.67s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:27<00:00,  2.75s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:15<00:00,  1.60s/it]


Indexing documents with sentence-transformers/msmarco-distilroberta-base-v2 model with a chunk_size=128


Batches: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 41/41 [00:15<00:00,  2.69it/s]


msmarco-distilroberta-base-v2__top_k:1__chunk_size:128
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:15<00:00,  1.53s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:37<00:00,  3.72s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:17<00:00,  1.72s/it]


msmarco-distilroberta-base-v2__top_k:2__chunk_size:128
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:16<00:00,  1.69s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.51s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:15<00:00,  1.51s/it]


msmarco-distilroberta-base-v2__top_k:3__chunk_size:128
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:12<00:00,  1.27s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:23<00:00,  2.39s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:18<00:00,  1.88s/it]


Indexing documents with sentence-transformers/msmarco-distilroberta-base-v2 model with a chunk_size=256


Batches: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 21/21 [00:07<00:00,  2.66it/s]


msmarco-distilroberta-base-v2__top_k:1__chunk_size:256
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:10<00:00,  1.06s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:21<00:00,  2.19s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:13<00:00,  1.38s/it]


msmarco-distilroberta-base-v2__top_k:2__chunk_size:256
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:15<00:00,  1.52s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:30<00:00,  3.05s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:16<00:00,  1.65s/it]


msmarco-distilroberta-base-v2__top_k:3__chunk_size:256
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:13<00:00,  1.40s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:34<00:00,  3.42s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:21<00:00,  2.12s/it]


Indexing documents with sentence-transformers/all-MiniLM-L6-v2 model with a chunk_size=64


Batches: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 82/82 [00:12<00:00,  6.46it/s]


all-MiniLM-L6-v2__top_k:1__chunk_size:64
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:09<00:00,  1.07it/s]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:19<00:00,  1.97s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:09<00:00,  1.06it/s]


all-MiniLM-L6-v2__top_k:2__chunk_size:64
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:09<00:00,  1.07it/s]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:17<00:00,  1.70s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:11<00:00,  1.11s/it]


all-MiniLM-L6-v2__top_k:3__chunk_size:64
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:10<00:00,  1.04s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:23<00:00,  2.37s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:14<00:00,  1.42s/it]


Indexing documents with sentence-transformers/all-MiniLM-L6-v2 model with a chunk_size=128


Batches: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 41/41 [00:04<00:00,  8.37it/s]


all-MiniLM-L6-v2__top_k:1__chunk_size:128
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:10<00:00,  1.08s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:15<00:00,  1.60s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:11<00:00,  1.20s/it]


all-MiniLM-L6-v2__top_k:2__chunk_size:128
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:11<00:00,  1.11s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:20<00:00,  2.03s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:14<00:00,  1.44s/it]


all-MiniLM-L6-v2__top_k:3__chunk_size:128
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:14<00:00,  1.41s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:22<00:00,  2.30s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:16<00:00,  1.67s/it]


Indexing documents with sentence-transformers/all-MiniLM-L6-v2 model with a chunk_size=256


Batches: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 21/21 [00:02<00:00,  7.99it/s]


all-MiniLM-L6-v2__top_k:1__chunk_size:256
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:10<00:00,  1.09s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:26<00:00,  2.69s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:13<00:00,  1.38s/it]


all-MiniLM-L6-v2__top_k:2__chunk_size:256
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:14<00:00,  1.44s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:34<00:00,  3.46s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:19<00:00,  1.91s/it]


all-MiniLM-L6-v2__top_k:3__chunk_size:256
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:14<00:00,  1.43s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:28<00:00,  2.82s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:23<00:00,  2.36s/it]


Indexing documents with sentence-transformers/all-mpnet-base-v2 model with a chunk_size=64


Batches: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 82/82 [00:39<00:00,  2.09it/s]


all-mpnet-base-v2__top_k:1__chunk_size:64
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:13<00:00,  1.30s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:14<00:00,  1.48s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:09<00:00,  1.03it/s]


all-mpnet-base-v2__top_k:2__chunk_size:64
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:11<00:00,  1.13s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:22<00:00,  2.25s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:14<00:00,  1.43s/it]


all-mpnet-base-v2__top_k:3__chunk_size:64
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:18<00:00,  1.88s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:23<00:00,  2.39s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:15<00:00,  1.51s/it]


Indexing documents with sentence-transformers/all-mpnet-base-v2 model with a chunk_size=128


Batches: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 41/41 [00:49<00:00,  1.21s/it]


all-mpnet-base-v2__top_k:1__chunk_size:128
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:11<00:00,  1.15s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:21<00:00,  2.17s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:13<00:00,  1.34s/it]


all-mpnet-base-v2__top_k:2__chunk_size:128
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:12<00:00,  1.28s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:23<00:00,  2.36s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:13<00:00,  1.36s/it]


all-mpnet-base-v2__top_k:3__chunk_size:128
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:11<00:00,  1.20s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:37<00:00,  3.79s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:15<00:00,  1.54s/it]


Indexing documents with sentence-transformers/all-mpnet-base-v2 model with a chunk_size=256


Batches: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 21/21 [00:19<00:00,  1.05it/s]


all-mpnet-base-v2__top_k:1__chunk_size:256
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:16<00:00,  1.60s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:20<00:00,  2.06s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:16<00:00,  1.70s/it]


all-mpnet-base-v2__top_k:2__chunk_size:256
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:15<00:00,  1.55s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.52s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:19<00:00,  1.95s/it]


all-mpnet-base-v2__top_k:3__chunk_size:256
Running RAG pipeline


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:12<00:00,  1.24s/it]


Running evaluation


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:27<00:00,  2.73s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:20<00:00,  2.07s/it]


## After the process finished we can analyse de results. Let's read the aggregated scores into a single DataFrame

In [1]:
import re

def parse_results(f_name: str):
    pattern = r"score_report_(.*?)__top_k:(\d+)__chunk_size:(\d+)\.csv"
    match = re.search(pattern, f_name)
    if match:
        embeddings_model = match.group(1)
        top_k = int(match.group(2))
        chunk_size = int(match.group(3))
        return embeddings_model, top_k, chunk_size
    else:
        print("No match found")

In [2]:
import pandas as pd

def read_scores(path: str):
    all_scores = []
    for root, dirs, files in os.walk(path):
        for f_name in files:
            if not f_name.startswith("score_report"):
                continue

            embeddings_model, top_k, chunk_size = parse_results(f_name)
            df = pd.read_csv(path+"/"+f_name)
            df_transposed = df.T
            df_transposed.columns = df_transposed.iloc[0]
            df_transposed = df_transposed[1:]

            # Add new columns
            df_transposed['embeddings'] = embeddings_model
            df_transposed['top_k'] = top_k
            df_transposed['chunk_size'] = chunk_size

            all_scores.append(df_transposed)

    df = pd.concat(all_scores)
    df.reset_index(drop=True, inplace=True)
    df.rename_axis(None, axis=1, inplace=True)

    return df

In [7]:
import os
df = read_scores('experiment_a/')

In [8]:
df

Unnamed: 0,0,1,2,embeddings,top_k,chunk_size
0,context_relevance,faithfulness,sas,all-mpnet-base-v2,1,64
1,0.966667,0.7,0.439324,all-mpnet-base-v2,1,64
2,context_relevance,faithfulness,sas,all-mpnet-base-v2,3,256
3,0.96,1.0,0.547931,all-mpnet-base-v2,3,256
4,context_relevance,faithfulness,sas,all-mpnet-base-v2,2,256
5,1.0,0.966667,0.75655,all-mpnet-base-v2,2,256
6,context_relevance,faithfulness,sas,msmarco-distilroberta-base-v2,1,256
7,0.966667,0.85,0.689751,msmarco-distilroberta-base-v2,1,256
8,context_relevance,faithfulness,sas,all-MiniLM-L6-v2,3,64
9,0.89,0.766667,0.530388,all-MiniLM-L6-v2,3,64


## Let's see wich parameter configuration yielded the best Semantic Similarity Answer score

In [34]:
df.sort_values(by=['sas'], ascending=[False])

Unnamed: 0,context_relevance,faithfulness,sas,embeddings,top_k,chunk_size
25,0.985714,1.0,0.70377,msmarco-distilroberta-base-v2,3,64
2,0.9,0.9,0.657304,all-mpnet-base-v2,2,256
26,0.94,1.0,0.62924,all-MiniLM-L6-v2,3,256
19,0.85,0.866667,0.622392,msmarco-distilroberta-base-v2,2,128
6,0.98,0.85,0.606515,all-mpnet-base-v2,1,256
8,0.875,1.0,0.594458,msmarco-distilroberta-base-v2,2,64
5,0.85,0.866667,0.582429,msmarco-distilroberta-base-v2,2,256
24,0.940714,0.9,0.550357,all-MiniLM-L6-v2,2,256
18,0.849048,0.9,0.548835,all-mpnet-base-v2,3,64
9,0.966667,0.8,0.548086,msmarco-distilroberta-base-v2,1,64


In [36]:
detailed_best_sas_df = pd.read_csv("results/detailed_msmarco-distilroberta-base-v2__top_k:3__chunk_size:64.csv")

In [37]:
detailed_best_sas_df

Unnamed: 0,questions,true_answers,predicted_answers,context_relevance,faithfulness,sas
0,What are the two main tasks BERT is pre-traine...,Masked LM (MLM) and Next Sentence Prediction (...,question answering and language inference,1.0,1.0,0.170214
1,"What model sizes are reported for BERT, and wh...","BERTBASE (L=12, H=768, A=12, Total Parameters=...","BERT BASE: L=12, H=768, A=12, Total Parameters...",1.0,1.0,0.715214
2,How does BERT's architecture facilitate the us...,BERT uses a multi-layer bidirectional Transfor...,BERT's architecture features a multi-layer bid...,1.0,1.0,0.918214
3,Can you describe the modifications LLaMA makes...,LLaMA incorporates pre-normalization (using R...,The modifications LLaMA makes to the transform...,1.0,1.0,0.642994
4,How does LLaMA's approach to embedding layer o...,LLaMA introduces optimizations in its embeddin...,LLaMA's approach to embedding layer optimizati...,1.0,1.0,0.823751
5,How were the questions for the multitask test ...,Questions were manually collected by graduate ...,The questions for the multitask test were manu...,1.0,1.0,0.545473
6,How does BERT's performance on the GLUE benchm...,BERT achieved new state-of-the-art on the GLUE...,"On GLUE, BERT achieved a score of 80.2, which ...",1.0,1.0,0.742998
7,What significant improvements does BERT bring ...,"BERT set new records on SQuAD v1.1 and v2.0, s...",BERT brings significant improvements to the SQ...,0.857143,1.0,0.698571
8,What unique aspect of the LLaMA training datas...,LLaMA's training dataset is distinctive for b...,LLaMA training dataset uses publicly available...,1.0,1.0,0.957776
9,What detailed methodology does LLaMA utilize t...,LLaMA's methodology for ensuring data diversit...,LLaMA utilizes a detailed methodology to ensur...,1.0,1.0,0.822498


In [38]:
def inspect(idx):
    print("Question: ")
    print(detailed_best_sas_df.loc[idx]['questions'])
    print("\nTrue Answer:")
    print(detailed_best_sas_df.loc[idx]['true_answers'])
    print()
    print("Generated Answer:")
    print(detailed_best_sas_df.loc[idx]['predicted_answers'])
    print()
    print(f"Context Relevance  : {detailed_best_sas_df.loc[idx]['context_relevance']}")
    print(f"Faithfulness       : {detailed_best_sas_df.loc[idx]['faithfulness']}")
    print(f"Semantic Similarity: {detailed_best_sas_df.loc[idx]['sas']}")

In [39]:
inspect(9)

Question: 
What detailed methodology does LLaMA utilize to ensure the diversity of its pre-training data, particularly in the context of filtering and language identification?

True Answer:
LLaMA's methodology for ensuring data diversity includes comprehensive filtering criteria to remove low-quality content, language identification to support multilingual capabilities, and a balanced inclusion of various data sources such as Wikipedia, web text, and books, emphasizing the representation of a wide range of topics and languages.

Generated Answer:
LLaMA utilizes a detailed methodology to ensure the diversity of its pre-training data by ensuring that the training data contains a substantial proportion of diverse, high-quality corpora from various languages and cultures. This is achieved by filtering the training data to include a wide range of languages and cultures, and also by implementing language identification techniques to identify the languages present in the data. This helps to o

In [40]:
inspect(1)

Question: 
What model sizes are reported for BERT, and what are their specifications?

True Answer:
BERTBASE (L=12, H=768, A=12, Total Parameters=110M) and BERTLARGE (L=24, H=1024, A=16, Total Parameters=340M).

Generated Answer:
BERT BASE: L=12, H=768, A=12, Total Parameters=110M
BERT LARGE: L=24, H=1024, A=16, Total Parameters=340M

Context Relevance  : 1.0
Faithfulness       : 1.0
Semantic Similarity: 0.7152135372161865
