In [1]:
# Importing the necessary Python libraries
import os
import pandas as pd
from datasets import Dataset
from langchain_google_genai import ChatGoogleGenerativeAI
from ragas import evaluate
from ragbase.config import Config
from ragas.llms import LangchainLLMWrapper
from ragas.run_config import RunConfig
from langchain_community.embeddings import HuggingFaceEmbeddings
from ragas.metrics import (
    faithfulness, # xem câu trả lời có trung thực với các contexts không.
    answer_relevancy, # câu trả lời có liên quan đến câu hỏi không
    context_precision, # contexts mà model truy xuất có liên quan đến câu hỏi không
    answer_correctness, # độ chính xác câu trả lời của model với ground_truth
)

from tqdm import tqdm


  from .autonotebook import tqdm as notebook_tqdm


In [8]:
df_testset = pd.read_excel('./data/generated_test_dataset_final.xlsx')

In [9]:
df_testset.rename(columns={
    'context': 'contexts',
    'best_answer': 'ground_truth',
}, inplace=True)

In [10]:
df_testset

Unnamed: 0,question,contexts,answer,ground_truth
0,Mình mới bị từ chối công việc mơ ước. Cảm giác...,"Question: Cảm giác trống rỗng kéo dài, không m...","Ôi trời ơi, nghe cậu nói mà tớ thấy thương gì ...","Ôi, mình hiểu cảm giác của bạn. Bị từ chối côn..."
1,"Mình mới bị bồ đá, cảm thấy như cả thế giới sụ...","Mình thực sự bị shock, nghĩ sao mà nó nói như ...","Trời ơi, nghe cậu nói mà tớ thấy thương cậu qu...",Thật sự chia buồn với bạn. Mất đi một người mì...
2,Dạo này mình hay bị overthinking về những chuy...,Question: Tớ bị overthinking. Thật ra từ nhỏ t...,"Ui da, nghe cậu kể mà tớ thấy quen gì đâu á! T...",Tớ hiểu cảm giác đó. Overthinking nó cứ như mộ...
3,Mình mới bị sếp mắng vì một lỗi rất ngớ ngẩn t...,Chỉ bị một cái là thời gian lúc mới đi làm đầu...,Nghe cậu kể mà tớ thấy thương ghê 🥺 Ai mà chẳn...,"Ôi, ai mà chẳng có lúc mắc lỗi phải không bạn?..."
4,"Mình mới bị công ty sa thải, về nhà chẳng dám ...","Mình cũng không hiểu vì sao nữa, bây giờ mình ...","Ôi trời ơi, nghe cậu nói mà tớ thấy thương cậu...","Chào bạn, mình hiểu cảm giác của bạn lúc này. ..."
...,...,...,...,...
5995,"Mình mới ra trường, xin được một công việc khá...",Em đi làm em cảm giác… em vẫn cố gắng hòa nhập...,Nghe cậu kể mà tớ thấy thương ghê 🥺. Cái cảm g...,"Tớ hiểu cảm giác của bạn. Sau khi ra trường, t..."
5996,Mình vừa cãi nhau to với mẹ. Chuyện là mình mu...,Khoảng 1 năm gần đây em và mẹ cãi nhau liên tụ...,Nghe cậu kể xong tớ thấy vừa thương vừa bực th...,Tớ hiểu cảm giác của bạn. Đôi khi khoảng cách ...
5997,Mình vừa trải qua một buổi phỏng vấn xin việc ...,Em đang muốn ứng tuyển vào làm nhân viên tư vấ...,Nghe cậu kể mà tớ thấy thương gì đâu á 🥺. Tớ h...,Đừng tự trách mình quá nhiều nhé. Ai trong chú...
5998,Mình vừa bị sếp mắng vì cái báo cáo mình làm s...,Chỉ bị một cái là thời gian lúc mới đi làm đầu...,"Ui da, nghe cậu kể mà tớ thấy thương ghê 🥺. Tớ...",Có thể bạn đang bị stress hoặc thiếu ngủ đấy. ...


In [11]:
def pandas_to_ragas(df):
    '''
    Converts a Pandas DataFrame into a Ragas-compatible dataset
    
    Inputs:
        - df (Pandas DataFrame): The input DataFrame to be converted
        
    Returns:
        - ragas_testset (Hugging Face Dataset): A Hugging Face dataset compatible with the Ragas framework
    '''
    # Ensure all text columns are strings and handle NaN values
    text_columns = ['question', 'ground_truth', 'answer']
    for col in text_columns:
        df[col] = df[col].fillna('').astype(str)
        
    # Convert 'contexts' to a list of lists
    df['contexts'] = df['contexts'].fillna('').astype(str).apply(lambda x: [x] if x else [])
    
    # Converting the DataFrame to a dictionary
    data_dict = df[['question', 'contexts', 'answer', 'ground_truth']].to_dict('list')
    
    # Loading the dictionary as a Hugging Face dataset
    ragas_testset = Dataset.from_dict(data_dict)
    
    return ragas_testset

In [12]:
ragas_testset = pandas_to_ragas(df = df_testset)

In [None]:
# llm = LangchainLLMWrapper(ChatGoogleGenerativeAI(
#             model="gemini-2.0-flash",
#             google_api_key="AIzaSyB17vRD3BlCe0gzOCbvbrgwwC7zVTXlbZo",
#             temperature=Config.Model.TEMPERATURE,
#             max_tokens=Config.Model.MAX_TOKENS,
#             timeout=None,
#             max_retries=5,
#         ))
# embedding_model = HuggingFaceEmbeddings(model_name=Config.Model.EMBEDDINGS)
# run_config = RunConfig(timeout=200, max_retries=10, max_wait = 100, max_workers=1)

# # Generating the Ragas scores
# ragas_scores = evaluate(
#     dataset = ragas_testset,
#     llm = llm,
#     embeddings = embedding_model,
#     metrics = [
#         faithfulness, # xem câu trả lời có trung thực với các contexts không.
#         answer_relevancy, # câu trả lời có liên quan đến câu hỏi không
#         context_precision, # contexts mà model truy xuất có liên quan đến câu hỏi không
#         answer_correctness, # câu trả lời của model với ground_truth
#     ],
#     run_config = run_config
# )
# # Converting the Ragas scores to a Pandas DataFrame
# df_ragas_scores = ragas_scores.to_pandas()

# # Saving the Ragas scores to a CSV file

# df_ragas_scores.to_excel('data/ragas_scores.xlsx', index = False)

In [20]:
# ======= CẤU HÌNH =======
chunk_size = 3

save_dir = "data/evaluate"
list_key = [
    "AIzaSyBSLdACUAR5srrD_yoolWKtIZlIk5JtMSo",
    "AIzaSyB17vRD3BlCe0gzOCbvbrgwwC7zVTXlbZo",
    "AIzaSyCVA6ctW4cXNUzwUqYkR6pWbBSdh19zwvA",
    "AIzaSyCNLh5HhlIUovo8_de1RWg1jAx2Iq4Yo8g",
    "AIzaSyD_d2NNsNxVhWLK_d2yjnEQuyTNUECi1Ns",
    "AIzaSyCw371rlLG4FqlRan4C0rD280sqVga-zE4",
    "AIzaSyBctBtlbRv4aJ5cvJRZNK_sfPiBY8-6KoY",
    "AIzaSyAMKQvJs5hAup1JUNl3G29dt24m5mRLgiE",
    "AIzaSyDaVCYIC-j6BoBe4VEWPRMWnR7hTu9puZo",
    "AIzaSyBfmOEpr9mdfyEimLW1wQh9Ik4drMAdyF8",
    "AIzaSyCZ6lZNrFesfPtSkixvmaH7b8TX-UMUVBg",
]

os.makedirs(save_dir, exist_ok=True)
num_chunks = (len(df_testset) + chunk_size - 1) // chunk_size

# EMBEDDINGS: chỉ cần khởi tạo 1 lần
embedding_model = HuggingFaceEmbeddings(model_name=Config.Model.EMBEDDINGS)

run_config = RunConfig(
    timeout=200,
    max_retries=20,
    max_wait=200,
    max_workers=1
)

In [21]:
chunk_start = 0

In [23]:
# ======= XỬ LÝ THEO CHUNK VÀ XOAY VÒNG API KEY =======
for i in tqdm(range(chunk_start, 2000), desc="Đang chạy các chunk"):
    chunk_df = df_testset.iloc[i * chunk_size:(i + 1) * chunk_size].reset_index(drop=True)
    if chunk_df.empty:
        continue

    try:
        # 👉 Chuyển DataFrame chunk sang ragas_testset (theo đúng hàm của bạn)
        ragas_testset_chunk = pandas_to_ragas(chunk_df)

        # 👉 Chọn API key theo round-robin
        selected_key = list_key[i % len(list_key)]

        # 👉 Tạo LLM wrapper tương ứng
        llm = LangchainLLMWrapper(ChatGoogleGenerativeAI(
            model="gemini-2.0-flash",
            google_api_key=selected_key,
            temperature=Config.Model.TEMPERATURE,
            max_tokens=Config.Model.MAX_TOKENS,
            timeout=None,
            max_retries=5,
        ))

        # 👉 Đánh giá
        ragas_scores_chunk = evaluate(
            dataset=ragas_testset_chunk,
            llm=llm,
            embeddings=embedding_model,
            metrics=[
                faithfulness,
                answer_relevancy,
                context_precision,
                answer_correctness
            ],
            run_config=run_config
        )

        # 👉 Ghi kết quả ra file Excel
        df_scores_chunk = ragas_scores_chunk.to_pandas()
        # df_scores_chunk["chunk_index"] = i
        output_path = os.path.join(save_dir, f"ragas_score_chunk_{i + 1}.xlsx")
        df_scores_chunk.to_excel(output_path, index=False)

        print(f"✅ Chunk {i + 1} đã xử lý xong với API key: {selected_key}")

    except Exception as e:
        print(f"❌ Lỗi ở chunk {i + 1} với key {selected_key}: {e}")
        continue

Đang chạy các chunk:   0%|          | 0/2000 [00:00<?, ?it/s]Retrying langchain_google_genai.chat_models._achat_with_retry.<locals>._achat_with_retry in 2.0 seconds as it raised ResourceExhausted: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerMinutePerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.0-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 15
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
}
].
Retrying langchain_google_genai.chat_models._achat_with_retry.<locals>._achat_with_retry in 2.0 seconds as it raised ResourceExhausted: 429 You exceeded you

✅ Chunk 1 đã xử lý xong với API key: AIzaSyBSLdACUAR5srrD_yoolWKtIZlIk5JtMSo


Retrying langchain_google_genai.chat_models._achat_with_retry.<locals>._achat_with_retry in 2.0 seconds as it raised ResourceExhausted: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerMinutePerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.0-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 15
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 29
}
].
Evaluating:  58%|█████▊    | 7/12 [00:39<00:28,  5.69s/it]
Đang chạy các chunk:   0%|          | 1/2000 [02:20<77:59:40, 140.46s/it]


KeyboardInterrupt: 

Retrying langchain_google_genai.chat_models._achat_with_retry.<locals>._achat_with_retry in 2.0 seconds as it raised ResourceExhausted: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerMinutePerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.0-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 15
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 25
}
].


In [16]:
df_ragas_scores

Unnamed: 0,user_input,retrieved_contexts,response,reference,faithfulness,answer_relevancy,context_precision,answer_correctness
0,"Em mới chia tay người yêu được 2 tháng, nhưng ...",[Question: Làm sao để quay trở lại? Tôi và em ...,Nghe cậu nói mà tớ thấy thương cậu ghê 🥺 Chia ...,Hãy cho phép bản thân được buồn. Đừng cố gắng ...,0.04878,0.84203,1.0,0.354633
1,Mình và người yêu mình yêu nhau được 2 năm rồi...,[Question: Mình với bồ mình quen nhau gần 2 nă...,Tớ hiểu cảm giác của cậu nè. Yêu lâu mà cứ đều...,Lên kế hoạch cho một chuyến đi ngắn ngày đến m...,0.5,0.831,1.0,0.273304
2,Em cảm thấy khó khăn khi mở lòng và tin tưởng ...,[Question: Em mong nhận được sự tư vấn của các...,"Tớ hiểu mà, sau những tổn thương từ gia đình t...",Thấu hiểu và chấp nhận quá khứ là bước đầu tiê...,1.0,0.891097,1.0,0.273067
