# **Base Evaluation with Data Parallelism**

## **Import Libraries**

In [1]:
import os
from dotenv import load_dotenv
import gc

os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2,3,4,5,6"   # gunakan GPU 0–6

# load token dari .env jika diinginkan
# load_dotenv()
hf_token     = "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"
cache_folder = "./model_cache"

In [2]:
import json
import pandas as pd
import torch
from tqdm.auto import tqdm
from transformers import AutoModelForCausalLM, AutoTokenizer
import evaluate

pd.set_option("display.max_colwidth", None)

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
# check GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# list all available GPUs
if device.type == "cuda":
    n_gpus = torch.cuda.device_count()
    print(f"Detected {n_gpus} CUDA device(s):")
    for i in range(n_gpus):
        name = torch.cuda.get_device_name(i)
        print(f"  • GPU {i}: {name}")

Using device: cuda
Detected 7 CUDA device(s):
  • GPU 0: NVIDIA A100-SXM4-40GB
  • GPU 1: NVIDIA A100-SXM4-40GB
  • GPU 2: NVIDIA A100-SXM4-40GB
  • GPU 3: NVIDIA A100-SXM4-40GB
  • GPU 4: NVIDIA A100-SXM4-40GB
  • GPU 5: NVIDIA A100-SXM4-40GB
  • GPU 6: NVIDIA A100-SXM4-40GB


## **Load Dataset**

In [4]:
dataset_path = "cqa_datasets.jsonl"
qa_df = pd.read_json(dataset_path, lines=True)
qa_df.sample(1)

Unnamed: 0,context,question,answer,file_url,regulation_number,title,filename,n_pairs_requested
17,Pasal 1 Dalam Peraturan Otoritas Jasa Keuangan ini yang dimaksud dengan: 1. Komite Nominasi dan Remunerasi adalah komite yang dibentuk oleh dan bertanggung jawab kepada Dewan Komisaris dalam membantu melaksanakan fungsi dan tugas Dewan Komisaris terkait Nominasi dan Remunerasi terhadap anggota Direksi dan anggota Dewan Komisaris. 2. Nominasi adalah pengusulan seseorang untuk diangkat dalam jabatan sebagai anggota Direksi atau anggota Dewan Komisaris.,Apa yang dimaksud dengan Komite Nominasi dan Remunerasi dalam peraturan ini?,Komite Nominasi dan Remunerasi adalah komite yang dibentuk oleh dan bertanggung jawab kepada Dewan Komisaris untuk membantu melaksanakan fungsi dan tugas Dewan Komisaris terkait Nominasi dan Remunerasi terhadap anggota Direksi dan anggota Dewan Komisaris.,https://www.ojk.go.id/id/regulasi/Documents/Pages/POJK-tentang-Komite-Nominasi-dan-Remunerasi-Emiten-atau-Perusahaan-Publik/POJK%2034.%20Komite%20Nominasi%20dan%20Remunerasi%20Emiten%20Atau%20Perusahaan%20Publik.pdf,34/POJK.04/2014,POJK tentang Komite Nominasi dan Remunerasi Emiten atau Perusahaan Publik,ojk-peraturan_ojk-34_pojk_04_2014-08122014-pojk_tentang_komite_nominasi_dan_remunerasi_emiten_atau_perusahaan_publik.pdf,4


## **Load Models and Metrics**

In [5]:
model_names = {
    "Meta-Llama-3.1-8B": "meta-llama/Llama-3.1-8B-Instruct",
    "Aya-23-8B":         "CohereLabs/aya-23-8B",
    "SeaLLMs-v3-7B":     "SeaLLMs/SeaLLMs-v3-7B",
    "Sahabat-AI-8B":     "GoToCompany/llama3-8b-cpt-sahabatai-v1-instruct"
}

metrics_file = "evaluation_metrics.csv"
# init metrics file
if not os.path.exists(metrics_file):
    pd.DataFrame(columns=[
        "model","exact_match","rouge1_f1","rouge2_f1","rougeL_f1","bleu","meteor"
    ]).to_csv(metrics_file, index=False)

# prepare metric loaders
em    = evaluate.load("exact_match")
rouge = evaluate.load("rouge")
bleu  = evaluate.load("bleu")
meteor= evaluate.load("meteor")

[nltk_data] Downloading package wordnet to
[nltk_data]     /home/llmsosmed/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/llmsosmed/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /home/llmsosmed/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


## **Inference**

In [6]:
# for model_key, model_id in model_names.items():
#     print(f"\n▶ Evaluating {model_key}")

#     # load tokenizer & model
#     tokenizer = AutoTokenizer.from_pretrained(model_id, cache_dir=cache_folder, use_fast=True, token=hf_token)
#     if tokenizer.pad_token is None:
#         tokenizer.pad_token = tokenizer.eos_token
#     tokenizer.padding_side = "left"

#     model = AutoModelForCausalLM.from_pretrained(
#         model_id, cache_dir=cache_folder, torch_dtype=torch.float16, device_map=None
#     ).to(device)
#     if torch.cuda.device_count() > 1:
#         model = torch.nn.DataParallel(model)
#     model.eval()

#     preds, refs, details = [], [], []
#     batch_size = 8

#     pbar = tqdm(total=len(qa_df), desc=model_key)
#     for i in range(0, len(qa_df), batch_size):
#         batch = qa_df.iloc[i : i+batch_size]
#         prompts = [
#             r.context.strip() + "\n\nPertanyaan: " + r.question.strip() + "\nJawaban:"
#             for r in batch.itertuples()
#         ]

#         inputs = tokenizer(prompts, return_tensors="pt", padding=True, truncation=True, max_length=512).to(device)
#         with torch.no_grad():
#             out = model.module.generate(
#                 **inputs,
#                 max_new_tokens=64,
#                 do_sample=False,
#                 temperature=1.0,
#                 top_p=1.0,
#                 pad_token_id=tokenizer.eos_token_id
#             )

#         decoded = tokenizer.batch_decode(out, skip_special_tokens=True)
#         for prompt, full in zip(prompts, decoded):
#             preds.append(full[len(prompt):].strip().split("\n")[0])

#         refs.extend(batch["answer"].str.strip().tolist())
#         for idx, r in enumerate(batch.itertuples()):
#             details.append({
#                 "context":      r.context,
#                 "question":     r.question,
#                 "ground_truth": r.answer,
#                 model_key:      preds[i+idx]
#             })

#         pbar.update(len(batch))
#     pbar.close()

#     # compute metrics
#     r_em     = em.compute(predictions=preds, references=refs)
#     r_rouge  = rouge.compute(predictions=preds, references=refs)
#     r_bleu   = bleu.compute(predictions=preds, references=[[r] for r in refs])
#     r_meteor = meteor.compute(predictions=preds, references=refs)

#     # append metrics
#     row = {
#         "model":       model_key,
#         "exact_match": r_em["exact_match"],
#         "rouge1_f1":   r_rouge["rouge1"],
#         "rouge2_f1":   r_rouge["rouge2"],
#         "rougeL_f1":   r_rouge["rougeL"],
#         "bleu":        r_bleu["bleu"],
#         "meteor":      r_meteor["meteor"]
#     }
#     pd.DataFrame([row]).to_csv(metrics_file, mode="a", header=False, index=False)

#     # save details
#     detail_file = f"detailed_{model_key}.jsonl"
#     pd.DataFrame(details).to_json(detail_file, orient="records", lines=True)
#     print(f"→ Saved detailed results to {detail_file}")

#     # free VRAM
#     del model, tokenizer, inputs, out, decoded, preds, refs, details
#     torch.cuda.empty_cache()
#     gc.collect()

# ---------------------------

for model_key, model_id in model_names.items():
    print(f"\n▶ Evaluating {model_key}")

    # 1) tokenizer + model
    tokenizer = AutoTokenizer.from_pretrained(model_id, cache_dir="./model_cache", use_fast=True)
    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token
    tokenizer.padding_side = "left"

    model = AutoModelForCausalLM.from_pretrained(
        model_id,
        cache_dir="./model_cache",
        torch_dtype=torch.float16,
        device_map=None
    ).to(device)

    # wrap in DataParallel
    if torch.cuda.device_count() > 1:
        model = torch.nn.DataParallel(model, device_ids=list(range(torch.cuda.device_count())))

    model.eval()

    # pick the right generate fn
    gen_fn = model.module.generate if hasattr(model, "module") else model.generate

    preds, refs, details = [], [], []
    batch_size = 8
    pbar = tqdm(total=len(qa_df), desc=model_key)

    for i in range(0, len(qa_df), batch_size):
        batch = qa_df.iloc[i : i + batch_size]
        prompts = [
            row.context.strip() + "\n\nPertanyaan: " + row.question.strip() + "\nJawaban:"
            for row in batch.itertuples()
        ]

        inputs = tokenizer(
            prompts,
            return_tensors="pt",
            padding=True,
            truncation=True,
            max_length=512
        ).to(device)

        with torch.no_grad():
            outputs = gen_fn(
                **inputs,
                max_new_tokens=64,
                do_sample=False,
                temperature=1.0,
                top_p=1.0,
                pad_token_id=tokenizer.eos_token_id
            )

        decoded = tokenizer.batch_decode(outputs, skip_special_tokens=True)
        for prompt, full in zip(prompts, decoded):
            preds.append(full[len(prompt):].strip().split("\n")[0])

        refs.extend(batch.answer.str.strip().tolist())
        for idx, row in enumerate(batch.itertuples()):
            details.append({
                "context":      row.context,
                "question":     row.question,
                "ground_truth": row.answer,
                model_key:      preds[i + idx]
            })

        pbar.update(len(batch))
    pbar.close()

    # metrics
    r_em     = em.compute(predictions=preds, references=refs)
    r_rouge  = rouge.compute(predictions=preds, references=refs)
    r_bleu   = bleu.compute(predictions=preds, references=[[r] for r in refs])
    r_meteor = meteor.compute(predictions=preds, references=refs)

    row = {
        "model":       model_key,
        "exact_match": r_em["exact_match"],
        "rouge1_f1":   r_rouge["rouge1"],
        "rouge2_f1":   r_rouge["rouge2"],
        "rougeL_f1":   r_rouge["rougeL"],
        "bleu":        r_bleu["bleu"],
        "meteor":      r_meteor["meteor"]
    }
    pd.DataFrame([row]).to_csv(metrics_file, mode="a", header=False, index=False)

    # save detail
    pd.DataFrame(details).to_json(f"detailed_{model_key}.jsonl", orient="records", lines=True)
    print(f"→ Saved detailed_{model_key}.jsonl")

    # free VRAM
    del model, tokenizer, inputs, outputs, decoded, preds, refs, details
    torch.cuda.empty_cache()
    gc.collect()


▶ Evaluating Meta-Llama-3.1-8B


Loading checkpoint shards: 100%|██████████| 4/4 [00:01<00:00,  2.23it/s]
Meta-Llama-3.1-8B: 100%|██████████| 34/34 [00:10<00:00,  3.27it/s]


→ Saved detailed_Meta-Llama-3.1-8B.jsonl

▶ Evaluating Aya-23-8B


Loading checkpoint shards: 100%|██████████| 4/4 [00:00<00:00, 90.91it/s]
Aya-23-8B: 100%|██████████| 34/34 [00:11<00:00,  2.84it/s]


→ Saved detailed_Aya-23-8B.jsonl

▶ Evaluating SeaLLMs-v3-7B


Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.
Loading checkpoint shards: 100%|██████████| 7/7 [00:02<00:00,  2.81it/s]
SeaLLMs-v3-7B: 100%|██████████| 34/34 [00:10<00:00,  3.21it/s]


→ Saved detailed_SeaLLMs-v3-7B.jsonl

▶ Evaluating Sahabat-AI-8B


Loading checkpoint shards: 100%|██████████| 4/4 [00:02<00:00,  1.97it/s]
Sahabat-AI-8B: 100%|██████████| 34/34 [00:49<00:00,  1.46s/it]


→ Saved detailed_Sahabat-AI-8B.jsonl


## **Results**

In [7]:
# 1) Summary Metrics
df_metrics = pd.read_csv(metrics_file)
print("\n=== Summary Metrics ===")
print(df_metrics.to_markdown(index=False))


=== Summary Metrics ===
| model             |   exact_match |   rouge1_f1 |   rouge2_f1 |   rougeL_f1 |     bleu |   meteor |
|:------------------|--------------:|------------:|------------:|------------:|---------:|---------:|
| Meta-Llama-3.1-8B |     0         |    0.643853 |    0.535643 |    0.605544 | 0.489896 | 0.62197  |
| Aya-23-8B         |     0.0588235 |    0.67267  |    0.581976 |    0.661965 | 0.549846 | 0.656145 |
| SeaLLMs-v3-7B     |     0         |    0.600459 |    0.496181 |    0.571744 | 0.423586 | 0.564988 |
| Sahabat-AI-8B     |     0.0882353 |    0.766654 |    0.674656 |    0.747891 | 0.608748 | 0.752045 |
| Meta-Llama-3.1-8B |     0         |    0.644521 |    0.538529 |    0.601418 | 0.489896 | 0.62197  |
| Aya-23-8B         |     0.0588235 |    0.673212 |    0.582775 |    0.661985 | 0.549846 | 0.656145 |
| SeaLLMs-v3-7B     |     0         |    0.596642 |    0.497035 |    0.576456 | 0.423586 | 0.564988 |
| Sahabat-AI-8B     |     0.0882353 |    0.76653  |    0.

In [8]:
merged = None
for model_key in model_names:
    df = pd.read_json(f"detailed_{model_key}.jsonl", lines=True)
    cols = ["context","question","ground_truth",model_key]
    df = df[cols]
    merged = df if merged is None else merged.merge(
        df,
        on=["context","question","ground_truth"],
        how="outer"
    )
    
print("\n=== Combined Predictions (3 Examples) ===")
merged.head(3).rename(columns={"ground_truth":"ground_truth_answer"})


=== Combined Predictions (3 Examples) ===


Unnamed: 0,context,question,ground_truth_answer,Meta-Llama-3.1-8B,Aya-23-8B,SeaLLMs-v3-7B,Sahabat-AI-8B
0,"BAB I KETENTUAN UMUM Pasal 1 Dalam Peraturan Otoritas Jasa Keuangan ini yang dimaksud dengan: 1. Manajer Investasi adalah Pihak yang kegiatan usahanya mengelola Portofolio Efek untuk para nasabah atau mengelola portofolio investasi kolektif untuk sekelompok nasabah, kecuali perusahaan asuransi, dana pensiun, dan bank yang melakukan sendiri kegiatan usahanya berdasarkan peraturan perundang-undangan yang berlaku.",Siapa yang dimaksud dengan Manajer Investasi dalam peraturan ini?,"Manajer Investasi adalah pihak yang kegiatan usahanya mengelola portofolio efek untuk para nasabah atau mengelola portofolio investasi kolektif untuk sekelompok nasabah, dengan pengecualian perusahaan asuransi, dana pensiun, dan bank.","Manajer Investasi adalah Pihak yang kegiatan usahanya mengelola Portofolio Efek untuk para nasabah atau mengelola portofolio investasi kolektif untuk sekelompok nasabah, kecuali perusahaan asuransi, dana pensiun,","Pihak yang kegiatan usahanya mengelola portofolio efek untuk para nasabah atau mengelola portofolio investasi kolektif untuk sekelompok nasabah, kecuali perusahaan asuransi, dana pensiun, dan bank yang melakukan sendiri kegiatan usahanya berdasarkan peraturan perundang-undangan yang berlaku.","Manajer Investasi dalam peraturan ini adalah Pihak yang kegiatan usahanya mengelola Portofolio Efek untuk para nasabah atau mengelola portofolio investasi kolektif untuk sekelompok nasabah, kecuali perusahaan asuransi, d","Manajer Investasi adalah Pihak yang kegiatan usahanya mengelola Portofolio Efek untuk para nasabah atau mengelola portofolio investasi kolektif untuk sekelompok nasabah, kecuali perusahaan asuransi, dana pensiun,"
1,"BAB VI SANKSI Pasal 30 (1) Dengan tidak mengurangi ketentuan pidana di bidang Pasar Modal, Otoritas Jasa Keuangan berwenang mengenakan sanksi administratif terhadap setiap pihak yang melakukan pelanggaran ketentuan peraturan ini, termasuk pihak-pihak yang menyebabkan terjadinya pelanggaran tersebut berupa: a. peringatan tertulis; b. denda; c. pembatasan kegiatan usaha; d. pembekuan kegiatan usaha; e. pencabutan izin usaha; f. pembatalan persetujuan; dan g. pembatalan pendaftaran.",Apa saja sanksi administratif yang dapat dikenakan oleh Otoritas Jasa Keuangan?,"Sanksi administratif yang dapat dikenakan meliputi peringatan tertulis, denda, pembatasan kegiatan usaha, pembekuan kegiatan usaha, pencabutan izin usaha, pembatalan persetujuan, dan pembatalan pendaftaran.","Sanksi administratif yang dapat dikenakan oleh Otoritas Jasa Keuangan adalah peringatan tertulis, denda, pembatasan kegiatan usaha, pembekuan kegiatan usaha, pencabutan izin usaha, pembatalan persetujuan, dan pembatalan","Sanksi administratif yang dapat dikenakan oleh Otoritas Jasa Keuangan adalah: peringatan tertulis, denda, pembatasan kegiatan usaha, pembekuan kegiatan usaha, pencabutan izin usaha, pembatalan persetujuan, dan pembatalan pendaftaran.","Otoritas Jasa Keuangan dapat mengenakan sanksi administratif terhadap setiap pihak yang melakukan pelanggaran ketentuan peraturan Pasar Modal, termasuk pihak-pihak yang menyebabkan terjadinya pelanggaran tersebut.","Sanksi administratif yang dapat dikenakan oleh Otoritas Jasa Keuangan meliputi peringatan tertulis, denda, pembatasan kegiatan usaha, pembekuan kegiatan usaha, pencabutan izin usaha, pembatalan persetujuan, dan pemb"
2,"Dalam Pasal 4 ayat (1), diatur bahwa bank-bank tertentu wajib membentuk Capital Conservation Buffer. Ketentuan ini merupakan bagian dari upaya untuk memperkuat ketahanan modal bank dalam menghadapi risiko.",Apa yang diatur dalam Pasal 4 ayat (1) mengenai bank dan Capital Conservation Buffer?,Pasal 4 ayat (1) mengatur bahwa bank yang tergolong dalam kelompok tertentu wajib membentuk Capital Conservation Buffer untuk memperkuat ketahanan modal mereka dalam menghadapi risiko.,Bank-bank tertentu wajib membentuk Capital Conservation Buffer.,Bank-bank tertentu wajib membentuk Capital Conservation Buffer.,Pasal 4 ayat (1) mengatur bahwa bank-bank tertentu wajib membentuk Capital Conservation Buffer.,Pasal 4 ayat (1) mengatur bahwa bank-bank tertentu wajib membentuk Capital Conservation Buffer untuk memperkuat ketahanan modal bank dalam menghadapi risiko.
