# **Base Evaluation**

## **Import Libraries**

In [1]:
import os
import gc
import torch
import pandas as pd
from tqdm.auto import tqdm
from transformers import AutoTokenizer, AutoModelForCausalLM
import evaluate
import time

# Konfigurasi lingkungan
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2,3,4,5"  # Sesuaikan dengan GPU yang tersedia

pd.set_option("display.max_colwidth", None)

# Token Hugging Face dan direktori cache
hf_token = "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"
cache_folder = "../model_cache"

  from .autonotebook import tqdm as notebook_tqdm


[2025-05-03 04:48:17,267] [INFO] [real_accelerator.py:239:get_accelerator] Setting ds_accelerator to cuda (auto detect)


/usr/bin/ld: cannot find -laio: No such file or directory
collect2: error: ld returned 1 exit status
/usr/bin/ld: cannot find -laio: No such file or directory
collect2: error: ld returned 1 exit status


In [2]:
# Deteksi perangkat
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")
if device.type == "cuda":
    n_gpus = torch.cuda.device_count()
    print(f"Detected {n_gpus} CUDA device(s):")
    for i in range(n_gpus):
        name = torch.cuda.get_device_name(i)
        print(f"  • GPU {i}: {name}")

Using device: cuda
Detected 8 CUDA device(s):
  • GPU 0: NVIDIA A100-SXM4-40GB
  • GPU 1: NVIDIA A100-SXM4-40GB
  • GPU 2: NVIDIA A100-SXM4-40GB
  • GPU 3: NVIDIA A100-SXM4-40GB
  • GPU 4: NVIDIA A100-SXM4-40GB
  • GPU 5: NVIDIA A100-SXM4-40GB
  • GPU 6: NVIDIA A100-SXM4-40GB
  • GPU 7: NVIDIA A100-SXM4-40GB


## **Load Dataset**

In [3]:
dataset_path = "../datasets/cqa_test.jsonl"
qa_df = pd.read_json(dataset_path, lines=True)
qa_df.sample(1)

Unnamed: 0,context,question,answer,file_url,regulation_number,title,filename,n_pairs_requested
74,"Setiap pihak yang melanggar ketentuan dalam peraturan ini dapat dikenakan sanksi administratif oleh Otoritas Jasa Keuangan. Sanksi tersebut dapat berupa peringatan tertulis, denda, pembatasan, hingga pencabutan izin usaha. Pihak yang menyebabkan pelanggaran tersebut juga dapat dikenakan sanksi yang sama, sesuai dengan ketentuan yang berlaku.",Apa konsekuensi bagi pihak yang melanggar ketentuan dalam peraturan ini?,"Pihak yang melanggar ketentuan dalam peraturan ini dapat dikenakan sanksi administratif oleh Otoritas Jasa Keuangan, termasuk denda, pembatasan kegiatan usaha, dan pencabutan izin usaha.",https://www.ojk.go.id/id/regulasi/Documents/Pages/Tata-Cara-Penyusunan-Serta-Pengajuan-Rencana-Anggaran-dan-Penggunaan-Laba-Lembaga-Kliring-dan-Penjaminan/POJK%2023-2020.pdf,23 /POJK.04/2020,Tata Cara Penyusunan Serta Pengajuan Rencana Anggaran dan Penggunaan Laba Lembaga Kliring dan Penjaminan,ojk-peraturan_ojk-23_pojk_04_2020-23042020-tata_cara_penyusunan_serta_pengajuan_rencana_anggaran_dan_penggunaan_laba_lembaga_kliring_dan_penjaminan.pdf,3


## **Load Models and Metrics**

In [4]:
# Daftar model
model_names = {
    "Meta-Llama-3.1-8B": "meta-llama/Llama-3.1-8B-Instruct",
    "Aya-23-8B":         "CohereLabs/aya-23-8B",
    "SeaLLMs-v3-7B":     "SeaLLMs/SeaLLMs-v3-7B",
    "SEA-LION-v3-8B":       "aisingapore/Llama-SEA-LION-v3-8B-IT",
    "Sahabat-AI-8B":     "GoToCompany/llama3-8b-cpt-sahabatai-v1-instruct"
}

# File untuk menyimpan metrik
metrics_file = "evaluation_metrics.csv"
if not os.path.exists(metrics_file):
    pd.DataFrame(columns=[
        "model",
        "exact_match",
        "rouge1_f1",
        "rouge2_f1",
        "rougeL_f1",
        "bleu",
        "meteor",
        "inference_time_sec"
    ]).to_csv(metrics_file, index=False)

# Inisialisasi metrik
em = evaluate.load("exact_match")
rouge = evaluate.load("rouge")
bleu = evaluate.load("bleu")
meteor = evaluate.load("meteor")

[nltk_data] Downloading package wordnet to
[nltk_data]     /home/llmsosmed/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/llmsosmed/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /home/llmsosmed/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


## **Inference**

In [5]:
for model_key, model_id in model_names.items():
    print(f"\n▶ Evaluating {model_key}")

    # ── Load tokenizer & model ────────────────────────────────
    tokenizer = AutoTokenizer.from_pretrained(
        model_id, cache_dir=cache_folder, use_fast=True, token=hf_token
    )
    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token
    tokenizer.padding_side = "left"

#     max_memory = {i: "38GB" for i in range(torch.cuda.device_count())}
    model = AutoModelForCausalLM.from_pretrained(
        model_id,
        device_map="auto",
        torch_dtype=torch.float16,
#         max_memory=max_memory,
        cache_dir=cache_folder,
        token=hf_token
    )
    model.eval()

    # ── Warm-up ────────────────────────────────────────────────
    dummy = tokenizer(
        "Warm up",
        return_tensors="pt",
        padding=True,
        truncation=True,
        max_length=32
    ).to(model.device)
    with torch.no_grad():
        _ = model.generate(
            **dummy,
            max_new_tokens=1,
            pad_token_id=tokenizer.eos_token_id
        )

    # ── Start timing ───────────────────────────────────────────
    start_time = time.time()

    preds, refs, details = [], [], []
    batch_size = 16
    pbar = tqdm(total=len(qa_df), desc=model_key)

    for i in range(0, len(qa_df), batch_size):
        batch = qa_df.iloc[i : i + batch_size]
        prompts = [
            f"{row.context.strip()}\n\nPertanyaan: {row.question.strip()}\nJawaban:"
            for row in batch.itertuples()
        ]

        inputs = tokenizer(
            prompts,
            return_tensors="pt",
            padding=True,
            truncation=True,
            max_length=382
        )
        inputs = {k: v.to(model.device) for k, v in inputs.items()}

        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=64,
                do_sample=False,
                temperature=1.0,
                top_p=1.0,
                pad_token_id=tokenizer.eos_token_id
            )

        decoded = tokenizer.batch_decode(outputs, skip_special_tokens=True)
        for prompt, full in zip(prompts, decoded):
            preds.append(full[len(prompt):].strip().split("\n")[0])

        refs.extend(batch.answer.str.strip().tolist())
        for idx, row in enumerate(batch.itertuples()):
            details.append({
                "context":      row.context,
                "question":     row.question,
                "ground_truth": row.answer,
                model_key:      preds[-len(batch) + idx]
            })

        pbar.update(len(batch))
    pbar.close()

    # ── End timing ─────────────────────────────────────────────
    inference_time = time.time() - start_time
    print(f"→ Inference time for {model_key}: {inference_time:.1f} sec")

    # ── Compute Metrics ───────────────────────────────────────
    r_em     = em.compute(predictions=preds, references=refs)
    r_rouge  = rouge.compute(predictions=preds, references=refs)
    r_bleu   = bleu.compute(predictions=preds, references=[[r] for r in refs])
    r_meteor = meteor.compute(predictions=preds, references=refs)

    # ── Append to CSV ─────────────────────────────────────────
    row = {
        "model":              model_key,
        "exact_match":        r_em["exact_match"],
        "rouge1_f1":          r_rouge["rouge1"],
        "rouge2_f1":          r_rouge["rouge2"],
        "rougeL_f1":          r_rouge["rougeL"],
        "bleu":               r_bleu["bleu"],
        "meteor":             r_meteor["meteor"],
        "inference_time_sec": inference_time
    }
    pd.DataFrame([row]).to_csv(metrics_file, mode="a", header=False, index=False)

    # ── Save Detailed Predictions ─────────────────────────────
    pd.DataFrame(details).to_json(
        f"detailed_{model_key}.jsonl",
        orient="records", lines=True
    )
    print(f"→ Saved detailed_{model_key}.jsonl")

    # ── Cleanup ───────────────────────────────────────────────
    del model, tokenizer, inputs, outputs, decoded, preds, refs, details
    torch.cuda.empty_cache()
    gc.collect()


▶ Evaluating Meta-Llama-3.1-8B


Loading checkpoint shards: 100%|██████████| 4/4 [00:05<00:00,  1.46s/it]
Meta-Llama-3.1-8B: 100%|██████████| 86/86 [00:16<00:00,  5.12it/s]


→ Inference time for Meta-Llama-3.1-8B: 16.8 sec
→ Saved detailed_Meta-Llama-3.1-8B.jsonl

▶ Evaluating Aya-23-8B


Loading checkpoint shards: 100%|██████████| 4/4 [00:03<00:00,  1.30it/s]
Aya-23-8B: 100%|██████████| 86/86 [00:16<00:00,  5.16it/s]


→ Inference time for Aya-23-8B: 16.7 sec
→ Saved detailed_Aya-23-8B.jsonl

▶ Evaluating SeaLLMs-v3-7B


Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.
Loading checkpoint shards: 100%|██████████| 7/7 [00:06<00:00,  1.16it/s]
SeaLLMs-v3-7B: 100%|██████████| 86/86 [00:15<00:00,  5.55it/s]


→ Inference time for SeaLLMs-v3-7B: 15.5 sec
→ Saved detailed_SeaLLMs-v3-7B.jsonl

▶ Evaluating SEA-LION-v3-8B


Loading checkpoint shards: 100%|██████████| 4/4 [00:05<00:00,  1.49s/it]
SEA-LION-v3-8B: 100%|██████████| 86/86 [00:16<00:00,  5.13it/s]


→ Inference time for SEA-LION-v3-8B: 16.8 sec
→ Saved detailed_SEA-LION-v3-8B.jsonl

▶ Evaluating Sahabat-AI-8B


Loading checkpoint shards: 100%|██████████| 4/4 [00:05<00:00,  1.46s/it]
Sahabat-AI-8B: 100%|██████████| 86/86 [02:08<00:00,  1.49s/it]


→ Inference time for Sahabat-AI-8B: 128.0 sec
→ Saved detailed_Sahabat-AI-8B.jsonl


## **Results**

In [6]:
# 1) Summary Metrics
df_metrics = pd.read_csv(metrics_file)
print("\n=== Summary Metrics ===")
print(df_metrics.to_markdown(index=False))


=== Summary Metrics ===
| model             |   exact_match |   rouge1_f1 |   rouge2_f1 |   rougeL_f1 |     bleu |   meteor |   inference_time_sec |
|:------------------|--------------:|------------:|------------:|------------:|---------:|---------:|---------------------:|
| Meta-Llama-3.1-8B |             0 |    0.662749 |    0.516963 |    0.622019 | 0.463402 | 0.632112 |              16.7899 |
| Aya-23-8B         |             0 |    0.595495 |    0.451021 |    0.555227 | 0.400289 | 0.555217 |              16.6812 |
| SeaLLMs-v3-7B     |             0 |    0.6694   |    0.514984 |    0.619877 | 0.432582 | 0.670577 |              15.49   |
| SEA-LION-v3-8B    |             0 |    0.61033  |    0.462735 |    0.567731 | 0.391716 | 0.617789 |              16.7569 |
| Sahabat-AI-8B     |             0 |    0.684306 |    0.542067 |    0.641394 | 0.470711 | 0.666757 |             128.035  |


In [7]:
# 2) Combine a few examples across models
merged = None
for model_key in model_names:
    df = pd.read_json(f"detailed_{model_key}.jsonl", lines=True)
    cols = ["context", "question", "ground_truth", model_key]
    df = df[cols]
    merged = df if merged is None else merged.merge(
        df, on=["context", "question", "ground_truth"], how="outer"
    )

print("\n=== Combined Predictions (3 Examples) ===")
display(merged.head(3).rename(columns={"ground_truth": "ground_truth_answer"}))


=== Combined Predictions (3 Examples) ===


Unnamed: 0,context,question,ground_truth_answer,Meta-Llama-3.1-8B,Aya-23-8B,SeaLLMs-v3-7B,SEA-LION-v3-8B,Sahabat-AI-8B
0,"2. Ketentuan Pasal 3 diubah, sehingga berbunyi sebagai berikut: Pasal 3 Kewajiban memberikan HMETD dalam penerbitan saham dan/atau Efek bersifat ekuitas lainnya sebagaimana dimaksud dalam Pasal 2 tidak berlaku jika Perusahaan Terbuka melakukan penambahan modal melalui penerbitan saham dan/atau Efek bersifat ekuitas lainnya dalam rangka: a. perbaikan posisi keuangan; b. selain perbaikan posisi keuangan; c. penerbitan Saham Bonus yang: 1) merupakan Dividen Saham sebagai hasil dari Saldo Laba yang dikapitalisasi menjadi modal; dan/atau 2) bukan merupakan Dividen Saham sebagai hasil dari agio saham...",Kapan kewajiban memberikan HMETD tidak berlaku?,Kewajiban memberikan HMETD tidak berlaku jika Perusahaan Terbuka melakukan penambahan modal untuk perbaikan posisi keuangan atau penerbitan Saham Bonus dari Saldo Laba yang dikapitalisasi.,Kewajiban memberikan HMETD tidak berlaku jika Perusahaan Terbuka melakukan penambahan modal melalui penerbitan saham dan/atau Efek bersifat ekuitas lainnya dalam rangka: a. perbaikan posisi keuangan; b. sel,1. Ketika Perusahaan Terbuka melakukan penambahan modal melalui penerbitan saham dan/atau Efek bersifat ekuitas lainnya dalam rangka perbaikan posisi keuangan; 2. Selain perbaikan posisi keuangan; 3. Penerbitan Saham Bonus yang: 1) merupakan Dividen Saham sebagai hasil dari Saldo,Kewajiban memberikan HMETD tidak berlaku jika Perusahaan Terbuka melakukan penambahan modal melalui penerbitan saham dan/atau Efek bersifat ekuitas lainnya dalam rangka perbaikan posisi keuangan atau selain perbaikan,Kewajiban memberikan HMETD tidak berlaku dalam tiga situasi:,Kewajiban memberikan HMETD tidak berlaku jika Perusahaan Terbuka melakukan penambahan modal melalui penerbitan saham dan/atau Efek bersifat ekuitas lainnya dalam rangka: a. perbaikan posisi keuangan; b. sel
1,Administrator bertanggung jawab atas pengelolaan Dana Kompensasi Kerugian Investor dan wajib melaporkan kegiatan mereka kepada Otoritas Jasa Keuangan. Administrator harus memastikan bahwa klaim yang diajukan oleh investor yang dirugikan diverifikasi dan diproses dengan baik. Laporan kegiatan bulanan dan laporan akhir harus disampaikan untuk memastikan transparansi dan akuntabilitas.,Apa kewajiban Administrator dalam pengelolaan Dana Kompensasi Kerugian Investor?,"Administrator wajib melaporkan kegiatan, memastikan verifikasi klaim investor, dan mengelola distribusi Dana Kompensasi Kerugian Investor.",Administrator wajib melaporkan kegiatan mereka kepada Otoritas Jasa Keuangan dan memastikan bahwa klaim yang diajukan oleh investor yang dirugikan diverifikasi dan diproses dengan baik. Administrator juga wajib menyampaikan laporan kegiatan bulanan dan laporan ak,Administrator bertanggung jawab untuk mengelola dana kompensasi kerugian investor dan memastikan bahwa klaim yang diajukan oleh investor yang dirugikan diverifikasi dan diproses dengan baik. Mereka juga harus melaporkan kegiatan mereka kepada Otoritas Jasa Keuangan dan memastikan transparansi serta akuntabilitas melalui laporan bulanan dan laporan,Administrator bertanggung jawab untuk mengelola Dana Kompensasi Kerugian Investor dan wajib melaporkan kegiatan mereka kepada Otoritas Jasa Keuangan. Kewajiban Administrator termasuk verifikasi dan proses klaim yang diajukan oleh investor yang dir,Administrator wajib melaporkan kegiatan pengelolaan Dana Kompensasi Kerugian Investor kepada Otoritas Jasa Keuangan dan memastikan proses verifikasi serta penanganan klaim investor yang dirugikan dilakukan secara transparan dan akuntabel. Administrator juga,Administrator bertanggung jawab atas pengelolaan Dana Kompensasi Kerugian Investor dan wajib melaporkan kegiatan mereka kepada Otoritas Jasa Keuangan. Administrator harus memastikan bahwa klaim yang diajukan oleh investor yang dirugikan diverifikasi dan dip
2,"Bagian mengenai sanksi diatur dalam Pasal 21 hingga Pasal 25, di mana pelanggaran terhadap ketentuan dapat dikenakan sanksi administratif seperti peringatan tertulis, pembatasan kegiatan usaha, atau pembatalan surat tanda terdaftar. Hal ini bertujuan untuk memastikan bahwa semua pihak mematuhi regulasi yang telah ditetapkan demi menjaga integritas industri keuangan non-bank.",Sanksi apa yang dapat dikenakan jika terjadi pelanggaran terhadap ketentuan OJK?,"Sanksi dapat berupa peringatan tertulis, pembatasan kegiatan usaha, atau bahkan pembatalan surat tanda terdaftar bagi yang melanggar ketentuan OJK.","Sanksi yang dapat dikenakan adalah peringatan tertulis, pembatasan kegiatan usaha, atau pembatalan surat tanda terdaftar.","Sanksi administratif yang dapat dikenakan adalah peringatan tertulis, pembatasan kegiatan usaha, atau pembatalan surat tanda terdaftar.","Pelanggaran terhadap ketentuan OJK dapat dikenakan sanksi administratif seperti peringatan tertulis, pembatasan kegiatan usaha, atau pembatalan surat tanda terdaftar.","Sanksi yang dapat dikenakan meliputi peringatan tertulis, pembatasan kegiatan usaha, atau pembatalan surat tanda terdaftar. Sanksi ini diberikan untuk memastikan kepatuhan terhadap regulasi dan menjaga integritas industri ke","Sanksi administratif seperti peringatan tertulis, pembatasan kegiatan usaha, atau pembatalan surat tanda terdaftar dapat dikenakan jika terjadi pelanggaran terhadap ketentuan OJK."
