# **Base Evaluation**

## **Import Libraries**

In [3]:
import os
from dotenv import load_dotenv

os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2,3,4,5,6"

# Anda bisa tambahkan token/credential Anda di environment
hf_token     = "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"
cache_folder = "./model_cache"

In [4]:
import json
import pandas as pd
import torch
from torch.nn import DataParallel
from tqdm.auto import tqdm
from transformers import AutoModelForCausalLM, AutoTokenizer
import evaluate

pd.set_option("display.max_colwidth", None)

In [5]:
# check GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

Using device: cuda


## **Load Dataset**

In [6]:
dataset_path = "cqa_datasets.jsonl"
qa_df = pd.read_json(dataset_path, lines=True)
qa_df.sample(1)

Unnamed: 0,context,question,answer,file_url,regulation_number,title,filename,n_pairs_requested
8,"Pasal 3 Informasi tambahan terkait Penawaran Umum Efek bersifat utang dan/atau Sukuk dalam denominasi mata uang selain rupiah yang harus diungkapkan dalam Prospektus paling sedikit: a. jumlah, nilai, dan jangka waktu Efek bersifat utang dan/atau Sukuk dalam denominasi mata uang selain rupiah serta kesetaraan nilainya dalam rupiah pada saat Efek tersebut ditawarkan; b. risiko yang dihadapi; c. ada atau tidak ada sarana lindung nilai serta manfaat yang akan diperoleh dan biaya yang harus dikeluarkan berkaitan dengan lindung nilai tersebut; d. ada atau tidak ada dana pelunasan utang serta ikhtisar persyaratan mengenai dana pelunasan utang tersebut;",Apa saja informasi tambahan yang harus diungkapkan dalam Prospektus untuk Penawaran Umum Efek bersifat utang dan/atau Sukuk?,"Informasi tambahan yang harus diungkapkan dalam Prospektus mencakup jumlah, nilai, dan jangka waktu Efek, risiko yang dihadapi, sarana lindung nilai, dana pelunasan utang, serta aset tertentu Emiten yang menjadi agunan atas utang.",https://www.ojk.go.id/id/regulasi/Documents/Pages/Penawaran-Umum-Efek-Bersifat-Utang-dan-atau-Sukuk-Dalam-Denominasi-Mata-Uang-Selain-Rupiah/pojk%207-2020.pdf,7 /POJK.04/2020,Penawaran Umum Efek Bersifat Utang dan/atau Sukuk dalam Denominasi Mata Uang Selain Rupiah,ojk-peraturan_ojk-7_pojk_04_2020-19022020-penawaran_umum_efek_bersifat_utang_dan_atau_sukuk_dalam_denominasi_mata_uang_selain_rupiah.pdf,2


## **Load Model**

In [7]:
model_names = {
    "Meta-Llama-3.1-8B-Instruct": "meta-llama/Llama-3.1-8B-Instruct",
    "Aya-23-8B":                "CohereLabs/aya-23-8B",
    "SeaLLMs-v3-7B":            "SeaLLMs/SeaLLMs-v3-7B",
    "Sahabat-AI-8B":            "GoToCompany/llama3-8b-cpt-sahabatai-v1-instruct"
}

In [8]:
em    = evaluate.load("exact_match")
rouge = evaluate.load("rouge")
bleu  = evaluate.load("bleu")
meteor= evaluate.load("meteor")

Downloading builder script: 100%|██████████| 5.67k/5.67k [00:00<00:00, 23.8MB/s]
Downloading builder script: 100%|██████████| 6.27k/6.27k [00:00<00:00, 28.0MB/s]
Downloading builder script: 100%|██████████| 5.94k/5.94k [00:00<00:00, 18.3MB/s]
Downloading extra modules: 4.07kB [00:00, 10.8MB/s]                   
Downloading extra modules: 100%|██████████| 3.34k/3.34k [00:00<00:00, 24.5MB/s]
Downloading builder script: 100%|██████████| 7.02k/7.02k [00:00<00:00, 20.3MB/s]
[nltk_data] Downloading package wordnet to
[nltk_data]     /home/llmsosmed/nltk_data...
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/llmsosmed/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /home/llmsosmed/nltk_data...


## **Inference**

In [11]:
all_metrics = []
detailed_results = []

for model_key, model_id in model_names.items():
    print(f"\n▶ Evaluating {model_key}")

    tok = AutoTokenizer.from_pretrained(model_id,
                                        cache_dir=cache_folder,
                                        use_fast=True,
                                        token=hf_token)
    m = AutoModelForCausalLM.from_pretrained(model_id,
                                             cache_dir=cache_folder,
                                             torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
                                             device_map="auto",
                                             token=hf_token)

    gen = pipeline(
        "text-generation",       # ① jenis pipeline / task
        model=m,                 # ② model yang sudah dimuat
        tokenizer=tok,           # ③ tokenizer yang sesuai dengan model
        max_new_tokens=64,       # ④ batas maksimal token yang akan di‐generate di luar prompt
        do_sample=False,         # ⑤ metode decoding (greedy vs sampling)
        pad_token_id=tok.eos_token_id,  # ⑥ token ID untuk padding
    )

    preds, refs = [], []
    for _, row in tqdm(qa_df.iterrows(), total=len(qa_df), desc=model_key):
        prompt = (
            row["context"].strip()
            + "\n\nPertanyaan: " + row["question"].strip()
            + "\nJawaban:"
        )
        out = gen(prompt)[0]["generated_text"]
        pred = out[len(prompt):].strip().split("\n")[0]
        preds.append(pred)
        refs.append(row["answer"].strip())

        # simpan detail
        detailed_results.append({
            "model":        model_key,
            "context":      row["context"],
            "question":     row["question"],
            "ground_truth": row["answer"],
            "prediction":   pred
        })

    # hitung metrik
    r_em     = em.compute(predictions=preds, references=refs)
    r_rouge  = rouge.compute(predictions=preds, references=refs)
    r_bleu   = bleu.compute(predictions=preds, references=[[r] for r in refs])
    r_meteor = meteor.compute(predictions=preds, references=refs)

    all_metrics.append({
        "model":       model_key,
        "exact_match": r_em["exact_match"],
        "rouge1_f1":   r_rouge["rouge1"],   # ambil float langsung
        "rouge2_f1":   r_rouge["rouge2"],
        "rougeL_f1":   r_rouge["rougeL"],
        "bleu":        r_bleu["bleu"],
        "meteor":      r_meteor["meteor"]
    })



▶ Evaluating Meta-Llama-3.1-8B-Instruct


Loading checkpoint shards: 100%|██████████| 4/4 [00:03<00:00,  1.09it/s]
Device set to use cuda:0
Meta-Llama-3.1-8B-Instruct: 100%|██████████| 34/34 [36:01<00:00, 63.58s/it]



▶ Evaluating Aya-23-8B


Fetching 4 files: 100%|██████████| 4/4 [02:22<00:00, 35.58s/it] 
Loading checkpoint shards: 100%|██████████| 4/4 [00:13<00:00,  3.40s/it]
Device set to use cuda:0
Aya-23-8B: 100%|██████████| 34/34 [01:01<00:00,  1.81s/it]



▶ Evaluating SeaLLMs-v3-7B


Fetching 7 files: 100%|██████████| 7/7 [04:28<00:00, 38.36s/it] 
Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.
Loading checkpoint shards: 100%|██████████| 7/7 [00:17<00:00,  2.56s/it]
Device set to use cpu
SeaLLMs-v3-7B:   0%|          | 0/34 [03:26<?, ?it/s]


KeyboardInterrupt: 

## Results

In [13]:
all_metrics

[{'model': 'Meta-Llama-3.1-8B-Instruct',
  'exact_match': np.float64(0.029411764705882353),
  'rouge1_f1': np.float64(0.7277591646285049),
  'rouge2_f1': np.float64(0.6313622515513988),
  'rougeL_f1': np.float64(0.7159933094304126),
  'bleu': 0.5602655622650503,
  'meteor': np.float64(0.6917986377401765)},
 {'model': 'Aya-23-8B',
  'exact_match': np.float64(0.058823529411764705),
  'rouge1_f1': np.float64(0.673376724925123),
  'rouge2_f1': np.float64(0.5822047905523424),
  'rougeL_f1': np.float64(0.6614567689099985),
  'bleu': 0.5498459325111615,
  'meteor': np.float64(0.656145316393613)}]

In [12]:
# tampilkan summary metrik
df_metrics = pd.DataFrame(all_metrics).sort_values("exact_match", ascending=False)
print("\n=== Summary Metrics ===")
print(df_metrics.to_markdown(index=False))

# df_metrics.to_csv("evaluation_metrics.csv", index=False)


=== Summary Metrics ===


ImportError: Missing optional dependency 'tabulate'.  Use pip or conda to install tabulate.

In [15]:
detailed_results

[{'model': 'Meta-Llama-3.1-8B-Instruct',
  'context': 'Peraturan Otoritas Jasa Keuangan Republik Indonesia Nomor 27 Tahun 2022 mengatur perubahan kedua atas kewajiban penyediaan modal minimum bank umum. Hal ini bertujuan untuk menciptakan sistem perbankan yang sehat dan bersaing secara nasional dan internasional, serta sejalan dengan perkembangan standar internasional.',
  'question': 'Apa tujuan dari Peraturan Otoritas Jasa Keuangan Nomor 27 Tahun 2022?',
  'ground_truth': 'Tujuan dari peraturan ini adalah untuk menciptakan sistem perbankan yang sehat dan bersaing secara nasional dan internasional, serta sejalan dengan perkembangan standar internasional.',
  'prediction': 'Tujuan dari Peraturan Otoritas Jasa Keuangan Nomor 27 Tahun 2022 adalah untuk menciptakan sistem perbankan yang sehat dan bersaing secara nasional dan internasional, serta sejalan dengan perkembangan standar internasional. Peraturan'},
 {'model': 'Meta-Llama-3.1-8B-Instruct',
  'context': 'Dalam Pasal 4 ayat (1), di

In [14]:
# tampilkan beberapa baris detail prediction
df_detail = pd.DataFrame(detailed_results)
print("\n=== Sample Predictions ===")
print(df_detail[["model","context","question","ground_truth","prediction"]]
      .head(10)
      .to_markdown(index=False))

df_detail.to_json("detailed_predictions.jsonl", orient="records", lines=True)


=== Sample Predictions ===


ImportError: Missing optional dependency 'tabulate'.  Use pip or conda to install tabulate.