### Import Libraries

In [None]:
### Import Libraries
import re
import os
import textwrap
import json
import pandas as pd
import numpy as np
from typing import List, Dict, Any
from tqdm.auto import tqdm

# Document loading and processing
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.schema.document import Document

# Vector store and embeddings
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import OllamaEmbeddings

# LLM integration
from langchain_openai import ChatOpenAI
from langchain_community.llms import Ollama
from langchain_ollama import OllamaLLM

# Retrieval and chains
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain.retrievers import ContextualCompressionRetriever
from langchain_core.prompts import PromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

# Evaluation metrics
from rouge_score import rouge_scorer
from bert_score import score as bert_score
import torch
from transformers import AutoTokenizer, AutoModel
from sklearn.metrics.pairwise import cosine_similarity


from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_precision,
    context_recall
)

from datasets import Dataset
import pandas as pd
from tqdm.auto import tqdm

#### Setup API Key

In [2]:
# Masukkan OpenAI API key Anda
os.environ["OPENAI_API_KEY"] = "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"

In [13]:
# Inisialisasi model embedding
openai_embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small"
)
nomic_embeddings = OllamaEmbeddings(
    model="nomic-embed-text"
)

  nomic_embeddings = OllamaEmbeddings(


#### Ekstraksi Teks dari PDF

In [4]:
def load_pdf(pdf_path):
    """Load dan ekstrak teks dari PDF"""
    loader = PyPDFLoader(pdf_path)
    pages = loader.load()
    
    # Gabungkan semua halaman menjadi satu teks
    full_text = ""
    for page in pages:
        full_text += page.page_content + "\n"
    
    return full_text

In [5]:
def preprocess_text(text):
    """Membersihkan teks dengan aturan khusus untuk BAB dan Pasal,
    dan tidak menambahkan newline pada 'Pasal x' yang didahului kata 'dalam' atau 'dan'."""

    # Potong teks mulai dari BAB I jika ada
    match = re.search(r'\bBAB\s+I\b', text, flags=re.IGNORECASE)
    if match:
        text = text[match.start():]

    # Hapus header tidak perlu
    text = re.sub(r'PRESIDEN\s+REPUBLIK\s+INDONESIA', '', text, flags=re.IGNORECASE)
    text = re.sub(r'-\s*\d+\s*-', '', text)

    # Hapus semua baris yang mengandung '...' atau karakter elipsis Unicode '…'
    text = re.sub(r'^.*(\.{3}|…).*$', '', text, flags=re.MULTILINE)

    # Hapus baris kosong sisa
    text = re.sub(r'^\s*\n', '', text, flags=re.MULTILINE)

    # Normalisasi spasi jadi satu spasi
    text = re.sub(r'\s+', ' ', text)

    # Hapus baris seperti 'Pasal x Cukup jelas'
    text = re.sub(r'\bPasal\s+\d+\s+Cukup jelas\b', '', text, flags=re.IGNORECASE)
    
    # Tambahkan newline sebelum BAB (angka romawi)
    text = re.sub(r'(?<!\n)(BAB\s+[IVXLCDM]+)', r'\n\1', text, flags=re.IGNORECASE)

    # Tambahkan newline sebelum 'Pasal x' yang berdiri sendiri
    text = re.sub(
        r'(?<!\S)(Pasal\s+\d+)\b(?!\s*(ayat\b|,|dan\b))',
        r'\n\1',
        text,
        flags=re.IGNORECASE
    )
    
    # Hilangkan newline pada 'dalam\nPasal x' dan 'dan\nPasal x'
    text = re.sub(r'(dalam|dan)\s*\n\s*(Pasal\s+\d+)', r'\1 \2', text, flags=re.IGNORECASE)

    # Bersihkan spasi di awal dan akhir
    text = text.strip()

    return text


In [6]:
# Uji fungsi load_pdf dengan path contoh
pdf_path = "../data/UU Nomor 13 Tahun 2003.pdf"
try:
    # Ekstrak sampel teks (50 karakter awal dan akhir) untuk ditampilkan
    raw_text = load_pdf(pdf_path)
    preprocessed_text = preprocess_text(raw_text)
    print(f"Berhasil memuat PDF! Total karakter: {len(preprocessed_text)}")
    print(f"Sample awal teks:\n{preprocessed_text[:100]}...")
    print(f"Sample akhir teks:\n...{preprocessed_text[-100:]}")
except FileNotFoundError:
    print(f"File tidak ditemukan: {pdf_path}")

Berhasil memuat PDF! Total karakter: 162920
Sample awal teks:
BAB I KETENTUAN UMUM 
Pasal 1 Dalam undang undang ini yang dimaksud dengan : 1. Ketenagakerjaan adal...
Sample akhir teks:
...a sebelum ditetapkannya undang-undang ini.   TAMBAHAN LEMBARAN NEGARA REPUBLIK INDONESIA NOMOR 4279.


#### Fungsi Ekstraksi Struktur UU

In [7]:
#dengan chasefolding
def chunk_uu_with_recursive_splitter(text: str, min_words: int = 400, max_words: int = 800, overlap: int = 50):
    text = preprocess_text(text)

    max_chars = max_words * 6
    overlap_chars = overlap * 6

    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=max_chars,
        chunk_overlap=overlap_chars,
        length_function=len,
        separators=["\n\n", "\n", ". ", " ", ""]
    )

    bab_pattern = re.compile(r'^\s*(BAB\s+([IVXLCDM]+)\s+([A-Z\s,/.&-]+))\s*$', re.MULTILINE)
    bab_matches = list(bab_pattern.finditer(text))

    documents = []

    for i, match in enumerate(bab_matches):
        start = match.end()
        end = bab_matches[i+1].start() if i+1 < len(bab_matches) else len(text)

        bab_nomor = f"BAB {match.group(2)}"
        bab_judul = match.group(3).strip()

        bab_content = text[start:end].strip()

        # Split per pasal
        pasal_pattern = re.compile(r'(?=\nPasal\s+\d+\s+)')
        pasal_texts = pasal_pattern.split(bab_content)

        for j, pasal_text in enumerate(pasal_texts):
            if not pasal_text.strip():
                continue

            pasal_match = re.search(r'Pasal\s+(\d+)', pasal_text)
            pasal_nomor = f"Pasal {pasal_match.group(1)}" if pasal_match else f"Bagian {j}"

            word_count = len(pasal_text.split())

            # Jika teks panjang, bagi menjadi beberapa chunk
            if word_count > max_words:
                chunks = text_splitter.create_documents([pasal_text])
                for k, chunk in enumerate(chunks):
                    # Case folding
                    page_text = f"{bab_nomor} {bab_judul} - {pasal_nomor} : {chunk.page_content.strip()}".lower()
                    chunk.page_content = page_text
                    chunk.metadata = {
                        "bab_nomor": bab_nomor,
                        "bab_judul": bab_judul,
                        "pasal_nomor": pasal_nomor,
                        "chunk": f"{k+1}/{len(chunks)}",
                        "source": "UU No. 13 Tahun 2003",
                        "word_count": len(page_text.split()),
                        "full_reference": f"{bab_nomor} {bab_judul} - {pasal_nomor} (Bagian {k+1}/{len(chunks)})"
                    }
                    documents.append(chunk)
            else:
                # Case folding
                page_text = f"{bab_nomor} {bab_judul} - {pasal_nomor} : {pasal_text.strip()}".lower()
                doc = Document(
                    page_content=page_text,
                    metadata={
                        "bab_nomor": bab_nomor,
                        "bab_judul": bab_judul,
                        "pasal_nomor": pasal_nomor,
                        "chunk": "1/1",
                        "source": "UU No. 13 Tahun 2003",
                        "word_count": word_count,
                        "full_reference": f"{bab_nomor} {bab_judul} - {pasal_nomor}"
                    }
                )
                documents.append(doc)

    return documents


In [8]:
documents = chunk_uu_with_recursive_splitter(preprocessed_text)
print(f"Total dokumen yang dihasilkan: {len(documents)}")
for doc in documents[:100]:
    print(f"Dokumen:")
    print(textwrap.fill(doc.page_content, width=100))
    print(f"Metadata:")
    print(textwrap.fill(str(doc.metadata), width=100))
    print("-" * 40)

Total dokumen yang dihasilkan: 217
Dokumen:
bab i ketentuan umum - pasal 1 : pasal 1 dalam undang undang ini yang dimaksud dengan : 1.
ketenagakerjaan adalah segala hal yang berhubungan dengan tenaga kerja pada waktu sebelum, selama,
dan sesudah masa kerja. 2. tenaga kerja adalah setiap orang yang mampu melakukan pekerjaan guna
menghasilkan barang dan/atau jasa baik untuk memenuhi kebutuh an sendiri maupun untuk masyarakat. 3.
pekerja/buruh adalah setiap orang yang bekerja dengan menerima upah atau imbalan dalam bentuk lain.
4. pemberi kerja adalah orang perseorangan, pengusaha, bada n hukum, atau badan-badan lainnya yang
mempekerjakan tenaga kerja dengan membayar upah atau imbalan dalam bentuk lain. 5. pengusaha adalah
: a. orang perseorangan, persekutuan, atau badan hukum yang menjalankan suatu perusahaan milik
sendiri; b. orang pers eorangan, persekutuan, atau badan hukum yang secara berdiri sendiri
menjalankan perusahaan bukan miliknya; c. orang perseorangan, persekutuan, atau bada

In [9]:
documents = chunk_uu_with_recursive_splitter(preprocessed_text)
print(f"Total dokumen yang dihasilkan: {len(documents)}")
for doc in documents[:100]:
    print(f"Dokumen:")
    print(textwrap.fill(doc.page_content, width=100))
    print(f"Metadata:")
    print(textwrap.fill(str(doc.metadata), width=100))
    print("-" * 40)

Total dokumen yang dihasilkan: 217
Dokumen:
bab i ketentuan umum - pasal 1 : pasal 1 dalam undang undang ini yang dimaksud dengan : 1.
ketenagakerjaan adalah segala hal yang berhubungan dengan tenaga kerja pada waktu sebelum, selama,
dan sesudah masa kerja. 2. tenaga kerja adalah setiap orang yang mampu melakukan pekerjaan guna
menghasilkan barang dan/atau jasa baik untuk memenuhi kebutuh an sendiri maupun untuk masyarakat. 3.
pekerja/buruh adalah setiap orang yang bekerja dengan menerima upah atau imbalan dalam bentuk lain.
4. pemberi kerja adalah orang perseorangan, pengusaha, bada n hukum, atau badan-badan lainnya yang
mempekerjakan tenaga kerja dengan membayar upah atau imbalan dalam bentuk lain. 5. pengusaha adalah
: a. orang perseorangan, persekutuan, atau badan hukum yang menjalankan suatu perusahaan milik
sendiri; b. orang pers eorangan, persekutuan, atau badan hukum yang secara berdiri sendiri
menjalankan perusahaan bukan miliknya; c. orang perseorangan, persekutuan, atau bada

In [None]:
def create_vector_store(documents, persist_dir: str = "./chroma_db") -> Chroma:
    """
    Create and persist a vector store from documents
    
    Args:
        documents: List of processed documents
        persist_dir: Directory to persist the vector store
        
    Returns:
        Chroma: Vector store instance
    """
    # Initialize embeddings model
    # embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
    
    # Create vector store
    db = Chroma.from_documents(
        documents=documents, 
        embedding= openai_embeddings,
        persist_directory=persist_dir
    )
    
    # Persist to disk
    db.persist()
    print(f"Vector store saved to {persist_dir}")
    
    return db

db = create_vector_store(documents, persist_dir="./chroma_db")

In [14]:
query = "Siapa yang bertanggung jawab atas keselamatan dan kesehatan kerja?"
query = query.lower()

In [15]:
def search_with_scores(query: str, db, k: int = 5):
    # Menggunakan similarity_search_with_score daripada similarity_search
    docs_with_scores = db.similarity_search_with_score(query, k=k)
    
    print(f"Query: {query}\n")
    print("Hasil pencarian dengan similarity score:")
    for i, (doc, score) in enumerate(docs_with_scores):
        print(f"{i+1}. Score: {score:.4f}")
        print(f"   {doc.page_content}\n")
    
    return docs_with_scores

In [16]:
# Contoh penggunaan untuk OpenAI embeddings
db = Chroma(
    persist_directory="../chroma_db",
    embedding_function=openai_embeddings
)
query = "Siapa yang bertanggung jawab atas keselamatan dan kesehatan kerja?"
search_with_scores(query.lower(), db, k=5)

# Contoh penggunaan untuk Nomic embeddings
db_nomic = Chroma(
    persist_directory="../chroma_db_nomic",
    embedding_function=nomic_embeddings
)
search_with_scores(query.lower(), db_nomic, k=5)

  db = Chroma(


Query: siapa yang bertanggung jawab atas keselamatan dan kesehatan kerja?

Hasil pencarian dengan similarity score:
1. Score: 0.8537
   bab ix hubungan kerja - pasal 87 : pasal 87 (1) setiap perusahaan wajib menerapkan sistem manajemen keselamatan dan kesehatan kerja yang terintegrasi dengan sistem manajemen perusahaan. (2) ketentuan mengenai penerapan sistem manajemen keselamatan dan kesehatan kerja sebagaimana dimaksud dalam ayat (1) diatur dengan peraturan pemerintah. bagian kedua pengupahan.

2. Score: 0.8996
   bab ix hubungan kerja - pasal 86 : pasal 86 (1) setiap pekerja/buruh mempunyai hak untuk memperoleh perlindungan atas: a. keselamatan dan kesehatan kerja; b. moral dan kesusilaan; dan c. perlakuan yang sesuai dengan harkat dan martabat manusia serta nilai-nilai agama. (2) untuk melindungi keselamatan pekerja/buruh guna mewujudkan produktivitas kerja yang optimal diselenggarakan upaya keselamatan dan kesehatan kerja. (3) perlindungan sebagaimana dimaksud da lam ayat (1) dan 

[(Document(metadata={'bab_nomor': 'BAB XVIII', 'pasal_nomor': 'Pasal 23', 'word_count': 315, 'bab_judul': 'KETENTUAN PENUTUP', 'full_reference': 'BAB XVIII KETENTUAN PENUTUP - Pasal 23', 'source': 'UU No. 13 Tahun 2003', 'chunk': '1/1'}, page_content='bab xviii ketentuan penutup - pasal 23 : pasal 23 sertifikasi dapat dilakukan oleh lembaga sertifikasi yang dibentuk dan/atau diakreditasi oleh pemerintah bila programnya bersifat umum, atau dilakukan oleh perusahaan yang bersangkutan bila programnya bersifat khusus. pasal 27 ayat (1) cukup jelas ayat (2) yang dimaksud dengan kepentingan perusahaan dalam ayat ini adalah agar terjamin tersedianya tenaga terampil dan ahli pada tingkat kompetensi tertentu seperti juru las spesialis dalam air. yang dimaksud dengan kepentingan masyarakat misalnya untuk membuka kesempatan bagi masyarakat m emanfaatkan industri yang bersifat spesifik seperti teknologi budidaya tanaman dengan kultur jaringan. yang dimaksud dengan kepentingan negara misalnya untuk

### Template Prompt untuk RAG

In [17]:
# Template prompt untuk retrieval yang menyertakan metadata
prompt_template = """
        Kamu adalah asisten hukum yang ahli tentang regulasi ketenagakerjaan di Indonesia, khususnya UU Ketenagakerjaan No. 13 Tahun 2003.
        Sertakan nomor pasal dan ayatnya.
        Jika ada informasi yang tidak relevan, abaikan informasi tersebut.
        Informasi di konteks merupakan bagian dari UU No. 13 Tahun 2003.
        Jika informasi tidak tersedia dalam konteks, cukup jawab bahwa kamu tidak menemukan informasi yang relevan.
        Berdasarkan konteks berikut, jawablah pertanyaan dengan relevan, akurat, dan jelas.

        KONTEKS:
        {context}

        PERTANYAAN:
        {question}

        JAWABAN:
        """

In [18]:
print("Template prompt untuk RAG:")
print(prompt_template)

Template prompt untuk RAG:

        Kamu adalah asisten hukum yang ahli tentang regulasi ketenagakerjaan di Indonesia, khususnya UU Ketenagakerjaan No. 13 Tahun 2003.
        Sertakan nomor pasal dan ayatnya.
        Jika ada informasi yang tidak relevan, abaikan informasi tersebut.
        Informasi di konteks merupakan bagian dari UU No. 13 Tahun 2003.
        Jika informasi tidak tersedia dalam konteks, cukup jawab bahwa kamu tidak menemukan informasi yang relevan.
        Berdasarkan konteks berikut, jawablah pertanyaan dengan relevan, akurat, dan jelas.

        KONTEKS:
        {context}

        PERTANYAAN:
        {question}

        JAWABAN:
        


## 9. Setup QA System

In [20]:
def build_rag_chain(vectorstore, model_name="gpt-4o", temperature=0):
    """
    Build a RAG chain using the latest LangChain paradigm (LCEL)
    
    Args:
        vectorstore: Vector store to use for retrieval
        model_name: Name of the model to use
        temperature: Temperature setting for the model
        
    Returns:
        Chain: Query processing chain
    """
    # Initialize LLM
    llm = ChatOpenAI(temperature=temperature, model_name=model_name)
    
    # Create retriever
    retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 5})
    
    prompt = PromptTemplate(template=prompt_template, input_variables=["context", "question"])
    
    # Build the chain with LCEL pattern (LangChain Expression Language)
    rag_chain = (
        {"context": retriever , "question": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )
    
    return rag_chain

In [21]:
def build_ollama_rag_chain(vectorstore, model_name="llama3.2"):
    """
    Build a RAG chain using Ollama models
    
    Args:
        vectorstore: Vector store to use for retrieval
        model_name: Name of the Ollama model to use
        
    Returns:
        Chain: Query processing chain
    """
    # Initialize Ollama LLM
    llm = OllamaLLM(model=model_name, temperature=0)
    
    # Create retriever
    retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 7})
    

    prompt = PromptTemplate(template=prompt_template, input_variables=["context", "question"])
    
    # Build the chain with LCEL pattern
    rag_chain = (
        {"context": retriever, "question": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )
    
    return rag_chain

In [22]:
# Build RAG chains
openai_chain = build_rag_chain(db)
mistral_chain = build_ollama_rag_chain(db, model_name="mistral")
llama_chain = build_ollama_rag_chain(db, model_name="llama3.2")

In [23]:
from ipywidgets import widgets
from IPython.display import display, clear_output

def ask_question(b):
    with out:
        clear_output()
        query = text.value.strip()

        if query == "":
            print("Please enter a question")
            return

        print("Searching for an answer...")

        # Choose which chain to use (OpenAI or Ollama)
        response = openai_chain.invoke(query)  # Change to openai_chain if preferred

        # Display answer
        print(f"Answer:\n{textwrap.fill(response, width=100)}\n")

# Question input widget
text = widgets.Textarea(
    value='',
    placeholder='Enter your question about UU Ketenagakerjaan',
    description='Question:',
    disabled=False,
    layout=widgets.Layout(width='80%', height='80px')
)

# Button to trigger answer search
button = widgets.Button(description="Ask")
button.on_click(ask_question)

# Output area
out = widgets.Output()

# Display all widgets
display(text, button, out)

Textarea(value='', description='Question:', layout=Layout(height='80px', width='80%'), placeholder='Enter your…

Button(description='Ask', style=ButtonStyle())

Output()

In [24]:
def load_or_create_test_set(filepath="test.json", size=10):
    """
    Load test questions from file or create default test set
    """
    # os.makedirs(os.path.dirname(filepath), exist_ok=True)
    
    if os.path.exists(filepath):
        with open(filepath, 'r', encoding='utf-8') as f:
            return json.load(f)
    else:
        # Default test questions with reference answers
        test_questions = [
            {
                "id": 1,
                "question": "Apa yang dimaksud dengan 'tenaga kerja' menurut UU Ketenagakerjaan No. 13 Tahun 2003?",
                "reference_answer": "Tenaga kerja adalah setiap orang yang mampu melakukan pekerjaan guna menghasilkan barang dan/atau jasa baik untuk memenuhi kebutuhan sendiri maupun untuk masyarakat. (Pasal 1, UU No. 13 Tahun 2003)"
            },
            {
                "id": 2,
                "question": "Apa saja tujuan dari pembangunan ketenagakerjaan menurut Pasal 4 UU No. 13 Tahun 2003?",
                "reference_answer": "Tujuan pembangunan ketenagakerjaan adalah: a. Memberdayakan tenaga kerja secara optimal dan manusiawi; b. Mewujudkan pemerataan kesempatan kerja; c. Memberikan perlindungan kepada tenaga kerja; d. Meningkatkan kesejahteraan tenaga kerja dan keluarganya. (Pasal 4, UU No. 13 Tahun 2003)"
            },
            {
                "id": 3,
                "question": "Bagaimana cara memperoleh informasi ketenagakerjaan menurut UU No. 13 Tahun 2003?",
                "reference_answer": "Informasi ketenagakerjaan diperoleh dari semua pihak yang terkait, baik instansi pemerintah maupun swasta, dan digunakan untuk menyusun perencanaan tenaga kerja yang meliputi berbagai aspek ketenagakerjaan. (Pasal 8, UU No. 13 Tahun 2003)"
            },
            {
                "id": 4,
                "question": "Apa yang dimaksud dengan 'perjanjian kerja' dalam UU Ketenagakerjaan?",
                "reference_answer": "Perjanjian kerja adalah perjanjian antara pekerja/buruh dengan pengusaha atau pemberi kerja yang memuat syarat-syarat kerja, hak, dan kewajiban para pihak. (Pasal 1, UU No. 13 Tahun 2003)"
            },
            {
                "id": 5,
                "question": "Apa hak yang dimiliki pekerja/buruh perempuan yang sedang hamil menurut UU Ketenagakerjaan?",
                "reference_answer": "Pengusaha dilarang mempekerjakan pekerja/buruh perempuan hamil yang menurut keterangan dokter berbahaya bagi kesehatan dan keselamatan kandungannya apabila bekerja antara pukul 23.00 sampai dengan pukul 07.00. (Pasal 76, UU No. 13 Tahun 2003)"
            },
            {
                "id": 6,
                "question": "Apa yang dimaksud dengan 'serikat pekerja/serikat buruh' menurut UU No. 13 Tahun 2003?",
                "reference_answer": "Serikat pekerja/serikat buruh adalah organisasi yang dibentuk dari, oleh, dan untuk pekerja/buruh yang bertujuan untuk memperjuangkan, membela, serta melindungi hak dan kepentingan pekerja/buruh serta meningkatkan kesejahteraan mereka dan keluarganya. (Pasal 1, UU No. 13 Tahun 2003)"
            },
            {
                "id": 7,
                "question": "Bagaimana pengaturan tentang upah minimum dalam UU No. 13 Tahun 2003?",
                "reference_answer": "Pengusaha dilarang membayar upah lebih rendah dari upah minimum yang ditetapkan sesuai dengan ketentuan dalam Pasal 89, dan upah minimum dapat terdiri atas upah minimum berdasarkan wilayah atau sektor tertentu. (Pasal 90, UU No. 13 Tahun 2003)"
            },
            {
                "id": 8,
                "question": "Apa yang dimaksud dengan 'perjanjian kerja waktu tertentu' menurut UU No. 13 Tahun 2003?",
                "reference_answer": "Perjanjian kerja waktu tertentu adalah perjanjian yang dibuat untuk pekerjaan tertentu yang menurut jenis dan sifat atau kegiatan pekerjaannya akan selesai dalam waktu tertentu. (Pasal 59, UU No. 13 Tahun 2003)"
            },
            {
                "id": 9,
                "question": "Bagaimana ketentuan mengenai pemutusan hubungan kerja (PHK) bagi pekerja yang mengalami cacat akibat kecelakaan kerja?",
                "reference_answer": "Pekerja yang mengalami kecelakaan kerja dan tidak dapat melanjutkan pekerjaan setelah lebih dari 12 bulan berhak mendapatkan pesangon dan penghargaan masa kerja sesuai dengan ketentuan Pasal 156. (Pasal 172, UU No. 13 Tahun 2003)"
            },
            {
                "id": 10,
                "question": "Apa yang dimaksud dengan 'hubungan industrial' menurut UU Ketenagakerjaan?",
                "reference_answer": "Hubungan industrial adalah suatu sistem hubungan yang terbentuk antara pengusaha, pekerja/buruh, dan pemerintah yang didasarkan pada nilai-nilai Pancasila dan Undang-Undang Dasar Negara Republik Indonesia Tahun 1945. (Pasal 1, UU No. 13 Tahun 2003)"
            }
        ]

        
        # Extend with more sample questions if needed
        # if len(test_questions) < size:
        #     for i in range(len(test_questions) + 1, size + 1):
        #         test_questions.append({
        #             "id": i,
        #             "question": f"Contoh pertanyaan {i}",
        #             "reference_answer": f"Contoh jawaban referensi untuk pertanyaan {i}."
        #         })
        
        # Save to file
        # with open(filepath, 'w', encoding='utf-8') as f:
        #     json.dump(test_questions, f, ensure_ascii=False, indent=2)
        
        return test_questions

In [None]:
# Calculate ROUGE scores
def calculate_rouge_scores(prediction, reference):
    scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
    scores = scorer.score(reference, prediction)
    return {f"{metric}_f1": values.fmeasure for metric, values in scores.items()}

def calculate_bert_score(predictions, references, lang="id"):
    P, R, F1 = bert_score(predictions, references, lang=lang)
    return {
        "bert_precision": P.mean().item(),
        "bert_recall": R.mean().item(),
        "bert_f1": F1.mean().item()
    }

In [None]:
# Evaluate RAG system
def evaluate_rag_system(chain, test_questions, verbose=True):
    results = []
    all_predictions = []
    all_references = []

    for q in tqdm(test_questions, desc="Evaluating questions"):
        question = q["question"]
        reference = q["reference_answer"]

        try:
            prediction = chain.invoke(question.lower())
            rouge_scores = calculate_rouge_scores(prediction, reference)
            all_predictions.append(prediction)
            all_references.append(reference)

            result = {**rouge_scores, "id": q["id"], "question": question, "reference": reference, "prediction": prediction}
            results.append(result)

            if verbose:
                print(f"Question: {question}\nPrediction: {prediction}")
                print(f"ROUGE-1 F1: {rouge_scores['rouge1_f1']:.4f}")
        except Exception as e:
            print(f"Error processing question {q['id']}: {e}")

    # Calculate average ROUGE scores
    avg_rouge = {
        "avg_rouge1_f1": np.mean([r["rouge1_f1"] for r in results]),
        "avg_rouge2_f1": np.mean([r["rouge2_f1"] for r in results]),
        "avg_rougeL_f1": np.mean([r["rougeL_f1"] for r in results])
    }

    # Calculate BERTScore for all predictions
    bert_scores = calculate_bert_score(all_predictions, all_references)

    # Combine all metrics
    final_results = {
        "individual_results": results,
        "average_rouge": avg_rouge,
        "bert_scores": bert_scores
    }

    # Print summary
    if verbose:
        print("\n===== EVALUATION SUMMARY =====")
        print(f"Average ROUGE-1 F1: {avg_rouge['avg_rouge1_f1']:.4f}")
        print(f"Average ROUGE-2 F1: {avg_rouge['avg_rouge2_f1']:.4f}")
        print(f"Average ROUGE-L F1: {avg_rouge['avg_rougeL_f1']:.4f}")
        print(f"BERTScore F1: {bert_scores['bert_f1']:.4f}")
        print(f"BERT Precision: {bert_scores['bert_precision']:.4f}")
        print(f"BERT Recall: {bert_scores['bert_recall']:.4f}")
    
    return final_results

In [28]:
# Run evaluation
def run_single_model_evaluation(chain, model_name="Llama3.2"):
    test_questions = load_or_create_test_set(size=5)
    print(f"\n===== EVALUASI MODEL {model_name} =====")
    results = evaluate_rag_system(chain, test_questions, verbose=True)
    return results

In [None]:
# Load atau buat set pertanyaan
test_questions = load_or_create_test_set()

# Pilih model yang akan dievaluasi
openai_chain = build_ollama_rag_chain(db)

# Evaluasi model
# results = run_single_model_evaluation(openai_chain, model_name="Llama3.2")

NameError: name 'run_single_model_evaluation' is not defined

In [31]:
def prepare_ragas_dataset(chain, vectorstore, test_questions):
    """
    Prepare dataset in RAGAS format with all required components:
    - question: user query
    - answer: generated answer from RAG
    - contexts: retrieved documents
    - ground_truth: reference answer
    """
    ragas_data = []
    
    for q in tqdm(test_questions, desc="Preparing RAGAS dataset"):
        question = q["question"].lower()
        ground_truth = q["reference_answer"]
        
        try:
            # Get retrieved contexts using the retriever
            retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 5})
            retrieved_docs = retriever.invoke(question)
            contexts = [doc.page_content for doc in retrieved_docs]
            
            # Generate answer using the chain
            answer = chain.invoke(question)
            
            ragas_data.append({
                "question": question,
                "answer": answer,
                "contexts": contexts,
                "ground_truth": ground_truth
            })
            
        except Exception as e:
            print(f"Error processing question {q['id']}: {e}")
            continue
    
    return Dataset.from_list(ragas_data)

In [32]:
# Advanced RAGAS evaluation with custom metrics
def advanced_ragas_evaluation(chain, vectorstore, test_questions):
    """
    Advanced RAGAS evaluation with custom configuration
    """
    
    # Custom metric selection based on your needs
    custom_metrics = [
        faithfulness,        # How factual is the generated answer
        answer_relevancy,    # How relevant is the answer to the question
        context_precision,   # Precision of retrieved contexts
        context_recall      # Recall of retrieved contexts
    ]
    
    print("Running Advanced RAGAS Evaluation...")
    print(f"Selected metrics: {[m.name for m in custom_metrics]}")
    
    # Prepare dataset
    dataset = prepare_ragas_dataset(chain, vectorstore, test_questions)
    
    # Run evaluation with custom metrics
    result = evaluate(
        dataset=dataset,
        metrics=custom_metrics
    )
    
    # Detailed reporting
    print("\nADVANCED RAGAS RESULTS:")
    print("=" * 40)
    
    metrics_description = {
        "faithfulness": "Measures factual accuracy of generated answers",
        "answer_relevancy": "Measures relevance of answer to question", 
        "context_precision": "Measures precision of retrieved contexts",
        "context_recall": "Measures recall of retrieved contexts"
    }
    
    for metric_name, score in result.items():
        if isinstance(score, (int, float)):
            description = metrics_description.get(metric_name, "")
            print(f"{metric_name}: {score:.4f}")
            if description:
                print(f"  -> {description}")
            print()
    
    return result

In [34]:
advanced_result = advanced_ragas_evaluation(llama_chain, db, test_questions)

Running Advanced RAGAS Evaluation...
Selected metrics: ['faithfulness', 'answer_relevancy', 'context_precision', 'context_recall']


Preparing RAGAS dataset:   0%|          | 0/10 [00:00<?, ?it/s]

NameError: name 'Dataset' is not defined