# Retrieval-Augmented Generation for SIMPLE-O

## Data Preparation


Tahapan yang akan dilaksanakan :
1. Instalasi Package Global
2. Pemuatan Dataset
- Memuat data soal ujian
- Memuat data kunci jawaban
- Memuat data referensi ujian
- Memuat data jawaban mahasiswa
- Memuat data evaluasi manual

3. Pemuatan Model
4. Inisialisasi Fungsi Helper 
5. Chunking Data & Tokenisasi
6. Pembuatan Knowledge Base

### Instalasi Package Global

In [None]:
# -*- coding: utf-8 -*-
"""
Combined and Refactored Notebook for SIMPLE-O RAG System
This script consolidates setup, data preprocessing, model loading,
RAG execution, and evaluation into a single, more efficient workflow.
"""

# ==============================================================================
# BAGIAN 1.1: PENGATURAN GLOBAL, INSTALASI, DAN PEMUATAN DATA
# ==============================================================================

# --- 1.1. Instalasi Pustaka ---
# Instalasi semua pustaka yang diperlukan untuk keseluruhan proses.
# pip install python-docx fugashi ipadic unidic-lite sentence-transformers faiss-cpu ipywidgets
# pip install mecab-python3 accelerate bitsandbytes
# pip install tensorflow ragas
# python -m unidic download
# pip install Huggingface
# pip install langchain-huggingface
# pip install langchain-community langchain-core ollama

In [1]:
import tensorflow as tf
from tensorflow import keras

# Menetapkan kebijakan global agar semua layer Keras menggunakan float32,
# yang sangat kompatibel dengan akselerasi GPU (cuDNN).
policy = keras.mixed_precision.Policy("float32")
keras.mixed_precision.set_global_policy(policy)

print(
    f"Kebijakan presisi global Keras diatur ke: {keras.mixed_precision.global_policy().name}"
)
print("\nMemulai proses evaluasi RAG & SIMPLE-O untuk jawaban siswa...")
# ...dan seterusnya

# Anda bisa langsung cek versi yang sedang berjalan
print(f"Versi TensorFlow yang sedang digunakan: {tf.__version__}")
print(f"Versi Keras yang sedang digunakan: {keras.__version__}")

Kebijakan presisi global Keras diatur ke: float32

Memulai proses evaluasi RAG & SIMPLE-O untuk jawaban siswa...
Versi TensorFlow yang sedang digunakan: 2.19.0
Versi Keras yang sedang digunakan: 3.10.0


In [2]:
# tagger = MeCab.Tagger("-Owakati -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd")
# print(tagger.parse("すもももももももものうち"))

# Import yang diperlukan
import re
import time
import numpy as np
import pandas as pd
import torch
import faiss

# from tensorflow.keras.models import model_from_json
# from tensorflow.keras.models import Model
# from tensorflow.keras.utils import get_custom_objects
# from tensorflow.keras import backend as K

# from google.colab import drive
from tqdm.notebook import tqdm
from transformers import (
    AutoModel,
    AutoTokenizer,
    AutoModelForCausalLM,
    BitsAndBytesConfig,
)

from datasets import Dataset
from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_recall,
    context_precision,
)

### Pemuatan Dataset

In [3]:
# ==============================================================================
# BAGIAN 1.2: PEMUATAN DATASET
# ==============================================================================

import json
import os


import tensorflow as tf



# Definisikan semua path di satu tempat



BASE_PATH = os.path.join("information_file")


# BASE_PATH = "/content/gdrive/MyDrive/Skripsi_Rezki-Muhammad/Project/"


DATASET_PATH = os.path.join(BASE_PATH, "Dataset")


KB_PATH = os.path.join(BASE_PATH, "KnowledgeBase")

OUTPUT_PATH = os.path.join(BASE_PATH, "Output")

MODEL_PATH = os.path.join(BASE_PATH, "Model")


os.makedirs(KB_PATH, exist_ok=True)



REF_DOC_PATH = os.path.join(DATASET_PATH, "referensi.docx")


SOAL_DOC_PATH = os.path.join(DATASET_PATH, "soal.docx")


KEY_DIR_PATH = os.path.join(DATASET_PATH, "key")


TEST_DIR_PATH = os.path.join(DATASET_PATH, "test")


VOCAB_PATH = os.path.join(KB_PATH, "vocabulary.pkl")



print(BASE_PATH)



print(DATASET_PATH)



print(KB_PATH)



print(MODEL_PATH)



print(REF_DOC_PATH)



print(SOAL_DOC_PATH)



print("\n=== Pemeriksaan Lingkungan GPU & CUDA ===")



gpu_devices = tf.config.list_physical_devices("GPU")



print(f"Jumlah GPU Fisik yang Tersedia: {len(gpu_devices)}")



if gpu_devices:

    print("Detail GPU:")

    for i, gpu in enumerate(gpu_devices):

        print(f"  GPU {i}: {gpu}")

        try:

            details = tf.config.experimental.get_device_details(gpu)

            print(f"    Nama Perangkat: {details.get('device_name', 'N/A')}")

            print(f"    Compute Capability: {details.get('compute_capability', 'N/A')}")

            # Checking for cuDNN presence is harder directly via public TF API

            # But if compute_capability is shown, it's a good sign

        except Exception as e:

            print(f"    Gagal mendapatkan detail perangkat: {e}")


    # Try a simple GPU operation to test the path

    try:

        with tf.device("/GPU:0"):

            a = tf.constant([[1.0, 2.0], [3.0, 4.0]])

            b = tf.constant([[1.0, 1.0], [0.0, 1.0]])

            c = tf.matmul(a, b)

            print("\nTes operasi GPU sederhana berhasil:")

            print(c.numpy())

    except Exception as e:

        print(f"\nERROR: Tes operasi GPU sederhana gagal: {e}")
        print(

            "Ini mungkin menunjukkan masalah dengan instalasi CUDA/cuDNN atau konfigurasi TensorFlow."
        )



else:

    print("Tidak ada GPU fisik terdeteksi.")

    print("TensorFlow akan menggunakan CPU.")



print("=== Selesai Pemeriksaan Lingkungan ===")

information_file
information_file\Dataset
information_file\KnowledgeBase
information_file\Model
information_file\Dataset\referensi.docx
information_file\Dataset\soal.docx

=== Pemeriksaan Lingkungan GPU & CUDA ===
Jumlah GPU Fisik yang Tersedia: 0
Tidak ada GPU fisik terdeteksi.
TensorFlow akan menggunakan CPU.
=== Selesai Pemeriksaan Lingkungan ===


### Pemuatan Model

In [None]:
# Login HuggingFace
# from huggingface_hub import login
# login(token="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")


print("\\nMemuat semua model...")



# ---Muat Model SBERT untuk Embeddings ---


sbert_model_name = "sonoisa/sentence-bert-base-ja-mean-tokens"


sbert_tokenizer = AutoTokenizer.from_pretrained(sbert_model_name)


sbert_model = AutoModel.from_pretrained(sbert_model_name)


sbert_model.eval()


device = "cuda" if torch.cuda.is_available() else "cpu"


sbert_model.to(device)


print(f"Model SBERT '{sbert_model_name}' dimuat ke {device}.")

\nMemuat semua model...
Model SBERT 'sonoisa/sentence-bert-base-ja-mean-tokens' dimuat ke cpu.


In [5]:
# ---Muat Model Gemma 3 untuk Generation ---
# Konfigurasi digunakan untuk berjalan di CPU

gemma_model_name = "google/gemma-3-1b-it"
gemma_tokenizer = AutoTokenizer.from_pretrained(gemma_model_name)
gemma_model = AutoModelForCausalLM.from_pretrained(
    gemma_model_name, device_map=None, torch_dtype=torch.float32
)
gemma_model.to("cpu")  # Secara eksplisit pindahkan model ke CPU
gemma_model.eval()
print("Model Gemma berhasil dimuat ke CPU")

Model Gemma berhasil dimuat ke CPU


### Inisialisasi Fungsi Helper

In [6]:
# ==============================================================================
# BAGIAN 1.3: INISIALISASI FUNGSI HELPER
# ==============================================================================

import docx



import MeCab
import os
import json
import re
import pandas as pd


# Inisialisasi MeCab Tagger



tagger = MeCab.Tagger("-Owakati")


def preprocess_japanese_text(text):
    """Membersihkan dan melakukan tokenisasi pada teks Jepang."""

    text = re.sub(r"\\s+", "", str(text))


    return tagger.parse(text).strip()



def read_docx_by_delimiter(file_path, delimiter_pattern):
    """Fungsi generik untuk membaca file .docx dan membaginya berdasarkan delimiter regex."""

    doc = docx.Document(file_path)

    full_text = "\\n".join([para.text for para in doc.paragraphs])

    sections = re.split(delimiter_pattern, full_text)

    return [section.strip() for section in sections if section.strip()]


def get_embeddings(texts):
    """Menghasilkan embedding untuk daftar teks menggunakan SBERT."""
    inputs = sbert_tokenizer(
        texts, return_tensors="pt", padding=True, truncation=True, max_length=512
    ).to(device)
    with torch.no_grad():
        embeddings = sbert_model(**inputs).last_hidden_state.mean(dim=1)
    return embeddings.cpu().numpy()


def retrieve_knowledge(query_embedding, top_k=5):
    """Mencari chunk relevan dari indeks FAISS."""
    distances, indices = kbindex.search(np.array([query_embedding]), top_k)
    return [knowledge_base_chunks[idx] for idx in indices[0] if idx != -1]


def generate_gemma_response(question_text, student_answer_text, retrieved_chunks):
    """
    Membuat prompt dan menghasilkan evaluasi dari Gemma (dengan metode 2 langkah yang robust).
    """
    context_str = "\n".join(
        [
            f"### Konteks Relevan {i+1} (Tipe: {chunk['type']}):\n{chunk['text']}"
            for i, chunk in enumerate(retrieved_chunks)
        ]
    )
    if not context_str:
        context_str = "Tidak ada konteks yang relevan ditemukan."

    prompt = f"""Anda adalah seorang pengajar bahasa Jepang ahli.
Tugas Anda adalah mengevaluasi jawaban esai siswa. Berikan umpan balik yang konstruktif dalam sudut pandang orang kedua.

### Pertanyaan:
{question_text}

### Jawaban Siswa:
{student_answer_text}

### Konteks/Referensi:
{context_str}

Berikan evaluasi Anda dalam format berikut:
**1. Koreksi Tata Bahasa:** [Berikan versi yang dikoreksi dan jelaskan kesalahannya. Jika tidak ada, sebutkan.]
**2. Komentar Jawaban:** [Komentari konten jawaban, jelaskan jika ada kekurangan atau kesalahan konsep.]
**3. Jawaban Alternatif/Lebih Baik:** [Berikan contoh jawaban yang lebih ideal berdasarkan referensi.]
"""
    messages = [{"role": "user", "content": prompt}]

    # --- PERBAIKAN UTAMA: PROSES 2 LANGKAH ---

    # Langkah 1: Format chat menjadi sebuah string prompt, TANPA tokenisasi.
    formatted_prompt = gemma_tokenizer.apply_chat_template(
        messages, tokenize=False, add_generation_prompt=True
    )

    # Langkah 2: Tokenisasi string yang sudah diformat untuk mendapatkan dictionary 'inputs'.
    # Ini akan menghasilkan 'input_ids' dan 'attention_mask'.
    inputs = gemma_tokenizer(
        formatted_prompt, return_tensors="pt", return_attention_mask=True
    ).to(device)

    # --- AKHIR PERBAIKAN ---

    # Sekarang 'inputs' dijamin sebuah dictionary, jadi **inputs akan bekerja.
    outputs = gemma_model.generate(
        **inputs,
        max_new_tokens=512,
        temperature=0.7,
        do_sample=True,
        top_p=0.9,
        pad_token_id=gemma_tokenizer.eos_token_id,
    )

    # Logika decoding ini sudah benar.
    prompt_length = inputs["input_ids"].shape[1]
    response = gemma_tokenizer.decode(
        outputs[0][prompt_length:], skip_special_tokens=True
    )

    return response.strip()


def extract_chunk_ids(context_text: str) -> list:
    """
    Mengekstrak semua ID chunk dari string retrieved_context menggunakan regular expression.
    Contoh input: '... (Tipe: reference, ID: 69): ... ### ... ID: 71) ...'
    Contoh output: ['KB69', 'KB71']
    """
    # Pola regex untuk menemukan semua angka setelah "ID: "
    ids = re.findall(r"ID: (\d+)", context_text)
    # Format ulang menjadi 'KB' + nomor ID
    return [f"KB{id_num}" for id_num in ids]


def read_and_parse_gt_docx(file_path: str) -> list:
    """
    Membaca file .docx, menggabungkan teks, dan mem-parse-nya sebagai JSON.
    Menangani kasus di mana teks JSON tidak dibungkus dengan benar dalam array [].
    """
    try:
        doc = docx.Document(file_path)
        full_text = "\n".join([para.text for para in doc.paragraphs])
        cleaned_text = full_text.strip()

        print(f"  DEBUG PARSE: Memproses '{os.path.basename(file_path)}'")
        print(f"  DEBUG PARSE: Panjang cleaned_text: {len(cleaned_text)}")
        # Cetak beberapa karakter awal dan akhir untuk melihat apakah ada yang aneh
        print(f"  DEBUG PARSE: Awal cleaned_text: '{cleaned_text[:50]}'")
        print(f"  DEBUG PARSE: Akhir cleaned_text: '{cleaned_text[-50:]}'")

        # Periksa apakah teks sudah merupakan array JSON yang valid
        if cleaned_text.startswith("[") and cleaned_text.endswith("]"):
            print(
                f"  DEBUG PARSE: Teks dimulai dengan '[' dan diakhiri dengan ']'. Mencoba parse sebagai JSON array."
            )
            return json.loads(cleaned_text)
        # Jika tidak, coba bungkus dengan kurung siku (untuk objek tunggal)
        elif cleaned_text.startswith("{"):
            print(
                f"  DEBUG PARSE: Teks dimulai dengan '{{'. Mencoba parse sebagai objek JSON tunggal yang dibungkus array."
            )
            json_array_string = f"[{cleaned_text}]"
            return json.loads(json_array_string)
        else:
            print(
                f"  Peringatan: Format teks dalam file {file_path} tidak dikenali sebagai JSON. Konten tidak dimulai dengan '[' atau '{{'."
            )
            return []
    except FileNotFoundError:
        print(f"Peringatan: File tidak ditemukan di {file_path}")
        return []
    except json.JSONDecodeError as e:  # Tangkap error JSONDecodeError secara spesifik
        print(f"Peringatan: Gagal mem-parse JSON dari file {file_path}. Error: {e}")
        return []
    except Exception as e:
        print(f"Terjadi error tak terduga saat membaca {file_path}: {e}")
        return []


def create_retrieval_ground_truth(
    gt_directory: str, num_students: int, output_filename: str
):
    """
    Memproses semua file ground truth mahasiswa untuk membuat satu file JSON
    yang memetakan question_id ke daftar chunk_id yang relevan.
    """
    print(
        f"Memulai proses pembuatan ground truth dari {num_students} file mahasiswa..."
    )

    # Dictionary akhir untuk menyimpan ground truth
    final_ground_truth = {}

    for i in range(1, num_students + 1):
        student_id_str = f"M{i}"
        file_name = f"gt_mahasiswa{i}.docx"
        file_path = os.path.join(gt_directory, file_name)

        # Baca dan parse file docx
        student_data = read_and_parse_gt_docx(file_path)

        if not student_data:
            continue

        # Proses setiap entri (per pertanyaan) dalam data mahasiswa
        for entry in student_data:
            question_id = entry.get("question_id")
            retrieved_context = entry.get("retrieved_context")

            # Jika question_id sudah ada di hasil akhir, lewati.
            # Kita asumsikan ground truth untuk satu soal adalah sama untuk semua mahasiswa.
            if question_id and question_id not in final_ground_truth:
                if retrieved_context:
                    # Ekstrak chunk ID dari konteks
                    chunk_ids = extract_chunk_ids(retrieved_context)
                    final_ground_truth[question_id] = chunk_ids

    # Simpan hasil akhir ke file JSON
    try:
        with open(output_filename, "w", encoding="utf-8") as f:
            json.dump(final_ground_truth, f, ensure_ascii=False, indent=4)
        print(f"\nProses selesai. File '{output_filename}' berhasil dibuat.")
        print(
            f"Total {len(final_ground_truth)} ground truth untuk soal unik telah diekstrak."
        )
    except Exception as e:
        print(f"\nGagal menyimpan file JSON: {e}")

    return final_ground_truth


def create_answer_ground_truth(
    gt_directory: str, num_students: int, output_filename: str
):
    """
    Memproses semua file ground truth mahasiswa untuk membuat satu file JSON
    yang memetakan question_id ke teks jawaban ideal (gemini_evaluation).
    """
    print(
        f"Memulai proses pembuatan ground truth jawaban dari {num_students} file mahasiswa..."
    )

    # Dictionary akhir untuk menyimpan ground truth jawaban
    final_answer_gt = {}

    processed_files = 0
    for i in range(1, num_students + 1):
        file_name = f"gt_mahasiswa{i}.docx"
        file_path = os.path.join(gt_directory, file_name)

        if not os.path.exists(file_path):
            continue

        processed_files += 1
        student_data = read_and_parse_gt_docx(file_path)

        if not student_data:
            continue

        # Proses setiap entri (per pertanyaan) dalam data mahasiswa
        for entry in student_data:
            question_id = entry.get("question_id")
            gemini_eval_text = entry.get("gemini_evaluation")

            # Jika question_id sudah ada, lewati.
            # Asumsinya, jawaban ideal untuk satu soal adalah sama.
            if question_id and question_id not in final_answer_gt:
                if gemini_eval_text:
                    final_answer_gt[question_id] = gemini_eval_text

    # Simpan hasil akhir ke file JSON
    try:
        with open(output_filename, "w", encoding="utf-8") as f:
            json.dump(final_answer_gt, f, ensure_ascii=False, indent=4)
        print(f"\nProses selesai. File '{output_filename}' berhasil dibuat.")
        print(
            f"Total {processed_files} file diproses, {len(final_answer_gt)} ground truth jawaban unik diekstrak."
        )
    except Exception as e:
        print(f"\nGagal menyimpan file JSON: {e}")

    return final_answer_gt


def consolidate_all_ground_truths(
    gt_directory: str, num_students: int, output_filename: str
):
    print(f"Memulai proses konsolidasi dari {num_students} file...")
    print(f"Direktori Ground Truth yang dicek: {gt_directory}")

    all_gt_entries = []

    for i in tqdm(range(1, num_students + 1), desc="Menggabungkan File GT"):
        file_path = os.path.join(gt_directory, f"gt_mahasiswa{i}.docx")

        file_exists = os.path.exists(file_path)
        print(f"  Mengecek file: {file_path}, Ditemukan: {file_exists}")

        if file_exists:
            student_data = read_and_parse_gt_docx(file_path)
            print(
                f"  Hasil parsing dari '{os.path.basename(file_path)}': {len(student_data) if isinstance(student_data, list) else 'NOT A LIST'} entri."
            )  # <<< Perbaikan disini

            if student_data:
                all_gt_entries.extend(student_data)
            else:
                print(
                    f"  Peringatan: '{os.path.basename(file_path)}' dikembalikan data kosong setelah parsing."
                )

    try:
        with open(output_filename, "w", encoding="utf-8") as f:
            json.dump(all_gt_entries, f, ensure_ascii=False, indent=4)
        print(f"\nPROSES SELESAI. Berhasil menggabungkan {len(all_gt_entries)} entri.")
        print(f"Semua data disimpan di: '{output_filename}'")
    except Exception as e:
        print(f"\nGagal menyimpan file JSON gabungan: {e}")

### Data Chunking & Tokenisasi

In [7]:
# ==============================================================================
# BAGIAN 1.5: Data Chunking & Tokenisasi
# ==============================================================================


import json
import os
import re


import docx



print("Memuat dan memproses semua data awal...")



# A. Data Soal & Referensi


questions_raw_list = read_docx_by_delimiter(SOAL_DOC_PATH, r"====SOAL \d+====")


references_raw_list = read_docx_by_delimiter(REF_DOC_PATH, r"====SOAL \d+====")



question_data = []


for i, teks_soal in enumerate(questions_raw_list, start=1):


    soal = {"question_id": f"Q{i}", "question_text": teks_soal}


    question_data.append(soal)



# B. Data Kunci Jawaban


key_answers_data = []  #


for i in range(1, 6):  #


    key_doc_path = os.path.join(KEY_DIR_PATH, f"jwbDosen{i}.docx")  #


    if os.path.exists(key_doc_path):  #


        variations = read_docx_by_delimiter(key_doc_path, "====VAR====")  #


        for j, var_text in enumerate(variations):  #


            key_answers_data.append(
                {  #
                    "question_id": f"Q{i}",  #
                    "answer_id": f"Q{i}_KA{j+1}",  #
                    "text": preprocess_japanese_text(var_text),  #
                }
            )  #


print(f"Total {len(key_answers_data)} variasi kunci jawaban diproses.")  #



# C. Data Jawaban Mahasiswa


student_answers_data = []  #


for i in range(1, 44):  #


    student_doc_path = os.path.join(TEST_DIR_PATH, f"mahasiswa{i}.docx")  #


    if os.path.exists(student_doc_path):  #


        answers_list = read_docx_by_delimiter(student_doc_path, "====Jawaban====")  #


        if len(answers_list) != 5:  #
            print(

                f"Warning: Mahasiswa {i} memiliki {len(answers_list)} jawaban, diharapkan 5."
            )  #


        for q_idx, ans_text in enumerate(answers_list):  #
            student_answers_data.append(

                {  #
                    "student_id": f"M{i}",  #
                    "question_id": f"Q{q_idx+1}",  #
                    "original_text": ans_text,  #
                    "processed_text": preprocess_japanese_text(ans_text),  #
                }
            )  #


print(f"Total {len(student_answers_data)} jawaban siswa diproses.")  #



# --- BARU: Menyimpan Hasil Pra-pemrosesan ke File JSON ---


print("\nMenyimpan data yang telah diproses ke dalam file...")

# 4. Pembuatan Ground Truth
gt_folder_path = os.path.join(DATASET_PATH, "ground_truth")
output_consolidated_path = os.path.join(KB_PATH, "all_ground_truth.json")
total_mahasiswa = 43
print("\n--- Mengecek file 'all_ground_truth.json' ---")
if not os.path.exists(output_consolidated_path):
    print(f"File tidak ditemukan. Membuat '{output_consolidated_path}'...")
    # Panggil fungsi yang sesuai (asumsi sudah didefinisikan di sel sebelumnya)
    consolidate_all_ground_truths(
        gt_folder_path, total_mahasiswa, output_consolidated_path
    )
else:
    print(f"File '{output_consolidated_path}' sudah ada. Langkah dilewati.")



# Tentukan path untuk menyimpan file-file JSON di dalam folder KnowledgeBase


path_processed_questions = os.path.join(KB_PATH, "processed_questions.json")


path_processed_key_answers = os.path.join(KB_PATH, "processed_key_answers.json")


path_processed_student_answers = os.path.join(KB_PATH, "processed_student_answers.json")



# 1. Simpan data soal


with open(path_processed_questions, "w", encoding="utf-8") as f:


    json.dump(question_data, f, ensure_ascii=False, indent=4)


print(f"-> Data soal disimpan di: {path_processed_questions}")



# 2. Simpan data kunci jawaban


with open(path_processed_key_answers, "w", encoding="utf-8") as f:


    json.dump(key_answers_data, f, ensure_ascii=False, indent=4)


print(f"-> Data kunci jawaban disimpan di: {path_processed_key_answers}")



# 3. Simpan data jawaban mahasiswa


with open(path_processed_student_answers, "w", encoding="utf-8") as f:


    json.dump(student_answers_data, f, ensure_ascii=False, indent=4)


print(f"-> Data jawaban mahasiswa disimpan di: {path_processed_student_answers}")



print("\nSemua data hasil pra-pemrosesan telah berhasil disimpan.")

Memuat dan memproses semua data awal...
Total 18 variasi kunci jawaban diproses.
Total 215 jawaban siswa diproses.

Menyimpan data yang telah diproses ke dalam file...

--- Mengecek file 'all_ground_truth.json' ---
File 'information_file\KnowledgeBase\all_ground_truth.json' sudah ada. Langkah dilewati.
-> Data soal disimpan di: information_file\KnowledgeBase\processed_questions.json
-> Data kunci jawaban disimpan di: information_file\KnowledgeBase\processed_key_answers.json
-> Data jawaban mahasiswa disimpan di: information_file\KnowledgeBase\processed_student_answers.json

Semua data hasil pra-pemrosesan telah berhasil disimpan.


In [8]:
# --- 1.6. Pembuatan Knowledge Base (Chunking & FAISS Index) ---
print("Membuat Knowledge Base...")

knowledge_base_chunks = []
chunk_id_counter = 0

# Chunking referensi
for i, ref_text in enumerate(references_raw_list):
    processed_ref = preprocess_japanese_text(ref_text)
    words = processed_ref.split()
    for j in range(0, len(words), 40):  # Chunk size 50, overlap 10
        chunk_text = " ".join(words[j : j + 50])
        knowledge_base_chunks.append(
            {
                "chunk_id": f"KB{chunk_id_counter}",
                "text": chunk_text,
                "question_id": f"Q{i+1}",
                "type": "reference",
            }
        )
        chunk_id_counter += 1

# Menambahkan kunci jawaban ke KB
for ka_data in key_answers_data:
    knowledge_base_chunks.append(
        {
            "chunk_id": f"KB{chunk_id_counter}",
            "text": ka_data["text"],
            "question_id": ka_data["question_id"],
            "type": "key_answer",
        }
    )
    chunk_id_counter += 1

print(f"Knowledge Base dibuat dengan {len(knowledge_base_chunks)} chunk.")

Membuat Knowledge Base...
Knowledge Base dibuat dengan 293 chunk.


In [9]:
print(f"memulai penyimpanan Knowledge Base : ")
kb_texts = [chunk["text"] for chunk in knowledge_base_chunks]
kb_embeddings = get_embeddings(kb_texts)

embedding_dim = kb_embeddings.shape[1]

kbindex = faiss.IndexFlatL2(embedding_dim)
kbindex.add(kb_embeddings)

# Simpan artefak KB

faiss.write_index(kbindex, os.path.join(KB_PATH, "faiss_index.bin"))

with open(os.path.join(KB_PATH, "kb_metadata.json"), "w", encoding="utf-8") as f:

    json.dump(knowledge_base_chunks, f, ensure_ascii=False, indent=4)


print(f"Indeks FAISS dengan {kbindex.ntotal} vektor dan metadata disimpan.")

memulai penyimpanan Knowledge Base : 
Indeks FAISS dengan 293 vektor dan metadata disimpan.


## Pengetesan


### Membuat dataset pengetesan

In [10]:
import os
import json
from datasets import Dataset

# --- Konfigurasi Path ---
GROUND_TRUTH_DATA_FILE_PATH = os.path.join(KB_PATH, "all_ground_truth.json")

# --- Pemuatan Data dari JSON ---
print("Memuat data dari file JSON...")

# 1. Muat all_student_evaluations.json (Hasil Evaluasi Gemma)
EVALUATIONS_FILE = os.path.join(KB_PATH, "all_student_evaluations.json")
try:
    with open(EVALUATIONS_FILE, 'r', encoding='utf-8') as f:
        all_evaluations = json.load(f)
    print(f"-> Berhasil memuat '{os.path.basename(EVALUATIONS_FILE)}' ({len(all_evaluations)} siswa).")
except FileNotFoundError:
    print(f"ERROR: File '{EVALUATIONS_FILE}' tidak ditemukan. Pastikan Bagian 2 sudah dijalankan dan output tersimpan.")
    all_evaluations = {}

# 2. Muat processed_questions.json (Pertanyaan Asli)
QUESTIONS_FILE = os.path.join(KB_PATH, "processed_questions.json")
try:
    with open(QUESTIONS_FILE, 'r', encoding='utf-8') as f:
        question_data = json.load(f)
    question_map = {q["question_id"]: q["question_text"] for q in question_data}
    print(f"-> Berhasil memuat '{os.path.basename(QUESTIONS_FILE)}' ({len(question_map)} soal).")
except FileNotFoundError:
    print(f"ERROR: File '{QUESTIONS_FILE}' tidak ditemukan. Pastikan Bagian 1 sudah dijalankan.")
    question_map = {}

# 3. Muat all_ground_truth.json (Ground Truths Manual Anda)
your_manual_ground_truths_raw = []
ground_truth_map = {} 
try:
    with open(GROUND_TRUTH_DATA_FILE_PATH, 'r', encoding='utf-8') as f:
        your_manual_ground_truths_raw = json.load(f)
    print(f"-> Berhasil memuat '{os.path.basename(GROUND_TRUTH_DATA_FILE_PATH)}' ({len(your_manual_ground_truths_raw)} entri mentah).")
    
    if not isinstance(your_manual_ground_truths_raw, list):
        print("KRITIS: your_manual_ground_truths_raw BUKAN LIST! Tidak dapat memproses ground truths.")
        your_manual_ground_truths_raw = []
    
    for entry in your_manual_ground_truths_raw:
        if not isinstance(entry, dict):
            print(f"DEBUG: Entri ground truth bukan kamus, dilewati: {entry}")
            continue
            
        s_id = entry.get("student_id")
        q_id = entry.get("question_id")
        gt_text = entry.get("evaluation")

        if s_id and q_id and gt_text is not None:
            if s_id not in ground_truth_map:
                ground_truth_map[s_id] = {}
            ground_truth_map[s_id][q_id] = gt_text
        else:
            print(f"DEBUG: Entri ground truth tidak lengkap atau field 'gemma_evaluation' tidak ada. Dilewati: student_id={s_id}, question_id={q_id}, gt_text_exists={gt_text is not None}")
            
    if not ground_truth_map:
        print("PERINGATAN: Ground truths yang dimuat kosong setelah pemrosesan. Metrik yang memerlukan ground truths tidak dapat dihitung.")
except FileNotFoundError:
    print(f"ERROR: File '{GROUND_TRUTH_DATA_FILE_PATH}' tidak ditemukan.")
    print("Anda HARUS membuat file ground truths secara manual untuk evaluasi RAGAS yang lengkap.")
    ground_truth_map = {}


# --- Fungsi Pembantu: Memecah Konteks Gabungan menjadi List Konteks Individual ---
def split_combined_contexts(combined_context_str: str) -> list:
    """
    Memecah string konteks gabungan menjadi list konteks individual.
    Asumsi formatnya adalah "### Konteks N (Tipe: ...):\nKonten Konteks"
    """
    if not combined_context_str:
        return []
    
    # Regex untuk memisahkan berdasarkan delimiter konteks dan mengambil kontennya.
    # Kita akan membagi string berdasarkan pola delimiter, dan membuang bagian kosong.
    # Konten sebenarnya berada di antara delimiter.
    
    # Pola delimiter: "### Konteks [angka] (Tipe: [teks], ID: [angka]):\n"
    # Atau versi yang lebih fleksibel tergantung isi Tipe dan ID
    
    # Versi yang lebih sederhana dan kuat: pisahkan berdasarkan "### Konteks" dan kemudian proses setiap bagian.
    parts = re.split(r'(### Konteks \d+ \(Tipe:[^,]+, ID: \d+\):\n)', combined_context_str)
    
    individual_contexts = []
    current_context_content = []
    
    # Bagian pertama biasanya kosong atau sisa sebelum delimiter pertama
    # Kita ingin menggabungkan delimiter dengan kontennya
    for i, part in enumerate(parts):
        if not part.strip(): # Skip empty parts
            continue
        
        # Jika ini adalah delimiter, simpan sebagai bagian dari konteks berikutnya
        if part.startswith('### Konteks'):
            # Jika ada konten sebelumnya yang belum disimpan, simpan sebagai konteks terpisah
            if current_context_content:
                individual_contexts.append("".join(current_context_content).strip())
                current_context_content = []
            current_context_content.append(part)
        else:
            current_context_content.append(part)
            
    if current_context_content: # Add the last collected context
        individual_contexts.append("".join(current_context_content).strip())

    # Jika semua gagal, atau string tidak terformat, kembalikan string utuh sebagai satu elemen list
    if not individual_contexts and combined_context_str:
        return [combined_context_str]
    
    return individual_contexts


# --- Membangun List Data untuk Dataset RAGAS ---
print("\nMembangun data untuk Dataset RAGAS...")
data_for_ragas = []

if all_evaluations: 
    for student_id, student_evals in all_evaluations.items():
        for question_id, eval_content in student_evals.items():
            
            ground_truth_text_found = ground_truth_map.get(student_id, {}).get(question_id, "")
            
            if not ground_truth_text_found:
                print(f"PERINGATAN: Ground truth tidak ditemukan untuk {student_id}-{question_id} di all_ground_truth.json. Entri ini akan memiliki ground truth kosong.")
            
            # Memecah string konteks gabungan menjadi list konteks individual
            combined_context_str = eval_content.get("retrieved_context", "")
            individual_contexts_list = split_combined_contexts(combined_context_str)
            
            # Jika setelah pemisahan listnya kosong, pastikan tetap ada 1 string kosong
            if not individual_contexts_list:
                individual_contexts_list = [""] # Pastikan ini list, minimal 1 string kosong

            data_for_ragas.append({
                "question": question_map.get(question_id, "N/A"),
                # >>> KOREKSI: 'answer' harus string tunggal
                "answer": eval_content.get("gemma_evaluation", ""), 
                "contexts": individual_contexts_list, # <<< KOREKSI: Ini sekarang list dari string individual
                # >>> KOREKSI: 'ground_truths' harus string tunggal
                "ground_truths": ground_truth_text_found, 
                # >>> KOREKSI: 'reference' harus string tunggal
                "reference": ground_truth_text_found, 
            })
else:
    print("Tidak ada data evaluasi yang valid untuk dibangun menjadi Dataset RAGAS.")

# --- Mengonversi ke datasets.Dataset ---
if data_for_ragas:
    ragas_dataset = Dataset.from_list(data_for_ragas)
    print(f"\nDataset RAGAS berhasil dibuat dengan {len(ragas_dataset)} entri.")
    print("Contoh entri pertama dataset RAGAS:")
    print(ragas_dataset[0])
else:
    print("Dataset RAGAS tidak dibuat karena tidak ada data yang valid.")
    ragas_dataset = None 

# --- Variabel Tambahan (jika Anda ingin memuatnya juga, sesuai permintaan awal) ---
# Ini tidak langsung digunakan oleh ragas.evaluate(), tapi mungkin berguna untuk analisis lain.
KEY_ANSWERS_FILE = os.path.join(KB_PATH, "processed_key_answers.json")
processed_key_answers = []
try:
    with open(KEY_ANSWERS_FILE, 'r', encoding='utf-8') as f:
        processed_key_answers = json.load(f)
    print(f"-> Berhasil memuat '{os.path.basename(KEY_ANSWERS_FILE)}'.")
except FileNotFoundError:
    print(f"PERINGATAN: File '{KEY_ANSWERS_FILE}' tidak ditemukan.")

STUDENT_ANSWERS_FILE = os.path.join(KB_PATH, "processed_student_answers.json")
processed_student_answers = []
try:
    with open(STUDENT_ANSWERS_FILE, 'r', encoding='utf-8') as f:
        processed_student_answers = json.load(f)
    print(f"-> Berhasil memuat '{os.path.basename(STUDENT_ANSWERS_FILE)}'.")
except FileNotFoundError:
    print(f"PERINGATAN: File '{STUDENT_ANSWERS_FILE}' tidak ditemukan.")


print("\n--- Selesai Blok Kode 1 ---")

Memuat data dari file JSON...
-> Berhasil memuat 'all_student_evaluations.json' (43 siswa).
-> Berhasil memuat 'processed_questions.json' (5 soal).
-> Berhasil memuat 'all_ground_truth.json' (215 entri mentah).

Membangun data untuk Dataset RAGAS...

Dataset RAGAS berhasil dibuat dengan 215 entri.
Contoh entri pertama dataset RAGAS:
{'question': '2020年東京オリンピックのマスコットはどうやって決められ？\\n', 'answer': 'Baik, mari kita evaluasi esai siswa ini. Berikut adalah penilaian saya:\n\n**1. Koreksi Tata Bahasa:** [Berikan versi yang dikoreksi dan jelaskan kesalahannya.]\n\n*   **Kesalahan:**  Beberapa bagian tata bahasa masih kurang lancar dan memerlukan perbaikan. Misalnya, "が東京オリンピックのマスコットに決められました" (kaji Tokyo olympik no mascoto ni kimieraremashita)  ada kesalahan penulisan (masculate) pada "が" (ga) dan "に" (ni) yang seharusnya "は" (wa).\n*   **Penjelasan:**  Perbaikan yang paling mendasar adalah memperbaiki kesalahan penulisan "が" dan "に" dalam kalimat tersebut.  Pilihan kata yang lebih tepat dan jelas

In [11]:
# --- Blok Kode Tambahan: Menyimpan ragas_dataset ke CSV ---

print("\n--- Menyimpan Dataset RAGAS ke file CSV ---")

if ragas_dataset is not None:
    # Konversi ragas_dataset (objek datasets.Dataset) ke Pandas DataFrame
    df_ragas = ragas_dataset.to_pandas()

    # Tentukan nama file CSV
    # Anda bisa menyesuaikan nama file dan lokasi jika diperlukan
    ragas_csv_filename = os.path.join(KB_PATH, "ragas_dataset_full.csv")

    # Simpan DataFrame ke CSV
    # encoding='utf-8' penting untuk karakter non-ASCII (misalnya Jepang)
    df_ragas.to_csv(ragas_csv_filename, index=False, encoding='utf-8')
    print(f"Dataset RAGAS berhasil disimpan ke: {ragas_csv_filename}")
else:
    print("Dataset RAGAS kosong atau tidak valid, tidak dapat disimpan ke CSV.")

# --- Selesai Blok Kode Tambahan ---


--- Menyimpan Dataset RAGAS ke file CSV ---
Dataset RAGAS berhasil disimpan ke: information_file\KnowledgeBase\ragas_dataset_full.csv


In [None]:
# # --- Blok Kode 2: Melakukan Pengetesan RAGAS ---

# # Pastikan Anda sudah menginstal pustaka yang diperlukan:
# # pip install ragas datasets pandas matplotlib seaborn langchain-community
# # (Biasanya sudah diinstal jika Anda mengikuti panduan Bagian 3 sebelumnya)

# # Untuk penggunaan lokal dengan Ollama:
# # Pastikan Ollama server sedang berjalan di komputer Anda
# # Pastikan Anda sudah menjalankan: ollama pull llama3
# # Pastikan Anda sudah menjalankan: ollama pull nomic-embed-text

# import pandas as pd
# import numpy as np
# import matplotlib.pyplot as plt
# import seaborn as sns
# import torch # Diperlukan oleh ragas/langchain untuk device handling

# from ragas import evaluate
# from ragas.metrics import (
#     faithfulness,
#     answer_relevancy,
#     context_recall,
#     context_precision,
#     answer_correctness, # Memerlukan ground_truths
#     answer_similarity,  # Memerlukan ground_truths
# )
# # Impor spesifik untuk Ollama via Langchain
# from langchain_community.llms import Ollama
# from langchain_community.embeddings import OllamaEmbeddings
# from ragas.llms import LangchainLLMWrapper
# from ragas.embeddings import LangchainEmbeddingsWrapper


# # --- Inisialisasi Model LLM dan Embeddings untuk RAGAS (Ollama sebagai Judge) ---
# print("\n--- Inisialisasi Model LLM (Llama3) dan Embeddings (Nomic-embed-text) dari Ollama sebagai Judge RAGAS ---")

# # Inisialisasi klien LLM Ollama
# ollama_llm_judge = Ollama(model="llama3", temperature=0.0) # temperature=0.0 untuk hasil yang lebih deterministik
# ragas_llm_for_evaluation = LangchainLLMWrapper(ollama_llm_judge)
# print("LLM judge (Ollama Llama3) untuk RAGAS berhasil diinisialisasi.")

# # Inisialisasi klien Embeddings Ollama
# ollama_embeddings_judge = OllamaEmbeddings(model="nomic-embed-text")
# ragas_embeddings_for_evaluation = LangchainEmbeddingsWrapper(ollama_embeddings_judge)
# print("Embedding judge (Ollama Nomic-embed-text) untuk RAGAS berhasil diinisialisasi.")


# # --- Melakukan Perhitungan Metrik RAGAS ---
# if ragas_dataset is not None and len(ragas_dataset) > 0: # Pastikan dataset tidak kosong
#     print("\n--- Memulai perhitungan metrik RAGAS ---")
    
#     # Tentukan metrik yang akan dievaluasi
#     metrics = [
#         faithfulness,
#         answer_relevancy,
#         context_precision,
#         context_recall,         # Memerlukan ground_truths
#         answer_correctness,     # Memerlukan ground_truths
#         answer_similarity,      # Memerlukan ground_truths
#     ]

#     # Jalankan evaluasi RAGAS
#     result = evaluate(
#         dataset=ragas_dataset, 
#         metrics=metrics,
#         llm=ragas_llm_for_evaluation,
#         embeddings=ragas_embeddings_for_evaluation,
#     )

#     print("\n--- Hasil Metrik RAGAS ---")
#     print(result)

#     # Konversi hasil ke Pandas DataFrame untuk analisis lebih lanjut
#     df_result = result.to_dataframe()
#     print("\nDataFrame Hasil RAGAS (Beberapa Baris Pertama):")
#     print(df_result.head())

#     # --- Analisis dan Visualisasi Hasil RAGAS ---
#     print("\n--- Melakukan analisis dan visualisasi hasil RAGAS ---")

#     # Visualisasi rata-rata metrik
#     # Pastikan kolom metrik ada sebelum menghitung mean
#     available_metrics_in_df = [m.name for m in metrics if m.name in df_result.columns]
#     avg_metrics = df_result[available_metrics_in_df].mean()
#     print("\nRata-rata Metrik RAGAS:")
#     print(avg_metrics)

#     plt.figure(figsize=(12, 7))
#     sns.barplot(x=avg_metrics.index, y=avg_metrics.values, palette="viridis")
#     plt.title('Rata-rata Metrik RAGAS')
#     plt.ylabel('Skor')
#     plt.ylim(0, 1)
#     plt.grid(axis='y', linestyle='--')
#     plt.show()

#     # Visualisasi distribusi skor per metrik (histogram)
#     for metric_name in available_metrics_in_df:
#         plt.figure(figsize=(10, 6))
#         sns.histplot(df_result[metric_name].dropna(), bins=10, kde=True) 
#         plt.title(f'Distribusi Skor {metric_name}')
#         plt.xlabel('Skor')
#         plt.ylabel('Frekuensi')
#         plt.grid(axis='y', linestyle='--')
#         plt.show()

#     # --- Analisis Waktu Proses (tambahan dari all_evaluations) ---
#     print("\n--- Analisis Waktu Proses Evaluasi (dari all_student_evaluations.json) ---")
#     process_times = []
#     if all_evaluations:
#         for student_id, student_evals in all_evaluations.items():
#             for question_id, eval_content in student_evals.items():
#                 if "process_time_seconds" in eval_content:
#                     process_times.append(eval_content["process_time_seconds"])

#     if process_times:
#         print(f"Total {len(process_times)} entri waktu proses ditemukan.")
#         print(f"Waktu proses rata-rata (Generasi Gemma + Retrieval): {np.mean(process_times):.2f} detik")
#         print(f"Waktu proses minimal: {np.min(process_times):.2f} detik")
#         print(f"Waktu proses maksimal: {np.max(process_times):.2f} detik")
#         print(f"Standar Deviasi waktu proses: {np.std(process_times):.2f} detik")

#         plt.figure(figsize=(10, 6))
#         sns.histplot(process_times, bins=20, kde=True, color='purple')
#         plt.title('Distribusi Waktu Proses Evaluasi per Jawaban (Retrieval + Gemma Gen)')
#         plt.xlabel('Waktu Proses (detik)')
#         plt.ylabel('Frekuensi')
#         plt.grid(axis='y', linestyle='--')
#         plt.show()
#     else:
#         print("Tidak ada data waktu proses untuk dianalisis (field 'process_time_seconds' tidak ditemukan atau data evaluasi kosong).")

# else:
#     print("Tidak ada evaluasi RAGAS yang dilakukan karena dataset kosong atau tidak valid.")

# print("\n--- Selesai Blok Kode 2 ---")

### faithfulness (Kesetiaan/Kepercayaan)
Variabel yang Digunakan: answer, contexts.
Mekanisme Pengetesan:
Ekstraksi Klaim: LLM hakim (Llama3) membaca answer (evaluasi Gemma) dan mengekstrak klaim atau pernyataan faktual yang dibuat di dalamnya.
Verifikasi Klaim: Untuk setiap klaim yang diekstrak, LLM hakim memeriksa apakah klaim tersebut dapat diverifikasi atau didukung oleh informasi yang ada di dalam contexts yang diambil.
Perhitungan Skor: Skor dihitung sebagai rasio klaim yang terverifikasi terhadap total klaim yang diekstrak.

In [None]:
# --- Blok Kode 1/6: Evaluasi Metrik faithfulness ---

# Pastikan semua library sudah terinstal:
# pip install ragas datasets pandas matplotlib seaborn langchain-community

# Pastikan Ollama server berjalan di komputer Anda
# Pastikan Anda sudah menjalankan: ollama pull llama3
# Pastikan Anda sudah menjalankan: ollama pull nomic-embed-text

# Import yang diperlukan untuk RAGAS, Ollama, plotting
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
from ragas import evaluate
from ragas.metrics import faithfulness # Import spesifik untuk metrik ini
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings import LangchainEmbeddingsWrapper
from datasets import Dataset # Untuk memastikan ragas_dataset dikenali
import random # <<< Tambahkan import ini untuk random sampling

# --- PENTING: Pastikan 'ragas_dataset' dan 'KB_PATH' tersedia dari 'Blok Kode 1' sebelumnya ---
if 'ragas_dataset' not in locals() or ragas_dataset is None:
    print("ERROR: 'ragas_dataset' tidak ditemukan. Harap jalankan 'Blok Kode 1' terlebih dahulu.")
else:
    # Definisi folder output
    CSV_OUTPUT_FOLDER = os.path.join(KB_PATH, "RAGAS_Metric_CSVs")
    os.makedirs(CSV_OUTPUT_FOLDER, exist_ok=True)

    # Inisialisasi Model LLM dan Embeddings untuk RAGAS (Ollama sebagai Judge)
    ollama_llm_judge = Ollama(model="llama3", temperature=0.0)
    ragas_llm_for_evaluation = LangchainLLMWrapper(ollama_llm_judge)
    ollama_embeddings_judge = OllamaEmbeddings(model="nomic-embed-text")
    ragas_embeddings_for_evaluation = LangchainEmbeddingsWrapper(ollama_embeddings_judge)

    # Jalankan evaluasi untuk metrik tunggal ini
    metric_to_evaluate = faithfulness # Metrik faithfulness

    # --- MODIFIKASI: Ambil 5 data secara random ---
    num_samples = 1
    
    if len(ragas_dataset) < num_samples:
        print(f"PERINGATAN: Jumlah data ({len(ragas_dataset)}) kurang dari jumlah sampel yang diminta ({num_samples}). Mengevaluasi semua data yang tersedia.")
        sampled_dataset = ragas_dataset
    else:
        # Hasilkan indeks acak unik
        random_indices = random.sample(range(len(ragas_dataset)), num_samples)
        # Pilih subset dataset berdasarkan indeks acak
        sampled_dataset = ragas_dataset.select(random_indices)
        print(f"\n--- Mengevaluasi {num_samples} data acak untuk metrik RAGAS: {metric_to_evaluate.name} ---")

    if sampled_dataset is not None and len(sampled_dataset) > 0:
        result_single_metric = evaluate(
            dataset=sampled_dataset, # <<< Gunakan sampled_dataset di sini
            metrics=[metric_to_evaluate], # Hanya metrik ini yang dievaluasi
            llm=ragas_llm_for_evaluation,
            embeddings=ragas_embeddings_for_evaluation,
        )

        print(f"\n--- Hasil Metrik RAGAS untuk {metric_to_evaluate.name} ---")
        print(result_single_metric)

        df_single_metric = result_single_metric.to_dataframe()
        print(f"\nDataFrame Hasil {metric_to_evaluate.name} (Beberapa Baris Pertama):")
        print(df_single_metric.head())

        # Simpan hasil ke CSV
        csv_filename = os.path.join(CSV_OUTPUT_FOLDER, f"{metric_to_evaluate.name}_scores.csv")
        df_single_metric.to_csv(csv_filename, index=False, encoding='utf-8')
        print(f"  Berhasil menyimpan '{metric_to_evaluate.name}' ke: {csv_filename}")

        # Visualisasi untuk metrik tunggal ini
        plt.figure(figsize=(8, 5))
        sns.histplot(df_single_metric[metric_to_evaluate.name].dropna(), bins=10, kde=True)
        plt.title(f'Distribusi Skor {metric_to_evaluate.name}')
        plt.xlabel('Skor')
        plt.ylabel('Frekuensi')
        plt.grid(axis='y', linestyle='--')
        plt.show()

        print(f"\n--- Selesai Evaluasi {metric_to_evaluate.name} ---")
    else:
        print(f"Tidak ada data yang valid untuk dievaluasi untuk metrik {metric_to_evaluate.name}.")

  ollama_llm_judge = Ollama(model="llama3", temperature=0.0)
  ollama_embeddings_judge = OllamaEmbeddings(model="nomic-embed-text")



--- Mengevaluasi 1 data acak untuk metrik RAGAS: faithfulness ---


Evaluating:   0%|          | 0/1 [00:00<?, ?it/s]

Exception raised in Job[0]: TimeoutError()



--- Hasil Metrik RAGAS untuk faithfulness ---
{'faithfulness': nan}


AttributeError: 'EvaluationResult' object has no attribute 'to_dataframe'

### answer_relevancy (Relevansi Jawaban)
Variabel yang Digunakan: question, answer.
Mekanisme Pengetesan:
Generasi Pertanyaan: LLM hakim (Llama3) membaca answer (evaluasi Gemma) dan menghasilkan beberapa pertanyaan hipotetis yang dapat dijawab oleh answer tersebut.
Penilaian Relevansi: LLM hakim kemudian menilai seberapa relevan dan mirip pertanyaan-pertanyaan yang dihasilkan ini dengan question asli yang diajukan (soal). Jika evaluasi Gemma membahas hal-hal yang tidak relevan dengan pertanyaan soal, pertanyaan hipotetis akan menyimpang dari soal asli.

In [None]:
# --- Blok Kode 2/6: Evaluasi Metrik answer_relevancy ---

# Import yang diperlukan untuk RAGAS, Ollama, plotting
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
from ragas import evaluate
from ragas.metrics import answer_relevancy # Import spesifik untuk metrik ini
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings import LangchainEmbeddingsWrapper
from datasets import Dataset

if 'ragas_dataset' not in locals() or ragas_dataset is None:
    print("ERROR: 'ragas_dataset' tidak ditemukan. Harap jalankan 'Blok Kode 1' terlebih dahulu.")
else:
    CSV_OUTPUT_FOLDER = os.path.join(KB_PATH, "RAGAS_Metric_CSVs")
    os.makedirs(CSV_OUTPUT_FOLDER, exist_ok=True)

    ollama_llm_judge = Ollama(model="llama3", temperature=0.0)
    ragas_llm_for_evaluation = LangchainLLMWrapper(ollama_llm_judge)
    ollama_embeddings_judge = OllamaEmbeddings(model="nomic-embed-text")
    ragas_embeddings_for_evaluation = LangchainEmbeddingsWrapper(ollama_embeddings_judge)

    metric_to_evaluate = answer_relevancy # Metrik answer_relevancy

    print(f"\n--- Memulai perhitungan metrik RAGAS: {metric_to_evaluate.name} ---")

    result_single_metric = evaluate(
        dataset=ragas_dataset,
        metrics=[metric_to_evaluate],
        llm=ragas_llm_for_evaluation,
        embeddings=ragas_embeddings_for_evaluation,
    )

    print(f"\n--- Hasil Metrik RAGAS untuk {metric_to_evaluate.name} ---")
    print(result_single_metric)

    df_single_metric = result_single_metric.to_dataframe()
    print(f"\nDataFrame Hasil {metric_to_evaluate.name} (Beberapa Baris Pertama):")
    print(df_single_metric.head())

    csv_filename = os.path.join(CSV_OUTPUT_FOLDER, f"{metric_to_evaluate.name}_scores.csv")
    df_single_metric.to_csv(csv_filename, index=False, encoding='utf-8')
    print(f"  Berhasil menyimpan '{metric_to_evaluate.name}' ke: {csv_filename}")

    plt.figure(figsize=(8, 5))
    sns.histplot(df_single_metric[metric_to_evaluate.name].dropna(), bins=10, kde=True)
    plt.title(f'Distribusi Skor {metric_to_evaluate.name}')
    plt.xlabel('Skor')
    plt.ylabel('Frekuensi')
    plt.grid(axis='y', linestyle='--')
    plt.show()

    print(f"\n--- Selesai Evaluasi {metric_to_evaluate.name} ---")

### context_precision (Presisi Konteks)
Variabel yang Digunakan: question, contexts.

Mekanisme Pengetesan:

Penilaian Relevansi Kalimat: LLM hakim (Llama3) membaca question asli dan setiap kalimat dalam contexts yang diambil. Untuk setiap kalimat di contexts, LLM menilai apakah kalimat tersebut relevan dengan question.

Perhitungan Skor: Skor dihitung sebagai rasio kalimat yang relevan dari contexts terhadap total kalimat di contexts.

In [None]:
# --- Blok Kode 3/6: Evaluasi Metrik context_precision ---

# Import yang diperlukan untuk RAGAS, Ollama, plotting
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
from ragas import evaluate
from ragas.metrics import context_precision # Import spesifik untuk metrik ini
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings import LangchainEmbeddingsWrapper
from datasets import Dataset

if 'ragas_dataset' not in locals() or ragas_dataset is None:
    print("ERROR: 'ragas_dataset' tidak ditemukan. Harap jalankan 'Blok Kode 1' terlebih dahulu.")
else:
    CSV_OUTPUT_FOLDER = os.path.join(KB_PATH, "RAGAS_Metric_CSVs")
    os.makedirs(CSV_OUTPUT_FOLDER, exist_ok=True)

    ollama_llm_judge = Ollama(model="llama3", temperature=0.0)
    ragas_llm_for_evaluation = LangchainLLMWrapper(ollama_llm_judge)
    ollama_embeddings_judge = OllamaEmbeddings(model="nomic-embed-text")
    ragas_embeddings_for_evaluation = LangchainEmbeddingsWrapper(ollama_embeddings_judge)

    metric_to_evaluate = context_precision # Metrik context_precision

    print(f"\n--- Memulai perhitungan metrik RAGAS: {metric_to_evaluate.name} ---")

    result_single_metric = evaluate(
        dataset=ragas_dataset,
        metrics=[metric_to_evaluate],
        llm=ragas_llm_for_evaluation,
        embeddings=ragas_embeddings_for_evaluation,
    )

    print(f"\n--- Hasil Metrik RAGAS untuk {metric_to_evaluate.name} ---")
    print(result_single_metric)

    df_single_metric = result_single_metric.to_dataframe()
    print(f"\nDataFrame Hasil {metric_to_evaluate.name} (Beberapa Baris Pertama):")
    print(df_single_metric.head())

    csv_filename = os.path.join(CSV_OUTPUT_FOLDER, f"{metric_to_evaluate.name}_scores.csv")
    df_single_metric.to_csv(csv_filename, index=False, encoding='utf-8')
    print(f"  Berhasil menyimpan '{metric_to_evaluate.name}' ke: {csv_filename}")

    plt.figure(figsize=(8, 5))
    sns.histplot(df_single_metric[metric_to_evaluate.name].dropna(), bins=10, kde=True)
    plt.title(f'Distribusi Skor {metric_to_evaluate.name}')
    plt.xlabel('Skor')
    plt.ylabel('Frekuensi')
    plt.grid(axis='y', linestyle='--')
    plt.show()

    print(f"\n--- Selesai Evaluasi {metric_to_evaluate.name} ---")

### context_recall (Rekol Konteks)
Variabel yang Digunakan: ground_truths, contexts.

Mekanisme Pengetesan:

Ekstraksi Informasi Penting: LLM hakim (Llama3) membaca ground_truths (evaluasi ideal manual Anda) dan mengekstrak semua informasi penting atau kritis yang seharusnya ada di dalam konteks yang diambil.

Verifikasi Kehadiran: LLM hakim kemudian memeriksa apakah informasi penting yang diekstraksi dari ground_truths ini benar-benar ada di dalam contexts yang diambil.

Perhitungan Skor: Skor dihitung sebagai rasio informasi penting yang ditemukan di contexts terhadap total informasi penting dari ground_truths.

In [None]:
# --- Blok Kode 4/6: Evaluasi Metrik context_recall ---

# Import yang diperlukan untuk RAGAS, Ollama, plotting
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
from ragas import evaluate
from ragas.metrics import context_recall # Import spesifik untuk metrik ini
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings import LangchainEmbeddingsWrapper
from datasets import Dataset

if 'ragas_dataset' not in locals() or ragas_dataset is None:
    print("ERROR: 'ragas_dataset' tidak ditemukan. Harap jalankan 'Blok Kode 1' terlebih dahulu.")
else:
    CSV_OUTPUT_FOLDER = os.path.join(KB_PATH, "RAGAS_Metric_CSVs")
    os.makedirs(CSV_OUTPUT_FOLDER, exist_ok=True)

    ollama_llm_judge = Ollama(model="llama3", temperature=0.0)
    ragas_llm_for_evaluation = LangchainLLMWrapper(ollama_llm_judge)
    ollama_embeddings_judge = OllamaEmbeddings(model="nomic-embed-text")
    ragas_embeddings_for_evaluation = LangchainEmbeddingsWrapper(ollama_embeddings_judge)

    metric_to_evaluate = context_recall # Metrik context_recall

    print(f"\n--- Memulai perhitungan metrik RAGAS: {metric_to_evaluate.name} ---")

    result_single_metric = evaluate(
        dataset=ragas_dataset,
        metrics=[metric_to_evaluate],
        llm=ragas_llm_for_evaluation,
        embeddings=ragas_embeddings_for_evaluation,
    )

    print(f"\n--- Hasil Metrik RAGAS untuk {metric_to_evaluate.name} ---")
    print(result_single_metric)

    df_single_metric = result_single_metric.to_dataframe()
    print(f"\nDataFrame Hasil {metric_to_evaluate.name} (Beberapa Baris Pertama):")
    print(df_single_metric.head())

    csv_filename = os.path.join(CSV_OUTPUT_FOLDER, f"{metric_to_evaluate.name}_scores.csv")
    df_single_metric.to_csv(csv_filename, index=False, encoding='utf-8')
    print(f"  Berhasil menyimpan '{metric_to_evaluate.name}' ke: {csv_filename}")

    plt.figure(figsize=(8, 5))
    sns.histplot(df_single_metric[metric_to_evaluate.name].dropna(), bins=10, kde=True)
    plt.title(f'Distribusi Skor {metric_to_evaluate.name}')
    plt.xlabel('Skor')
    plt.ylabel('Frekuensi')
    plt.grid(axis='y', linestyle='--')
    plt.show()

    print(f"\n--- Selesai Evaluasi {metric_to_evaluate.name} ---")

### answer_correctness (Kebenaran Jawaban)
Variabel yang Digunakan: answer, ground_truths, question.

Mekanisme Pengetesan:

Generasi Pertanyaan: LLM hakim (Llama3) membaca answer (evaluasi Gemma) dan ground_truths (evaluasi ideal manual Anda) dan menghasilkan serangkaian pertanyaan yang dapat dijawab oleh keduanya.

Perbandingan Jawaban: Untuk setiap pertanyaan, LLM hakim akan "menjawab" pertanyaan tersebut menggunakan answer dan ground_truths secara terpisah.

Penilaian Kebenaran: LLM hakim kemudian membandingkan jawaban-jawaban yang dihasilkan dan menilai seberapa benar dan akurat answer (evaluasi Gemma) secara faktual atau logis jika dibandingkan dengan ground_truths (evaluasi ideal manual Anda). Metrik ini seringkali menggunakan embedding (Nomic-embed-text) untuk membandingkan kemiripan semantik antara jawaban yang dihasilkan dari answer dan ground_truths.

In [None]:
# --- Blok Kode 5/6: Evaluasi Metrik answer_correctness ---

# Import yang diperlukan untuk RAGAS, Ollama, plotting
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
from ragas import evaluate
from ragas.metrics import answer_correctness # Import spesifik untuk metrik ini
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings import LangchainEmbeddingsWrapper
from datasets import Dataset

if 'ragas_dataset' not in locals() or ragas_dataset is None:
    print("ERROR: 'ragas_dataset' tidak ditemukan. Harap jalankan 'Blok Kode 1' terlebih dahulu.")
else:
    CSV_OUTPUT_FOLDER = os.path.join(KB_PATH, "RAGAS_Metric_CSVs")
    os.makedirs(CSV_OUTPUT_FOLDER, exist_ok=True)

    ollama_llm_judge = Ollama(model="llama3", temperature=0.0)
    ragas_llm_for_evaluation = LangchainLLMWrapper(ollama_llm_judge)
    ollama_embeddings_judge = OllamaEmbeddings(model="nomic-embed-text")
    ragas_embeddings_for_evaluation = LangchainEmbeddingsWrapper(ollama_embeddings_judge)

    metric_to_evaluate = answer_correctness # Metrik answer_correctness

    print(f"\n--- Memulai perhitungan metrik RAGAS: {metric_to_evaluate.name} ---")

    result_single_metric = evaluate(
        dataset=ragas_dataset,
        metrics=[metric_to_evaluate],
        llm=ragas_llm_for_evaluation,
        embeddings=ragas_embeddings_for_evaluation,
    )

    print(f"\n--- Hasil Metrik RAGAS untuk {metric_to_evaluate.name} ---")
    print(result_single_metric)

    df_single_metric = result_single_metric.to_dataframe()
    print(f"\nDataFrame Hasil {metric_to_evaluate.name} (Beberapa Baris Pertama):")
    print(df_single_metric.head())

    csv_filename = os.path.join(CSV_OUTPUT_FOLDER, f"{metric_to_evaluate.name}_scores.csv")
    df_single_metric.to_csv(csv_filename, index=False, encoding='utf-8')
    print(f"  Berhasil menyimpan '{metric_to_evaluate.name}' ke: {csv_filename}")

    plt.figure(figsize=(8, 5))
    sns.histplot(df_single_metric[metric_to_evaluate.name].dropna(), bins=10, kde=True)
    plt.title(f'Distribusi Skor {metric_to_evaluate.name}')
    plt.xlabel('Skor')
    plt.ylabel('Frekuensi')
    plt.grid(axis='y', linestyle='--')
    plt.show()

    print(f"\n--- Selesai Evaluasi {metric_to_evaluate.name} ---")

### answer_similarity (Kemiripan Jawaban)
Variabel yang Digunakan: answer, ground_truths.

Mekanisme Pengetesan:

Generasi Embedding: Model embedding hakim (Nomic-embed-text) menghasilkan vektor embedding untuk answer (evaluasi Gemma) dan untuk ground_truths (evaluasi ideal manual Anda).

Perhitungan Kesamaan: RAGAS kemudian menghitung kemiripan kosinus antara kedua vektor embedding ini.

In [None]:
# --- Blok Kode 6/6: Evaluasi Metrik answer_similarity ---

# Import yang diperlukan untuk RAGAS, Ollama, plotting
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
from ragas import evaluate
from ragas.metrics import answer_similarity # Import spesifik untuk metrik ini
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings import LangchainEmbeddingsWrapper
from datasets import Dataset

if 'ragas_dataset' not in locals() or ragas_dataset is None:
    print("ERROR: 'ragas_dataset' tidak ditemukan. Harap jalankan 'Blok Kode 1' terlebih dahulu.")
else:
    CSV_OUTPUT_FOLDER = os.path.join(KB_PATH, "RAGAS_Metric_CSVs")
    os.makedirs(CSV_OUTPUT_FOLDER, exist_ok=True)

    ollama_llm_judge = Ollama(model="llama3", temperature=0.0)
    ragas_llm_for_evaluation = LangchainLLMWrapper(ollama_llm_judge)
    ollama_embeddings_judge = OllamaEmbeddings(model="nomic-embed-text")
    ragas_embeddings_for_evaluation = LangchainEmbeddingsWrapper(ollama_embeddings_judge)

    metric_to_evaluate = answer_similarity # Metrik answer_similarity

    print(f"\n--- Memulai perhitungan metrik RAGAS: {metric_to_evaluate.name} ---")

    result_single_metric = evaluate(
        dataset=ragas_dataset,
        metrics=[metric_to_evaluate],
        llm=ragas_llm_for_evaluation,
        embeddings=ragas_embeddings_for_evaluation,
    )

    print(f"\n--- Hasil Metrik RAGAS untuk {metric_to_evaluate.name} ---")
    print(result_single_metric)

    df_single_metric = result_single_metric.to_dataframe()
    print(f"\nDataFrame Hasil {metric_to_evaluate.name} (Beberapa Baris Pertama):")
    print(df_single_metric.head())

    csv_filename = os.path.join(CSV_OUTPUT_FOLDER, f"{metric_to_evaluate.name}_scores.csv")
    df_single_metric.to_csv(csv_filename, index=False, encoding='utf-8')
    print(f"  Berhasil menyimpan '{metric_to_evaluate.name}' ke: {csv_filename}")

    plt.figure(figsize=(8, 5))
    sns.histplot(df_single_metric[metric_to_evaluate.name].dropna(), bins=10, kde=True)
    plt.title(f'Distribusi Skor {metric_to_evaluate.name}')
    plt.xlabel('Skor')
    plt.ylabel('Frekuensi')
    plt.grid(axis='y', linestyle='--')
    plt.show()

    print(f"\n--- Selesai Evaluasi {metric_to_evaluate.name} ---")

In [None]:
# import os

# os.environ["GOOGLE_API_KEY"] = (
#     "AIzaSyBugp7k5cDtx06tp5DEU0ieL3gNXbyVivY"  # From https://ai.google.dev/
# )
# os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "path/to/service-account.json"

In [None]:
# config = {
#     "model": "gemini-2.5-pro",  # or other model IDs
#     "temperature": 0.4,
#     "max_tokens": 512,
#     "top_p": 0.8,
# }

# from ragas.llms import LangchainLLMWrapper
# from ragas.embeddings import LangchainEmbeddingsWrapper
# from langchain_google_genai import ChatGoogleGenerativeAI
# from langchain_google_genai import GoogleGenerativeAIEmbeddings

# # Initialize with Google AI Studio
# evaluator_llm = LangchainLLMWrapper(
#     ChatGoogleGenerativeAI(
#         model=config["model"],
#         temperature=config["temperature"],
#         max_tokens=config["max_tokens"],
#         top_p=config["top_p"],
#     )
# )

# evaluator_embeddings = LangchainEmbeddingsWrapper(
#     GoogleGenerativeAIEmbeddings(
#         model="models/embedding-001",  # Google's text embedding model
#         task_type="retrieval_document",  # Optional: specify the task type
#     )
# )

In [None]:
# import numpy as np
# import os
# from langchain_community.embeddings import OllamaEmbeddings
# from langchain_core.prompts import ChatPromptTemplate


# class RAG:
#     """
#     A RAG class that uses local, offline models via Ollama.
#     """

#     def __init__(self, llm_model="llama3", embedding_model="nomic-embed-text"):
#         # --- CHANGE 1: Use Ollama for the LLM ---
#         # This connects to the Ollama server running on your machine.
#         self.llm = Ollama(model=llm_model)

#         # --- CHANGE 2: Use Ollama for Embeddings ---
#         # This also uses the Ollama server to generate embeddings locally.
#         self.embeddings = OllamaEmbeddings(model=embedding_model)

#         self.doc_embeddings = None
#         self.docs = None

#     def load_documents(self, documents):
#         """Load documents and compute their embeddings."""
#         print("Embedding documents locally...")
#         self.docs = documents
#         self.doc_embeddings = self.embeddings.embed_documents(documents)
#         print("Embedding complete.")

#     def get_most_relevant_docs(self, query, k=1):
#         """Find the most relevant document(s) for a given query."""
#         if self.docs is None or self.doc_embeddings is None:
#             raise ValueError("Documents and their embeddings are not loaded.")

#         # This now runs 100% locally!
#         query_embedding = self.embeddings.embed_query(query)

#         # Using cosine similarity, which is standard for vector search
#         similarities = [
#             np.dot(query_embedding, doc_emb)
#             / (np.linalg.norm(query_embedding) * np.linalg.norm(doc_emb))
#             for doc_emb in self.doc_embeddings
#         ]

#         # Get the indices of the top-k most similar documents
#         most_relevant_indices = np.argsort(similarities)[-k:][::-1]
#         return [self.docs[i] for i in most_relevant_indices]

#     def generate_answer(self, query, relevant_docs):
#         """Generate an answer for a given query based on the most relevant document(s)."""
#         # Create a more structured prompt for better results with local LLMs
#         prompt_template = ChatPromptTemplate.from_messages(
#             [
#                 (
#                     "system",
#                     "You are a helpful assistant. You must answer the user's question based only on the context provided. If the context does not contain the answer, say 'I cannot answer this question based on the provided context.'",
#                 ),
#                 ("human", "Context:\n{context}\n\nQuestion:\n{question}"),
#             ]
#         )

#         # Join the list of documents into a single string
#         context_str = "\n---\n".join(relevant_docs)

#         # This now runs 100% locally!
#         chain = prompt_template | self.llm
#         ai_msg = chain.invoke({"context": context_str, "question": query})
#         return ai_msg

In [None]:
# from ragas import evaluate
# from ragas.metrics import faithfulness, answer_relevancy, context_recall
# from datasets import Dataset
# from langchain_community.llms import Ollama
# from langchain_community.embeddings import OllamaEmbeddings

# # Make sure the Ollama server is running and you have pulled the models:
# # > ollama pull llama3
# # > ollama pull nomic-embed-text

# print("\n--- Initializing RAGAS with a separate 'judge' model ---")

# # RAGAS uses a separate, powerful "judge" LLM via Ollama
# ragas_llm = Ollama(model="llama3")

# # RAGAS also needs an embedding model for some of its metrics
# ragas_embeddings = OllamaEmbeddings(model="nomic-embed-text")

# # Run the evaluation using the judge models
# result = evaluate(
#     dataset=evaluation_dataset,
#     metrics=[faithfulness, answer_relevancy, context_recall, context_precision],
#     llm=ragas_llm,  # <-- Using the powerful Llama 3 judge
#     embeddings=ragas_embeddings,  # <-- Using the judge's embedding model
# )

# print("\n--- Evaluation Result (from Llama 3 Judge) ---")
# print(result)


--- Initializing RAGAS with a separate 'judge' model ---


  ragas_llm = Ollama(model="llama3")
  ragas_embeddings = OllamaEmbeddings(model="nomic-embed-text")


NameError: name 'evaluation_dataset' is not defined

In [None]:
# ==============================================================================
# BLOK 2.1: EVALUASI GENERATION - FAITHFULNESS
# ==============================================================================

In [None]:
# ==============================================================================
# BAGIAN 3: PIPELINE RAG DAN EVALUASI
# ==============================================================================


# --- 3.1. Fungsi Inti RAG ---

Device set to use cuda:0


Mempersiapkan wrapper LLM yang kompatibel dengan LangChain...
Wrapper 'langchain_llm' berhasil dibuat dan siap digunakan untuk evaluasi.
Total 215 jawaban akan dievaluasi dalam mode batch.

Langkah 1: Melakukan Embedding & Retrieval secara Batch...
Embedding & Retrieval selesai dalam 0.09 detik.

Langkah 2: Melakukan Evaluasi oleh Gemma secara Batch...


In [None]:
# # ==============================================================================
# # BLOK 3.3: VISUALISASI LANJUTAN ANALISIS WAKTU
# # ==============================================================================
# # Blok ini akan membaca data waktu dari file CSV yang sudah ada
# # dan membuat beberapa jenis plot sesuai permintaan.

# import pandas as pd
# import matplotlib.pyplot as plt
# import seaborn as sns
# import os

# # Definisikan path ke file CSV (pastikan variabel KB_PATH sudah ada dari blok sebelumnya)
# timing_csv_path = os.path.join(KB_PATH, "evaluation_timing_report.csv")

# try:
#     # Baca data dari file CSV
#     timing_df = pd.read_csv(timing_csv_path)
#     print(f"Berhasil memuat data dari {timing_csv_path}")
#     print("Cuplikan data:")
#     print(timing_df.head())

#     # Mengatur style plot
#     plt.style.use("seaborn-v0_8-whitegrid")

#     # --- PLOT 1: Waktu Evaluasi per Soal (X-axis: Mahasiswa) ---
#     print("\nMembuat plot 1: Waktu evaluasi untuk setiap soal...")
#     unique_questions = sorted(timing_df["question_id"].unique())

#     for question in unique_questions:
#         plt.figure(figsize=(15, 7))

#         # Filter data untuk soal yang spesifik
#         question_df = timing_df[timing_df["question_id"] == question]

#         # Buat bar plot
#         plot1 = sns.barplot(
#             x="student_id",
#             y="evaluation_time_seconds",
#             data=question_df,
#             palette="plasma",
#         )

#         plot1.set_title(f"Waktu Evaluasi untuk Soal {question}", fontsize=16)
#         plot1.set_xlabel("ID Mahasiswa", fontsize=12)
#         plot1.set_ylabel("Waktu (detik)", fontsize=12)
#         plt.xticks(rotation=45, ha="right")
#         plt.tight_layout()
#         plt.show()

#     # --- PLOT 2: Waktu per Soal untuk 5 Mahasiswa Pertama ---
#     print("\nMembuat plot 2: Breakdown waktu per soal untuk 5 mahasiswa pertama...")
#     unique_students = sorted(timing_df["student_id"].unique())
#     students_to_plot = unique_students[:5]  # Ambil 5 mahasiswa pertama

#     for student in students_to_plot:
#         plt.figure(figsize=(10, 6))

#         # Filter data untuk mahasiswa yang spesifik
#         student_df = timing_df[timing_df["student_id"] == student]

#         # Buat bar plot
#         plot2 = sns.barplot(
#             x="question_id",
#             y="evaluation_time_seconds",
#             data=student_df,
#             palette="magma",
#             order=unique_questions,  # Pastikan urutan soal Q1-Q5
#         )

#         plot2.set_title(
#             f"Waktu Evaluasi per Soal untuk Mahasiswa {student}", fontsize=16
#         )
#         plot2.set_xlabel("ID Soal", fontsize=12)
#         plot2.set_ylabel("Waktu (detik)", fontsize=12)
#         plt.tight_layout()
#         plt.show()

#     # --- PLOT 3: Total Waktu Evaluasi untuk 5 Mahasiswa Pertama ---
#     print("\nMembuat plot 3: Total waktu evaluasi untuk 5 mahasiswa pertama...")

#     # Hitung total waktu per mahasiswa menggunakan groupby().sum()
#     total_time_df = (
#         timing_df.groupby("student_id")["evaluation_time_seconds"].sum().reset_index()
#     )

#     # Filter untuk 5 mahasiswa pertama
#     total_time_to_plot = total_time_df[
#         total_time_df["student_id"].isin(students_to_plot)
#     ]

#     plt.figure(figsize=(10, 6))
#     plot3 = sns.barplot(
#         x="student_id",
#         y="evaluation_time_seconds",
#         data=total_time_to_plot,
#         palette="cividis",
#     )

#     plot3.set_title("Total Waktu Evaluasi untuk 5 Mahasiswa Pertama", fontsize=16)
#     plot3.set_xlabel("ID Mahasiswa", fontsize=12)
#     plot3.set_ylabel("Total Waktu (detik)", fontsize=12)
#     plt.tight_layout()
#     plt.show()

# except FileNotFoundError:
#     print(
#         f"ERROR: File '{timing_csv_path}' tidak ditemukan. Jalankan Blok 3.2 terlebih dahulu untuk menghasilkan laporan."
#     )
# except Exception as e:
#     print(f"Terjadi error saat membuat plot: {e}")

In [None]:
# # --- 3.4. Penyimpanan Hasil ---
# output_eval_path = os.path.join(KB_PATH, "all_student_evaluations.json")
# with open(output_eval_path, "w", encoding="utf-8") as f:
#     json.dump(all_evaluations, f, ensure_ascii=False, indent=4)
# print(f"\\nSemua hasil evaluasi disimpan di: {output_eval_path}")
# print("\\nProses RAG Selesai!")

\nSemua hasil evaluasi disimpan di: /content/gdrive/MyDrive/Skripsi_Rezki-Muhammad/Project/KnowledgeBase/all_student_evaluations.json
\nProses RAG Selesai!
