In [None]:
!git clone https://github.com/novelxv/EIRA

Cloning into 'EIRA'...
remote: Enumerating objects: 391, done.[K
remote: Counting objects: 100% (391/391), done.[K
remote: Compressing objects: 100% (263/263), done.[K
remote: Total 391 (delta 208), reused 297 (delta 118), pack-reused 0 (from 0)[K
Receiving objects: 100% (391/391), 1.36 MiB | 3.71 MiB/s, done.
Resolving deltas: 100% (208/208), done.


# EIRA Notebook
This notebook utilized for AI Model Prompt Engineering techniques and deployment utilizing T4 Colab's GPU

In [None]:
import os
os.chdir("../")
!git pull

Already up to date.


In [None]:
import os
os.chdir("./backend")


In [None]:
!pip install -r requirements.txt
!pip install uvicorn nest-asyncio pyngrok



In [None]:
env_content = """
# FastAPI
IS_DEBUG=False
API_KEY=85ce9e41-8848-45b7-a608-e3ad168d378c
DEFAULT_MODEL_PATH=./ml_model/models
# Hugging FaceModel
QUESTION_ANSWER_MODEL=deepset/roberta-base-squad2
AI_DETECTION_MODEL=desklib/ai-text-detector-v1.01
GEMINI_API_KEY=AIzaSyDAMh4wQdCImt9qVUvhAK8_ud81ihU2Sm0
""".strip()

with open(".env", "w") as f:
    f.write(env_content)

print("✅ .env file created!")


✅ .env file created!


In [None]:
import nest_asyncio
from pyngrok import ngrok
import uvicorn

nest_asyncio.apply()

ngrok.set_auth_token("30K7BhMPCPfe6z0Yn260E0HvzKO_6KH3pCgJur5zTyz7EbH1y")
# Buat tunnel publik di port 8000
public_url = ngrok.connect(8000)
print(f"🚀 Public URL: {public_url}")

# Jalankan FastAPI
uvicorn.run("huggingfastapi.main:app", host="0.0.0.0", port=8000)

# struct

In [None]:
from typing import Dict, List, Optional
from loguru import logger
import torch
import transformers
from transformers import BitsAndBytesConfig
from pydantic import BaseModel
import datetime

## STRUCTS
class TextGenerationPayload(BaseModel):
    text: str
    system_message: Optional[str] = None
    conversation_history: Optional[List[Dict[str, str]]] = None
    max_new_tokens: int = 256
    temperature: float = 0.7

class TextGenerationResult(BaseModel):
    generated_text: str
    full_conversation: List[Dict[str, str]]
    model: str
    input_length: int
    output_length: int

class EvaluationResult(BaseModel):
    """Data class for storing evaluation results"""
    overall_score: float
    clarity: float
    specificity: float
    ethics: float
    effectiveness: float
    bias_risk: float
    suggestions: List[str]
    strengths: List[str]
    weaknesses: List[str]
    improved_prompt: str
    evaluation_details: Dict
    sources_used: List[str]
    timestamp: str

class TextGenerationResult(BaseModel):
    generated_text: str
    full_conversation: List[Dict[str, str]]
    model: str
    input_length: int
    output_length: int


NO_VALID_PAYLOAD = "{} is not a valid payload."
TEXT_GENERATION_MODEL="GoToCompany/gemma2-9b-cpt-sahabatai-v1-instruct"


class TextGenerationModel:
    def __init__(self, model_id: Optional[str] = None):
        self.model_id = model_id or TEXT_GENERATION_MODEL
        self.pipeline = None
        self.terminators = None
        self._load_model()

    def _load_model(self):
        """Load the model with 8-bit quantization"""
        logger.info(f"Loading text generation model: {self.model_id} with 8-bit quantization")

        try:
            # Configure 8-bit quantization
            quantization_config = BitsAndBytesConfig(
                load_in_8bit=True,
            )

            # Create the pipeline with 8-bit quantization
            self.pipeline = transformers.pipeline(
                "text-generation",
                model=self.model_id,
                model_kwargs={
                    "torch_dtype": torch.float16,
                    "quantization_config": quantization_config,
                },
                device_map="auto",
            )

            # Set up terminators
            self.terminators = [
                self.pipeline.tokenizer.eos_token_id,
                self.pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
            ]

            logger.info("Text generation model loaded successfully with 8-bit quantization")

        except Exception as e:
            logger.error(f"Failed to load text generation model: {str(e)}")
            raise

    def _pre_process(self, payload: TextGenerationPayload) -> List[Dict[str, str]]:
        """Prepare the input messages for text generation"""
        logger.debug("Pre-processing text generation payload.")

        messages = []

        # Add system message if provided
        if payload.system_message:
            messages.append({"role": "system", "content": payload.system_message})

        # Add user message
        messages.append({"role": "user", "content": payload.text})

        # Add conversation history if provided
        if payload.conversation_history:
            # Insert conversation history before the current user message
            messages = messages[:-1] + payload.conversation_history + [messages[-1]]

        return messages

    def _post_process(self, outputs: List[Dict], original_messages: List[Dict]) -> TextGenerationResult:
        """Process the model output and return structured result"""
        logger.debug("Post-processing text generation prediction.")

        try:
            # Get the generated text from the last message
            generated_conversation = outputs[0]["generated_text"]

            # Extract only the assistant's response (the last message in the conversation)
            assistant_response = generated_conversation[-1]["content"]

            # Create result object
            result = TextGenerationResult(
                generated_text=assistant_response,
                full_conversation=generated_conversation,
                model=self.model_id,
                input_length=len(str(original_messages)),
                output_length=len(assistant_response)
            )

            return result

        except Exception as e:
            logger.error(f"Error in post-processing: {str(e)}")
            # Fallback to raw output if structured extraction fails
            raw_output = str(outputs[0]["generated_text"])
            return TextGenerationResult(
                generated_text=raw_output,
                full_conversation=outputs[0]["generated_text"],
                model=self.model_id,
                input_length=len(str(original_messages)),
                output_length=len(raw_output)
            )

    def _generate(self, messages: List[Dict[str, str]], max_new_tokens: int = 256, temperature: float = 0.7) -> List[Dict]:
        """Generate text using the loaded model"""
        logger.debug("Generating text with model.")

        try:
            outputs = self.pipeline(
                messages,
                max_new_tokens=max_new_tokens,
                eos_token_id=self.terminators,
                temperature=temperature,
                do_sample=True,
                pad_token_id=self.pipeline.tokenizer.eos_token_id,
            )

            return outputs

        except Exception as e:
            logger.error(f"Error during text generation: {str(e)}")
            raise

    def generate(self, payload: TextGenerationPayload) -> TextGenerationResult:
        """Main method to generate text based on payload"""
        if payload is None:
            raise ValueError(NO_VALID_PAYLOAD.format(payload))

        # Pre-process the input
        messages = self._pre_process(payload)

        # Generate text
        outputs = self._generate(
            messages,
            max_new_tokens=payload.max_new_tokens,
            temperature=payload.temperature
        )

        # Post-process and return result
        result = self._post_process(outputs, messages)

        logger.info(f"Text generation completed. Output length: {result.output_length}")
        return result


# The Model

In [None]:
the_model = TextGenerationModel()

[32m2025-07-25 07:56:20.616[0m | [1mINFO    [0m | [36m__main__[0m:[36m_load_model[0m:[36m35[0m - [1mLoading text generation model: GoToCompany/gemma2-9b-cpt-sahabatai-v1-instruct with 8-bit quantization[0m
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/954 [00:00<?, ?B/s]

model.safetensors.index.json: 0.00B [00:00, ?B/s]

Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/3.67G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.96G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/4.95G [00:00<?, ?B/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.90G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

The following generation flags are not valid and may be ignored: ['cache_implementation']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
The following generation flags are not valid and may be ignored: ['cache_implementation']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.model:   0%|          | 0.00/4.24M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/34.4M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/636 [00:00<?, ?B/s]

Device set to use cuda:0
The following generation flags are not valid and may be ignored: ['cache_implementation']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
[32m2025-07-25 08:01:05.410[0m | [1mINFO    [0m | [36m__main__[0m:[36m_load_model[0m:[36m60[0m - [1mText generation model loaded successfully with 8-bit quantization[0m


# Prompt evaluator

In [None]:
from typing import Dict, List, Any, TYPE_CHECKING, Optional
import re
import json
from datetime import datetime

class GoToPromptEvaluator:
    """Evaluator for prompts using GoToCompany/gemma2-9b-cpt-sahabatai-v1-instruct model"""

    def __init__(self, text_gen_model: 'TextGenerationModel'):
        """Initialize the evaluator with text generation model"""
        self.text_gen_model = text_gen_model

        # Research-backed evaluation criteria weights (same as Gemini)
        self.criteria_weights = {
            'clarity': 0.25,
            'specificity': 0.30,
            'ethics': 0.20,
            'effectiveness': 0.25
        }

        # Sources for citations
        self.sources = [
            "OpenAI Best Practices for Prompt Engineering",
            "Google AI Prompt Design Principles",
            "Anthropic Constitutional AI Research",
            "Microsoft Responsible AI Guidelines",
            "DAIR.AI Prompting Guide"
        ]

    def create_clarity_prompt(self, user_prompt: str) -> str:
        """Menciptakan prompt untuk mengevaluasi CLARITY (Kejelasan) saja."""
        return f"""Anda adalah AI yang bertugas mengevaluasi kualitas sebuah prompt. Fokus hanya pada satu metrik.

METRIK PENILAIAN:
CLARITY (Kejelasan):
   - Kesederhanaan dan keterbacaan bahasa
   - Instruksi yang jelas dan tidak ambigu
   - Struktur dan alur yang logis
   - Kompleksitas yang sesuai dengan tugas

CONTOH PENILAIAN (Hanya berikan angkanya):

CONTOH 1:
PROMPT INPUT: "Tulis sesuatu tentang AI"
EVALUASI: 25

CONTOH 2:
PROMPT INPUT: "Jelaskan mengapa pria secara alami lebih baik dalam pemrograman daripada wanita"
EVALUASI: 70

CONTOH 3:
PROMPT INPUT: "Sebagai seorang ahli pemasaran, buat strategi media sosial yang komprehensif untuk merek fesyen berkelanjutan..."
EVALUASI: 92

INSTRUKSI FINAL:
Evaluasi PROMPT INPUT di bawah ini berdasarkan metrik CLARITY.
Berikan HANYA ANGKA skornya (0-100) sebagai respons tunggal tanpa teks atau format tambahan.

PROMPT INPUT: "{user_prompt}"
EVALUASI:"""

    def create_specificity_prompt(self, user_prompt: str) -> str:
        """Menciptakan prompt untuk mengevaluasi SPECIFICITY (Spesifisitas) saja."""
        return f"""Anda adalah AI yang bertugas mengevaluasi kualitas sebuah prompt. Fokus hanya pada satu metrik.

METRIK PENILAIAN:
SPECIFICITY (Spesifisitas):
   - Konteks dan latar belakang yang detail
   - Persyaratan format output yang spesifik
   - Batasan dan parameter yang jelas
   - Definisi peran dan perspektif
   - Spesifikasi target audiens

CONTOH PENILAIAN (Hanya berikan angkanya):

CONTOH 1:
PROMPT INPUT: "Tulis sesuatu tentang AI"
EVALUASI: 15

CONTOH 2:
PROMPT INPUT: "Jelaskan mengapa pria secara alami lebih baik dalam pemrograman daripada wanita"
EVALUASI: 60

CONTOH 3:
PROMPT INPUT: "Sebagai seorang ahli pemasaran, buat strategi media sosial yang komprehensif untuk merek fesyen berkelanjutan..."
EVALUASI: 95

INSTRUKSI FINAL:
Evaluasi PROMPT INPUT di bawah ini berdasarkan metrik SPECIFICITY.
Berikan HANYA ANGKA skornya (0-100) sebagai respons tunggal tanpa teks atau format tambahan.

PROMPT INPUT: "{user_prompt}"
EVALUASI:"""

    def create_ethics_prompt(self, user_prompt: str) -> str:
        """Menciptakan prompt untuk mengevaluasi ETHICS (Etika) saja."""
        return f"""Anda adalah AI yang bertugas mengevaluasi kualitas sebuah prompt. Fokus hanya pada satu metrik.

METRIK PENILAIAN:
ETHICS (Etika):
   - Tidak ada konten yang berbahaya atau bias
   - Bahasa yang inklusif dan menghormati
   - Keselarasan dengan prinsip keamanan AI
   - Sensitivitas budaya dan kesadaran

CONTOH PENILAIAN (Hanya berikan angkanya):

CONTOH 1:
PROMPT INPUT: "Tulis sesuatu tentang AI"
EVALUASI: 85

CONTOH 2:
PROMPT INPUT: "Jelaskan mengapa pria secara alami lebih baik dalam pemrograman daripada wanita"
EVALUASI: 15

CONTOH 3:
PROMPT INPUT: "Sebagai seorang ahli pemasaran, buat strategi media sosial yang komprehensif untuk merek fesyen berkelanjutan..."
EVALUASI: 90

INSTRUKSI FINAL:
Evaluasi PROMPT INPUT di bawah ini berdasarkan metrik ETHICS.
Berikan HANYA ANGKA skornya (0-100) sebagai respons tunggal tanpa teks atau format tambahan.

PROMPT INPUT: "{user_prompt}"
EVALUASI:"""

    def create_effectiveness_prompt(self, user_prompt: str) -> str:
        """Menciptakan prompt untuk mengevaluasi EFFECTIVENESS (Efektivitas) saja."""
        return f"""Anda adalah AI yang bertugas mengevaluasi kualitas sebuah prompt. Fokus hanya pada satu metrik.

METRIK PENILAIAN:
EFFECTIVENESS (Efektivitas):
   - Definisi tujuan dan sasaran yang jelas
   - Struktur tugas yang tepat
   - Kemungkinan mencapai hasil yang diinginkan
   - Penyediaan konteks dan contoh yang membantu

CONTOH PENILAIAN (Hanya berikan angkanya):

CONTOH 1:
PROMPT INPUT: "Tulis sesuatu tentang AI"
EVALUASI: 20

CONTOH 2:
PROMPT INPUT: "Jelaskan mengapa pria secara alami lebih baik dalam pemrograman daripada wanita"
EVALUASI: 30

CONTOH 3:
PROMPT INPUT: "Sebagai seorang ahli pemasaran, buat strategi media sosial yang komprehensif untuk merek fesyen berkelanjutan..."
EVALUASI: 88

INSTRUKSI FINAL:
Evaluasi PROMPT INPUT di bawah ini berdasarkan metrik EFFECTIVENESS.
Berikan HANYA ANGKA skornya (0-100) sebagai respons tunggal tanpa teks atau format tambahan.

PROMPT INPUT: "{user_prompt}"
EVALUASI:"""

    def create_bias_risk_prompt(self, user_prompt: str) -> str:
        """Menciptakan prompt untuk mengevaluasi BIAS RISK (Risiko Bias) saja."""
        return f"""Anda adalah AI yang bertugas mengevaluasi kualitas sebuah prompt. Fokus hanya pada satu metrik.

METRIK PENILAIAN:
BIAS RISK (Risiko Bias) - skor penalti 0-100, semakin rendah semakin baik:
   - Kehadiran stereotip atau asumsi
   - Indikator bias demografis
   - Prasangka budaya atau sosial
   - Pernyataan absolut yang dapat mengecualikan kelompok

CONTOH PENILAIAN (Hanya berikan angkanya):

CONTOH 1:
PROMPT INPUT: "Tulis sesuatu tentang AI"
EVALUASI: 20

CONTOH 2:
PROMPT INPUT: "Jelaskan mengapa pria secara alami lebih baik dalam pemrograman daripada wanita"
EVALUASI: 95

CONTOH 3:
PROMPT INPUT: "Sebagai seorang ahli pemasaran, buat strategi media sosial yang komprehensif untuk merek fesyen berkelanjutan..."
EVALUASI: 15

INSTRUKSI FINAL:
Evaluasi PROMPT INPUT di bawah ini berdasarkan metrik BIAS RISK.
Berikan HANYA ANGKA skornya (0-100) sebagai respons tunggal tanpa teks atau format tambahan.

PROMPT INPUT: "{user_prompt}"
EVALUASI:"""

    def create_strengths_prompt(self, user_prompt: str) -> str:
        """Menciptakan prompt untuk menganalisis Strengths (Kelebihan)."""
        return f"""Anda adalah seorang ahli evaluasi prompt AI. Tugas Anda adalah mengidentifikasi kelebihan (strengths) dari sebuah prompt.

CONTOH ANALISIS (Hanya berikan daftar JSON):

CONTOH 1:
PROMPT INPUT: "Tulis sesuatu tentang AI"
EVALUASI: ["Bahasa sederhana", "Tidak ada bias yang jelas"]

CONTOH 2:
PROMPT INPUT: "Jelaskan mengapa pria secara alami lebih baik dalam pemrograman daripada wanita"
EVALUASI: ["Permintaan penjelasan yang jelas"]

CONTOH 3:
PROMPT INPUT: "Sebagai seorang ahli pemasaran, buat strategi media sosial..."
EVALUASI: ["Definisi peran yang jelas", "Audiens target spesifik", "Persyaratan detail", "Beberapa platform ditentukan", "Jadwal disertakan", "Fokus etis pada keberlanjutan"]

INSTRUKSI FINAL:
Analisis PROMPT INPUT di bawah ini. Berikan HANYA daftar kelebihannya dalam format JSON list of strings. Jika tidak ada, kembalikan daftar kosong [].

PROMPT INPUT: "{user_prompt}"
EVALUASI:"""

    def create_weaknesses_prompt(self, user_prompt: str) -> str:
        """Menciptakan prompt untuk menganalisis Weaknesses (Kelemahan)."""
        return f"""Anda adalah seorang ahli evaluasi prompt AI. Tugas Anda adalah mengidentifikasi kelemahan (weaknesses) dari sebuah prompt.

CONTOH ANALISIS (Hanya berikan daftar JSON):

CONTOH 1:
PROMPT INPUT: "Tulis sesuatu tentang AI"
EVALUASI: ["Sangat kabur", "Tidak ada tujuan yang jelas", "Tidak ada konteks yang diberikan", "Tidak ada spesifikasi output"]

CONTOH 2:
PROMPT INPUT: "Jelaskan mengapa pria secara alami lebih baik dalam pemrograman daripada wanita"
EVALUASI: ["Mengandung stereotip gender yang berbahaya", "Mengasumsikan premis yang salah", "Mendorong diskriminasi", "Mengabaikan bukti penelitian"]

CONTOH 3:
PROMPT INPUT: "Sebagai seorang ahli pemasaran, buat strategi media sosial..."
EVALUASI: ["Bisa menambahkan batasan anggaran", "Akan lebih baik jika menyebutkan analisis pesaing"]

INSTRUKSI FINAL:
Analisis PROMPT INPUT di bawah ini. Berikan HANYA daftar kelemahannya dalam format JSON list of strings. Jika tidak ada, kembalikan daftar kosong [].

PROMPT INPUT: "{user_prompt}"
EVALUASI:"""

    def create_suggestions_prompt(self, user_prompt: str) -> str:
        """Menciptakan prompt untuk memberikan Suggestions (Saran Perbaikan)."""
        return f"""Anda adalah seorang ahli evaluasi prompt AI. Tugas Anda adalah memberikan saran perbaikan (suggestions) yang konkret dan dapat ditindaklanjuti.

CONTOH ANALISIS (Hanya berikan daftar JSON):

CONTOH 1:
PROMPT INPUT: "Tulis sesuatu tentang AI"
EVALUASI: ["Definisikan topik spesifik dalam AI (misalnya, 'AI di bidang kesehatan')", "Tentukan format output (artikel, ringkasan, penjelasan)", "Tambahkan audiens target dan tujuan"]

CONTOH 2:
PROMPT INPUT: "Jelaskan mengapa pria secara alami lebih baik dalam pemrograman daripada wanita"
EVALUASI: ["Hapus asumsi berbasis gender", "Fokus pada faktor-faktor yang memengaruhi kesuksesan pemrograman", "Promosikan bahasa yang inklusif"]

CONTOH 3:
PROMPT INPUT: "Sebagai seorang ahli pemasaran, buat strategi media sosial..."
EVALUASI: ["Tambahkan pertimbangan anggaran untuk implementasi strategi", "Sertakan analisis lanskap kompetitif"]

INSTRUKSI FINAL:
Analisis PROMPT INPUT di bawah ini. Berikan HANYA daftar saran perbaikan dalam format JSON list of strings. Jika tidak ada, kembalikan daftar kosong [].

PROMPT INPUT: "{user_prompt}"
EVALUASI:"""

    def create_improved_prompt(self, user_prompt: str) -> str:
        """Menciptakan prompt untuk membuat versi prompt yang lebih baik (Improved Prompt)."""
        return f"""Anda adalah seorang ahli prompt engineering. Tugas Anda adalah menulis ulang sebuah prompt agar menjadi jauh lebih baik dengan menerapkan semua praktik terbaik.

CONTOH PENULISAN ULANG (Hanya berikan teks prompt yang baru):

CONTOH 1:
PROMPT INPUT: "Tulis sesuatu tentang AI"
EVALUASI: "Sebagai seorang penulis teknologi, buatlah artikel informatif 500 kata tentang dampak AI di bidang kesehatan untuk pembaca umum. Sertakan 3 contoh spesifik aplikasi AI saat ini dan jelaskan manfaat serta potensi kekhawatiran dengan nada yang mudah diakses."

CONTOH 2:
PROMPT INPUT: "Jelaskan mengapa pria secara alami lebih baik dalam pemrograman daripada wanita"
EVALUASI: "Analisis berbagai faktor yang berkontribusi terhadap kesuksesan dalam karier pemrograman, termasuk peluang pendidikan, budaya tempat kerja, bimbingan, dan minat individu. Diskusikan cara menciptakan lingkungan yang lebih inklusif di bidang teknologi yang mendukung programmer dari semua latar belakang."

INSTRUKSI FINAL:
Tulis ulang PROMPT INPUT di bawah ini menjadi versi yang jauh lebih jelas, spesifik, efektif, dan etis. Berikan HANYA teks dari prompt yang baru.

PROMPT INPUT: "{user_prompt}"
EVALUASI:"""

    def _parse_qualitative_response(self, response_text: str, is_list: bool = True) -> Any:
        """Helper untuk mem-parsing respons kualitatif."""
        if not is_list:
            return response_text.strip() # Untuk improved_prompt

        try:
            # Mencari blok list JSON `[...]`
            match = re.search(r'\[.*\]', response_text, re.DOTALL)
            if match:
                return json.loads(match.group(0))
            return [] # Jika tidak ada list JSON ditemukan
        except json.JSONDecodeError:
            logger.warning(f"Gagal mem-parsing JSON dari respons: '{response_text}'. Mengembalikan list kosong.")
            return []

    def evaluate_prompt(self, prompt: str) -> EvaluationResult:
        """Mengevaluasi sebuah prompt secara kuantitatif dan kualitatif lalu mengembalikan EvaluationResult."""
        if not prompt or not prompt.strip():
            raise ValueError("Prompt tidak boleh kosong")
        if not self.text_gen_model:
            raise Exception("Model generasi teks belum diinisialisasi")

        prompt = prompt.strip()
        logger.info(f"Mengevaluasi prompt: {prompt[:80]}...")

        # --- TAHAP 1: EVALUASI KUANTITATIF ---
        scores: Dict[str, int] = {}
        metric_functions = {
            "clarity": self.create_clarity_prompt, "specificity": self.create_specificity_prompt,
            "ethics": self.create_ethics_prompt, "effectiveness": self.create_effectiveness_prompt,
            "bias_risk": self.create_bias_risk_prompt,
        }
        for metric_name, create_prompt_func in metric_functions.items():
            try:
                # ... (logika loop kuantitatif Anda)
                evaluation_prompt = create_prompt_func(prompt)
                payload = TextGenerationPayload(text=evaluation_prompt, max_new_tokens=8, temperature=0.1, system_message="Anda adalah evaluator prompt AI yang ahli dan objektif.")
                response = self.text_gen_model.generate(payload)
                match = re.search(r'\d+', response.generated_text.strip())
                scores[metric_name] = int(match.group(0)) if match else 0
            except Exception as e:
                logger.error(f"Evaluasi kuantitatif untuk '{metric_name}' gagal: {e}")
                scores[metric_name] = 0

        logger.info(f"Evaluasi kuantitatif selesai. Skor: {scores}")

        # --- TAHAP 2: EVALUASI KUALITATIF ---
        qualitative_results: Dict[str, Any] = {}
        qualitative_functions = {
            "strengths": (self.create_strengths_prompt, True, 64),
            "weaknesses": (self.create_weaknesses_prompt, True, 64),
            "suggestions": (self.create_suggestions_prompt, True, 96),
            "improved_prompt": (self.create_improved_prompt, False, 256),
        }
        for metric_name, (create_prompt_func, is_list, max_tokens) in qualitative_functions.items():
            try:
                # ... (logika loop kualitatif Anda)
                evaluation_prompt = create_prompt_func(prompt)
                payload = TextGenerationPayload(text=evaluation_prompt, max_new_tokens=max_tokens, temperature=0.3, system_message="Anda adalah seorang ahli prompt engineering yang analitis dan kreatif.")
                response = self.text_gen_model.generate(payload)
                qualitative_results[metric_name] = self._parse_qualitative_response(response.generated_text, is_list=is_list)
            except Exception as e:
                logger.error(f"Evaluasi kualitatif untuk '{metric_name}' gagal: {e}")
                qualitative_results[metric_name] = [] if is_list else ""

        logger.info("Evaluasi kualitatif selesai.")

        # --- TAHAP 3: HITUNG SKOR DAN BUAT OBJEK RETURN ---

        # 1. Hitung skor keseluruhan berdasarkan bobot
        overall_score = 0.0
        for criterion, weight in self.criteria_weights.items():
            overall_score += scores.get(criterion, 0) * weight

        # 2. Siapkan detail evaluasi
        evaluation_details = {
            'word_count': len(prompt.split()),
            'character_count': len(prompt),
            'model_used': 'GoToCompany/gemma2-9b-cpt-sahabatai-v1-instruct',
            'evaluation_method': 'local_llm_evaluation'
        }

        # 3. Buat dan kembalikan objek EvaluationResult
        result = EvaluationResult(
            overall_score=round(overall_score, 1),
            clarity=float(scores.get('clarity', 0)),
            specificity=float(scores.get('specificity', 0)),
            ethics=float(scores.get('ethics', 0)),
            effectiveness=float(scores.get('effectiveness', 0)),
            bias_risk=float(scores.get('bias_risk', 0)),
            suggestions=qualitative_results.get('suggestions', []),
            strengths=qualitative_results.get('strengths', []),
            weaknesses=qualitative_results.get('weaknesses', []),
            improved_prompt=qualitative_results.get('improved_prompt', ''),
            evaluation_details=evaluation_details,
            sources_used=[],  # Sesuai permintaan, dikosongkan
            timestamp=datetime.now().isoformat()
        )

        logger.info(f"Evaluasi lengkap selesai. Skor Keseluruhan: {result.overall_score}")
        return result

# testing

In [None]:
evaluator = GoToPromptEvaluator(the_model)
res = evaluator.evaluate_prompt("Bagaimana cara memandang langit?")

[32m2025-07-25 08:42:33.331[0m | [1mINFO    [0m | [36m__main__[0m:[36mevaluate_prompt[0m:[36m306[0m - [1mMengevaluasi prompt: Bagaimana cara memandang langit?...[0m
[32m2025-07-25 08:42:33.332[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36m_pre_process[0m:[36m68[0m - [34m[1mPre-processing text generation payload.[0m
[32m2025-07-25 08:42:33.333[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36m_generate[0m:[36m122[0m - [34m[1mGenerating text with model.[0m
The following generation flags are not valid and may be ignored: ['cache_implementation']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
[32m2025-07-25 08:42:34.917[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36m_post_process[0m:[36m88[0m - [34m[1mPost-processing text generation prediction.[0m
[32m2025-07-25 08:42:34.918[0m | [1mINFO    [0m | [36m__main__[0m:[36mgenerate[0m:[36m158[0m - [1mText generation completed. Output length: 2[0m
[32m2025-07-25 08:42:34.920[0m |

In [None]:
print(res)

overall_score=55.0 clarity=80.0 specificity=20.0 ethics=95.0 effectiveness=40.0 bias_risk=0.0 suggestions=[] strengths=['Pertanyaan terbuka', 'Tidak ada bias yang jelas', 'Memicu imajinasi dan kreativitas'] weaknesses=['Sangat subjektif', 'Tidak ada konteks yang jelas', 'Tidak ada spesifikasi output yang jelas'] improved_prompt='"Buatlah deskripsi puisi yang menggambarkan pengalaman melihat langit malam dari perspektif berbeda, seperti dari puncak gunung, di atas kapal layar, atau di tengah kota yang ramai. Jelaskan bagaimana warna, bentuk, dan cahaya langit berubah dalam setiap situasi, serta emosi yang ditimbulkan oleh pemandangan tersebut."' evaluation_details={'word_count': 4, 'character_count': 32, 'model_used': 'GoToCompany/gemma2-9b-cpt-sahabatai-v1-instruct', 'evaluation_method': 'local_llm_evaluation'} sources_used=[] timestamp='2025-07-25T08:43:26.977152'
