In [1]:
import sys
import os

# เพิ่ม path ของโฟลเดอร์หลักเข้าไปใน sys.path
sys.path.append(os.path.abspath(".."))

# ตอนนี้สามารถ import ได้เลย
from main_graph import graph
from state_schema import AgentState


In [2]:
import pandas as pd
from tqdm import tqdm

In [3]:
import sys
import os
import pandas as pd
from tqdm import tqdm
import asyncio
import nest_asyncio

nest_asyncio.apply()  # ⭐️ สำคัญสำหรับ Jupyter / IPython

sys.path.append(os.path.abspath(".."))

# โหลด DataFrame
df = pd.read_excel("question_2categorylevel.xlsx")
df.columns = df.columns.str.strip()

results = []

async def process_query(query, expected_lv1, expected_lv2):
    try:
        initial_state = AgentState(user_query=query)
        state_raw = await graph.ainvoke(initial_state)
        state_obj = AgentState(**state_raw)

        classification = getattr(state_obj, "classification_result", None)
        if classification is None:
            # ถ้าไม่มี classification_result
            classification = {}

        out_of_domain = getattr(classification, "out_of_domain", False)
        out_of_domain_reason = getattr(classification, "out_of_domain_reason", "")

        # ถ้าไม่มีเหตุผล ให้ใส่ default
        if out_of_domain and not out_of_domain_reason:
            out_of_domain_reason = "Out-of-domain without specific reason."

        if out_of_domain:
            predicted_lv1 = "OUT_OF_DOMAIN"
            predicted_lv2 = "OUT_OF_DOMAIN"
            correct_lv1 = expected_lv1.strip().upper() == "OUT_OF_DOMAIN"
            correct_lv2 = expected_lv2.strip().upper() == "OUT_OF_DOMAIN"

            # log กรณี Out-of-domain
            print(f"🔹 Out-of-domain detected: {query}")
            print(f"   Reason: {out_of_domain_reason}")

        else:
            cat_lv1 = getattr(classification, "category_level_1", []) or []
            if cat_lv1 and len(cat_lv1) > 0:
                predicted_lv1 = cat_lv1[0].category
            else:
                predicted_lv1 = ""

            cat_lv2 = getattr(classification, "category_level_2", []) or []
            if cat_lv2 and len(cat_lv2) > 0:
                predicted_lv2 = cat_lv2[0].subcategory
            else:
                predicted_lv2 = ""

            correct_lv1 = predicted_lv1 == expected_lv1
            correct_lv2 = predicted_lv2 == expected_lv2

        latency = state_obj.latency or {}
        total_latency = round(
            sum(v for k, v in latency.items() if isinstance(v, float)), 3
        )

        return {
            "query": query,
            "expected_lv1": expected_lv1,
            "predicted_lv1": predicted_lv1,
            "correct_lv1": correct_lv1,
            "expected_lv2": expected_lv2,
            "predicted_lv2": predicted_lv2,
            "correct_lv2": correct_lv2,
            "out_of_domain": out_of_domain,
            "out_of_domain_reason": out_of_domain_reason,
            "latency_out_of_domain": latency.get("out_of_domain"),
            "latency_clarification": latency.get("clarification"),
            "latency_classification": latency.get("classification"),
            "tokens_out_of_domain": latency.get("tokens_out_of_domain"),
            "tokens_clarification": latency.get("tokens_clarification"),
            "tokens_classification": latency.get("tokens_classification"),
            "total_latency": total_latency,
            "error": ""
        }
    except Exception as e:
        return {
            "query": query,
            "expected_lv1": expected_lv1,
            "predicted_lv1": "",
            "correct_lv1": False,
            "expected_lv2": expected_lv2,
            "predicted_lv2": "",
            "correct_lv2": False,
            "out_of_domain": None,
            "out_of_domain_reason": "",
            "latency_out_of_domain": None,
            "latency_clarification": None,
            "latency_classification": None,
            "tokens_out_of_domain": None,
            "tokens_clarification": None,
            "tokens_classification": None,
            "total_latency": None,
            "error": str(e)
        }

async def main():
    for _, row in tqdm(df.iterrows(), total=len(df)):
        query = row["question"]
        expected_lv1 = row["category_level1"]
        expected_lv2 = row["category_level2"]
        res = await process_query(query, expected_lv1, expected_lv2)
        results.append(res)

    df_results = pd.DataFrame(results)
    df_results.to_csv("evaluation_results.csv", index=False, encoding="utf-8-sig")
    print("✅ Evaluation completed and saved to evaluation_results.csv")

# ⭐️ ใน Jupyter Notebook ให้รันด้วย:
await main()


  0%|          | 0/39 [00:00<?, ?it/s]

START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


  3%|▎         | 1/39 [00:15<09:55, 15.67s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: หัตถการ
- หมวดย่อย: การใช้ยาชา
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


  5%|▌         | 2/39 [00:24<07:16, 11.80s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: overall
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


  8%|▊         | 3/39 [00:47<09:59, 16.67s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: overall
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 10%|█         | 4/39 [00:56<07:54, 13.56s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: overall
START PIPELINE
Step 1: Clarity Check


 13%|█▎        | 5/39 [01:02<06:11, 10.91s/it]

START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 15%|█▌        | 6/39 [01:11<05:44, 10.45s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: bleeding
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 18%|█▊        | 7/39 [01:31<07:14, 13.58s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: bleeding
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 21%|██        | 8/39 [01:59<09:20, 18.09s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: bleeding
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 23%|██▎       | 9/39 [02:12<08:13, 16.45s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: bleeding
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 26%|██▌       | 10/39 [02:30<08:08, 16.86s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: bleeding
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 28%|██▊       | 11/39 [02:48<08:02, 17.23s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: pain
START PIPELINE
Step 1: Clarity Check


 31%|███       | 12/39 [02:53<06:07, 13.60s/it]

Clarity Result: clarification_needed=True reason='ไม่มีบริบทหรือหัตถการ'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 33%|███▎      | 13/39 [03:13<06:40, 15.42s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: pain
START PIPELINE
Step 1: Clarity Check


 36%|███▌      | 14/39 [03:19<05:16, 12.65s/it]

Clarity Result: clarification_needed=True reason='ไม่มีบริบททางทันตกรรม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 38%|███▊      | 15/39 [03:55<07:56, 19.86s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: pain
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 41%|████      | 16/39 [04:08<06:49, 17.80s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: wound healing
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 44%|████▎     | 17/39 [04:30<06:53, 18.79s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: wound healing
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 46%|████▌     | 18/39 [04:42<05:56, 16.97s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: wound healing
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 49%|████▊     | 19/39 [04:57<05:25, 16.26s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: wound healing
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 51%|█████▏    | 20/39 [05:22<05:58, 18.88s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: overall
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 54%|█████▍    | 21/39 [05:44<05:56, 19.79s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: overall
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 56%|█████▋    | 22/39 [05:58<05:05, 18.00s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน
- หมวดย่อย: wound healing
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 59%|█████▉    | 23/39 [06:22<05:17, 19.84s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: drinking straw
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='มีเจตนาถาม มีบริบททางทันตกรรม และระบุประเภทหัตถการ'
should_terminate? False
Step 2: Category Classification


 62%|██████▏   | 24/39 [06:42<04:57, 19.81s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: drinking straw
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 64%|██████▍   | 25/39 [06:58<04:22, 18.75s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: drinking straw
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='ไม่จำเป็นต้องขอความชัดเจนเพิ่มเติม'
should_terminate? False
Step 2: Category Classification


 67%|██████▋   | 26/39 [07:10<03:39, 16.90s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: drinking straw
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='มีเจตนาถาม มีบริบททางทันตกรรม และระบุประเภทหัตถการ'
should_terminate? False
Step 2: Category Classification


 69%|██████▉   | 27/39 [07:27<03:23, 16.93s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: alcohol
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='ไม่ต้องการข้อมูลเพิ่มเติม'
should_terminate? False
Step 2: Category Classification


 72%|███████▏  | 28/39 [07:47<03:13, 17.62s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: workout
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='เจตนาชัดเจน มีบริบทและหัตถการครบ'
should_terminate? False
Step 2: Category Classification


 74%|███████▍  | 29/39 [07:59<02:40, 16.06s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: food
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='มีเจตนาถาม มีบริบททางทันตกรรม และระบุประเภทหัตถการ'
should_terminate? False
Step 2: Category Classification


 77%|███████▋  | 30/39 [08:12<02:17, 15.24s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: อาการ/ภาวะแทรกซ้อน, การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: bleeding, food
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='เจตนาชัดเจน มีบริบทและหัตถการครบ'
should_terminate? False
Step 2: Category Classification


 79%|███████▉  | 31/39 [08:27<01:59, 14.91s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: food
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 82%|████████▏ | 32/39 [08:50<02:02, 17.52s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: food
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='เจตนาชัดเจน มีบริบทและหัตถการครบ'
should_terminate? False
Step 2: Category Classification


 85%|████████▍ | 33/39 [09:05<01:40, 16.72s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: food
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='มีเจตนาถาม มีบริบททางทันตกรรม และระบุประเภทหัตถการ'
should_terminate? False
Step 2: Category Classification


 87%|████████▋ | 34/39 [09:24<01:26, 17.38s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: food
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 90%|████████▉ | 35/39 [09:46<01:14, 18.67s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: food
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='เจตนาชัดเจน มีบริบทและหัตถการครบ'
should_terminate? False
Step 2: Category Classification


 92%|█████████▏| 36/39 [09:56<00:48, 16.07s/it]

START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 95%|█████████▍| 37/39 [10:06<00:28, 14.49s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: food
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='ไม่ต้องการข้อมูลเพิ่มเติม'
should_terminate? False
Step 2: Category Classification


 97%|█████████▋| 38/39 [10:25<00:15, 15.84s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: food
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


100%|██████████| 39/39 [10:44<00:00, 16.53s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: การปฏิบัติตัวหลังทำหัตถการ
- หมวดย่อย: oral hygiene





PermissionError: [Errno 13] Permission denied: 'evaluation_results.csv'

In [None]:
results

[{'query': ' ยาชาถอนฟันจะอยู่ได้นานกี่ชั่วโมง?',
  'expected_lv1': 'หัตถการ',
  'predicted_lv1': 'อาการ/ภาวะแทรกซ้อน',
  'correct_lv1': False,
  'expected_lv2': 'การใช้ยาชา',
  'predicted_lv2': 'wound healing',
  'correct_lv2': False,
  'error': ''},
 {'query': 'หลังถอนฟัน อาการผิดปกติแบบไหนที่ควรกลับไปพบทันตแพทย์',
  'expected_lv1': 'อาการ/ภาวะแทรกซ้อน',
  'predicted_lv1': 'อาการ/ภาวะแทรกซ้อน',
  'correct_lv1': True,
  'expected_lv2': 'overall',
  'predicted_lv2': 'wound healing',
  'correct_lv2': False,
  'error': ''},
 {'query': 'ความเสี่ยงและผลกระทบที่เกิดจากการถอนฟัน',
  'expected_lv1': 'อาการ/ภาวะแทรกซ้อน',
  'predicted_lv1': 'อาการ/ภาวะแทรกซ้อน',
  'correct_lv1': True,
  'expected_lv2': 'overall',
  'predicted_lv2': 'wound healing',
  'correct_lv2': False,
  'error': ''},
 {'query': 'สัญญาณของการติดเชื้อหลังถอนฟัน',
  'expected_lv1': 'อาการ/ภาวะแทรกซ้อน',
  'predicted_lv1': 'อาการ/ภาวะแทรกซ้อน',
  'correct_lv1': True,
  'expected_lv2': 'overall',
  'predicted_lv2': 'wound healin

In [4]:
import pandas as pd

# สมมุติว่า results เป็น list ของ dictionary
results_df4 = pd.DataFrame(results)

# แล้วค่อยบันทึกเป็น Excel
results_df4.to_excel("results_category_11_7.xlsx", index=False)



In [5]:
from tqdm import tqdm
import pandas as pd

df = pd.read_excel("question_clari_test.xlsx")
df.columns = df.columns.str.strip()
df["clarification_needed_expected"] = True
results_clari = []

for _, row in tqdm(df.iterrows(), total=len(df)):
    query = row["question"]
    expected_clarification = row["clarification_needed_expected"]

    try:
        initial_state = AgentState(user_query=query)
        state = graph.invoke(initial_state)
        state_obj = AgentState(**state)

        # ✅ ดึงผลลัพธ์จาก state
        predicted_clarification = getattr(state_obj.classification_result, "clarification_needed", None)
        clarification_reason = getattr(state_obj.classification_result, "clarification_reason", "")
        out_of_domain = getattr(state_obj.classification_result, "out_of_domain", None)
        out_of_domain_reason = getattr(state_obj.classification_result, "out_of_domain_reason", "")

        correct_clarification = predicted_clarification == expected_clarification

        latency = state_obj.latency or {}
        total_latency = round(sum(v for k, v in latency.items() if isinstance(v, float)), 3)

        # ✅ เพิ่ม note เฉพาะกรณี out_of_domain=True
        note = ""
        if out_of_domain is True:
            note = f"out_of_domain = True, reason: {out_of_domain_reason}"

        results_clari.append({
            "query": query,
            "expected_clarification": expected_clarification,
            "predicted_clarification": predicted_clarification,
            "correct_clarification": correct_clarification,
            "clarification_reason": clarification_reason,
            "latency_clarification": latency.get("clarification"),
            "tokens_clarification": latency.get("tokens_clarification"),
            "total_latency": total_latency,
            "note": note,
            "error": ""
        })

    except Exception as e:
        results_clari.append({
            "query": query,
            "expected_clarification": expected_clarification,
            "predicted_clarification": "",
            "correct_clarification": False,
            "clarification_reason": "",
            "latency_clarification": None,
            "tokens_clarification": None,
            "total_latency": None,
            "note": "",
            "error": str(e)
        })


  0%|          | 0/15 [00:00<?, ?it/s]

START PIPELINE
Step 1: Clarity Check


  7%|▋         | 1/15 [00:05<01:13,  5.28s/it]

Clarity Result: clarification_needed=True reason='ไม่มีบริบททางทันตกรรม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 13%|█▎        | 2/15 [00:18<02:10, 10.05s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 20%|██        | 3/15 [00:34<02:33, 12.75s/it]

Clarity Result: clarification_needed=True reason='ไม่ระบุประเภทของหัตถการ เช่น ถอนฟัน ผ่าฟันคุด'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 27%|██▋       | 4/15 [00:44<02:08, 11.66s/it]

Clarity Result: clarification_needed=True reason='ไม่ระบุประเภทของหัตถการ เช่น ถอนฟัน ผ่าฟันคุด ฯลฯ'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 33%|███▎      | 5/15 [00:47<01:24,  8.41s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 40%|████      | 6/15 [00:58<01:23,  9.24s/it]

Clarity Result: clarification_needed=True reason='ไม่ระบุประเภทของหัตถการ เช่น ถอนฟัน ผ่าฟันคุด'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 47%|████▋     | 7/15 [01:09<01:18,  9.87s/it]

Clarity Result: clarification_needed=True reason='ไม่ระบุประเภทของหัตถการ เช่น ถอนฟัน ผ่าฟันคุด'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 53%|█████▎    | 8/15 [01:20<01:11, 10.17s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 60%|██████    | 9/15 [01:31<01:03, 10.55s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 67%|██████▋   | 10/15 [01:42<00:53, 10.76s/it]

Clarity Result: clarification_needed=True reason='ไม่ระบุประเภทของหัตถการ เช่น ถอนฟัน ผ่าฟันคุด'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 73%|███████▎  | 11/15 [01:55<00:45, 11.35s/it]

Clarity Result: clarification_needed=True reason='ไม่ระบุประเภทของหัตถการ เช่น ถอนฟัน ผ่าฟันคุด'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 80%|████████  | 12/15 [02:15<00:41, 13.86s/it]

Clarity Result: clarification_needed=True reason='ไม่มีบริบททางทันตกรรม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 87%|████████▋ | 13/15 [02:27<00:26, 13.33s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 93%|█████████▎| 14/15 [02:35<00:11, 11.87s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


100%|██████████| 15/15 [02:42<00:00, 10.83s/it]

Clarity Result: clarification_needed=True reason='ไม่ระบุประเภทของหัตถการ เช่น ถอนฟัน ผ่าฟันคุด ฯลฯ'
should_terminate? True
TERMINATE after Clarity





In [15]:
results_clari

[{'query': 'ต้องพักกี่วันถึงจะหายดี',
  'expected_clarification': True,
  'predicted_clarification': None,
  'correct_clarification': False,
  'clarification_reason': '',
  'latency_clarification': None,
  'tokens_clarification': None,
  'total_latency': 24.04,
  'note': 'out_of_domain = True, reason: ',
  'error': ''},
 {'query': 'ยังมีเลือดซึมอยู่นิดหน่อย',
  'expected_clarification': True,
  'predicted_clarification': True,
  'correct_clarification': True,
  'clarification_reason': '',
  'latency_clarification': 9.536,
  'tokens_clarification': 26.0,
  'total_latency': 74.97,
  'note': '',
  'error': ''},
 {'query': 'กินเผ็ดได้ไหมคะ',
  'expected_clarification': True,
  'predicted_clarification': None,
  'correct_clarification': False,
  'clarification_reason': '',
  'latency_clarification': None,
  'tokens_clarification': None,
  'total_latency': 17.241,
  'note': 'out_of_domain = True, reason: ',
  'error': ''},
 {'query': 'ทำไมยังบวมอยู่',
  'expected_clarification': True,
  'pre

In [6]:
import pandas as pd

# สมมุติว่า results เป็น list ของ dictionary
results_clari = pd.DataFrame(results_clari)

# แล้วค่อยบันทึกเป็น Excel
results_clari.to_excel("results_clari_11_7.xlsx", index=False)

In [8]:
import sys
import os
import pandas as pd
from tqdm import tqdm
import asyncio

# ถ้า AgentState และ graph มาจากไฟล์อื่น ให้ import ให้ถูก
# from your_module import AgentState, graph

sys.path.append(os.path.abspath(".."))

# โหลด DataFrame
df = pd.read_excel("question_outofdomain_test.xlsx")
df.columns = df.columns.str.strip()

results = []

async def process_query(query, expected_lv1, expected_lv2):
    try:
        initial_state = AgentState(user_query=query)
        state_raw = await graph.ainvoke(initial_state)
        state_obj = AgentState(**state_raw)

        classification = getattr(state_obj, "classification_result", None)
        if classification is None:
            classification = {}

        out_of_domain = getattr(classification, "out_of_domain", False)
        out_of_domain_reason = getattr(classification, "out_of_domain_reason", "")

        if out_of_domain and not out_of_domain_reason:
            out_of_domain_reason = "Out-of-domain without specific reason."

        if out_of_domain:
            predicted_lv1 = "OUT_OF_DOMAIN"
            predicted_lv2 = "OUT_OF_DOMAIN"
            correct_lv1 = expected_lv1.strip().upper() == "OUT_OF_DOMAIN"
            correct_lv2 = expected_lv2.strip().upper() == "OUT_OF_DOMAIN"

            print(f"🔹 Out-of-domain detected: {query}")
            print(f"   Reason: {out_of_domain_reason}")

        else:
            cat_lv1 = getattr(classification, "category_level_1", []) or []
            if cat_lv1 and len(cat_lv1) > 0:
                predicted_lv1 = cat_lv1[0].category
            else:
                predicted_lv1 = ""

            cat_lv2 = getattr(classification, "category_level_2", []) or []
            if cat_lv2 and len(cat_lv2) > 0:
                predicted_lv2 = cat_lv2[0].subcategory
            else:
                predicted_lv2 = ""

            correct_lv1 = predicted_lv1 == expected_lv1
            correct_lv2 = predicted_lv2 == expected_lv2

        latency = state_obj.latency or {}
        total_latency = round(
            sum(v for k, v in latency.items() if isinstance(v, float)), 3
        )

        return {
            "query": query,
            "expected_lv1": expected_lv1,
            "predicted_lv1": predicted_lv1,
            "correct_lv1": correct_lv1,
            "expected_lv2": expected_lv2,
            "predicted_lv2": predicted_lv2,
            "correct_lv2": correct_lv2,
            "out_of_domain": out_of_domain,
            "out_of_domain_reason": out_of_domain_reason,
            "latency_out_of_domain": latency.get("out_of_domain"),
            "latency_clarification": latency.get("clarification"),
            "latency_classification": latency.get("classification"),
            "tokens_out_of_domain": latency.get("tokens_out_of_domain"),
            "tokens_clarification": latency.get("tokens_clarification"),
            "tokens_classification": latency.get("tokens_classification"),
            "total_latency": total_latency,
            "error": ""
        }
    except Exception as e:
        return {
            "query": query,
            "expected_lv1": expected_lv1,
            "predicted_lv1": "",
            "correct_lv1": False,
            "expected_lv2": expected_lv2,
            "predicted_lv2": "",
            "correct_lv2": False,
            "out_of_domain": None,
            "out_of_domain_reason": "",
            "latency_out_of_domain": None,
            "latency_clarification": None,
            "latency_classification": None,
            "tokens_out_of_domain": None,
            "tokens_clarification": None,
            "tokens_classification": None,
            "total_latency": None,
            "error": str(e)
        }

async def main():
    for _, row in tqdm(df.iterrows(), total=len(df)):
        query = row["question"]
        expected_lv1 = row["category_level1"]
        expected_lv2 = row["category_level2"]
        res = await process_query(query, expected_lv1, expected_lv2)
        results.append(res)

    df_results = pd.DataFrame(results)
    df_results.to_csv("evaluation_results.csv", index=False, encoding="utf-8-sig")
    print("✅ Evaluation completed and saved to evaluation_results.csv")

if __name__ == "__main__":
    asyncio.run(main())


  0%|          | 0/20 [00:00<?, ?it/s]


KeyError: 'category_level1'

In [10]:
import sys
import os
import pandas as pd
from tqdm import tqdm
import asyncio

# ✨ ถ้า AgentState และ graph อยู่ในโมดูลอื่น ให้แก้ตรงนี้
# from your_module import AgentState, graph

sys.path.append(os.path.abspath(".."))

# โหลด DataFrame
df = pd.read_excel("question_outofdomain_test.xlsx")
df.columns = df.columns.str.strip()

results = []

async def process_query(query, expected_lv1, expected_lv2):
    try:
        initial_state = AgentState(user_query=query)
        state_raw = await graph.ainvoke(initial_state)
        state_obj = AgentState(**state_raw)

        classification = getattr(state_obj, "classification_result", None)
        if classification is None:
            classification = {}

        out_of_domain = getattr(classification, "out_of_domain", False)
        out_of_domain_reason = getattr(classification, "out_of_domain_reason", "")

        if out_of_domain and not out_of_domain_reason:
            out_of_domain_reason = "Out-of-domain without specific reason."

        if out_of_domain:
            predicted_lv1 = "OUT_OF_DOMAIN"
            predicted_lv2 = "OUT_OF_DOMAIN"
            correct_lv1 = expected_lv1.strip().upper() == "OUT_OF_DOMAIN"
            correct_lv2 = expected_lv2.strip().upper() == "OUT_OF_DOMAIN"

            print(f"🔹 Out-of-domain detected: {query}")
            print(f"   Reason: {out_of_domain_reason}")

        else:
            cat_lv1 = getattr(classification, "category_level_1", []) or []
            if cat_lv1 and len(cat_lv1) > 0:
                predicted_lv1 = cat_lv1[0].category
            else:
                predicted_lv1 = ""

            cat_lv2 = getattr(classification, "category_level_2", []) or []
            if cat_lv2 and len(cat_lv2) > 0:
                predicted_lv2 = cat_lv2[0].subcategory
            else:
                predicted_lv2 = ""

            correct_lv1 = predicted_lv1 == expected_lv1
            correct_lv2 = predicted_lv2 == expected_lv2

        latency = state_obj.latency or {}
        total_latency = round(
            sum(v for k, v in latency.items() if isinstance(v, float)), 3
        )

        return {
            "query": query,
            "expected_lv1": expected_lv1,
            "predicted_lv1": predicted_lv1,
            "correct_lv1": correct_lv1,
            "expected_lv2": expected_lv2,
            "predicted_lv2": predicted_lv2,
            "correct_lv2": correct_lv2,
            "out_of_domain": out_of_domain,
            "out_of_domain_reason": out_of_domain_reason,
            "latency_out_of_domain": latency.get("out_of_domain"),
            "latency_clarification": latency.get("clarification"),
            "latency_classification": latency.get("classification"),
            "tokens_out_of_domain": latency.get("tokens_out_of_domain"),
            "tokens_clarification": latency.get("tokens_clarification"),
            "tokens_classification": latency.get("tokens_classification"),
            "total_latency": total_latency,
            "error": ""
        }
    except Exception as e:
        return {
            "query": query,
            "expected_lv1": expected_lv1,
            "predicted_lv1": "",
            "correct_lv1": False,
            "expected_lv2": expected_lv2,
            "predicted_lv2": "",
            "correct_lv2": False,
            "out_of_domain": None,
            "out_of_domain_reason": "",
            "latency_out_of_domain": None,
            "latency_clarification": None,
            "latency_classification": None,
            "tokens_out_of_domain": None,
            "tokens_clarification": None,
            "tokens_classification": None,
            "total_latency": None,
            "error": str(e)
        }

async def main():
    print("Columns in DataFrame:", df.columns.tolist())

    for _, row in tqdm(df.iterrows(), total=len(df)):
        query = row["question"]

        # ตรวจว่ามีเหตุผล out-of-domain หรือไม่
        expected_out_of_domain_reason = str(row["เหตุผลที่อยู่นอกขอบเขต (Out of Domain)"]).strip()
        expected_is_out_of_domain = bool(expected_out_of_domain_reason)

        # ถ้าเป็น out-of-domain ให้ expected lv1/lv2 เป็น OUT_OF_DOMAIN
        expected_lv1 = "OUT_OF_DOMAIN" if expected_is_out_of_domain else ""
        expected_lv2 = "OUT_OF_DOMAIN" if expected_is_out_of_domain else ""

        res = await process_query(query, expected_lv1, expected_lv2)
        results.append(res)

    df_results = pd.DataFrame(results)
    df_results.to_excel("outofdomain_results_11_7.xlsx", index=False, engine="openpyxl")
    print("✅ Evaluation completed and saved to evaluation_results.csv")

if __name__ == "__main__":
    asyncio.run(main())


Columns in DataFrame: ['question', 'เหตุผลที่อยู่นอกขอบเขต (Out of Domain)']


  0%|          | 0/20 [00:00<?, ?it/s]

START PIPELINE
Step 1: Clarity Check


  5%|▌         | 1/20 [00:06<01:55,  6.10s/it]

Clarity Result: clarification_needed=True reason='ไม่มีบริบททางทันตกรรม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 10%|█         | 2/20 [00:15<02:29,  8.32s/it]

Clarity Result: clarification_needed=True reason='ไม่มีบริบททางทันตกรรม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 15%|█▌        | 3/20 [00:18<01:40,  5.88s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='คำถามชัดเจน มีบริบทและหัตถการครบถ้วน'
should_terminate? False
Step 2: Category Classification


 20%|██        | 4/20 [00:40<03:10, 11.91s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: ไม่พบ
- หมวดย่อย: ไม่พบ
START PIPELINE
Step 1: Clarity Check


 25%|██▌       | 5/20 [00:51<02:56, 11.78s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 30%|███       | 6/20 [00:58<02:19,  9.94s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 35%|███▌      | 7/20 [01:10<02:18, 10.64s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 40%|████      | 8/20 [01:17<01:53,  9.47s/it]

Clarity Result: clarification_needed=True reason='ไม่มีบริบททางทันตกรรม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 45%|████▌     | 9/20 [01:27<01:47,  9.80s/it]

Clarity Result: clarification_needed=True reason='ไม่มีบริบททางทันตกรรม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check
Clarity Result: clarification_needed=False reason='ไม่เกี่ยวข้องกับการดูแลช่องปาก'
should_terminate? False
Step 2: Category Classification


 50%|█████     | 10/20 [01:43<01:56, 11.66s/it]

RESPONSE SET: หมวดหมู่ที่ตรวจพบ:
- หมวดหลัก: ไม่พบ
- หมวดย่อย: ไม่พบ
START PIPELINE
Step 1: Clarity Check


 55%|█████▌    | 11/20 [01:52<01:37, 10.88s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 60%|██████    | 12/20 [01:55<01:06,  8.36s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 65%|██████▌   | 13/20 [02:07<01:08,  9.72s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 70%|███████   | 14/20 [02:10<00:46,  7.69s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 75%|███████▌  | 15/20 [02:21<00:43,  8.61s/it]

Clarity Result: clarification_needed=True reason='ไม่มีบริบททางทันตกรรม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 80%|████████  | 16/20 [02:32<00:37,  9.32s/it]

Clarity Result: clarification_needed=True reason='ไม่มีบริบททางทันตกรรม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 85%|████████▌ | 17/20 [02:34<00:21,  7.16s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


 90%|█████████ | 18/20 [02:44<00:15,  7.95s/it]

START PIPELINE
Step 1: Clarity Check


 95%|█████████▌| 19/20 [02:47<00:06,  6.41s/it]

Clarity Result: clarification_needed=True reason='ไม่มีเจตนาถาม'
should_terminate? True
TERMINATE after Clarity
START PIPELINE
Step 1: Clarity Check


100%|██████████| 20/20 [02:52<00:00,  8.61s/it]

Clarity Result: clarification_needed=True reason='ไม่มีบริบททางทันตกรรม'
should_terminate? True
TERMINATE after Clarity
✅ Evaluation completed and saved to evaluation_results.csv





In [9]:
import pandas as pd

df_results = pd.DataFrame(results)

# Save เป็น Excel
df_results.to_excel("outofdomain_results_11_7.xlsx", index=False, engine="openpyxl")

print("Evaluation completed and saved to outofdomain_results_11_7.xlsx")


Evaluation completed and saved to outofdomain_results_11_7.xlsx
