In [1]:
# import os
# import pandas as pd
# from deepeval import evaluate
# from deepeval.test_case import LLMTestCase
# from deepeval.metrics import SummarizationMetric
# from deepeval.models import GeminiModel

# def batch_summarization_score(
#     input_output_pairs,
#     api_key,
#     batch_size=100,
#     # sleep_time=60,
#     # max_retries=3,
#     # retry_delay=10
# ):
#     """
#     Evaluates summarization quality in batches using the Gemini model with deepeval,
#     including automatic retries for failed evaluations.

#     Args:
#         input_output_pairs: List of tuples (input, actual_output)
#         api_key: Gemini API key string
#         batch_size: Number of evaluations per batch to avoid hitting rate limits
#         sleep_time: Sleep time in seconds between batches
#         max_retries: Number of retry attempts per batch on failure
#         retry_delay: Delay between retries in seconds

#     Returns:
#         List of dicts containing input, actual_output, score, reason
#     """
#     model = GeminiModel(
#         model_name="gemini-2.0-flash",
#         api_key=api_key,
#         temperature=0,
#     )

#     metric = SummarizationMetric(
#         threshold=0.5,
#         model=model,
#         # assessment_questions=[
#         #     "Is the coverage score based on a percentage of 'yes' answers?",
#         #     "Does the score ensure the summary's accuracy with the source?",
#         #     "Does a higher score mean a more comprehensive summary?"
#         # ]
#         n=10
#     )

#     results = []

#     for i in range(0, len(input_output_pairs), batch_size):
#         batch = input_output_pairs[i:i + batch_size]
#         test_cases = [LLMTestCase(input=inp, actual_output=out) for inp, out in batch]

#         try:
#             batch_result = evaluate(test_cases=test_cases, metrics=[metric])
#             for test_case, res in zip(batch, batch_result.test_results):
#                 results.append(res)
#         except Exception as e:
#             print(f"Batch {i // batch_size + 1} failed with error: {e}")
#             for _ in batch:
#                 results.append(None)  # Preserve alignment with input

#     return results

In [2]:
# import asyncio
# import os
# import pandas as pd
# from deepeval import evaluate
# from deepeval.test_case import LLMTestCase
# from deepeval.metrics import SummarizationMetric
# from deepeval.models import GeminiModel

# async def async_summarization_score(
#     input_output_pairs,
#     api_key,
# ):
#     """
#     Evaluates summarization quality using async individual test case calls with the Gemini model,
#     processing all test cases concurrently with asyncio.gather, returning the metric score or 0 on failure.

#     Args:
#         input_output_pairs: List of tuples (input, actual_output)
#         api_key: Gemini API key string

#     Returns:
#         List of floats containing the summarization score for each test case, or 0 if evaluation fails
#     """
#     model = GeminiModel(
#         model_name="gemini-2.0-flash",
#         api_key=api_key,
#         temperature=0,
#     )

#     metric = SummarizationMetric(
#         threshold=0.5,
#         model=model,
#         n=10
#     )

#     async def evaluate_test_case(test_case):
#         try:
#             result = await evaluate(test_cases=[test_case], metrics=[metric])
#             return result.test_results[0].metrics_data[0].score
#         except Exception as e:
#             print(f"Test case failed with error: {e}")
#             return 0

#     test_cases = [LLMTestCase(input=inp, actual_output=out) for inp, out in input_output_pairs]

#     # Process all test cases concurrently using asyncio.gather
#     results = await asyncio.gather(
#         *[evaluate_test_case(test_case) for test_case in test_cases],
#         return_exceptions=True
#     )

#     # Handle any exceptions returned by gather
#     final_results = [result if isinstance(result, float) else 0 for result in results]

#     return final_results

In [3]:

from deepeval import evaluate
from deepeval.test_case import LLMTestCase
from deepeval.metrics import SummarizationMetric
from deepeval.models import GeminiModel

def summarize_100_pairs(
    input_output_pairs,
    api_key,
    # sleep_time=20,
    # max_retries=1,
    # retry_delay=60
):
    """
    Evaluates summarization quality for 100 pairs using Gemini model and DeepEval.

    Args:
        input_output_pairs: List of 100 (input, output) tuples.
        api_key: Gemini API key.
        sleep_time: Optional pause after evaluation (e.g., for chaining jobs).
        max_retries: Retry attempts per pair.
        retry_delay: Delay between retries.

    Returns:
        List of dicts or evaluation results.
    """
    # if len(input_output_pairs) != 100:
    #     raise ValueError("Expected exactly 100 input-output pairs.")

    model = GeminiModel(
        model_name="gemini-2.0-flash",
        api_key=api_key,
        temperature=0,
    )

    metric = SummarizationMetric(
        threshold=0.5,
        model=model,
        n=10
    )

    results = []

    for idx, (inp, out) in enumerate(input_output_pairs):
        try:
            test_case = LLMTestCase(input=inp, actual_output=out)
            result = evaluate(test_cases=[test_case], metrics=[metric])
            results.append(result.test_results[0].metrics_data[0].score)
        except Exception as e:
            print(f"Error evaluating pair {idx + 1}: {e}")
            results.append(0)
    return results


In [4]:
import os
API_KEY = os.getenv("GEMINI_API_KEY")

In [5]:
import pandas as pd
df = pd.read_csv("/Users/pupipatsingkhorn/Developer/repositories/NanoLLaDA/data/gemini_summaries.csv").sample(10)

In [6]:
scores = summarize_100_pairs(
    input_output_pairs=list(
        df[["body", "generated"]].itertuples(index=False, name=None)
    ),
    api_key=API_KEY,
)

Evaluating 1 test case(s) in parallel: |██████████|100% (1/1) [Time Taken: 00:06,  6.09s/test case]



Metrics Summary

  - ✅ Summarization (score: 0.6, threshold: 0.5, strict: False, evaluation model: gemini-2.0-flash, reason: The score is 0.60 because the summary omits answers to several questions that the original text could answer, such as details about Manning's fines, a suicide attempt, hospitalization, and beliefs about the grand jury., error: None)

For test case:

  - input: เมื่อ 12 มี.ค. นายแอนโธนี เทรนกา ผู้พิพากษาศาลกลางในเมืองอเลกซานเดรีย รัฐเวอร์จิเนีย ในสหรัฐฯ สั่งให้เชลซี แมนนิง อดีตนักวิเคราะห์ข่าวกรองของกองทัพสหรัฐฯที่กลายเป็นสตรีข้ามเพศ ผู้ส่งต่อข้อมูลที่เป็นความลับของกองทัพสหรัฐฯไปให้กับเว็บไซต์วิกิลีกส์ ควรได้รับการปล่อยตัวจากเรือนจำ ซึ่งถูกกักขังตั้งแต่เดือน พ.ค.ปีกลายจากกรณีที่ไม่ให้ความร่วมมือกับคณะลูกขุนใหญ่ในการไต่สวนคดีวิกิลีกส์ทันที หลังคณะลูกขุนใหญ่สิ้นสุดการพิจารณานอกจากนี้ นายเทรนกายังปฏิเสธคำร้องของแมนนิงที่ให้ยกเลิกการจ่ายค่าปรับที่ไม่ยอมไปให้การในชั้นศาล ซึ่งเป็นเงินค่าปรับจำนวนทั้งสิ้น 256000 เหรียญสหรัฐฯ หรือราว 8 ล้านบาท ส่วนการพิจารณาฝากขังที่มีก




Evaluating 1 test case(s) in parallel: |██████████|100% (1/1) [Time Taken: 00:06,  6.31s/test case]



Metrics Summary

  - ❌ Summarization (score: 0.4, threshold: 0.5, strict: False, evaluation model: gemini-2.0-flash, reason: The score is 0.40 because the summary includes extra information not present in the original text. Additionally, the summary fails to answer several questions that the original text addresses, indicating a lack of comprehensive coverage., error: None)

For test case:

  - input: ปัตตานี-12 พ.ค.48พ.อ.สมควร แสงภัทรเนตร โฆษกกองอำนวยการเสริมสร้างสันติสุขจังหวัดชายแดนภาคใต้ (กอ.สสส.จชต.) ยืนยันว่า ผู้ปกครองและนักศึกษามหาวิทยาลัยสงขลานครินทร์ วิทยาเขตปัตตานี ไม่ใช่เป้าหมายของการก่อการร้ายในพื้นที่ 3 จังหวัดชายแดนภาคใต้แต่อย่างใด เราติดตามข่าวกรองทางทหาร ซึ่งมีกระบวนการวงรอบข่าวกรองเป็นระบบเดียวที่ใช้อยู่ทั่วโลก เราพบว่า ในห้วงที่ผ่านมานักศึกษาไม่ใช่เป้าหมายของการก่อความไม่สงบ ซึ่งเป็นเรื่องที่น่ายินดีว่า บ้าน เมืองเรานั้นยังไม่ถึงขั้นขนาดนั้น ไม่เคยมีข่าวว่า กลุ่มผู้ก่อความไม่สงบมีเป้าหมายขยายไปถึงกลุ่มนักศึกษา พ.อ.สมควร กล่าว เมื่อเป็นเช่นนี้ จึงขอให้ผู้ปกครองและนัก




Evaluating 1 test case(s) in parallel: |██████████|100% (1/1) [Time Taken: 00:06,  6.28s/test case]



Metrics Summary

  - ❌ Summarization (score: 0.2, threshold: 0.5, strict: False, evaluation model: gemini-2.0-flash, reason: The score is 0.20 because the summary includes extra information not present in the original text, such as defining ตุลาการ as a promoter of justice, protector of rights and freedoms, and guarantor of democracy, stating that ตุลาการ are employees of the people, stating that ตุลาการ must be aware of their duties, serve the people with justice, transparency, and independence, and stating that ตุลาการ should not serve orders or be greedy for bribes., error: None)

For test case:

  - input:  คือตราชู ผู้ชี้ เสรีสิทธิ คือศาลสถิต ยุติธรรม นำสมัย คือหลัก ประกัน ประชาธิปไตย มิใช่อภิชนคนชั้นฟ้า ครุยที่สวม นั้นมา จากภาษี รถที่ขี่ เงินใคร ให้หรูหรา ข้าวที่กิน ดินที่ย่ำ บ้านงามตา ล้วนแต่เงิน ของมหาประชาชนมิได้ อวตาร มาโปรดสัตว์ แต่เป็น ลูกจ้างรัฐ ตั้งแต่ต้น ให้อำนาจ แล้วอย่าหลง ทนงตนว่าเป็นคน เหนือคน ชี้เป็น-ตาย เสาหลัก ต้องเป็นหลัก อันศักดิ์สิทธิ์ ใช่ต้องลม เพียงนิด ก็ล้




Evaluating 1 test case(s) in parallel: |██████████|100% (1/1) [Time Taken: 00:05,  5.72s/test case]



Metrics Summary

  - ✅ Summarization (score: 0.7, threshold: 0.5, strict: False, evaluation model: gemini-2.0-flash, reason: The score is 0.70 because the summary omits answers to several questions that the original text could answer. However, the summary does not contain any contradictions or extra information., error: None)

For test case:

  - input: กอล์ฟยูโรเปี้ยนทัวร์รายการซิซิเลี่ยน โอเพ่น ที่เวอร์ดูร่า กอล์ฟ แอนด์ สปา รีสอร์ท บนเกาะซิซิลี ประเทศอิตาลี วันสุดท้ายปรากฏว่า ธอร์ปยอน โอเลเซ่น โปรเดนมาร์กวัย 22 ปี ทำผลงานตีเพิ่มเข้ามาอีก 3 อันเดอร์ คะแนนรวม 4 วัน 15 อันเดอร์ คว้าแชมป์ไปครอง โดยเฉือนชนะคริส วู้ด โปรอังกฤษที่วันสุดท้ายเร่งเครื่องตีไปถึง 8 อันเดอร์ไปเพียงสโตรกเดียวเท่านั้นส่วนการแข่งขันกอล์ฟเอเชี่ยนทัวร์ รายการพานาโซนิค โอเพ่น ที่กรุงนิว เดลี ประเทศอินเดีย แชมป์ตกเป็นของดิกวีเจย์ ซิงห์ โปรเจ้าถิ่นคะแนนรวม 4 วัน 11 อันเดอร์ เอาชนะซิดดิกูร์ โปรบังกลาเทศที่คว้าอันดับ 2 ไป 2 สโตรก ส่วนแอสกอร์ คูมาร์ ผู้นำวันที่ 3 พลาดตีเกินถึง 3 โอเวอร์ ทำให้จบที่อันดับ 8 ร่วม ขณะที่บุญชู




Evaluating 1 test case(s) in parallel: |██████████|100% (1/1) [Time Taken: 00:05,  5.74s/test case]



Metrics Summary

  - ✅ Summarization (score: 0.9, threshold: 0.5, strict: False, evaluation model: gemini-2.0-flash, reason: The score is 0.90 because the summary contains no contradictions or extra information. However, the summary omits the answer to the question of whether the rescued girl denied having COVID-19 symptoms., error: None)

For test case:

  - input: 3 สาววัยรุ่นชวนกันมากระโดดแม่น้ำเจ้าพระยา โดยกระโดดลงจากสะพานพระราม 8 ฝั่งธนบุรี ช่วยได้ทัน 1 คน อีกคนนำขึ้นมาได้แต่เสียชีวิตแล้ว ส่วนอีก 1 คน จมหายไป ยังไม่ทราบสาเหตุ เบื้องต้นยืนยันไม่เกี่ยวกับโรคระบาดวันที่ 4 เม.ย. ผู้สื่อข่าวรายงานว่า ทางเจ้าหน้าที่ตำรวจ สน.บวรมงคล รับแจ้งเหตุมีประชาชนกระโดดสะพาน บริเวณกลางสะพานพระราม 8 ฝั่งธนบุรี แขวงบางยี่ขัน เขตบางพลัด กรุงเทพฯจากการตรวจสอบเบื้องต้นพบเป็นเพศหญิง 3 ราย ทางเจ้าหน้าที่ได้ทำการช่วยเหลือขึ้นมาได้แล้ว 1 ราย เสียชีวิต 1 และสูญหายอีก 1 รายทั้งนี้ จากการสอบถาม นางสาว กิ๊บ (นามสมมติ) หนึ่งในสาม ที่กระโดดน้ำ ยืนยันว่าตนเองกับเพื่อนอีก 2 คน ได้ชักชวนกันมากระโดดสะพาน เพราะมีปัญ




Evaluating 1 test case(s) in parallel: |██████████|100% (1/1) [Time Taken: 00:06,  6.36s/test case]



Metrics Summary

  - ✅ Summarization (score: 0.75, threshold: 0.5, strict: False, evaluation model: gemini-2.0-flash, reason: The score is 0.75 because the summary introduces extra information not present in the original text, such as the grades 7-9 and the specific percentage of students feeling resentful and wanting revenge., error: None)

For test case:

  - input: ประชาไท-20 ม.ค.48 รศ.ดร.สมพร เตรียมชัยศรี คณะสาธารณสุขศาสตร์ มหิดล นำเสนอผลงานวิจัยเรื่องความรุนแรงในเด็ก สายโซ่วงจรของความรุนแรง โดยผลการศึกษาวิจัยชี้ว่า ความรุนแรงที่เกิดขึ้นภายในครอบครัว จะส่งผลถึงความก้าวร้าวของเด็ก เมื่อเด็กถูกถูกกระทำความรุนแรงจากครอบครัวและคนรอบข้าง ก็จะทำให้เกิดความรู้สึกอยากแก้แค้น และเริ่มระบายออกในช่วงระดับมัธยมศึกษา โดยอาจจะสะสมไปจนถึงช่วงอาชีวะศึกษาจนถึงช่วงมีครอบครัว กลายเป็นวัฏจักรความรุนแรงต่อไปเรื่อยๆ ผลการศึกษาวิจัย ระบุ โดยงานวิจัยชิ้นนี้ได้ทำการศึกษาวิจัยเด็กระดับ ป.5-6 จำนวน 370 คน โดยเด็กที่ถูกกระทำรุนแรง 336 คนหรือร้อยละ 90.8 มีพฤติกรรมการแสดงออกหลังถูกกระทำ โดยระเบิดอารมณ์กับพี่น




Evaluating 1 test case(s) in parallel: |██████████|100% (1/1) [Time Taken: 00:05,  5.95s/test case]



Metrics Summary

  - ✅ Summarization (score: 0.7, threshold: 0.5, strict: False, evaluation model: gemini-2.0-flash, reason: The score is 0.70 because the summary fails to address some questions that the original text answers, but it does not contain any contradictions or extra information., error: None)

For test case:

  - input: หมายเหตุประเพทไทยสัปดาห์นี้ พบกับ คำ ผกา และ อรรถ บุนนาค มาคุยกันถึงเหตุการณ์เกี่ยวกับ สตรีนิยม ในต่างประเทศที่เพิ่งมีการต่อต้านจากสตรีด้วยกัน ด้วยการรณรงค์ปฏิเสธสตรีนิยม การรณรงค์ดังกล่าวนี้เกิดขึ้นในช่วงราว 2 เดือนเศษที่ผ่านมาบนโลกสังคมออนไลน์ เมื่อมีผู้หญิงจำนวนหนึ่งถ่ายภาพคู่กับกระดาษที่เขียนข้อความขึ้นต้นว่า I dont need feminism และบรรยายเหตุผลต่างๆ ของการปฏิเสธกระแสสตรีนิยม และเผยแพร่ไปบนอินเตอร์เน็ตหมายเหตุประเพทไทยสัปดาห์นี้ จับกระแสความเคลื่อนไหวต่อต้านสตรีนิยมมาวิเคราะห์ และพูดคุยถึงประวัติศาสตร์การต่อสู้ของสตรีนิยมซึ่งนับถอยหลังไปได้ไกลถึงเกือบหนึ่งศตวรรษ โดยเป็นขบวนการต่อสู้ในสังคมตะวันตกเพื่อให้ผู้หญิงมีความเป็นมนุษย์เท่าเทียมกับผู้ชาย จนกระทั




Evaluating 1 test case(s) in parallel: |██████████|100% (1/1) [Time Taken: 00:05,  5.63s/test case]



Metrics Summary

  - ✅ Summarization (score: 0.7, threshold: 0.5, strict: False, evaluation model: gemini-2.0-flash, reason: The score is 0.70 because the summary omits answers to several questions that the original text could answer. However, the summary does not contain any contradicting or extra information., error: None)

For test case:

  - input: วงการเทคโนโลยีของจีนคิดค้นและพัฒนาไม่หยุด ล่าสุดสถาบันต๋าโม๋ (DAMO Academy) สถาบันวิจัยทางวิทยาศาสตร์ของอาลีบาบา ของมหาเศรษฐีจีน แจ็ค หม่า เริ่มทดสอบรถยนต์ไร้คนขับบนท้องถนนแบบจำลองแล้วสำนักข่าวซินหัว เผยแพร่ข่าวนี้ พร้อมคลิปวิดีโอการทดสอบ โดยระบุว่า เป็นการเปิดตัวแพลตฟอร์มทดสอบรถยนต์ไร้คนขับบนท้องถนนแบบจำลองครั้งแรก ที่ใช้เทคโนโลยีเสมือนจริง (Virtual Reality Aystem) ช่วยทดสอบการทำงานของยานพาหนะไร้คนขับในสภาพแวดล้อมจริงแบบเรียลไทม์จากคลิปจะเห็นว่ามีการทดสอบโดยคำนวณถึงรูปแบบที่มีคน หรือยานพาหนะจำลองเข้ามาแทรกในระหว่างขับ เพื่อให้นักวิจัยสร้างและจำลองสถานการณ์ที่ยากลำบากได้ เพื่อช่วยปรับปรุงความแม่นยำในการตรวจจับท้องถนนและยานพาหนะ รวมถึงป




Evaluating 1 test case(s) in parallel: |██████████|100% (1/1) [Time Taken: 00:06,  6.15s/test case]



Metrics Summary

  - ✅ Summarization (score: 0.6, threshold: 0.5, strict: False, evaluation model: gemini-2.0-flash, reason: The score is 0.60 because the summary fails to address several questions that the original text answers, indicating a loss of key information., error: None)

For test case:

  - input: เมื่อวันที่ 28 มกราคม 2559 ผู้สื่อข่าวรายงานว่า หลังจากที่กระแสตุ๊กตาลูกเทพกำลังมาแรง นอกจากสร้างความเชื่อมั่นกับผู้ที่นิยมแล้ว ยังสร้างความหนักใจให้กับฝ่ายความมั่นคง เพราะล่าสุดถูกนำไปซุกซ่อนยาเสพติดจนกลายเป็นข่าวดังไปถึงประเทศเมียนมา,นายโก่ โก่อู ประธานสื่อมวลชนจังหวัดเมียวดี ประเทศเมียนมา ได้สอบถามมายังผู้สื่อข่าวฝั่งจังหวัดตาก ขอรายละเอียดเกี่ยวกับเรื่องนี้ เนื่องจากสื่อโทรทัศน์ในจังหวัดเมียวดีได้เสนอข่าวนี้ด้วย โดยล่าสุดนายโก่ โก่อู ได้แจ้งมาว่าทางด่านความมั่นคงฝั่งเมียวดี ซึ่งอยู่ที่สะพานมิตรภาพไทย-เมียนมา สั่งเจ้าหน้าที่ด่านตรวจเข้มงวดเรื่องตุ๊กตาทุกชนิด ไม่เว้นแม้แต่ตุ๊กตาลูกเทพด้วย หากมีการจะนำเข้า-ออก ให้มีการนำไปเอกซเรย์ตรวจสิ่งเสพติดทุกตัว,ขณะที่ ด้านด่านชายแดนถาวรฝั่




Evaluating 1 test case(s) in parallel: |          |  0% (0/1) [Time Taken: 00:02, ?test case/s]

Error evaluating pair 10: 'NoneType' object has no attribute 'truths'





In [7]:
# scores = []
# for r in results:
#     try:
#         scores.append(r.test_results[0].metrics_data[0].score)
#     except:
#         scores.append(0)

In [8]:
# scores = []
# for r in results:
#     try:
#         if r is None:
#             raise ValueError("Result is None")
#         scores.append(r.metrics_data[0].score)
#     except Exception as e:
#         print(f"An error occurred: {e}")
#         scores.append(0)

In [9]:
df2 = pd.DataFrame({'body': df['body'], 'score': scores})
df2.to_csv('score-gemini.csv',index=False)