# Evaluation for System Prompt on Task: Summary News

In [1]:
!pip install pymongo pandas tqdm nltk



In [2]:
pip install langchain langchain-google-genai langchain-huggingface qdrant-client langchain-qdrant google-generativeai

Collecting langchain-google-genai
  Downloading langchain_google_genai-2.1.5-py3-none-any.whl.metadata (5.2 kB)
Collecting langchain-huggingface
  Downloading langchain_huggingface-0.3.0-py3-none-any.whl.metadata (996 bytes)
Collecting qdrant-client
  Downloading qdrant_client-1.14.2-py3-none-any.whl.metadata (10 kB)
Collecting langchain-qdrant
  Downloading langchain_qdrant-0.2.0-py3-none-any.whl.metadata (1.8 kB)
Collecting filetype<2.0.0,>=1.2.0 (from langchain-google-genai)
  Downloading filetype-1.2.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting google-ai-generativelanguage<0.7.0,>=0.6.18 (from langchain-google-genai)
  Downloading google_ai_generativelanguage-0.6.18-py3-none-any.whl.metadata (9.8 kB)
Collecting langchain-core<1.0.0,>=0.3.49 (from langchain)
  Downloading langchain_core-0.3.65-py3-none-any.whl.metadata (5.8 kB)
Collecting portalocker<3.0.0,>=2.7.0 (from qdrant-client)
  Downloading portalocker-2.10.1-py3-none-any.whl.metadata (8.5 kB)
INFO: pip is looking at 

## Generate {k} Bullet points for evaluation

In [5]:
import os
import nest_asyncio
import logging
from langchain_core.prompts import ChatPromptTemplate
from langchain_google_genai import ChatGoogleGenerativeAI

# Thiết lập logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

nest_asyncio.apply()

class ArticleSummarizer:
    def __init__(self, api_keys=None, model_name="gemini-2.0-flash-lite"):
        """
        Args:
            api_keys (list[str]): Danh sách các Google API key
            model_name (str): Tên model Gemini
        """
        self.api_keys = api_keys or [os.getenv("GOOGLE_API_KEY")]
        if not self.api_keys or not any(self.api_keys):
            raise ValueError("Không có API key hợp lệ.")
        
        self.model_name = model_name
        self.current_key_index = 0
        self._init_llm()  # Khởi tạo LLM với key đầu tiên

        self.summary_prompt = ChatPromptTemplate.from_messages([
        ("system", """Bạn là một trợ lý AI có nhiệm vụ tóm tắt các bài viết khoa học, kỹ thuật hoặc công nghệ được viết bằng tiếng Anh, và cung cấp bản tóm tắt ngắn gọn bằng tiếng Việt.
        
        Yêu cầu:
        1. Tóm tắt phải ngắn gọn, không quá 3 câu, súc tích và dễ hiểu đối với người Việt.
        2. Phải giữ lại những thông tin cốt lõi, chính xác và quan trọng nhất trong bài viết.
        3. Không thêm bình luận cá nhân, ý kiến chủ quan hoặc phóng đại nội dung.
        4. Viết bằng tiếng Việt chuẩn, trung lập, đúng ngữ pháp, phong cách rõ ràng, khách quan.
        5. Nếu bài viết có nhiều nội dung, hãy tập trung vào nội dung chính yếu.
        
        Dưới đây là nội dung bài viết tiếng Anh, hãy phân tích và tóm tắt bằng tiếng Việt:"""),
        ("human", "{content}")
        ])
        
        # Tạo prompt cho việc tóm tắt dạng bullet points
        self.bullet_summary_prompt = ChatPromptTemplate.from_messages([
        ("system", """Bạn là một trợ lý AI có nhiệm vụ tóm tắt các bài viết khoa học, kỹ thuật hoặc công nghệ được viết bằng tiếng Anh, và cung cấp bản tóm tắt dạng bullet points bằng tiếng Việt.
        
        Yêu cầu:
        1. Tóm tắt thành 5 bullet points ngắn gọn, rõ ràng.
        2. Mỗi bullet point trình bày một ý chính hoặc thông tin quan trọng trong bài viết.
        3. Không thêm ý kiến cá nhân, đánh giá chủ quan hoặc phóng đại nội dung.
        4. Viết bằng tiếng Việt chuẩn, khách quan, dễ hiểu, đúng ngữ pháp.
        5. Giữ nguyên các thuật ngữ kỹ thuật tiếng Anh nếu cần để đảm bảo chính xác.
        
        Dưới đây là nội dung bài viết tiếng Anh, hãy phân tích và cung cấp bản tóm tắt dạng bullet points bằng tiếng Việt:"""),
        ("human", "{content}")
        ])
        

    def _init_llm(self):
        current_key = self.api_keys[self.current_key_index]
        self.llm = ChatGoogleGenerativeAI(
            model=self.model_name,
            google_api_key=current_key,
            temperature=0.1,
            max_tokens=1024
        )
        logger.info(f"Đã khởi tạo Gemini với API key index {self.current_key_index}")

    def _rotate_key(self):
        prev_index = self.current_key_index
        self.current_key_index = (self.current_key_index + 1) % len(self.api_keys)
        if self.current_key_index != prev_index:
            logger.warning(f"Xoay sang API key mới (index {self.current_key_index})")
        self._init_llm()

    def _run_with_retry(self, chain, content, max_retry=2):
        retry_count = 0
        tried_keys = 0
        max_keys = len(self.api_keys)

        while tried_keys < max_keys:
            try:
                result = chain.invoke({"content": content})
                return result.content
            except Exception as e:
                logger.error(f"Lỗi với API key index {self.current_key_index}: {e}")
                retry_count += 1
                if retry_count > max_retry:
                    self._rotate_key()
                    tried_keys += 1
                    retry_count = 0  # Reset retry count sau khi xoay key

        return "Không thể tạo tóm tắt do vượt quá giới hạn API hoặc lỗi hệ thống."

    def create_summary(self, content, max_retry=2):
        if not content or len(content.strip()) < 100:
            return "Không đủ nội dung để tạo tóm tắt."
        if len(content) > 8000:
            content = content[:8000]

        chain = self.summary_prompt | self.llm
        return self._run_with_retry(chain, content, max_retry=max_retry)

    def create_bullet_summary(self, content, max_retry=2):
        if not content or len(content.strip()) < 100:
            return "Không đủ nội dung để tạo tóm tắt."
        if len(content) > 8000:
            content = content[:8000]

        chain = self.bullet_summary_prompt | self.llm
        return self._run_with_retry(chain, content, max_retry=max_retry)


In [None]:
import json

# Khởi tạo class tóm tắt với danh sách API key
api_keys = [
            "",
            "", 
            "",
            "",
            "",
            "",
            "",
            "",
            "",
            ""
        ]
summarizer = ArticleSummarizer(api_keys=api_keys)

# Đọc file gốc
input_file = "/kaggle/input/data-eval/qa_generated (1).json"
output_file = "qa_generated4points_with_summary.json"

with open(input_file, "r", encoding="utf-8") as f:
    qa_data = json.load(f)

# Duyệt qua từng bài viết và thêm trường summary
for article_id, article_info in qa_data.items():
    content = article_info.get("content", "")
    
    print(f"Tóm tắt bài: {article_info.get('title', 'Không tiêu đề')} ({article_id})")
    summary = summarizer.create_summary(content)
    
    # Ghi kết quả vào dict gốc
    qa_data[article_id]["summary"] = summary

# Lưu ra file mới với summary
with open(output_file, "w", encoding="utf-8") as f:
    json.dump(qa_data, f, ensure_ascii=False, indent=2)

print(f"✅ Hoàn tất. Đã lưu file mới có tóm tắt vào: {output_file}")


Tóm tắt bài: Actors Reach Accord on AI (all-about-the-hollywood-actors-and-studios-deal-on-generative-ai-usage-in-films-and-tv)
Tóm tắt bài: Audrey Tang (ai-that-unites-us)
Tóm tắt bài: How Alexa Says Goodnight (amazon-echo-uses-generative-ai-to-create-bedtime-stories)
Tóm tắt bài: Bridge to Explainable AI (bridge-to-explainable-ai)
Tóm tắt bài: Looking for Enemies (concert-venues-use-face-recognition-to-block-enemies)
Tóm tắt bài: Painting With Text, Voice, and Images (chatgpt-accepts-voice-image-input-output)
Tóm tắt bài: Data Disappears (creative-workers-dont-want-ai-developers-to-train-models-on-their-work)
Tóm tắt bài: Deepfakes Against Profanity (deepfakes-profanity)
Tóm tắt bài: Machine Translation in Action (duolingo-turns-to-ai-translation-to-expand-its-most-popular-courses-to-all-28-user-languages)
Tóm tắt bài: Fake Aim (fake-aim)
Tóm tắt bài: AI Cheat Bedevils Popular Esport (gamers-are-using-ai-to-cheat-in-rocket-league)
Tóm tắt bài: Fast and Daring Wins the Race (fast-and-

In [None]:
import json

# Khởi tạo class tóm tắt với danh sách API key
api_keys = [
            "",
            "", 
            "",
            "",
            "",
            "",
            "",
            "",
            "",
            ""
        ]
summarizer = ArticleSummarizer(api_keys=api_keys)

# Đọc file gốc
input_file = "/kaggle/input/data-eval/qa_generated (1).json"
output_file = "qa_generated5points_with_summary.json"

with open(input_file, "r", encoding="utf-8") as f:
    qa_data = json.load(f)

# Duyệt qua từng bài viết và thêm trường summary
for article_id, article_info in qa_data.items():
    content = article_info.get("content", "")
    
    print(f"Tóm tắt bài: {article_info.get('title', 'Không tiêu đề')} ({article_id})")
    summary = summarizer.create_summary(content)
    
    # Ghi kết quả vào dict gốc
    qa_data[article_id]["summary"] = summary

# Lưu ra file mới với summary
with open(output_file, "w", encoding="utf-8") as f:
    json.dump(qa_data, f, ensure_ascii=False, indent=2)

print(f"✅ Hoàn tất. Đã lưu file mới có tóm tắt vào: {output_file}")


Tóm tắt bài: Actors Reach Accord on AI (all-about-the-hollywood-actors-and-studios-deal-on-generative-ai-usage-in-films-and-tv)
Tóm tắt bài: Audrey Tang (ai-that-unites-us)
Tóm tắt bài: How Alexa Says Goodnight (amazon-echo-uses-generative-ai-to-create-bedtime-stories)
Tóm tắt bài: Bridge to Explainable AI (bridge-to-explainable-ai)
Tóm tắt bài: Looking for Enemies (concert-venues-use-face-recognition-to-block-enemies)
Tóm tắt bài: Painting With Text, Voice, and Images (chatgpt-accepts-voice-image-input-output)
Tóm tắt bài: Data Disappears (creative-workers-dont-want-ai-developers-to-train-models-on-their-work)
Tóm tắt bài: Deepfakes Against Profanity (deepfakes-profanity)
Tóm tắt bài: Machine Translation in Action (duolingo-turns-to-ai-translation-to-expand-its-most-popular-courses-to-all-28-user-languages)
Tóm tắt bài: Fake Aim (fake-aim)
Tóm tắt bài: AI Cheat Bedevils Popular Esport (gamers-are-using-ai-to-cheat-in-rocket-league)
Tóm tắt bài: Fast and Daring Wins the Race (fast-and-

## Generate QA from content

In [None]:
pip install mlflow


In [None]:
import os
os.environ["GOOGLE_API_KEY"] = ""


In [None]:
import mlflow

mlflow.set_tracking_uri("https://mlflow-server-aiteamabc.onrender.com/")


In [6]:
from pymongo import MongoClient
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.prompts import PromptTemplate
from tqdm import tqdm
import json
import re
import time

class QAGenerator:
    def __init__(self,
                 mongo_uri: str,
                 db_name: str,
                 collections: list,
                 api_keys: list,
                 model: str = "gemini-2.0-flash",
                 min_content_len: int = 300,
                 llm_temp: float = 0.2):
        self.client = MongoClient(mongo_uri)
        self.db = self.client[db_name]
        self.collections = collections
        self.min_content_len = min_content_len
        self.qa_results = {}

        # Xoay key
        self.api_keys = api_keys
        self.api_key_index = 0

        self.model = model
        self.llm_temp = llm_temp

        self._init_llm()

        self.prompt_template = PromptTemplate.from_template("""
Bạn là một giáo viên giỏi chuyên soạn đề trắc nghiệm. Dưới đây là một đoạn văn nội dung bài viết:

--- START CONTENT ---
{content}
--- END CONTENT ---

Tạo ra 10 câu hỏi trắc nghiệm bằng tiếng Việt, đảm bảo các tiêu chí sau:
- Bao quát toàn bộ nội dung chính của bài viết.
- Mỗi câu hỏi chỉ tập trung vào **một ý cụ thể** trong bài.
- Câu hỏi rõ ràng, không mơ hồ.
- Có **4 lựa chọn hợp lý** (A, B, C, D), trong đó chỉ **duy nhất một đáp án đúng**.
- Các lựa chọn sai phải có tính gây nhiễu (nhưng vẫn hợp lý, không ngớ ngẩn).
- Tránh trùng lặp nội dung giữa các câu hỏi.

Trả lời dưới dạng JSON như sau:
[
  {{
    "question": "...",
    "options": {{
      "A": "...",
      "B": "...",
      "C": "...",
      "D": "..."
    }},
    "answer": "B"
  }},
  ...
]
""")

    def _init_llm(self):
        current_key = self.api_keys[self.api_key_index]
        self.llm = ChatGoogleGenerativeAI(
            model=self.model,
            temperature=self.llm_temp,
            google_api_key=current_key
        )

    def _rotate_api_key(self):
        self.api_key_index = (self.api_key_index + 1) % len(self.api_keys)
        print(f"🔁 Đang xoay sang API key index {self.api_key_index}")
        self._init_llm()

    def generate_qa_from_content(self, content: str, max_retries: int = None):
        if max_retries is None:
            max_retries = len(self.api_keys)

        prompt = self.prompt_template.format(content=content)

        for attempt in range(max_retries):
            try:
                result = self.llm.invoke(prompt)
                raw_output = result.content.strip()

                # ✂️ Loại bỏ markdown block nếu có
                if raw_output.startswith("```"):
                    raw_output = re.sub(r"^```[a-z]*\n?", "", raw_output)
                    raw_output = raw_output.rstrip("```").strip()

                try:
                    return json.loads(raw_output)
                except json.JSONDecodeError as e:
                    print("❌ JSON decode failed:", e)
                    print("📥 Nội dung (đã xử lý):", raw_output[:500])
                    return None

            except Exception as e:
                print(f"⚠️ Lỗi gọi LLM với key index {self.api_key_index}: {e}")
                self._rotate_api_key()
                time.sleep(1)

        print("🚫 Đã thử hết tất cả API key nhưng vẫn lỗi.")
        return None

    def process_collection(self, col_name: str, limit: int = 5):
        collection = self.db[col_name]
        docs = list(collection.find({"content": {"$exists": True, "$ne": ""}}).limit(limit))

        for doc in tqdm(docs, desc=f"QA Gen - {col_name}"):
            content = doc.get("content", "")
            if not isinstance(content, str) or len(content) < self.min_content_len:
                continue

            qa = self.generate_qa_from_content(content)
            if qa:
                self.qa_results[str(doc["_id"])] = {
                    "title": doc.get("title", ""),
                    "collection": col_name,
                    "content": content,
                    "qa": qa
                }

    def run(self, limit_per_collection: int = 100):
        for col in self.collections:
            self.process_collection(col, limit=limit_per_collection)

    def export_to_json(self, filepath: str):
        with open(filepath, "w", encoding="utf-8") as f:
            json.dump(self.qa_results, f, ensure_ascii=False, indent=2)
        print(f"✅ Đã xuất kết quả QA sang {filepath}")


In [None]:
collections = ["culture", "science", "hardware", "data-points", "business","ml-research"]

qa_gen = QAGenerator(
    mongo_uri="",
    db_name="deeplearning_ai_news",
    collections=collections,
    api_keys = [
            "",
            "", 
            "",
            "",
            "",
            "",
            "",
            "",
            "",
            ""
        ]
)

qa_gen.run(limit_per_collection=100)  # hoặc nhiều hơn

# Xem thử một kết quả
from pprint import pprint
pprint(next(iter(qa_gen.qa_results.values())))

# Xuất ra file
qa_gen.export_to_json("qa_generated.json")


QA Gen - culture: 100%|██████████| 31/31 [03:54<00:00,  7.55s/it]
QA Gen - science: 100%|██████████| 84/84 [10:57<00:00,  7.82s/it]
QA Gen - hardware: 100%|██████████| 46/46 [05:45<00:00,  7.50s/it]
QA Gen - data-points:   2%|▏         | 2/100 [00:16<13:20,  8.17s/it]

❌ JSON decode failed: Expecting property name enclosed in double quotes: line 79 column 5 (char 3250)
📥 Nội dung (đã xử lý): [
  {
    "question": "Dịch vụ Generative 3D mới ra mắt của Shutterstock và NVIDIA cho phép người dùng làm gì?",
    "options": {
      "A": "Tạo ra các đoạn video ngắn từ văn bản.",
      "B": "Nhanh chóng tạo mẫu các tài sản 3D và tạo ra ảnh nền HDRi 360 độ từ văn bản hoặc hình ảnh.",
      "C": "Chỉnh sửa ảnh 2D thành ảnh 3D.",
      "D": "Phân tích và đánh giá chất lượng các mô hình AI."
    },
    "answer": "B"
  },
  {
    "question": "NTIA khuyến nghị điều gì liên quan đến các mô hình AI 


QA Gen - data-points: 100%|██████████| 100/100 [13:35<00:00,  8.16s/it]
QA Gen - business: 100%|██████████| 100/100 [12:50<00:00,  7.71s/it]
QA Gen - ml-research:  53%|█████▎    | 53/100 [07:03<06:24,  8.18s/it]

❌ JSON decode failed: Expecting property name enclosed in double quotes: line 59 column 5 (char 2342)
📥 Nội dung (đã xử lý): [
  {
    "question": "Anthropic đã phân tích bao nhiêu cuộc hội thoại ẩn danh giữa người dùng và Claude 3.5 Sonnet?",
    "options": {
      "A": "100.000",
      "B": "500.000",
      "C": "1 triệu",
      "D": "5 triệu"
    },
    "answer": "C"
  },
  {
    "question": "Mục đích chính của công cụ Clio do Anthropic phát triển là gì?",
    "options": {
      "A": "Tạo ra các cuộc hội thoại mẫu với Claude 3.5 Sonnet.",
      "B": "Hiểu rõ hơn về cách người dùng tương tác với các mô hình ngôn ngữ


QA Gen - ml-research:  94%|█████████▍| 94/100 [23:57<02:50, 28.43s/it]

❌ JSON decode failed: Expecting property name enclosed in double quotes: line 29 column 5 (char 1258)
📥 Nội dung (đã xử lý): [
  {
    "question": "Nỗi lo sợ chính được đề cập trong bài viết là gì?",
    "options": {
      "A": "Sự suy giảm hiệu suất của các mô hình do thiếu dữ liệu huấn luyện.",
      "B": "Sự suy giảm hiệu suất của các mô hình do huấn luyện đệ quy trên dữ liệu tổng hợp.",
      "C": "Sự sụp đổ hoàn toàn của Internet do dữ liệu tổng hợp tràn lan.",
      "D": "Sự gia tăng chi phí huấn luyện mô hình do cần nhiều dữ liệu thực hơn."
    },
    "answer": "B"
  },
  {
    "question": "Tại sao các nhà phát


QA Gen - ml-research: 100%|██████████| 100/100 [26:44<00:00, 16.04s/it]

{'collection': 'culture',
 'content': 'The longest actors’ strike in Hollywood history ended as actors '
            'and studios reached an accord on the use of generative AI in '
            'making movies.\n'
            '\n'
            'What’s new: Film studios must seek an actor’s consent before '
            'using a generated likeness or performance and compensate the '
            'actor, according to anagreementbetween the trade union Screen '
            'Actors Guild-American Federation of Television and Radio Artists '
            '(SAG-AFTRA) and the Alliance of Motion Picture and Television '
            'Producers (TMPTP). The pact will remain in effect for three '
            'years, once it has been ratified by SAG-AFTRA members.\n'
            '\n'
            'How it works:The agreement covers digital replicas of human '
            'actors, synthetic performers, and simulated performances created '
            'using AI and other technologies that may not be genera




In [26]:
import json

# Load lại file JSON
with open("qa_generated.json", "r", encoding="utf-8") as f:
    qa_results = json.load(f)

# Đếm số bài viết (mỗi key là _id của 1 bài)
num_samples = len(qa_results)
print(f"📊 Tổng số mẫu (bài viết có QA): {num_samples}")


📊 Tổng số mẫu (bài viết có QA): 439


In [6]:
import json
from pymongo import MongoClient

# Load file đã export
with open("/kaggle/input/data-eval/qa_generated (1).json", "r", encoding="utf-8") as f:
    qa_results = json.load(f)

client = MongoClient("mongodb+srv://vinhthuanly210:Vinhthuanly123@cluster0.mznyroo.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")
db = client["deeplearning_ai_news"]

missing = 0

for doc_id, info in qa_results.items():
    col_name = info["collection"]
    collection = db[col_name]

    doc = collection.find_one({"_id": doc_id}) or collection.find_one({"slug": doc_id})
    
    if doc and "summary" in doc:
        qa_results[doc_id]["summary"] = doc["summary"]
    else:
        missing += 1
        print(f"⚠️ Không tìm thấy summary cho {doc_id}")

with open("qa_with_summary.json", "w", encoding="utf-8") as f:
    json.dump(qa_results, f, ensure_ascii=False, indent=2)

print(f"✅ Đã ghi file mới, số mẫu thiếu summary: {missing}")


✅ Đã ghi file mới, số mẫu thiếu summary: 0


In [7]:

import json

with open("/kaggle/working/qa_with_summary.json", "r", encoding="utf-8") as f:
    qa_data = json.load(f)
has_summary = [k for k, v in qa_data.items() if "summary" in v and v["summary"].strip()]
print(f"✅ Số mẫu có summary: {len(has_summary)}")
print(f"❌ Số mẫu thiếu summary: {len(qa_data) - len(has_summary)}")
from random import sample
sample_ids = sample(list(qa_data.keys()), 2)  # hoặc list(qa_data)[:2]

for _id in sample_ids:
    entry = qa_data[_id]
    print(f"\n📄 Title: {entry['title']}")
    print(f"📚 Collection: {entry['collection']}")
    print(f"📝 Summary: {entry['summary'][:300]}...")  # rút gọn
    print(f"🔢 Số câu hỏi: {len(entry['qa'])}")
summary_lengths = [len(v['summary'].split()) for v in qa_data.values() if 'summary' in v]
avg_len = sum(summary_lengths) / len(summary_lengths)
print(f"🧮 Độ dài trung bình của summary (theo từ): {avg_len:.2f}")


✅ Số mẫu có summary: 440
❌ Số mẫu thiếu summary: 0

📄 Title: Old Drugs for New Ailments
📚 Collection: science
📝 Summary: Dưới đây là bản tóm tắt bài viết:

*   Các nhà nghiên cứu đã phát triển DeepCE, một hệ thống sử dụng trí tuệ nhân tạo để dự đoán ảnh hưởng của thuốc đến việc sản xuất RNA và protein trong tế bào, từ đó xác định các loại thuốc có thể chống lại các bệnh như COVID-19.
*   DeepCE sử dụng các lớp "attent...
🔢 Số câu hỏi: 10

📄 Title: How DeepSeek Did It
📚 Collection: hardware
📝 Summary: Dưới đây là bản tóm tắt bài viết về phương pháp của DeepSeek:

*   DeepSeek đã tiết lộ các chi tiết về phương pháp xây dựng các mô hình ngôn ngữ lớn (LLM) mã nguồn mở tiên tiến, bao gồm DeepSeek-R1 và DeepSeek-V3, với chi phí thấp hơn đáng kể so với thông thường.
*   DeepSeek sử dụng kiến trúc Mixtu...
🔢 Số câu hỏi: 10
🧮 Độ dài trung bình của summary (theo từ): 152.96


## Evaluator after gen

In [None]:
import os
import re
import time
from langchain_google_genai import ChatGoogleGenerativeAI


class QAEvaluator:
    def __init__(self, qa_data: dict, api_keys: list, model_name="gemini-2.0-flash"):
        assert api_keys, "Bạn cần truyền ít nhất một API key"
        self.qa_data = qa_data
        self.api_keys = api_keys
        self.key_index = 0
        self.model_name = model_name
        self.results = {}

        # Gán key đầu tiên
        self.llm = ChatGoogleGenerativeAI(
            model=self.model_name,
            google_api_key=self.api_keys[self.key_index]
        )

    def rotate_key(self):
        self.key_index = (self.key_index + 1) % len(self.api_keys)
        new_key = self.api_keys[self.key_index]
        print(f"🔁 Đang xoay sang API key #{self.key_index + 1}")

        self.llm = ChatGoogleGenerativeAI(
            model=self.model_name,
            google_api_key=new_key
        )

    def answer_block(self, summary: str, qa_list: list, max_retries=3) -> list:
        prompt = f"""
Đây là đoạn tóm tắt nội dung một bài viết:

{summary}

Dưới đây là 10 câu hỏi trắc nghiệm liên quan đến nội dung:
"""
        for i, item in enumerate(qa_list, 1):
            prompt += f"""
Câu {i}: {item["question"]}
A. {item["options"]["A"]}
B. {item["options"]["B"]}
C. {item["options"]["C"]}
D. {item["options"]["D"]}
"""

        prompt += """
    Hãy trả lời từng câu bằng đúng định dạng sau:
    Câu 1: A
    Câu 2: E
    ...
    Câu 10: D
    
    ❗ Chỉ liệt kê duy nhất danh sách đáp án, không thêm lời giải thích hay mô tả nào khác.
    Nếu không có đủ thông tin để trả lời, hãy trả lời bằng "E".
    Kết quả trả lời của bạn phải đúng 10 dòng, mỗi dòng bắt đầu bằng "Câu <số>: <A/B/C/D/E>", không được thêm ghi chú, ngoặc hay giải thích.
    """

        for attempt in range(max_retries):
            try:
                time.sleep(1.2)
                response = self.llm.invoke(prompt).content.strip()
                print(f"\n📥 Raw response:\n{response}\n")
    
                answers = self.parse_answers(response, len(qa_list))
    
                # Ghi lại số câu đúng nếu muốn
                correct = sum(
                    pred == item["answer"].strip().upper()
                    for pred, item in zip(answers, qa_list)
                    if pred is not None
                )
                return answers
    
            except Exception as e:
                print(f"❌ Lỗi gọi LLM (attempt {attempt + 1}): {e}")
                self.rotate_key()
    
        return [None] * len(qa_list)

    def parse_answers(self, text: str, num_questions: int) -> list:
        answers = [None] * num_questions
    
        # ✅ Cho phép A-D và E (không có thông tin)
        for match in re.finditer(r"Câu\s*(\d+)\s*:\s*([A-E])", text, re.IGNORECASE):
            idx = int(match.group(1)) - 1
            if 0 <= idx < num_questions:
                answers[idx] = match.group(2).upper()
    
        actual_matches = sum(1 for a in answers if a)
        print(f"✅ Matches: {answers}")
        if actual_matches < num_questions:
            print(f"⚠️ Chỉ parse được {actual_matches}/{num_questions} đáp án.")
        return answers
    

    def evaluate_sample(self, doc_id: str, sample: dict):
        summary = sample.get("summary", "")
        qa_list = sample.get("qa", [])

        preds = self.answer_block(summary, qa_list)
        correct = 0
        answered = 0

        for pred, item in zip(preds, qa_list):
            if pred is None or pred == "E":
                continue
            answered += 1
            if pred == item["answer"].strip().upper():
                correct += 1

        total = len(qa_list)
        accuracy = round(correct / total * 100, 2)

        self.results[doc_id] = {
            "title": sample["title"],
            "collection": sample["collection"],
            "correct": correct,
            "total": total,
            "answered": answered,
            "accuracy": accuracy
        }

        mlflow.set_tracking_uri("https://mlflow-server-aiteamabc.onrender.com/")
        with mlflow.start_run(run_name="QA Eval", nested=True):
            mlflow.log_param("doc_id", doc_id)
            mlflow.log_param("collection", sample["collection"])
            mlflow.log_param("title", sample["title"])
            mlflow.log_metric("correct", correct)
            mlflow.log_metric("total", total)
            mlflow.log_metric("answered", answered)
            mlflow.log_metric("accuracy", accuracy)

    def run(self):
        for doc_id, sample in self.qa_data.items():
            self.evaluate_sample(doc_id, sample)

    def report(self, top_k=5):
        print(f"\n📊 Đánh giá {len(self.results)} bài viết:")
        for i, (doc_id, res) in enumerate(self.results.items()):
            if i >= top_k:
                break
            print(f"- [{res['collection']}] {res['title']}: {res['correct']}/{res['total']} đúng ({res['accuracy']}%)")

In [None]:
api_keys = [
    "",
    "", 
    "",
    "",
    "",
    "",
    "",
    "",
    "",
    ""
]

with open("/kaggle/working/qa_generated4points_with_summary.json", "r", encoding="utf-8") as f:
    qa_data = json.load(f)

evaluator = QAEvaluator(qa_data, api_keys)
evaluator.run()



In [None]:
all_results = evaluator.results

total_correct = sum(r['correct'] for r in all_results.values())
total_questions = sum(r['total'] for r in all_results.values())

if total_questions > 0:
    average_score = round(total_correct / total_questions * 10, 2)  
else:
    average_score = 0.0

print(f"🎯 Điểm trung bình theo từng câu: {average_score}/10")


In [None]:
import json
import pandas as pd


df = pd.DataFrame.from_dict(all_results, orient='index')

# Tính toán thêm
df['unanswered'] = df['total'] - df['answered']
df['incorrect'] = df['answered'] - df['correct']

# Tính tổng
total_articles = len(df)
total_questions = df['total'].sum()
total_answered = df['answered'].sum()
total_correct = df['correct'].sum()
total_incorrect = df['incorrect'].sum()
total_unanswered = df['unanswered'].sum()
overall_accuracy = round((total_correct / total_questions) * 100, 2)

# In kết quả tổng hợp
print(f"📝 Tổng số bài: {total_articles}")
print(f"❓ Tổng số câu hỏi: {total_questions}")
print(f"✅ Số câu trả lời đúng: {total_correct}")
print(f"❌ Số câu trả lời sai: {total_incorrect}")
print(f"❓ Số câu chưa trả lời: {total_unanswered}")
print(f"🎯 Độ chính xác tổng thể: {overall_accuracy}%")

# Hiển thị bảng chi tiết
print("\n📊 Chi tiết theo từng bài viết:")
print(df[['title', 'collection', 'correct', 'incorrect', 'unanswered', 'total', 'accuracy']])


In [None]:
import json

with open("qa_eval_result.json", "w", encoding="utf-8") as f:
    json.dump(evaluator.results, f, ensure_ascii=False, indent=2)
print("📁 Đã lưu kết quả đánh giá vào qa_eval_result.json")
