In [3]:
import pandas as pd
from pathlib import Path
import time
from google import genai

from collections import defaultdict

# --- Cấu hình LLM ---
client = genai.Client(api_key="AIzaSyCS0bljIt691Tsl4mSFhEX0BRhlpAovxNE")

# --- Đường dẫn ---
qa_csv_path = Path("dataset/all_qa.csv")
graph_folder = Path("dataset/scene_graph")

# --- Đọc CSV ---
df = pd.read_csv(qa_csv_path)



def retrieve_relevant_relations(question, graph_text, top_k=200):
    relations = graph_text.strip().splitlines()
    question_tokens = set(question.lower().split())
    scored = []

    for rel in relations:
        score = sum(token in rel.lower() for token in question_tokens)
        if score > 0:
            scored.append((score, rel))

    scored.sort(reverse=True, key=lambda x: x[0])
    top_relations = [rel for _, rel in scored[:top_k]]

    if not top_relations:
        top_relations = relations[:top_k]

    return "\n".join(top_relations)


# --- Cập nhật reasoning ---
def reasoning_with_graph(question, graph_text):
    relevant_graph = retrieve_relevant_relations(question, graph_text, top_k=200)
    # print(relevant_graph)
    prompt = f"""
Bạn là một hệ thống reasoning dựa trên scene graph.
Dưới đây là các quan hệ trong graph có thể liên quan đến câu hỏi:

{relevant_graph}

Câu hỏi: {question}

Khi object được đánh số theo dạng 1,2,... thì nó mới tính là có nhiều object. 
Còn object không có số thì hoàn toàn là cùng một object nhưng nằm ở những frame khác nhau.
Hãy sử dụng thông tin trong graph để trả lời một cách logic và rõ ràng.
"""
    response = client.models.generate_content(
        model="gemini-2.0-flash",
        contents=[prompt]
    )
    return response.text.strip()


def check(answer, true_answer):
    prompt = f"""
Bạn sẽ là giám khảo.

Đây là câu trả lời của chatbot: {answer}
Đây là câu trả lời chính xác: {true_answer}

Câu trả lời của chatbot chỉ cần có ý giống với câu trả lời chính xác sẽ được tính là đúng, hoặc là từ câu trả lời của chatbot có thể suy luận ra câu trả lời chính xác thì cũng là đúng.
Câu trả lời của chatbot chỉ cần có thông tin như câu trả chính xác cũng tính là đúng nha.
Ví dụ:
câu trả lời của chatbot: đứa trẻ đang chơi 
câu trả lời chính xác: đứa trẻ đang chơi đồ chơi
----> cũng là đúng.

câu trả lời của chatbot: Dựa vào thông tin trong graph, rèm cửa có màu trắng (có hoa văn), màu vàng nhạt và màu xanh đậm.
câu trả lời chính xác: Rèm cửa có màu trắng.
-----> cũng là đúng.

câu trả lời của chatbot: Dựa vào thông tin trong graph, có thể thấy:

*   **người2** (trẻ - nữ, mặc áo đỏ, đội mũ) đang chơi với **đồ chơi (màu hồng, hình chữ nhật)** trong frame 83 và 84.
*   **người4** (em bé - không mặc áo) đang chơi với **đồ chơi (màu hồng, hình chữ nhật)** trong frame 80, 81 và 82.
*   **người1** (trẻ - nữ, mặc áo trắng) đang chơi với **đồ chơi (màu sắc đa dạng, hình tròn)** trong frame 0.

Vậy, graph cho thấy có nhiều đứa trẻ đang chơi với nhiều loại đồ chơi khác nhau.
câu trả lời chính xác: Đứa trẻ đang chơi với máy tính tiền đồ chơi hoặc bộ đồ chơi tương tự.
------> Đúng (vì nó đã nhận dạng được đúng hình dạng của đồ chơi, nó khong thể biết được quá cụ thể nó là gì nên vẫn tính là đúng)

câu trả lời của chatbot: Dựa vào thông tin trong graph, đứa trẻ (người1) đang ngồi ở những vị trí sau:

*   **Ghế1 (bằng nhựa, màu vàng, kiểu ghế trẻ em):** trong frame 10.
*   **Ghế3 (bằng nhựa, màu đỏ, kiểu ghế trẻ em):** trong frame 14, 15, 16.
*   **Ghế3 (bằng nhựa, màu đỏ, kiểu ghế trẻ em):** trong frame 58 và 59 (đây là người1 - trẻ nam).
*   **Ghế2 (bằng nhựa, màu cam, kiểu ghế trẻ em):** trong frame 62 (đây là người2 - trẻ nữ mặc áo đỏ).
*   **Sàn nhà (màu sáng):** trong frame 79, 80, 81, 82 (đây là người2 - trẻ nữ mặc áo đỏ).

Ngoài ra, đứa trẻ (người1) còn ngồi cạnh ghế3 trong frame 17, 18, 19, 20.
câu trả lời chính xác:  Đứa trẻ đang ngồi trên sàn nhà gần góc tạo bởi hai kệ gỗ.
------> Đúng (vì nó đã nhận dạng được đúng hình dạng của đồ chơi, nó khong thể biết được quá cụ thể nó là gì nên vẫn tính là đúng)


*Chú ý: answer là lấy câu trả lời từ scene graph nên có lúc nhận diện vật thể sẽ không giống hoàn toàn trong câu được, chỉ cần câu trả lời có ý đúng thì sẽ được tính là đúng*
*DỰA TRÊN NHỮNG VÍ DỤ, HÃY ĐƯA RA CÂU TRẢ LỜI THOÁNG*
Trả về:
1 khi chatbot trả lời cùng ý với câu trả lời chính xác.
còn sai thì là 0.
    """
    response = client.models.generate_content(
        model="gemini-2.0-flash",
        contents=[prompt]
    )
    return response.text.strip()


# --- Hàm load graph ---
def smart_graph_loader(graph_path):
    return graph_path.read_text(encoding="utf-8")

# --- Tính toán accuracy ---
results_summary = {}
total_questions = 0

for file_name, group in df.groupby('file'):
    graph_path = graph_folder / (file_name.replace('.csv', '.txt'))
    if not graph_path.exists():
        print(f"Graph file {graph_path} không tồn tại, bỏ qua.", flush=True)
        continue

    graph_text = smart_graph_loader(graph_path)
    correct = 0
    start_time = time.time()

    for _, row in group.iterrows():
        question = row['question']
        true_answer = str(row['answer']).strip()
        # print(question)
        # print(true_answer)
        # print(graph_text)
        final_answer = reasoning_with_graph(question, graph_text)

        print(f"Video {file_name}, Câu hỏi: {question}", flush=True)
        print(f"  Kết quả trả về: {final_answer}", flush=True)
        print(f"  True answer: {true_answer}\n", flush=True)

        response = check(final_answer, true_answer)

        print("Check:", response)

        if response == "1":
            correct += 1
        total_questions += 1

    end_time = time.time()
    avg_time_per_question = (end_time - start_time) / len(group)
    results_summary[file_name] = {
        'accuracy': correct / len(group),
        'avg_time_per_question': avg_time_per_question
    }

# --- In kết quả tổng kết ---
for file, stats in results_summary.items():
    print(f"{file}: Accuracy={stats['accuracy']:.2f}, AvgTimePerQuestion={stats['avg_time_per_question']:.2f}s", flush=True)


Video 10597533885.csv, Câu hỏi: Có bao nhiêu kệ sách trong ảnh?
  Kết quả trả về: Dựa vào các quan hệ trong scene graph đã cho, không có thông tin nào đề cập đến sự tồn tại của "kệ sách" trong ảnh. Vì vậy, không thể xác định số lượng kệ sách trong ảnh từ thông tin này.

Câu trả lời: Không thể xác định.
  True answer: Có một kệ sách trong ảnh.

Check: 0
Video 10597533885.csv, Câu hỏi: Đứa trẻ đang làm gì?
  Kết quả trả về: Dựa vào các quan hệ trong scene graph, có thể thấy rằng đứa trẻ (hoặc cô bé) đang chơi với đồ chơi trong phòng. Điều này được thể hiện qua rất nhiều quan hệ như:

*   `đứa trẻ (đang chơi) - với - đồ chơi (trong phòng) (frame: X)`
*   `cô bé (đang chơi) - với - đồ chơi (trong phòng) (frame: Y)`
*   `cô bé (đang chơi) - chơi với - đồ chơi (trong phòng) (frame: Z)`

Trong đó X, Y, Z là các frame khác nhau.
  True answer: Đứa trẻ đang chơi với đồ chơi.

Check: 1
Video 10597533885.csv, Câu hỏi: Những loại đồ chơi nào bạn thấy trong ảnh?
  Kết quả trả về: Dựa trên các quan 

ServerError: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The service is currently unavailable.', 'status': 'UNAVAILABLE'}}