In [1]:
!pip install torch torchvision transformers pillow requests



In [17]:
import os
import time
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration
from pathlib import Path

In [18]:
processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")

def caption_image(image_path):
    image = Image.open(image_path).convert("RGB")
    inputs = processor(image, return_tensors="pt")
    out = model.generate(**inputs)
    return processor.decode(out[0], skip_special_tokens=True)


Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Fetching 1 files: 100%|██████████| 1/1 [00:00<00:00, 9532.51it/s]


In [19]:
def process_all_folders():
    input_root = Path("/Users/ptdung/Coding/Github/soICT/dataset/keyframes_output")
    output_caption_root = Path("/Users/ptdung/Coding/Github/soICT/dataset/captioning")
    output_time_root = Path("/Users/ptdung/Coding/Github/soICT/dataset/time")

    output_caption_root.mkdir(parents=True, exist_ok=True)
    output_time_root.mkdir(parents=True, exist_ok=True)

    for folder in sorted(input_root.iterdir()):
        if folder.is_dir():
            start_time = time.time()
            captions = []

            for frame in sorted(folder.glob("*.jpg")):
                cap = caption_image(str(frame))
                captions.append(f"{frame.name}: {cap}")

            elapsed = time.time() - start_time

            # lưu caption
            caption_file = output_caption_root / f"{folder.name}.txt"
            with open(caption_file, "w", encoding="utf-8") as f:
                f.write("\n".join(captions))

            # lưu thời gian
            time_file = output_time_root / f"{folder.name}.txt"
            with open(time_file, "w", encoding="utf-8") as f:
                f.write(f"{elapsed:.2f} seconds\n")

            print(f"Done {folder.name}: {len(captions)} frames, {elapsed:.2f}s")

In [20]:
process_all_folders()

Done 10597533885: 87 frames, 17.29s
Done 11681746823: 31 frames, 5.39s
Done 11871253306: 74 frames, 13.25s
Done 2405940242: 21 frames, 4.06s
Done 2435100235: 101 frames, 18.72s
Done 2435633172: 115 frames, 19.36s
Done 2503404966: 42 frames, 7.34s
Done 2614918961: 66 frames, 11.46s
Done 2735019707: 30 frames, 5.48s
Done 2793260225: 29 frames, 5.34s
Done 2793806282: 97 frames, 17.41s
Done 2821968703: 45 frames, 7.72s
Done 2830899473: 22 frames, 4.07s
Done 2834146886: 96 frames, 16.89s
Done 2976913210: 28 frames, 5.62s
Done 2984974097: 45 frames, 7.94s
Done 3066064005: 43 frames, 7.62s
Done 3121571439: 61 frames, 10.72s
Done 3151715056: 95 frames, 16.52s
Done 3158022797: 136 frames, 25.93s
Done 3171006258: 55 frames, 11.26s
Done 3206694342: 99 frames, 17.22s
Done 3429509208: 21 frames, 4.11s
Done 3441428429: 138 frames, 26.18s
Done 3462517143: 37 frames, 6.81s
Done 3477387686: 102 frames, 18.94s
Done 3524939594: 23 frames, 3.79s
Done 3550839192: 54 frames, 10.54s
Done 3557498300: 43 frame

KeyboardInterrupt: 

In [21]:
import re

text = """
Done 10597533885: 87 frames, 16.04s
Done 11681746823: 31 frames, 5.71s
Done 11871253306: 74 frames, 14.10s
Done 2405940242: 21 frames, 3.44s
Done 2435100235: 101 frames, 20.04s
Done 2435633172: 115 frames, 16.83s
Done 2503404966: 42 frames, 8.01s
Done 2614918961: 66 frames, 12.51s
Done 2735019707: 30 frames, 5.50s
Done 2793260225: 28 frames, 4.93s
Done 2793806282: 97 frames, 17.86s
Done 2821968703: 45 frames, 8.16s
Done 2830899473: 22 frames, 4.18s
Done 2834146886: 96 frames, 18.79s
Done 2976913210: 28 frames, 5.92s
Done 2984974097: 45 frames, 7.95s
Done 3066064005: 43 frames, 8.13s
Done 3121571439: 61 frames, 11.40s
Done 3151715056: 95 frames, 17.24s
Done 3158022797: 136 frames, 24.93s
Done 3171006258: 55 frames, 10.01s
Done 3206694342: 99 frames, 17.40s
Done 3429509208: 21 frames, 3.75s
Done 3441428429: 138 frames, 24.62s
Done 3462517143: 37 frames, 6.42s
Done 3477387686: 102 frames, 18.90s
Done 3524939594: 23 frames, 3.52s
Done 3550839192: 54 frames, 9.84s
Done 3557498300: 43 frames, 7.52s
Done 3562017845: 60 frames, 10.68s
Done 3711681535: 54 frames, 9.52s
Done 3821781616: 38 frames, 7.23s
Done 3851961428: 104 frames, 18.22s
Done 3943634344: 32 frames, 6.45s
Done 3963997053: 29 frames, 5.63s
Done 4010069381: 19 frames, 3.57s
Done 4094488636: 41 frames, 7.48s
Done 4138579400: 31 frames, 6.07s
Done 4217422838: 64 frames, 12.26s
Done 4260763967: 51 frames, 8.67s
Done 4263096481: 32 frames, 5.35s
Done 4273039295: 112 frames, 18.01s
Done 4279106208: 29 frames, 4.88s
Done 4584426085: 136 frames, 25.00s
Done 4815534482: 113 frames, 21.58s
Done 4822859674: 44 frames, 8.92s
Done 4882821564: 135 frames, 32.00s
Done 4942054721: 33 frames, 6.09s
Done 4978714491: 60 frames, 11.00s
Done 4984331176: 15 frames, 2.68s
Done 5026660202: 135 frames, 21.90s
Done 5116088152: 61 frames, 10.04s
Done 5256928210: 31 frames, 5.07s
Done 5296635780: 33 frames, 5.68s
Done 5328004991: 40 frames, 6.71s
Done 5333075105: 59 frames, 9.87s
Done 5445581571: 49 frames, 9.02s
Done 5561024834: 48 frames, 8.67s
Done 5635265624: 30 frames, 5.69s
Done 5679866364: 38 frames, 7.03s
Done 5735711594: 30 frames, 5.34s
Done 5833145209: 27 frames, 4.80s
Done 5840177726: 20 frames, 3.42s
Done 5902452647: 41 frames, 7.06s
Done 5987365500: 36 frames, 5.88s
Done 6018490041: 42 frames, 6.82s
Done 6136926089: 78 frames, 12.85s
Done 6160414832: 93 frames, 16.23s
Done 6201488511: 129 frames, 23.26s
Done 6265968082: 68 frames, 11.49s
Done 6329077812: 96 frames, 16.44s
Done 6356067859: 54 frames, 10.22s
Done 6582763207: 35 frames, 6.16s
Done 6624174621: 62 frames, 11.42s
Done 6793786769: 60 frames, 10.54s
Done 6895608152: 109 frames, 19.77s
Done 7001078933: 33 frames, 5.75s
Done 7149153537: 70 frames, 11.20s
Done 7164729910: 33 frames, 5.76s
Done 7308042410: 51 frames, 8.89s
Done 7416295940: 120 frames, 20.59s
Done 7499763064: 31 frames, 5.41s
Done 7508439506: 39 frames, 6.55s
Done 7533369046: 41 frames, 7.53s
Done 7786283208: 33 frames, 5.64s
Done 8064178441: 112 frames, 18.84s
Done 8107573462: 21 frames, 4.02s
Done 8132842161: 56 frames, 10.95s

"""

# Regex để lấy số frames và giây
pattern = r": (\d+) frames, ([\d.]+)s"

total_frames = 0
total_time = 0.0

for frames, seconds in re.findall(pattern, text):
    total_frames += int(frames)
    total_time += float(seconds)

avg_time_per_frame = total_time / total_frames

print(f"Tổng frames: {total_frames}")
print(f"Tổng thời gian: {total_time:.2f}s")
print(f"Thời gian trung bình 1 frame: {avg_time_per_frame:.5f}s")


Tổng frames: 5211
Tổng thời gian: 937.45s
Thời gian trung bình 1 frame: 0.17990s


In [21]:
from google import genai
from pathlib import Path
import time

client = genai.Client(api_key="AIzaSyCS0bljIt691Tsl4mSFhEX0BRhlpAovxNE")

def extract_scene_graph_from_caption(caption_text):
    prompt = f"""
    Bạn là một AI trích xuất scene graph từ mô tả ảnh.
    Chỉ trả về các quan hệ theo format sau:

    obj (mô tả chi tiết, trạng thái, hành động, nếu có) - relation - obj2 (mô tả chi tiết, trạng thái, hành động, nếu có) (frame: frame_index)

    - Mỗi quan hệ in trên một dòng.
    - Không thêm bất cứ giải thích hay văn bản nào khác.
    - Nếu cùng một quan hệ xuất hiện ở nhiều frame, lặp lại với frame tương ứng.
    *DỊCH TOÀN BỘ NỘI DUNG SANG TIẾNG VIỆT*
    *TRẢ VỀ CHỈ CÓ TIẾNG VIỆT*
    Caption: "{caption_text}"
    """

    response = client.models.generate_content(
        model="gemini-2.0-flash",
        contents=[prompt]
    )
    return response.text.strip().split("\n")

def process_all_caption_files():
    input_caption_root = Path("/Users/ptdung/Coding/Github/soICT/dataset/captioning")
    output_graph_root = Path("/Users/ptdung/Coding/Github/soICT/dataset/scene_graph")
    output_time_root = Path("/Users/ptdung/Coding/Github/soICT/dataset/time")
    output_graph_root.mkdir(parents=True, exist_ok=True)
    output_time_root.mkdir(parents=True, exist_ok=True)

    for file_path in sorted(input_caption_root.glob("*.txt")):
        out_file = output_graph_root / file_path.name
        time_file = output_time_root / file_path.name

        # skip nếu đã có file output
        if out_file.exists() and time_file.exists():
            print(f"Skipped {file_path.name} (already processed)")
            continue

        with open(file_path, "r", encoding="utf-8") as f:
            captions = f.read().splitlines()

        all_graphs = []
        start_time = time.time()
        for caption in captions:
            graph = extract_scene_graph_from_caption(caption)
            all_graphs.append(f"{graph}")
        elapsed = time.time() - start_time

        # lưu kết quả scene graph
        with open(out_file, "w", encoding="utf-8") as f:
            f.write("\n".join(all_graphs))

        # lưu thời gian tổng và trung bình/frame
        avg_time_per_frame = elapsed / max(len(captions), 1)
        with open(time_file, "w", encoding="utf-8") as f:
            f.write(f"Total time: {elapsed:.2f} seconds\n")
            f.write(f"Average time per frame: {avg_time_per_frame:.2f} seconds\n")

        print(f"Processed {file_path.name}: {len(captions)} captions, total {elapsed:.2f}s, avg {avg_time_per_frame:.2f}s/frame")

if __name__ == "__main__":
    process_all_caption_files()


Skipped 10597533885.txt (already processed)
Skipped 11681746823.txt (already processed)
Skipped 11871253306.txt (already processed)
Processed 2405940242.txt: 21 captions, total 19.52s, avg 0.93s/frame
Processed 2435100235.txt: 101 captions, total 105.30s, avg 1.04s/frame
Processed 2435633172.txt: 115 captions, total 100.15s, avg 0.87s/frame
Processed 2503404966.txt: 42 captions, total 35.13s, avg 0.84s/frame
Processed 2614918961.txt: 66 captions, total 58.31s, avg 0.88s/frame
Processed 2735019707.txt: 30 captions, total 26.12s, avg 0.87s/frame
Processed 2793260225.txt: 29 captions, total 25.68s, avg 0.89s/frame
Processed 2793806282.txt: 97 captions, total 118.14s, avg 1.22s/frame
Processed 2821968703.txt: 45 captions, total 57.44s, avg 1.28s/frame
Processed 2830899473.txt: 22 captions, total 24.71s, avg 1.12s/frame
Processed 2834146886.txt: 96 captions, total 129.26s, avg 1.35s/frame
Processed 2976913210.txt: 28 captions, total 39.52s, avg 1.41s/frame
Processed 2984974097.txt: 45 capti

KeyboardInterrupt: 

In [31]:
from pathlib import Path

folder_path = Path("dataset/scene_graph")

total_lines = 0

txt_files = list(folder_path.glob("*.txt"))

for txt_file in txt_files:
    with open(txt_file, "r", encoding="utf-8") as f:
        total_lines += sum(1 for _ in f)  

print(f"Tổng số hàng trong {len(txt_files)} file txt đầu: {total_lines}")

Tổng số hàng trong 20 file txt đầu: 1263


In [32]:
!pip install transformers torch torchvision qwen-vl-utils

Collecting qwen-vl-utils
  Downloading qwen_vl_utils-0.0.13-py3-none-any.whl.metadata (6.3 kB)
Collecting av (from qwen-vl-utils)
  Downloading av-15.1.0-cp313-cp313-macosx_13_0_arm64.whl.metadata (4.6 kB)
Downloading qwen_vl_utils-0.0.13-py3-none-any.whl (7.8 kB)
Downloading av-15.1.0-cp313-cp313-macosx_13_0_arm64.whl (21.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m21.7/21.7 MB[0m [31m1.6 MB/s[0m  [33m0:00:14[0mm0:00:01[0m00:02[0m0m
[?25hInstalling collected packages: av, qwen-vl-utils
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2/2[0m [qwen-vl-utils]
[1A[2KSuccessfully installed av-15.1.0 qwen-vl-utils-0.0.13


In [5]:
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
from PIL import Image
import requests
from io import BytesIO

def describe_image(image_path_or_url):
    # Tải ảnh từ URL hoặc đường dẫn cục bộ
    if image_path_or_url.startswith('http'):
        response = requests.get(image_path_or_url)
        image = Image.open(BytesIO(response.content))
    else:
        image = Image.open(image_path_or_url)

    # Khởi tạo mô hình và bộ xử lý
    processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")
    model = Qwen2VLForConditionalGeneration.from_pretrained("Qwen/Qwen2-VL-2B-Instruct", torch_dtype="auto", device_map="auto")

    # Xử lý ảnh và tạo đầu vào cho mô hình
    vision_info = process_vision_info(image)
    inputs = processor(vision_info, return_tensors="pt").to(model.device)

    # Tạo câu trả lời từ mô hình
    outputs = model.generate(**inputs)
    description = processor.decode(outputs[0], skip_special_tokens=True)
    return description


  from .autonotebook import tqdm as notebook_tqdm


In [7]:

print(describe_image("/Users/ptdung/Coding/Github/soICT/dataset/processed_frames/2614918961/frame_0000.jpg"))

Fetching 1 files: 100%|██████████| 1/1 [00:00<00:00, 12192.74it/s]
Fetching 1 files: 100%|██████████| 1/1 [00:00<00:00, 12633.45it/s]
The image processor of type `Qwen2VLImageProcessor` is now loaded as a fast processor by default, even if the model checkpoint was saved with a slow processor. This is a breaking change and may produce slightly different outputs. To continue using the slow processor, instantiate this class with `use_fast=False`. Note that this behavior will be extended to all models in a future release.
Fetching 1 files: 100%|██████████| 1/1 [00:00<00:00, 9619.96it/s]
`torch_dtype` is deprecated! Use `dtype` instead!
Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

  [2m2025-09-22T15:12:54.123838Z[0m [33m WARN[0m  [33mReqwest(reqwest::Error { kind: Request, url: "https://transfer.xethub.hf.co/xorbs/default/cc714c9826ca5ec428e28b6da6ffca980bdaba75e9d11618e70008308797b88c?X-Xet-Signed-Range=bytes%3D0-58182270&X-Xet-Session-Id=01K5RZPSJMW2R2040S4XNTQ3YT&Expires=1758557526&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly90cmFuc2Zlci54ZXRodWIuaGYuY28veG9yYnMvZGVmYXVsdC9jYzcxNGM5ODI2Y2E1ZWM0MjhlMjhiNmRhNmZmY2E5ODBiZGFiYTc1ZTlkMTE2MThlNzAwMDgzMDg3OTdiODhjP1gtWGV0LVNpZ25lZC1SYW5nZT1ieXRlcyUzRDAtNTgxODIyNzAmWC1YZXQtU2Vzc2lvbi1JZD0wMUs1UlpQU0pNVzJSMjA0MFM0WE5UUTNZVCIsIkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTc1ODU1NzUyNn19fV19&Signature=cwhWo~J3mFKYrBfHcTv-Q9~Ndb-9jfPDsb10Id7cbmN~NkfALPqVrcR3MnZBNBOfjQgjm3FnOGmfV-f5gOFsDQpJzayGNVX4v5Uw9QBQ6Y1GqHE9cib4~3Vv6FtuPmmQ~GqImLRoLCobVyRnDD0CL7zPcnLfDgqK-T41M5zBCuhU-bOy8vyZnKx8URQUuATsQsn1YRxBsSZkLwEdQtN1SD9E5dc8r0syTniQjLFBzKDNAquqxHChfgvyGBUwjAqRUov5CCqNP4QGbBSOYO-zUUCBiXbDrEM7S5U-YPm

Fetching 2 files:   0%|          | 0/2 [03:44<?, ?it/s]
Cancellation requested; stopping current tasks.


KeyboardInterrupt: 

In [None]:
from transformers import Blip2Processor, Blip2ForConditionalGeneration
from PIL import Image

processor = Blip2Processor.from_pretrained("Salesforce/blip2-flan-t5-xl")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-flan-t5-xl")

image = Image.open("/Users/ptdung/Coding/Github/soICT/dataset/keyframes_output/2435100235/frame_0000.jpg")
inputs = processor(images=image, return_tensors="pt")
outputs = model.generate(**inputs)
caption = processor.decode(outputs[0], skip_special_tokens=True)
print(caption)


Fetching 2 files: 100%|██████████| 2/2 [00:00<00:00, 23563.51it/s]
Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

  [2m2025-09-22T14:49:31.589054Z[0m [33m WARN[0m  [33mReqwest(reqwest::Error { kind: Request, url: "https://transfer.xethub.hf.co/xorbs/default/f0696f5fdc0058ee25a0916602d829ca8b8f6766afe240ec126e1884dc3527af?X-Xet-Signed-Range=bytes%3D0-29745744&X-Xet-Session-Id=01K5RYBKRTJCC7FA4KPAPY59C1&Expires=1758556113&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly90cmFuc2Zlci54ZXRodWIuaGYuY28veG9yYnMvZGVmYXVsdC9mMDY5NmY1ZmRjMDA1OGVlMjVhMDkxNjYwMmQ4MjljYThiOGY2NzY2YWZlMjQwZWMxMjZlMTg4NGRjMzUyN2FmP1gtWGV0LVNpZ25lZC1SYW5nZT1ieXRlcyUzRDAtMjk3NDU3NDQmWC1YZXQtU2Vzc2lvbi1JZD0wMUs1UllCS1JUSkNDN0ZBNEtQQVBZNTlDMSIsIkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTc1ODU1NjExM319fV19&Signature=Fheejckwq4EJoNNyfeUOkK-oxLdBFEMeUISRG7ykcPVTMq-psqg9iQhe-EyXP36ntsmZiMQ3phA9RPioIhmbijwCpkMyPLPJrdOZKY7Qq4ZUZ6lP0Fpmf2zI~t4NQ1QdWYzp~5hMyWzWCPpg7xo6ODws15eQ8La9Ou2HOZxr~NYeaBvWucqyO18Wxa8PkcCfJ0yUu9HEqr842bNLzeE64auPymfBrlndyA28pfMCP4FNysKNZaKagrT-uUf8TiplwuFTmisdecTjQE2N5qd5qtkPFMRRps9cGew7cY-

Fetching 2 files:   0%|          | 0/2 [01:34<?, ?it/s]


  [2m2025-09-22T14:50:22.043473Z[0m [33m WARN[0m  [33mReqwest(reqwest::Error { kind: Request, url: "https://transfer.xethub.hf.co/xorbs/default/e17022f7dde8e6df45914209cbdb58c6b24d1c68c66af193a2c8d955e4bbad92?X-Xet-Signed-Range=bytes%3D0-290379&X-Xet-Session-Id=01K5RYBKQY8ZMAJGNP6FJSMFTC&Expires=1758556112&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly90cmFuc2Zlci54ZXRodWIuaGYuY28veG9yYnMvZGVmYXVsdC9lMTcwMjJmN2RkZThlNmRmNDU5MTQyMDljYmRiNThjNmIyNGQxYzY4YzY2YWYxOTNhMmM4ZDk1NWU0YmJhZDkyP1gtWGV0LVNpZ25lZC1SYW5nZT1ieXRlcyUzRDAtMjkwMzc5JlgtWGV0LVNlc3Npb24tSWQ9MDFLNVJZQktRWThaTUFKR05QNkZKU01GVEMiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE3NTg1NTYxMTJ9fX1dfQ__&Signature=HKb12CNRu5ZCAWGezz3zDRnFb00-rrHn1M4P4j0Xn93d57hWaPjX1DEKafsv1f9BUC5ysimYJPP8SRI5aVGx3p~TI15Ul1pLMPE4miug0tIyUNqEMsLCr5bIsP2~l5hUoQVCTzqpuc2Z6yx3HoXQlaPs~UEeBcPuX8K6gk63AGEkJ-NJIAfS1n-MHPqjj8CTnhIvm4qosUfBYk6uZmfQEa8c544E4vF3~UZ357~7eC07bl5ZWZ6I84n9yvub9zrwxRR-EE1fkwTAMuVBF45eSV8HmHgvFAhQRNVkzhJWK

In [36]:
image_path = "/Users/ptdung/Coding/Github/soICT/dataset/keyframes_output/2435100235/frame_0000.jpg"
prompt = "Describe this image in detail, including all objects and their relationships."
caption = generate_caption_with_prompt(image_path, prompt)
print(caption)


Fetching 1 files: 100%|██████████| 1/1 [00:00<00:00, 11618.57it/s]
Fetching 1 files: 100%|██████████| 1/1 [00:00<00:00, 9510.89it/s]
Fetching 1 files: 100%|██████████| 1/1 [00:00<00:00, 12787.51it/s]
Fetching 2 files:   0%|          | 0/2 [00:10<?, ?it/s]


OSError: We couldn't connect to 'https://huggingface.co' to load the files, and couldn't find them in the cached files.
Check your internet connection or see how to run the library in offline mode at 'https://huggingface.co/docs/transformers/installation#offline-mode'.

In [1]:
import pandas as pd
from pathlib import Path
import time
from google import genai

from collections import defaultdict

# --- Cấu hình LLM ---
client = genai.Client(api_key="AIzaSyCS0bljIt691Tsl4mSFhEX0BRhlpAovxNE")

# --- Đường dẫn ---
qa_csv_path = Path("dataset/all_qa.csv")
graph_folder = Path("dataset/linked_scene_graph_test_wo_mask")

# --- Đọc CSV ---
df = pd.read_csv(qa_csv_path)



def retrieve_relevant_relations(question, graph_text, top_k=200):
    relations = graph_text.strip().splitlines()
    question_tokens = set(question.lower().split())
    scored = []

    for rel in relations:
        score = sum(token in rel.lower() for token in question_tokens)
        if score > 0:
            scored.append((score, rel))

    scored.sort(reverse=True, key=lambda x: x[0])
    top_relations = [rel for _, rel in scored[:top_k]]

    if not top_relations:
        top_relations = relations[:top_k]

    return "\n".join(top_relations)


# --- Cập nhật reasoning ---
def reasoning_with_graph(question, graph_text):
    relevant_graph = retrieve_relevant_relations(question, graph_text, top_k=200)
    # print(relevant_graph)
    prompt = f"""
Bạn là một hệ thống reasoning dựa trên scene graph.
Dưới đây là các quan hệ trong graph có thể liên quan đến câu hỏi:

{relevant_graph}

Câu hỏi: {question}

Khi object được đánh số theo dạng 1,2,... thì nó mới tính là có nhiều object. 
Còn object không có số thì hoàn toàn là cùng một object nhưng nằm ở những frame khác nhau.
Hãy sử dụng thông tin trong graph để trả lời một cách logic và rõ ràng.
"""
    response = client.models.generate_content(
        model="gemini-2.0-flash",
        contents=[prompt]
    )
    return response.text.strip()


def check(answer, true_answer):
    prompt = f"""
Bạn sẽ là giám khảo.

Đây là câu trả lời của chatbot: {answer}
Đây là câu trả lời chính xác: {true_answer}

Câu trả lời của chatbot chỉ cần có ý giống với câu trả lời chính xác sẽ được tính là đúng, hoặc là từ câu trả lời của chatbot có thể suy luận ra câu trả lời chính xác thì cũng là đúng.
Câu trả lời của chatbot chỉ cần có thông tin như câu trả chính xác cũng tính là đúng nha.
Ví dụ:
câu trả lời của chatbot: đứa trẻ đang chơi 
câu trả lời chính xác: đứa trẻ đang chơi đồ chơi
----> cũng là đúng.

câu trả lời của chatbot: Dựa vào thông tin trong graph, rèm cửa có màu trắng (có hoa văn), màu vàng nhạt và màu xanh đậm.
câu trả lời chính xác: Rèm cửa có màu trắng.
-----> cũng là đúng.

câu trả lời của chatbot: Dựa vào thông tin trong graph, có thể thấy:

*   **người2** (trẻ - nữ, mặc áo đỏ, đội mũ) đang chơi với **đồ chơi (màu hồng, hình chữ nhật)** trong frame 83 và 84.
*   **người4** (em bé - không mặc áo) đang chơi với **đồ chơi (màu hồng, hình chữ nhật)** trong frame 80, 81 và 82.
*   **người1** (trẻ - nữ, mặc áo trắng) đang chơi với **đồ chơi (màu sắc đa dạng, hình tròn)** trong frame 0.

Vậy, graph cho thấy có nhiều đứa trẻ đang chơi với nhiều loại đồ chơi khác nhau.
câu trả lời chính xác: Đứa trẻ đang chơi với máy tính tiền đồ chơi hoặc bộ đồ chơi tương tự.
------> Đúng (vì nó đã nhận dạng được đúng hình dạng của đồ chơi, nó khong thể biết được quá cụ thể nó là gì nên vẫn tính là đúng)

câu trả lời của chatbot: Dựa vào thông tin trong graph, đứa trẻ (người1) đang ngồi ở những vị trí sau:

*   **Ghế1 (bằng nhựa, màu vàng, kiểu ghế trẻ em):** trong frame 10.
*   **Ghế3 (bằng nhựa, màu đỏ, kiểu ghế trẻ em):** trong frame 14, 15, 16.
*   **Ghế3 (bằng nhựa, màu đỏ, kiểu ghế trẻ em):** trong frame 58 và 59 (đây là người1 - trẻ nam).
*   **Ghế2 (bằng nhựa, màu cam, kiểu ghế trẻ em):** trong frame 62 (đây là người2 - trẻ nữ mặc áo đỏ).
*   **Sàn nhà (màu sáng):** trong frame 79, 80, 81, 82 (đây là người2 - trẻ nữ mặc áo đỏ).

Ngoài ra, đứa trẻ (người1) còn ngồi cạnh ghế3 trong frame 17, 18, 19, 20.
câu trả lời chính xác:  Đứa trẻ đang ngồi trên sàn nhà gần góc tạo bởi hai kệ gỗ.
------> Đúng (vì nó đã nhận dạng được đúng hình dạng của đồ chơi, nó khong thể biết được quá cụ thể nó là gì nên vẫn tính là đúng)


*Chú ý: answer là lấy câu trả lời từ scene graph nên có lúc nhận diện vật thể sẽ không giống hoàn toàn trong câu được, chỉ cần câu trả lời có ý đúng thì sẽ được tính là đúng*
*DỰA TRÊN NHỮNG VÍ DỤ, HÃY ĐƯA RA CÂU TRẢ LỜI THOÁNG*
Trả về:
1 khi chatbot trả lời cùng ý với câu trả lời chính xác.
còn sai thì là 0.
    """
    response = client.models.generate_content(
        model="gemini-2.0-flash",
        contents=[prompt]
    )
    return response.text.strip()


# --- Hàm load graph ---
def smart_graph_loader(graph_path):
    return graph_path.read_text(encoding="utf-8")

# --- Tính toán accuracy ---
results_summary = {}
total_questions = 0

for file_name, group in df.groupby('file'):
    graph_path = graph_folder / (file_name.replace('.csv', '_linked.txt'))
    if not graph_path.exists():
        print(f"Graph file {graph_path} không tồn tại, bỏ qua.", flush=True)
        continue

    graph_text = smart_graph_loader(graph_path)
    correct = 0
    start_time = time.time()

    for _, row in group.iterrows():
        question = row['question']
        true_answer = str(row['answer']).strip()
        # print(question)
        # print(true_answer)
        # print(graph_text)
        final_answer = reasoning_with_graph(question, graph_text)

        print(f"Video {file_name}, Câu hỏi: {question}", flush=True)
        print(f"  Kết quả trả về: {final_answer}", flush=True)
        print(f"  True answer: {true_answer}\n", flush=True)

        response = check(final_answer, true_answer)

        print("Check:", response)

        if response == "1":
            correct += 1
        total_questions += 1

    end_time = time.time()
    avg_time_per_question = (end_time - start_time) / len(group)
    results_summary[file_name] = {
        'accuracy': correct / len(group),
        'avg_time_per_question': avg_time_per_question
    }

# --- In kết quả tổng kết ---
for file, stats in results_summary.items():
    print(f"{file}: Accuracy={stats['accuracy']:.2f}, AvgTimePerQuestion={stats['avg_time_per_question']:.2f}s", flush=True)


Video 10597533885.csv, Câu hỏi: Có bao nhiêu kệ sách trong ảnh?
  Kết quả trả về: Dựa trên thông tin scene graph, ta thấy:

*   Có nhiều frame có quan hệ "Kệ - bên cạnh - trẻ" hoặc "Kệ - bên cạnh - trẻ1". Điều này cho thấy có một hoặc nhiều kệ sách và trẻ em trong các frame.

*   Quan trọng nhất là thông tin "Kệ (frame: 18) - same_entity - kệ (frame: 2)..." cho thấy các thực thể "Kệ" trong các frame khác nhau (2, 18, 19, 20, 21, 22, 23, 24, 25, 26, 36, 37, 38, 39, 4, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86) thực chất là cùng một thực thể "Kệ".

*   Ngoài ra, có một thông tin "Kệ - chứa - thú nhồi bông (frame: frame_86)" chứng tỏ kệ này có chứa thú nhồi bông.

**Kết luận:**

Chỉ có **một** kệ sách duy nhất trong các frame ảnh.
  True answer: Có một kệ sách trong ảnh.

Check: 1
Video 10597533885.csv, Câu hỏi: Đứa trẻ đang làm gì?
  Kết quả trả