In [3]:
# Version 2: Đảm bảo copy đúng 100 video mới (không tính file đã tồn tại)
import json
import pandas as pd
import os
import shutil
from pathlib import Path

# Đọc mapping file
with open('map_vid_vidorID.json', 'r') as f:
    mapping_data = json.load(f)

# Đọc val.csv  
val_df = pd.read_csv('val.csv')

print(f"Loaded mapping for {len(mapping_data)} videos")
print(f"Val CSV has {len(val_df)} entries")

# Thiết lập
target_copies = 100  # Số video cần copy (không tính file đã tồn tại)
source_base = Path("dataset/NExTVideo")
dest_base = Path("dataset/datasets")

# Tạo thư mục đích nếu chưa tồn tại
dest_base.mkdir(parents=True, exist_ok=True)

# Thống kê
copied_count = 0
missing_count = 0
already_exists_count = 0
processed_count = 0

print(f"Mục tiêu: Copy {target_copies} video mới vào {dest_base}")
print("Bắt đầu xử lý...")

# Lặp qua tất cả video trong val.csv cho đến khi có đủ 100 video được copy
for idx, video_id in enumerate(val_df['video']):
    if copied_count >= target_copies:
        break
        
    processed_count += 1
    video_id_str = str(video_id)
    
    # Kiểm tra mapping
    if video_id_str not in mapping_data:
        print(f"  {processed_count:3d}. {video_id_str}: Not found in mapping, skipping")
        continue
    
    # Lấy đường dẫn từ mapping
    relative_path = mapping_data[video_id_str]
    source_path = source_base / f"{relative_path}.mp4"
    dest_path = dest_base / f"{video_id_str}.mp4"
    
    # Kiểm tra xem file đích đã tồn tại chưa
    if dest_path.exists():
        already_exists_count += 1
        print(f"  {processed_count:3d}. {video_id_str}: Already exists, skipping (not counted)")
        continue
    
    # Kiểm tra xem file source có tồn tại không
    if not source_path.exists():
        missing_count += 1
        print(f"  {processed_count:3d}. {video_id_str}: SOURCE NOT FOUND - {source_path}")
        continue
    
    try:
        # Copy file
        shutil.copy2(source_path, dest_path)
        copied_count += 1
        print(f"  {processed_count:3d}. {video_id_str}: Copied successfully ({copied_count}/{target_copies})")
        
        # In progress mỗi 10 file
        if copied_count % 10 == 0:
            print(f"    Progress: {copied_count}/{target_copies} videos copied...")
            
    except Exception as e:
        print(f"  {processed_count:3d}. {video_id_str}: Error copying - {e}")

print(f"\n=== FINAL SUMMARY ===")
print(f"Target: {target_copies} new videos")
print(f"Total entries processed from val.csv: {processed_count}")
print(f"Successfully copied NEW videos: {copied_count}")
print(f"Already existed (skipped): {already_exists_count}")
print(f"Source files missing: {missing_count}")
print(f"Destination folder: {dest_base.absolute()}")

# Kiểm tra kết quả cuối cùng
if dest_base.exists():
    all_files = list(dest_base.glob("*.mp4"))
    print(f"Total .mp4 files in destination folder: {len(all_files)}")
    
    if copied_count == target_copies:
        print(f"✅ SUCCESS: Đã copy đúng {target_copies} video mới!")
    else:
        print(f"⚠️  WARNING: Chỉ copy được {copied_count}/{target_copies} video mới")
else:
    print("❌ ERROR: Destination folder not found!")

Loaded mapping for 10000 videos
Val CSV has 4996 entries
Mục tiêu: Copy 100 video mới vào dataset/datasets
Bắt đầu xử lý...
    1. 4010069381: Copied successfully (1/100)
    2. 4882821564: Copied successfully (2/100)
    3. 2435100235: Copied successfully (3/100)
    4. 2834146886: Copied successfully (4/100)
    5. 8132842161: Copied successfully (5/100)
    6. 4260763967: Copied successfully (6/100)
    7. 3462517143: Copied successfully (7/100)
    8. 3441428429: Copied successfully (8/100)
    9. 6356067859: Copied successfully (9/100)
   10. 5026660202: Copied successfully (10/100)
    Progress: 10/100 videos copied...
   11. 9873067604: Copied successfully (11/100)
   12. 5735711594: Copied successfully (12/100)
   13. 9088819598: Copied successfully (13/100)
   14. 5296635780: Copied successfully (14/100)
   15. 2614918961: Copied successfully (15/100)
   16. 6201488511: Copied successfully (16/100)
   17. 2976913210: Copied successfully (17/100)
   18. 2793260225: Copied succe

In [5]:
!pip install soundfile qwen_omni_utils

Collecting qwen_omni_utils
  Downloading qwen_omni_utils-0.0.8-py3-none-any.whl.metadata (9.3 kB)
Collecting librosa (from qwen_omni_utils)
  Downloading librosa-0.11.0-py3-none-any.whl.metadata (8.7 kB)
Collecting audioread>=2.1.9 (from librosa->qwen_omni_utils)
  Downloading audioread-3.0.1-py3-none-any.whl.metadata (8.4 kB)
Collecting numba>=0.51.0 (from librosa->qwen_omni_utils)
  Downloading numba-0.62.0-cp313-cp313-macosx_12_0_arm64.whl.metadata (2.8 kB)
Collecting pooch>=1.1 (from librosa->qwen_omni_utils)
  Downloading pooch-1.8.2-py3-none-any.whl.metadata (10 kB)
Collecting soxr>=0.3.2 (from librosa->qwen_omni_utils)
  Downloading soxr-1.0.0-cp312-abi3-macosx_11_0_arm64.whl.metadata (5.6 kB)
Collecting lazy_loader>=0.1 (from librosa->qwen_omni_utils)
  Using cached lazy_loader-0.4-py3-none-any.whl.metadata (7.6 kB)
Collecting msgpack>=1.0 (from librosa->qwen_omni_utils)
  Downloading msgpack-1.1.1-cp313-cp313-macosx_11_0_arm64.whl.metadata (8.4 kB)
Collecting standard-aifc (fr

In [1]:
import soundfile as sf

from transformers import Qwen2_5OmniForConditionalGeneration, Qwen2_5OmniProcessor
from qwen_omni_utils import process_mm_info

# model = Qwen2_5OmniForConditionalGeneration.from_pretrained("openinterx/UGC-VideoCaptioner", torch_dtype="auto", device_map="auto")

# We recommend enabling flash_attention_2 for better acceleration and memory saving.
model = Qwen2_5OmniForConditionalGeneration.from_pretrained(
    "Qwen/Qwen2.5-Omni-3B",
    torch_dtype="auto",
    device_map="auto",
    attn_implementation="flash_attention_2",
)

processor = Qwen2_5OmniProcessor.from_pretrained("openinterx/UGC-VideoCaptioner")

# Example video path (replace with your actual video file path)
video_path = "/Users/ptdung/Coding/Github/soICT/dataset/datasets/2400171624.mp4" 

# Define the detailed captioning prompt
prompt_text = (
    "You are given a short video with both audio and visual content. Write a detailed and coherent paragraph "
    "that naturally integrates all modalities. Your description should include: (1) the primary scene and "
    "background setting; (2) key characters or objects and their actions or interactions; (3) significant "
    "audio cues such as voices, background music, sound effects, and their emotional tone; (4) any on-screen "
    "text (OCR) and its role in the video context; and (5) the overall theme or purpose of the video. "
    "Ensure the output is a fluent and objective paragraph, not a bullet-point list, and captures the video's "
    "content in a human-like, narrative style."
)

# Prepare messages in the chat template format
messages = [
    {
        "role": "user",
        "content": [
            {"type": "video", "video": video_path}, # Pass video path
            {"type": "text", "text": prompt_text},
        ],
    }
]


# set use audio in video
USE_AUDIO_IN_VIDEO = True

# Preparation for inference
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
audios, images, videos = process_mm_info(conversation, use_audio_in_video=USE_AUDIO_IN_VIDEO)
inputs = processor(text=text, audio=audios, images=images, videos=videos, return_tensors="pt", padding=True, use_audio_in_video=USE_AUDIO_IN_VIDEO)
inputs = inputs.to(model.device).to(model.dtype)

# Inference: Generation of the output text and audio
text_ids, audio = model.generate(**inputs, use_audio_in_video=USE_AUDIO_IN_VIDEO)

text = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(text)
sf.write(
    "output.wav",
    audio.reshape(-1).detach().cpu().numpy(),
    samplerate=24000,
)


  from .autonotebook import tqdm as notebook_tqdm
`torch_dtype` is deprecated! Use `dtype` instead!
Unrecognized keys in `rope_scaling` for 'rope_type'='default': {'mrope_section'}
Fetching 3 files:   0%|          | 0/3 [16:59<?, ?it/s]
Cancellation requested; stopping current tasks.


KeyboardInterrupt: 

In [None]:
import torch
from transformers import Qwen2_5OmniForConditionalGeneration, Qwen2_5OmniProcessor
from qwen_omni_utils import process_mm_info

# 1️⃣ Load model nhẹ hơn / nhanh hơn
model = Qwen2_5OmniForConditionalGeneration.from_pretrained(
    "Qwen/Qwen2.5-Omni-3B",
    torch_dtype="auto",
    device_map="auto",
    attn_implementation="flash_attention_2",
)

processor = Qwen2_5OmniProcessor.from_pretrained("openinterx/UGC-VideoCaptioner")

# 2️⃣ Dùng video cực ngắn để test (cắt video 2s thôi)
video_path = "/Users/ptdung/Coding/Github/soICT/dataset/datasets/2400171624.mp4"

# 3️⃣ Prompt
prompt_text = (
    "Describe this short video briefly, focusing on main scene, key objects, and main action. Keep it short."
)

messages = [
    {
        "role": "user",
        "content": [
            {"type": "video", "video": video_path}, 
            {"type": "text", "text": prompt_text},
        ],
    }
]

# 4️⃣ Tắt audio để nhanh
USE_AUDIO_IN_VIDEO = False

# 5️⃣ Preprocessing
text = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
audios, images, videos = process_mm_info(messages, use_audio_in_video=USE_AUDIO_IN_VIDEO)

inputs = processor(
    text=text,
    audio=audios,
    images=images,
    videos=videos,
    return_tensors="pt",
    padding=True,
    use_audio_in_video=USE_AUDIO_IN_VIDEO,
)
inputs = inputs.to(model.device).to(model.dtype)

# 6️⃣ Generate (chỉ text thôi)
with torch.no_grad():
    text_ids, _ = model.generate(**inputs, use_audio_in_video=USE_AUDIO_IN_VIDEO)

text = processor.batch_decode(
    text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)
print("Output:", text)


Unrecognized keys in `rope_scaling` for 'rope_type'='default': {'mrope_section'}
Fetching 3 files:   0%|          | 0/3 [01:40<?, ?it/s]


In [3]:
import pandas as pd
from pathlib import Path
import time
from google import genai

from collections import defaultdict

# --- Cấu hình LLM ---
client = genai.Client(api_key="AIzaSyCS0bljIt691Tsl4mSFhEX0BRhlpAovxNE")

# --- Đường dẫn ---
qa_csv_path = Path("dataset/all_qa.csv")
graph_folder = Path("dataset/linked_scene_graph_test")

# --- Đọc CSV ---
df = pd.read_csv(qa_csv_path)



def retrieve_relevant_relations(question, graph_text, top_k=200):
    relations = graph_text.strip().splitlines()
    question_tokens = set(question.lower().split())
    scored = []

    for rel in relations:
        score = sum(token in rel.lower() for token in question_tokens)
        if score > 0:
            scored.append((score, rel))

    scored.sort(reverse=True, key=lambda x: x[0])
    top_relations = [rel for _, rel in scored[:top_k]]

    if not top_relations:
        top_relations = relations[:top_k]

    return "\n".join(top_relations)


# --- Cập nhật reasoning ---
def reasoning_with_graph(question, graph_text):
    relevant_graph = retrieve_relevant_relations(question, graph_text, top_k=200)
    # print(relevant_graph)
    prompt = f"""
Bạn là một hệ thống reasoning dựa trên scene graph.
Dưới đây là các quan hệ trong graph có thể liên quan đến câu hỏi:

{relevant_graph}

Câu hỏi: {question}

*Khi object được đánh số theo dạng 1,2,... thì nó mới tính là có nhiều object. *
*KHÔNG ĐƯỢC ĐÁNH SỐ TỨC LÀ CHỈ CÓ DUY NHẤT 1 OBJECT ĐÓ THÔI*
Còn object không có số thì hoàn toàn là cùng một object nhưng nằm ở những frame khác nhau.
Hãy sử dụng thông tin trong graph để trả lời một cách logic và rõ ràng.
"""
    response = client.models.generate_content(
        model="gemini-2.0-flash",
        contents=[prompt]
    )
    return response.text.strip()


def check(answer, true_answer):
    prompt = f"""
Bạn sẽ là giám khảo.

Đây là câu trả lời của chatbot: {answer}
Đây là câu trả lời chính xác: {true_answer}

Câu trả lời của chatbot chỉ cần có ý giống với câu trả lời chính xác sẽ được tính là đúng, hoặc là từ câu trả lời của chatbot có thể suy luận ra câu trả lời chính xác thì cũng là đúng.
Câu trả lời của chatbot chỉ cần có thông tin như câu trả chính xác cũng tính là đúng nha.
Ví dụ:
câu trả lời của chatbot: đứa trẻ đang chơi 
câu trả lời chính xác: đứa trẻ đang chơi đồ chơi
----> cũng là đúng.

câu trả lời của chatbot: Dựa vào thông tin trong graph, rèm cửa có màu trắng (có hoa văn), màu vàng nhạt và màu xanh đậm.
câu trả lời chính xác: Rèm cửa có màu trắng.
-----> cũng là đúng.

câu trả lời của chatbot: Dựa vào thông tin trong graph, có thể thấy:

*   **người2** (trẻ - nữ, mặc áo đỏ, đội mũ) đang chơi với **đồ chơi (màu hồng, hình chữ nhật)** trong frame 83 và 84.
*   **người4** (em bé - không mặc áo) đang chơi với **đồ chơi (màu hồng, hình chữ nhật)** trong frame 80, 81 và 82.
*   **người1** (trẻ - nữ, mặc áo trắng) đang chơi với **đồ chơi (màu sắc đa dạng, hình tròn)** trong frame 0.

Vậy, graph cho thấy có nhiều đứa trẻ đang chơi với nhiều loại đồ chơi khác nhau.
câu trả lời chính xác: Đứa trẻ đang chơi với máy tính tiền đồ chơi hoặc bộ đồ chơi tương tự.
------> Đúng (vì nó đã nhận dạng được đúng hình dạng của đồ chơi, nó khong thể biết được quá cụ thể nó là gì nên vẫn tính là đúng)

câu trả lời của chatbot: Dựa vào thông tin trong graph, đứa trẻ (người1) đang ngồi ở những vị trí sau:

*   **Ghế1 (bằng nhựa, màu vàng, kiểu ghế trẻ em):** trong frame 10.
*   **Ghế3 (bằng nhựa, màu đỏ, kiểu ghế trẻ em):** trong frame 14, 15, 16.
*   **Ghế3 (bằng nhựa, màu đỏ, kiểu ghế trẻ em):** trong frame 58 và 59 (đây là người1 - trẻ nam).
*   **Ghế2 (bằng nhựa, màu cam, kiểu ghế trẻ em):** trong frame 62 (đây là người2 - trẻ nữ mặc áo đỏ).
*   **Sàn nhà (màu sáng):** trong frame 79, 80, 81, 82 (đây là người2 - trẻ nữ mặc áo đỏ).

Ngoài ra, đứa trẻ (người1) còn ngồi cạnh ghế3 trong frame 17, 18, 19, 20.
câu trả lời chính xác:  Đứa trẻ đang ngồi trên sàn nhà gần góc tạo bởi hai kệ gỗ.
------> Đúng (vì nó đã nhận dạng được đúng hình dạng của đồ chơi, nó khong thể biết được quá cụ thể nó là gì nên vẫn tính là đúng)


*Chú ý: answer là lấy câu trả lời từ scene graph nên có lúc nhận diện vật thể sẽ không giống hoàn toàn trong câu được, chỉ cần câu trả lời có ý đúng thì sẽ được tính là đúng*
*DỰA TRÊN NHỮNG VÍ DỤ, HÃY ĐƯA RA CÂU TRẢ LỜI THOÁNG*
Trả về:
1 khi chatbot trả lời cùng ý với câu trả lời chính xác.
còn sai thì là 0.
    """
    response = client.models.generate_content(
        model="gemini-2.0-flash",
        contents=[prompt]
    )
    return response.text.strip()


# --- Hàm load graph ---
def smart_graph_loader(graph_path):
    return graph_path.read_text(encoding="utf-8")

# --- Tính toán accuracy ---
results_summary = {}
total_questions = 0

for file_name, group in df.groupby('file'):
    graph_path = graph_folder / (file_name.replace('.csv', '_linked.txt'))
    if not graph_path.exists():
        print(f"Graph file {graph_path} không tồn tại, bỏ qua.", flush=True)
        continue

    graph_text = smart_graph_loader(graph_path)
    correct = 0
    start_time = time.time()

    for _, row in group.iterrows():
        question = row['question']
        true_answer = str(row['answer']).strip()
        # print(question)
        # print(true_answer)
        # print(graph_text)
        final_answer = reasoning_with_graph(question, graph_text)

        print(f"Video {file_name}, Câu hỏi: {question}", flush=True)
        print(f"  Kết quả trả về: {final_answer}", flush=True)
        print(f"  True answer: {true_answer}\n", flush=True)

        response = check(final_answer, true_answer)

        print("Check:", response)

        if response == "1":
            correct += 1
        total_questions += 1

    end_time = time.time()
    avg_time_per_question = (end_time - start_time) / len(group)
    results_summary[file_name] = {
        'accuracy': correct / len(group),
        'avg_time_per_question': avg_time_per_question
    }

# --- In kết quả tổng kết ---
for file, stats in results_summary.items():
    print(f"{file}: Accuracy={stats['accuracy']:.2f}, AvgTimePerQuestion={stats['avg_time_per_question']:.2f}s", flush=True)


Video 10597533885.csv, Câu hỏi: Có bao nhiêu kệ sách trong ảnh?
  Kết quả trả về: Dựa trên graph quan hệ, ta thấy các quan hệ "kệ - chứa - sách" xuất hiện ở các frame khác nhau (frame_0, frame_1, frame_2,... frame_33). Tuy nhiên, không có kệ nào được đánh số (kệ 1, kệ 2,...). Điều này cho thấy tất cả các quan hệ "kệ - chứa - sách" đều đề cập đến cùng một đối tượng "kệ" duy nhất xuất hiện ở nhiều frame khác nhau.

Vậy, câu trả lời là: Có 1 kệ sách trong ảnh.
  True answer: Có một kệ sách trong ảnh.

Check: 1
Video 10597533885.csv, Câu hỏi: Đứa trẻ đang làm gì?
  Kết quả trả về: Dựa trên thông tin trong graph, có hai đứa trẻ được mô tả:

*   **Người 1 (trẻ, mặc áo trắng):**
    *   Ở frame 0, người này đang chơi và cầm điện thoại di động, gần bánh rán.
    *   Từ frame 1 đến frame 3, người này đứng hoặc ngồi gần ghế màu đỏ, phía sau có tường và rèm cửa. Người này ngồi trên bìa các tông (frame 1) hoặc bục các tông (frame 2).
    *   Từ frame 4 đến frame 12, người này đứng phía sau người m

ServerError: 502 Bad Gateway. {'message': '<!DOCTYPE html>\n<html lang=en>\n  <meta charset=utf-8>\n  <meta name=viewport content="initial-scale=1, minimum-scale=1, width=device-width">\n  <title>Error 502 (Server Error)!!1</title>\n  <style>\n    *{margin:0;padding:0}html,code{font:15px/22px arial,sans-serif}html{background:#fff;color:#222;padding:15px}body{margin:7% auto 0;max-width:390px;min-height:180px;padding:30px 0 15px}* > body{background:url(//www.google.com/images/errors/robot.png) 100% 5px no-repeat;padding-right:205px}p{margin:11px 0 22px;overflow:hidden}ins{color:#777;text-decoration:none}a img{border:0}@media screen and (max-width:772px){body{background:none;margin-top:0;max-width:none;padding-right:0}}#logo{background:url(//www.google.com/images/branding/googlelogo/1x/googlelogo_color_150x54dp.png) no-repeat;margin-left:-5px}@media only screen and (min-resolution:192dpi){#logo{background:url(//www.google.com/images/branding/googlelogo/2x/googlelogo_color_150x54dp.png) no-repeat 0% 0%/100% 100%;-moz-border-image:url(//www.google.com/images/branding/googlelogo/2x/googlelogo_color_150x54dp.png) 0}}@media only screen and (-webkit-min-device-pixel-ratio:2){#logo{background:url(//www.google.com/images/branding/googlelogo/2x/googlelogo_color_150x54dp.png) no-repeat;-webkit-background-size:100% 100%}}#logo{display:inline-block;height:54px;width:150px}\n  </style>\n  <a href=//www.google.com/><span id=logo aria-label=Google></span></a>\n  <p><b>502.</b> <ins>That’s an error.</ins>\n  <p>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.  <ins>That’s all we know.</ins>\n', 'status': 'Bad Gateway'}