# NExT-GQA — BLIP-2 Feature Extraction
Chạy notebook này trên **Google Colab** với GPU (T4 hoặc A100).

**Checklist trước khi chạy:**
- [ ] Runtime → Change runtime type → **GPU** (T4 hoặc A100)
- [ ] Google Drive đã có thư mục `vidor_videos/` (cấu trúc VidOR gốc)

## 1. Kiểm tra GPU

In [None]:
!nvidia-smi

## 2. Mount Google Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## 3. Clone repo

In [None]:
import os

REPO_URL = 'https://github.com/YOUR_USERNAME/TFVTG.git'  # <-- đổi lại
REPO_DIR = '/content/TFVTG'

if not os.path.exists(REPO_DIR):
    !git clone {REPO_URL} {REPO_DIR}
else:
    print('Repo already cloned, pulling latest...')
    !git -C {REPO_DIR} pull

%cd {REPO_DIR}
!ls dataset/nextgqa/

## 4. Cấu hình đường dẫn
Chỉ cần chỉnh **2 biến** bên dưới.

In [None]:
# Thư mục VidOR videos trên Drive
# Cấu trúc bên trong: {folder}/{video_id}/{video_id}.mp4
# Ví dụ: .../vidor_videos/1020/13496784364/13496784364.mp4
DRIVE_VIDOR_ROOT = '/content/drive/MyDrive/vidor_videos'  # <-- đổi nếu cần

# Thư mục lưu .npy features trên Drive (để không mất khi session reset)
DRIVE_FEATURES_OUT = '/content/drive/MyDrive/nextgqa_blip2_features'  # <-- đổi nếu cần

print('VIDOR_ROOT   :', DRIVE_VIDOR_ROOT)
print('FEATURES_OUT :', DRIVE_FEATURES_OUT)

## 5. Symlink videos + features vào repo
Annotation files đã có trong repo (đã push), chỉ cần symlink phần nặng.

In [None]:
import os

# Tạo thư mục output trên Drive nếu chưa có
os.makedirs(DRIVE_FEATURES_OUT, exist_ok=True)

nextgqa_dir = f'{REPO_DIR}/dataset/nextgqa'

# Symlink videos (VidOR) → không copy, quá nặng
videos_link = f'{nextgqa_dir}/videos'
if not os.path.exists(videos_link):
    os.symlink(DRIVE_VIDOR_ROOT, videos_link)
    print(f'Symlinked videos: {videos_link} -> {DRIVE_VIDOR_ROOT}')
else:
    print(f'videos symlink already exists')

# Symlink blip2_features → lưu thẳng vào Drive qua symlink
features_link = f'{nextgqa_dir}/blip2_features'
if not os.path.exists(features_link):
    os.symlink(DRIVE_FEATURES_OUT, features_link)
    print(f'Symlinked features: {features_link} -> {DRIVE_FEATURES_OUT}')
else:
    print(f'blip2_features symlink already exists')

print('\ndataset/nextgqa/ contents:')
!ls -la {nextgqa_dir}

## 6. Sanity check — tìm thử vài videos

In [None]:
import json, csv, os

nextgqa_dir = f'{REPO_DIR}/dataset/nextgqa'

with open(f'{nextgqa_dir}/map_vid_vidorID.json') as f:
    mapping = json.load(f)

test_vids = set()
with open(f'{nextgqa_dir}/test.csv') as f:
    for row in csv.DictReader(f):
        test_vids.add(row['video_id'])

print(f'Test videos: {len(test_vids)}')
print('\nChecking first 5 video paths:')
found = 0
for vid in list(test_vids)[:5]:
    rel = mapping.get(vid)
    if not rel:
        print(f'  {vid}: NO MAPPING')
        continue
    folder, vid_id = rel.split('/')
    for ext in ['.mp4', '.avi', '.mkv']:
        p = f'{DRIVE_VIDOR_ROOT}/{folder}/{vid_id}/{vid_id}{ext}'
        if os.path.exists(p):
            print(f'  {vid} -> FOUND ({ext})')
            found += 1
            break
    else:
        print(f'  {vid} -> NOT FOUND in {DRIVE_VIDOR_ROOT}/{folder}/{vid_id}/')

print(f'\nFound {found}/5 — nếu 0/5 kiểm tra lại DRIVE_VIDOR_ROOT')

## 7. Install dependencies
> ⚠️ `salesforce-lavis` mất ~5-10 phút, chỉ cần chạy 1 lần per session.

In [None]:
!pip install salesforce-lavis decord tqdm -q

## 8. Chạy Feature Extraction

- Extract cả **val + test** (1557 videos tổng)
- Tự **resume** nếu session bị ngắt — chạy lại cell này là đủ
- Features lưu thẳng vào Drive qua symlink → an toàn

In [None]:
!python feature_extraction_nextgqa.py \
    --vidor_root {DRIVE_VIDOR_ROOT} \
    --save_root  dataset/nextgqa/blip2_features \
    --splits val test \
    --fps 3 \
    --batch_size 128

## 9. Kiểm tra kết quả

In [None]:
import numpy as np, os

npy_files = [f for f in os.listdir(DRIVE_FEATURES_OUT) if f.endswith('.npy')]
print(f'Extracted: {len(npy_files)} / 1557 videos')

if npy_files:
    sample = np.load(os.path.join(DRIVE_FEATURES_OUT, npy_files[0]))
    print(f'Sample shape : {sample.shape}  (expected [T, 32, 256])')
    print(f'dtype        : {sample.dtype}   (expected float16)')