In [1]:
import h5py
import numpy as np
import os
from PIL import Image
from tqdm import tqdm

# --- CẤU HÌNH ---
MAT_PATH = '/home/ducca/CMKD/C2KD/nyu-depth-v2/utils/data/nyu_depth_v2_labeled.mat' # File gốc tải từ trang chủ NYU
OUTPUT_DIR = '/home/ducca/CMKD/C2KD/nyu-depth-v2/utils/data/NYUDEPTHV2' # Folder đầu ra

def save_image(img_np, path):
    # Ảnh gốc (3, W, H) -> Xoay thành (H, W, 3)
    img = np.transpose(img_np, (2, 1, 0))
    Image.fromarray(img).save(path)

def save_depth(depth_np, path):
    # Depth (W, H) -> Xoay thành (H, W)
    depth = np.transpose(depth_np, (1, 0))
    np.save(path, depth) # Lưu npy để giữ độ chính xác float

def save_label(label_np, path):
    # Label (W, H) -> Xoay thành (H, W)
    label = np.transpose(label_np, (1, 0))
    # Lưu ảnh PNG (uint8)
    Image.fromarray(label.astype(np.uint8)).save(path)

# 1. Đọc file
print(f"Đang đọc {MAT_PATH}...")
f = h5py.File(MAT_PATH, 'r')

# Lấy index chuẩn (Trừ 1 vì Matlab tính từ 1)
train_idxs = np.array(f['trainNdxs']).ravel() - 1
test_idxs = np.array(f['testNdxs']).ravel() - 1

# CHECK LẠI SỐ LƯỢNG CHO CHẮC CHẮN
print(f"Số lượng Train: {len(train_idxs)} (Paper nói 795)")
print(f"Số lượng Test: {len(test_idxs)} (Paper nói 654)")

if len(train_idxs) != 795 or len(test_idxs) != 654:
    print("CẢNH BÁO: Số lượng không khớp với Paper! Kiểm tra lại file .mat")
else:
    print("XÁC NHẬN: Số lượng khớp hoàn toàn với Paper.")

# 2. Thực hiện chia
splits = {
    'train': train_idxs,
    'test': test_idxs 
    # Khi train code, bạn trỏ Val loader vào folder 'test' này luôn
}

for split_name, idxs in splits.items():
    print(f"Đang xử lý {split_name}...")
    
    # Tạo folder: images, depths, labels
    os.makedirs(os.path.join(OUTPUT_DIR, split_name, 'images'), exist_ok=True)
    os.makedirs(os.path.join(OUTPUT_DIR, split_name, 'depths'), exist_ok=True)
    os.makedirs(os.path.join(OUTPUT_DIR, split_name, 'labels'), exist_ok=True)
    
    for i in tqdm(idxs):
        # Image
        img_data = f['images'][i]
        save_image(img_data, os.path.join(OUTPUT_DIR, split_name, 'images', f"{i}.jpg"))
        
        # Depth
        depth_data = f['depths'][i]
        save_depth(depth_data, os.path.join(OUTPUT_DIR, split_name, 'depths', f"{i}.npy"))
        
        # Label (40 class)
        label_data = f['labels'][i]
        save_label(label_data, os.path.join(OUTPUT_DIR, split_name, 'labels', f"{i}.png"))

print("Hoàn tất! Giờ bạn có bộ dữ liệu y hệt paper.")

ModuleNotFoundError: No module named 'h5py'

In [2]:
import h5py
f = h5py.File('/home/ducca/CMKD/C2KD/nyu-depth-v2/utils/data/nyu_depth_v2_labeled.mat', 'r')
print("Các keys hiện có:", list(f.keys()))
f.close()

ModuleNotFoundError: No module named 'h5py'