In [2]:
import os
import json
import unidecode

In [3]:
# Đường dẫn tới dữ liệu
DATA_PATH = "../data/processed/vqa_data.json"
IMAGE_DIR = "../data/raw/"

In [4]:
# Load dữ liệu JSON
try:
    with open(DATA_PATH, "r", encoding="utf-8") as f:
        vqa_data = json.load(f)
    print(f"Dữ liệu đã tải thành công! Tổng số ảnh: {len(vqa_data)}\n")
except Exception as e:
    print(f"Lỗi khi tải dữ liệu: {e}")

Dữ liệu đã tải thành công! Tổng số ảnh: 8579



In [6]:
# Kiểm tra ảnh có tồn tại không
missing_images = []

for item in vqa_data:
    image_path = os.path.join(IMAGE_DIR, item["image_id"])
    if not os.path.exists(image_path):
        missing_images.append(image_path)

if missing_images:
    print(f"len(missing_images) ảnh không tồn tại:")
    for img in missing_images:
        print(f"    - {img}")
else:
    print("Tất cả ảnh đều tồn tại!")

Tất cả ảnh đều tồn tại!


In [7]:
# Kiểm tra câu hỏi và câu trả lời
error_questions = []
error_answers = []

for item in vqa_data:
    image_id = item["image_id"]
    questions = item.get("questions", [])

    if len(questions) == 0:
        error_questions.append(image_id)

    for q in questions:
        if "question" not in q or "answers" not in q:
            error_answers.append((image_id, "Thiếu câu hỏi hoặc câu trả lời"))
        elif len(q["answers"]) != 5:
            error_answers.append((image_id, "Số lượng câu trả lời không hợp lệ"))

if error_questions:
    print(f"Có {len(error_questions)} câu hỏi không hợp lệ:")
    for img in error_questions:
        print(f"    - {img}")

if error_answers:
    print(f"Có {len(error_answers)} câu trả lời không hợp lệ:")
    for img, error in error_answers:
        print(f"    - {img}: {error}")

if not error_questions and not error_answers:
    print("Tất cả câu hỏi và câu trả lời đều hợp lệ!")

Tất cả câu hỏi và câu trả lời đều hợp lệ!


In [11]:
encoding_errors = []

for item in vqa_data:
    for q in item["questions"]:
        try:
            # Kiểm tra lỗi font bằng cách chuyển về chữ không dấu và so sánh
            question_text = q["question"]
            if unidecode.unidecode(question_text) == "":
                encoding_errors.append((item["image_id"], question_text))
        except Exception as e:
            encoding_errors.append((item["image_id"], f"Lỗi mã hóa: {e}"))

# Hiển thị lỗi mã hóa
if encoding_errors:
    print(f"Có {len(encoding_errors)} câu hỏi có thể bị lỗi mã hóa:")
    for img, err in encoding_errors[:5]:
        print(f"    - {img}: {err}")
else:
    print("Không có lỗi mã hóa!\n")

# 🔥 Kết luận
if not (missing_images or error_questions or error_answers or encoding_errors):
    print("Dữ liệu hợp lệ")
else:
    print("Có lỗi trong dữ liệu")

Không có lỗi mã hóa!

Dữ liệu hợp lệ
