In [7]:
import os
from collections import defaultdict
from typing import Dict, List, Tuple
import json

def get_image_stats(raw_dir: str) -> Tuple[Dict[str, int], int]:
    """
    Thống kê số lượng ảnh trong từng thư mục và tổng số ảnh

    Args:
        raw_dir: Đường dẫn đến thư mục raw

    Returns:
        folder_stats: Dict thống kê số ảnh mỗi folder
        total_images: Tổng số ảnh
    """
    folder_stats = {}
    total_images = 0

    # Lấy danh sách các thư mục con
    folders = [
        f for f in os.listdir(raw_dir) if os.path.isdir(os.path.join(raw_dir, f))
    ]

    for folder in sorted(folders):
        folder_path = os.path.join(raw_dir, folder)
        # Đếm số file ảnh trong thư mục
        images = [
            f
            for f in os.listdir(folder_path)
            if f.lower().endswith((".jpg", ".jpeg", ".png"))
        ]

        num_images = len(images)
        folder_stats[folder] = num_images
        total_images += num_images

    return folder_stats, total_images


def get_image_extensions(raw_dir: str) -> Dict[str, int]:
    """
    Thống kê số lượng ảnh theo định dạng file

    Args:
        raw_dir: Đường dẫn đến thư mục raw

    Returns:
        Dict thống kê số lượng theo định dạng
    """
    extension_stats = defaultdict(int)

    for root, _, files in os.walk(raw_dir):
        for file in files:
            ext = os.path.splitext(file)[1].lower()
            if ext in [".jpg", ".jpeg", ".png"]:
                extension_stats[ext] += 1

    return dict(extension_stats)


def save_stats(stats: Dict, filename: str):
    """Lưu thống kê ra file JSON"""
    with open(filename, "w", encoding="utf-8") as f:
        json.dump(stats, f, ensure_ascii=False, indent=2)


# Đường dẫn đến thư mục raw
raw_dir = os.path.abspath(os.path.join(os.getcwd(), "..", "data", "raw"))

# Thống kê theo folder
folder_stats, total_images = get_image_stats(raw_dir)

# Thống kê theo định dạng file
extension_stats = get_image_extensions(raw_dir)

# Tạo báo cáo tổng hợp
report = {
    "total_images": total_images,
    "total_categories": len(folder_stats),
    "extension_stats": extension_stats,
    "folder_stats": folder_stats,
}

# In kết quả
print("\n=== THỐNG KÊ DỮ LIỆU ===")
print(f"\nTổng số ảnh: {total_images}")
print(f"Tổng số loại trái cây: {len(folder_stats)}")

print("\nThống kê theo định dạng:")
for ext, count in extension_stats.items():
    print(f"{ext}: {count} ảnh")

print("\nThống kê theo loại trái cây:")
for folder, count in folder_stats.items():
    print(f"{folder}: {count} ảnh")


=== THỐNG KÊ DỮ LIỆU ===

Tổng số ảnh: 8579
Tổng số loại trái cây: 92

Thống kê theo định dạng:
.jpg: 8579 ảnh

Thống kê theo loại trái cây:
Chinese_chestnut: 145 ảnh
Dangshan_Pear: 34 ảnh
Hami_melon: 45 ảnh
almond: 66 ảnh
annona_muricata: 120 ảnh
apple: 153 ảnh
apricot: 41 ảnh
artocarpus_heterophyllus: 120 ảnh
avocado: 96 ảnh
banana: 103 ảnh
bayberry: 72 ảnh
bergamot_pear: 57 ảnh
black_currant: 73 ảnh
black_grape: 40 ảnh
blood_orange: 96 ảnh
blueberry: 90 ảnh
breadfruit: 48 ảnh
candied_date: 50 ảnh
carambola: 118 ảnh
cashew_nut: 58 ảnh
cherry: 178 ảnh
cherry_tomato: 162 ảnh
citrus: 32 ảnh
coconut: 58 ảnh
crown_pear: 56 ảnh
dekopon: 92 ảnh
diospyros_lotus: 48 ảnh
durian: 123 ảnh
fig: 110 ảnh
flat_peach: 136 ảnh
gandaria: 108 ảnh
ginseng_fruit: 54 ảnh
golden_melon: 59 ảnh
grape: 179 ảnh
grape_white: 124 ảnh
grapefruit: 82 ảnh
green_apple: 54 ảnh
green_dates: 65 ảnh
guava: 149 ảnh
hawthorn: 91 ảnh
hazelnut: 43 ảnh
hickory: 75 ảnh
honey_dew_melon: 56 ảnh
housi_pear: 64 ảnh
juicy_peach: 9

In [5]:
import json
import os
from collections import Counter
from typing import Dict, List


def analyze_vqa_dataset(json_path: str) -> None:
    """Analyze and print statistics for the VQA dataset"""

    # Load the dataset
    with open(json_path, "r", encoding="utf-8") as f:
        data = json.load(f)

    # Count images by folder
    folder_counts = Counter()
    for item in data:
        folder = item["image"].split("/")[0]  # Get folder name from path
        folder_counts[folder] += 1

    # Calculate total statistics
    total_images = len(data)
    total_folders = len(folder_counts)

    # Print statistics
    print(f"\n=== VQA Dataset Statistics ===")
    print(f"Total QA pairs: {total_images}")
    print(f"Total folders: {total_folders}")
    print("\nImages per folder:")
    print("-" * 40)

    # Sort folders by count
    sorted_folders = sorted(folder_counts.items(), key=lambda x: x[1], reverse=True)
    for folder, count in sorted_folders:
        print(f"{folder:<30} {count:>5}")

    print("-" * 40)
    print(f"Average images per folder: {total_images/total_folders:.1f}")


if __name__ == "__main__":
    # Bạn cần thay đổi đường dẫn này cho phù hợp với vị trí thực tế của file
    json_path = "../data/processed/vqa_dataset.json"  # hoặc đường dẫn đầy đủ đến file của bạn
    analyze_vqa_dataset(json_path)


=== VQA Dataset Statistics ===
Total QA pairs: 41
Total folders: 1

Images per folder:
----------------------------------------
almond                            41
----------------------------------------
Average images per folder: 41.0
