## Tìm kiếm ảnh lỗi

In [1]:
import os
import pandas as pd
from PIL import Image
from tqdm import tqdm  # Thêm tqdm để hiển thị thanh tiến trình

input_dir = '/kaggle/input/car-cs114/dataset/'
output_csv = '/kaggle/working/ImageErrors.csv'

def find_corrupted_images(input_dir, output_csv):
    error_records = []
    category_mapping = {
        'Others': 0,
        'Honda': 1,
        'Hyundai': 2,
        'KIA': 3,
        'Mazda': 4,
        'Mitsubishi': 5,
        'Suzuki': 6,
        'Toyota': 7,
        'VinFast': 8
    }

    total_files = sum([len(files) for _, _, files in os.walk(input_dir)])

    with tqdm(total=total_files, desc="Đang kiểm tra ảnh", unit="ảnh") as pbar:
        for root, dirs, files in os.walk(input_dir):
            category_name = os.path.basename(root)

            # Bỏ qua các thư mục không có trong category_mapping
            if category_name not in category_mapping:
                pbar.update(len(files))  # Cập nhật tiến trình cho các file bị bỏ qua
                continue

            category_id = category_mapping[category_name]
            for file in files:
                relative_path = os.path.join(category_name, file)
                full_path = os.path.join(root, file)

                try:
                    with Image.open(full_path) as img:
                        img.verify()
                except Exception:
                    error_records.append({"ImageErrorFullPath": relative_path, "CategoryID": category_id})

                pbar.update(1)

    if error_records:
        error_df = pd.DataFrame(error_records)
        error_df.to_csv(output_csv, index=False)
        print(f"Đã tìm thấy {len(error_records)} ảnh bị lỗi. Danh sách được lưu vào {output_csv}")
    else:
        print("Không tìm thấy ảnh bị lỗi nào.")

find_corrupted_images(input_dir, output_csv)


Đang kiểm tra ảnh: 100%|██████████| 38044/38044 [06:16<00:00, 101.13ảnh/s]

Đã tìm thấy 31 ảnh bị lỗi. Danh sách được lưu vào /kaggle/working/ImageErrors.csv



