In [1]:
import os
import shutil
from PIL import Image

def clean_cat_breed_images(raw_data_parent_dir, cleaned_data_parent_dir, problematic_data_parent_dir):
    """
    Cleans image data for cat breeds.

    Args:
        raw_data_parent_dir (str): Path to the parent directory of raw cat breed images 
                                   (e.g., '~/Repos/cat-classification/data/raw-data/cat-breeds').
        cleaned_data_parent_dir (str): Path to where cleaned images will be copied
                                       (e.g., '~/Repos/cat-classification/data/cleaned-data/cat-breeds').
        problematic_data_parent_dir (str): Path to where problematic files will be moved
                                           (e.g., '~/Repos/cat-classification/data/cleaned-data/problematic_images').
    """
    raw_data_path = os.path.expanduser(raw_data_parent_dir)
    cleaned_data_path = os.path.expanduser(cleaned_data_parent_dir)
    problematic_data_path = os.path.expanduser(problematic_data_parent_dir)

    if not os.path.exists(raw_data_path):
        print(f"Lỗi: Thư mục dữ liệu thô không tồn tại: {raw_data_path}")
        return

    os.makedirs(cleaned_data_path, exist_ok=True)
    os.makedirs(problematic_data_path, exist_ok=True)

    print(f"Bắt đầu làm sạch dữ liệu từ: {raw_data_path}")
    print(f"Dữ liệu đã làm sạch sẽ được lưu tại: {cleaned_data_path}")
    print(f"Các tệp có vấn đề sẽ được chuyển đến: {problematic_data_path}")

    total_files_processed = 0
    total_images_cleaned = 0
    total_problematic_files = 0
    
    valid_extensions = ('.jpg', '.jpeg', '.png', '.gif', '.bmp', '.tiff') # Thêm các định dạng ảnh phổ biến

    for breed_name in os.listdir(raw_data_path):
        raw_breed_dir = os.path.join(raw_data_path, breed_name)
        if not os.path.isdir(raw_breed_dir):
            continue

        print(f"\nĐang xử lý giống: {breed_name}")
        
        cleaned_breed_dir = os.path.join(cleaned_data_path, breed_name)
        problematic_breed_dir = os.path.join(problematic_data_path, breed_name)
        os.makedirs(cleaned_breed_dir, exist_ok=True)
        os.makedirs(problematic_breed_dir, exist_ok=True)

        breed_files_processed = 0
        breed_images_cleaned = 0
        breed_problematic_files = 0

        for filename in os.listdir(raw_breed_dir):
            total_files_processed += 1
            breed_files_processed += 1
            
            file_path = os.path.join(raw_breed_dir, filename)
            
            # Bỏ qua các tệp ẩn hoặc không phải là tệp tin
            if filename.startswith('.') or not os.path.isfile(file_path):
                continue

            # Kiểm tra phần mở rộng của tệp
            if not filename.lower().endswith(valid_extensions):
                print(f"  [Bỏ qua] Tệp không phải định dạng ảnh được hỗ trợ: {filename}")
                # Tùy chọn: di chuyển các tệp này vào thư mục problematic
                # shutil.move(file_path, os.path.join(problematic_breed_dir, filename))
                # total_problematic_files +=1
                # breed_problematic_files +=1
                continue

            try:
                with Image.open(file_path) as img:
                    img.verify() # Kiểm tra xem có phải là ảnh hợp lệ không
                    # img.load() # Đảm bảo dữ liệu ảnh được tải, một số lỗi chỉ xuất hiện khi tải
                
                # Nếu không có lỗi, sao chép tệp vào thư mục đã làm sạch
                shutil.copy2(file_path, os.path.join(cleaned_breed_dir, filename))
                total_images_cleaned += 1
                breed_images_cleaned += 1
            except (IOError, SyntaxError, Image.UnidentifiedImageError) as e:
                print(f"  [Lỗi] Không thể mở hoặc xác thực hình ảnh {filename}: {e}")
                # Di chuyển tệp có vấn đề
                shutil.move(file_path, os.path.join(problematic_breed_dir, filename))
                total_problematic_files += 1
                breed_problematic_files += 1
            except Exception as e:
                print(f"  [Lỗi không xác định] với tệp {filename}: {e}")
                shutil.move(file_path, os.path.join(problematic_breed_dir, filename))
                total_problematic_files += 1
                breed_problematic_files += 1


        print(f"  Hoàn thành xử lý giống {breed_name}: {breed_images_cleaned} ảnh hợp lệ, {breed_problematic_files} tệp có vấn đề.")

    print("\n--- Tóm tắt quá trình làm sạch ---")
    print(f"Tổng số tệp đã xử lý: {total_files_processed}")
    print(f"Tổng số hình ảnh hợp lệ đã sao chép: {total_images_cleaned}")
    print(f"Tổng số tệp có vấn đề đã di chuyển: {total_problematic_files}")
    print("Quá trình làm sạch hoàn tất.")

if __name__ == '__main__':
    # Định nghĩa đường dẫn
    # Thay đổi các đường dẫn này nếu cấu trúc thư mục của bạn khác
    raw_images_main_folder = '~/Repos/cat-classification/data/raw-data/cat-breeds'
    cleaned_images_main_folder = '~/Repos/cat-classification/data/cleaned-data/cat-breeds-cleaned' # Đặt tên thư mục con mới
    problematic_files_main_folder = '~/Repos/cat-classification/data/cleaned-data/problematic-files'

    # Chạy hàm làm sạch
    clean_cat_breed_images(raw_images_main_folder, cleaned_images_main_folder, problematic_files_main_folder)

Bắt đầu làm sạch dữ liệu từ: /home/maidang/Repos/cat-classification/data/raw-data/cat-breeds
Dữ liệu đã làm sạch sẽ được lưu tại: /home/maidang/Repos/cat-classification/data/cleaned-data/cat-breeds-cleaned
Các tệp có vấn đề sẽ được chuyển đến: /home/maidang/Repos/cat-classification/data/cleaned-data/problematic-files

Đang xử lý giống: bombay
  Hoàn thành xử lý giống bombay: 154 ảnh hợp lệ, 0 tệp có vấn đề.

Đang xử lý giống: siberian
  Hoàn thành xử lý giống siberian: 159 ảnh hợp lệ, 0 tệp có vấn đề.

Đang xử lý giống: vankedisi
  Hoàn thành xử lý giống vankedisi: 187 ảnh hợp lệ, 0 tệp có vấn đề.

Đang xử lý giống: safari
  Hoàn thành xử lý giống safari: 150 ảnh hợp lệ, 0 tệp có vấn đề.

Đang xử lý giống: kurilian_bobtail
  Hoàn thành xử lý giống kurilian_bobtail: 120 ảnh hợp lệ, 0 tệp có vấn đề.

Đang xử lý giống: mekong_bobtail
  Hoàn thành xử lý giống mekong_bobtail: 140 ảnh hợp lệ, 0 tệp có vấn đề.

Đang xử lý giống: american_wirehair
  Hoàn thành xử lý giống american_wirehair: 19