## File Cleaning

In [34]:
import os
import shutil
from PIL import Image

def clean_cat_breed_images(raw_data_parent_dir, cleaned_data_parent_dir, problematic_data_parent_dir):
    """
    Cleans image data for cat breeds.

    Args:
        raw_data_parent_dir (str): Path to the parent directory of raw cat breed images 
                                   (e.g., '~/Repos/cat-classification/data/raw-data/cat-breeds').
        cleaned_data_parent_dir (str): Path to where cleaned images will be copied
                                       (e.g., '~/Repos/cat-classification/data/cleaned-data/cat-breeds').
        problematic_data_parent_dir (str): Path to where problematic files will be moved
                                           (e.g., '~/Repos/cat-classification/data/cleaned-data/problematic_images').
    """
    raw_data_path = os.path.expanduser(raw_data_parent_dir)
    cleaned_data_path = os.path.expanduser(cleaned_data_parent_dir)
    problematic_data_path = os.path.expanduser(problematic_data_parent_dir)

    if not os.path.exists(raw_data_path):
        print(f"Lỗi: Thư mục dữ liệu thô không tồn tại: {raw_data_path}")
        return

    os.makedirs(cleaned_data_path, exist_ok=True)
    os.makedirs(problematic_data_path, exist_ok=True)

    print(f"Bắt đầu làm sạch dữ liệu từ: {raw_data_path}")
    print(f"Dữ liệu đã làm sạch sẽ được lưu tại: {cleaned_data_path}")
    print(f"Các tệp có vấn đề sẽ được chuyển đến: {problematic_data_path}")

    total_files_processed = 0
    total_images_cleaned = 0
    total_problematic_files = 0
    
    valid_extensions = ('.jpg', '.jpeg', '.png', '.gif', '.bmp', '.tiff') # Thêm các định dạng ảnh phổ biến

    for breed_name in os.listdir(raw_data_path):
        raw_breed_dir = os.path.join(raw_data_path, breed_name)
        if not os.path.isdir(raw_breed_dir):
            continue

        print(f"\nĐang xử lý giống: {breed_name}")
        
        cleaned_breed_dir = os.path.join(cleaned_data_path, breed_name)
        problematic_breed_dir = os.path.join(problematic_data_path, breed_name)
        os.makedirs(cleaned_breed_dir, exist_ok=True)
        os.makedirs(problematic_breed_dir, exist_ok=True)

        breed_files_processed = 0
        breed_images_cleaned = 0
        breed_problematic_files = 0

        for filename in os.listdir(raw_breed_dir):
            total_files_processed += 1
            breed_files_processed += 1
            
            file_path = os.path.join(raw_breed_dir, filename)
            
            # Bỏ qua các tệp ẩn hoặc không phải là tệp tin
            if filename.startswith('.') or not os.path.isfile(file_path):
                continue

            # Kiểm tra phần mở rộng của tệp
            if not filename.lower().endswith(valid_extensions):
                print(f"  [Bỏ qua] Tệp không phải định dạng ảnh được hỗ trợ: {filename}")
                # Tùy chọn: di chuyển các tệp này vào thư mục problematic
                # shutil.move(file_path, os.path.join(problematic_breed_dir, filename))
                # total_problematic_files +=1
                # breed_problematic_files +=1
                continue

            try:
                with Image.open(file_path) as img:
                    img.verify() # Kiểm tra xem có phải là ảnh hợp lệ không
                    # img.load() # Đảm bảo dữ liệu ảnh được tải, một số lỗi chỉ xuất hiện khi tải
                
                # Nếu không có lỗi, sao chép tệp vào thư mục đã làm sạch
                shutil.copy2(file_path, os.path.join(cleaned_breed_dir, filename))
                total_images_cleaned += 1
                breed_images_cleaned += 1
            except (IOError, SyntaxError, Image.UnidentifiedImageError) as e:
                print(f"  [Lỗi] Không thể mở hoặc xác thực hình ảnh {filename}: {e}")
                # Di chuyển tệp có vấn đề
                shutil.move(file_path, os.path.join(problematic_breed_dir, filename))
                total_problematic_files += 1
                breed_problematic_files += 1
            except Exception as e:
                print(f"  [Lỗi không xác định] với tệp {filename}: {e}")
                shutil.move(file_path, os.path.join(problematic_breed_dir, filename))
                total_problematic_files += 1
                breed_problematic_files += 1


        print(f"  Hoàn thành xử lý giống {breed_name}: {breed_images_cleaned} ảnh hợp lệ, {breed_problematic_files} tệp có vấn đề.")

    print("\n--- Tóm tắt quá trình làm sạch ---")
    print(f"Tổng số tệp đã xử lý: {total_files_processed}")
    print(f"Tổng số hình ảnh hợp lệ đã sao chép: {total_images_cleaned}")
    print(f"Tổng số tệp có vấn đề đã di chuyển: {total_problematic_files}")
    print("Quá trình làm sạch hoàn tất.")

if __name__ == '__main__':
    # Định nghĩa đường dẫn
    # Thay đổi các đường dẫn này nếu cấu trúc thư mục của bạn khác
    raw_images_main_folder = '~/Repos/cat-classification/data/raw-data/cat-breeds'
    cleaned_images_main_folder = '~/Repos/cat-classification/data/cleaned-data/cat-breeds-cleaned' # Đặt tên thư mục con mới
    problematic_files_main_folder = '~/Repos/cat-classification/data/cleaned-data/problematic-files'

    # Chạy hàm làm sạch
    clean_cat_breed_images(raw_images_main_folder, cleaned_images_main_folder, problematic_files_main_folder)

Bắt đầu làm sạch dữ liệu từ: /home/maidang/Repos/cat-classification/data/raw-data/cat-breeds
Dữ liệu đã làm sạch sẽ được lưu tại: /home/maidang/Repos/cat-classification/data/cleaned-data/cat-breeds-cleaned
Các tệp có vấn đề sẽ được chuyển đến: /home/maidang/Repos/cat-classification/data/cleaned-data/problematic-files

Đang xử lý giống: bombay
  Hoàn thành xử lý giống bombay: 154 ảnh hợp lệ, 0 tệp có vấn đề.

Đang xử lý giống: siberian
  Hoàn thành xử lý giống siberian: 159 ảnh hợp lệ, 0 tệp có vấn đề.

Đang xử lý giống: vankedisi
  Hoàn thành xử lý giống vankedisi: 187 ảnh hợp lệ, 0 tệp có vấn đề.

Đang xử lý giống: safari
  Hoàn thành xử lý giống safari: 150 ảnh hợp lệ, 0 tệp có vấn đề.

Đang xử lý giống: kurilian_bobtail
  Hoàn thành xử lý giống kurilian_bobtail: 120 ảnh hợp lệ, 0 tệp có vấn đề.

Đang xử lý giống: mekong_bobtail
  Hoàn thành xử lý giống mekong_bobtail: 140 ảnh hợp lệ, 0 tệp có vấn đề.

Đang xử lý giống: american_wirehair
  Hoàn thành xử lý giống american_wirehair: 19

## Content Verifying

In [35]:
import os
import shutil
import torch # Vẫn cần cho torchvision.transforms nếu bạn dùng, hoặc PIL
# from PIL import Image, UnidentifiedImageError # Vẫn cần thiết
from ultralytics import YOLO # Thư viện YOLO mới

# Tải mô hình YOLO (nên thực hiện một lần bên ngoài các hàm lặp)
# Chọn một mô hình phù hợp, ví dụ yolov8n.pt (nhỏ và nhanh) hoặc yolov8s.pt
try:
    yolo_model = YOLO('yolo11x.pt')  # Hoặc 'yolov5s.pt', v.v.
    # Đặt ngưỡng tin cậy cho việc phát hiện. Bạn có thể cần điều chỉnh.
    # Ngưỡng này sẽ được dùng trong hàm is_image_a_cat_yolo
    YOLO_CONFIDENCE_THRESHOLD = 0.3 
    # ID lớp cho 'cat' trong bộ dữ liệu COCO (YOLO thường được huấn luyện trên COCO)
    # Thường là 15 cho YOLOv5/v8 (0-indexed). Cần kiểm tra lại với model cụ thể bạn dùng.
    # yolo_model.names sẽ cho bạn danh sách tên lớp và chỉ số của chúng.
    # Ví dụ: print(yolo_model.names) -> {0: 'person', ..., 15: 'cat', ...}
    CAT_CLASS_ID_COCO = 15 # Kiểm tra lại giá trị này!
except Exception as e:
    print(f"Lỗi khi tải mô hình YOLO: {e}")
    yolo_model = None

# Định nghĩa các phép biến đổi (có thể không cần thiết nếu YOLO tự xử lý, nhưng PIL vẫn hữu ích)
# preprocess_transforms = transforms.Compose([...]) # Giữ lại nếu cần cho PIL

# CAT_CLASS_INDICES (từ ImageNet) sẽ không còn được sử dụng trực tiếp với YOLO nữa
# thay vào đó là CAT_CLASS_ID_COCO

def is_image_a_cat_yolo(image_path, yolo_detector, target_class_id, confidence_threshold):
    """
    Kiểm tra xem hình ảnh có chứa đối tượng mèo được phát hiện bởi YOLO hay không.
    """
    if yolo_detector is None:
        print("  [Lỗi] Mô hình YOLO chưa được tải.")
        return False # Hoặc xử lý lỗi theo cách khác

    try:
        results = yolo_detector(image_path, verbose=False) # verbose=False để giảm output

        # results là một list, thường chỉ có 1 phần tử cho 1 ảnh
        for result in results:
            # result.boxes chứa thông tin về các hộp giới hạn
            # result.boxes.cls là tensor chứa ID lớp của các đối tượng được phát hiện
            # result.boxes.conf là tensor chứa điểm tin cậy
            if result.boxes is not None:
                for i in range(len(result.boxes.cls)):
                    class_id = int(result.boxes.cls[i].item())
                    confidence = result.boxes.conf[i].item()
                    
                    if class_id == target_class_id and confidence >= confidence_threshold:
                        # print(f"  [YOLO] Mèo được phát hiện trong {os.path.basename(image_path)} với conf: {confidence:.2f}")
                        return True
        return False # Không tìm thấy mèo đạt ngưỡng
    except FileNotFoundError:
        print(f"  [Lỗi YOLO] Tệp không tồn tại: {image_path}")
        return False
    except UnidentifiedImageError: # Từ PIL nếu có vấn đề đọc ảnh
        print(f"  [Lỗi YOLO] Không thể xác định tệp hình ảnh (UnidentifiedImageError): {os.path.basename(image_path)}")
        return False
    except Exception as e:
        # Bắt các lỗi chung khác từ YOLO hoặc xử lý ảnh
        print(f"  [Lỗi YOLO xử lý ảnh] {os.path.basename(image_path)}: {e}")
        return False

# Sửa đổi hàm filter_non_cat_images để sử dụng is_image_a_cat_yolo
def filter_non_cat_images(cleaned_data_parent_dir, non_cat_output_parent_dir):
    """
    Lọc hình ảnh từ cleaned_data_parent_dir, di chuyển các ảnh không phải mèo
    sang non_cat_output_parent_dir, sử dụng YOLO để xác định mèo.
    """
    source_path = os.path.expanduser(cleaned_data_parent_dir)
    non_cat_dest_path = os.path.expanduser(non_cat_output_parent_dir)

    if not os.path.exists(source_path):
        print(f"Lỗi: Thư mục nguồn chứa ảnh đã làm sạch không tồn tại: {source_path}")
        return
    if yolo_model is None:
        print("Lỗi: Mô hình YOLO không khả dụng. Hủy bỏ quá trình lọc.")
        return

    os.makedirs(non_cat_dest_path, exist_ok=True)
    print(f"Bắt đầu lọc nội dung ảnh (sử dụng YOLO) từ: {source_path}")
    print(f"Ảnh không phải mèo sẽ được chuyển đến: {non_cat_dest_path}")

    total_images_processed_content = 0
    total_cats_identified_content = 0
    total_non_cats_moved_content = 0

    for breed_name in os.listdir(source_path):
        source_breed_dir = os.path.join(source_path, breed_name)
        if not os.path.isdir(source_breed_dir):
            continue

        print(f"\nĐang kiểm tra nội dung giống (YOLO): {breed_name}")
        
        non_cat_breed_dest_dir = os.path.join(non_cat_dest_path, breed_name)
        
        breed_images_processed = 0
        breed_cats_identified = 0
        breed_non_cats_moved = 0

        image_files = [f for f in os.listdir(source_breed_dir) 
                       if os.path.isfile(os.path.join(source_breed_dir, f)) and 
                       f.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp', '.gif', '.tiff'))] # Thêm kiểm tra định dạng ở đây
        
        for filename in image_files:
            file_path = os.path.join(source_breed_dir, filename)
            
            total_images_processed_content += 1
            breed_images_processed += 1

            if is_image_a_cat_yolo(file_path, yolo_model, CAT_CLASS_ID_COCO, YOLO_CONFIDENCE_THRESHOLD):
                total_cats_identified_content += 1
                breed_cats_identified += 1
            else:
                os.makedirs(non_cat_breed_dest_dir, exist_ok=True)
                # print(f"  [Không phải mèo theo YOLO] Di chuyển: {filename} từ {breed_name}") # Bỏ comment nếu muốn log chi tiết
                try:
                    shutil.move(file_path, os.path.join(non_cat_breed_dest_dir, filename))
                    total_non_cats_moved_content += 1
                    breed_non_cats_moved += 1
                except Exception as e:
                    print(f"  [Lỗi di chuyển YOLO] {filename}: {e}")
        
        print(f"  Hoàn thành kiểm tra nội dung giống {breed_name} (YOLO): {breed_cats_identified} ảnh mèo, {breed_non_cats_moved} ảnh không phải mèo đã di chuyển.")
        if os.path.exists(non_cat_breed_dest_dir) and not os.listdir(non_cat_breed_dest_dir):
            # print(f"  Xóa thư mục rỗng cho ảnh không phải mèo (YOLO): {non_cat_breed_dest_dir}")
            try:
                os.rmdir(non_cat_breed_dest_dir)
            except OSError as e:
                print(f"Lỗi khi xóa thư mục rỗng {non_cat_breed_dest_dir}: {e}")


    print("\n--- Tóm tắt quá trình lọc nội dung (YOLO) ---")
    print(f"Tổng số ảnh đã xử lý (kiểm tra nội dung YOLO): {total_images_processed_content}")
    print(f"Tổng số ảnh được xác định là mèo (YOLO): {total_cats_identified_content}")
    print(f"Tổng số ảnh không phải mèo đã di chuyển (YOLO): {total_non_cats_moved_content}")
    print("Quá trình lọc nội dung (YOLO) hoàn tất.")

    if os.path.exists(non_cat_dest_path) and not os.listdir(non_cat_dest_path):
        # print(f"Xóa thư mục cha rỗng cho ảnh không phải mèo (YOLO): {non_cat_dest_path}")
        try:
            os.rmdir(non_cat_dest_path)
        except OSError as e:
            print(f"Lỗi khi xóa thư mục cha rỗng {non_cat_dest_path}: {e}")


Downloading https://github.com/ultralytics/assets/releases/download/v8.3.0/yolo11x.pt to 'yolo11x.pt'...


100%|██████████| 109M/109M [00:05<00:00, 19.8MB/s] 


In [37]:
# Đường dẫn đến thư mục chứa ảnh đã qua bước làm sạch file cơ bản
# Đây là cleaned_images_main_folder từ bước trước
cleaned_cat_breeds_dir = '~/Repos/cat-classification/data/cleaned-data/cat-breeds-cleaned'

# Đường dẫn đến thư mục để lưu trữ các ảnh được xác định là không phải mèo
non_cat_images_output_dir = '~/Repos/cat-classification/data/cleaned-data/non-cat-images'

# Chạy hàm lọc nội dung
filter_non_cat_images(cleaned_cat_breeds_dir, non_cat_images_output_dir)

Bắt đầu lọc nội dung ảnh (sử dụng YOLO) từ: /home/maidang/Repos/cat-classification/data/cleaned-data/cat-breeds-cleaned
Ảnh không phải mèo sẽ được chuyển đến: /home/maidang/Repos/cat-classification/data/cleaned-data/non-cat-images

Đang kiểm tra nội dung giống (YOLO): bombay
  Hoàn thành kiểm tra nội dung giống bombay (YOLO): 8 ảnh mèo, 146 ảnh không phải mèo đã di chuyển.

Đang kiểm tra nội dung giống (YOLO): siberian
  Hoàn thành kiểm tra nội dung giống siberian (YOLO): 60 ảnh mèo, 99 ảnh không phải mèo đã di chuyển.

Đang kiểm tra nội dung giống (YOLO): vankedisi
  Hoàn thành kiểm tra nội dung giống vankedisi (YOLO): 161 ảnh mèo, 26 ảnh không phải mèo đã di chuyển.

Đang kiểm tra nội dung giống (YOLO): safari
  Hoàn thành kiểm tra nội dung giống safari (YOLO): 3 ảnh mèo, 147 ảnh không phải mèo đã di chuyển.

Đang kiểm tra nội dung giống (YOLO): kurilian_bobtail
  Hoàn thành kiểm tra nội dung giống kurilian_bobtail (YOLO): 113 ảnh mèo, 7 ảnh không phải mèo đã di chuyển.

Đang kiểm tr

In [36]:
print(yolo_model.names) # In ra danh sách tên lớp để kiểm tra

{0: 'person', 1: 'bicycle', 2: 'car', 3: 'motorcycle', 4: 'airplane', 5: 'bus', 6: 'train', 7: 'truck', 8: 'boat', 9: 'traffic light', 10: 'fire hydrant', 11: 'stop sign', 12: 'parking meter', 13: 'bench', 14: 'bird', 15: 'cat', 16: 'dog', 17: 'horse', 18: 'sheep', 19: 'cow', 20: 'elephant', 21: 'bear', 22: 'zebra', 23: 'giraffe', 24: 'backpack', 25: 'umbrella', 26: 'handbag', 27: 'tie', 28: 'suitcase', 29: 'frisbee', 30: 'skis', 31: 'snowboard', 32: 'sports ball', 33: 'kite', 34: 'baseball bat', 35: 'baseball glove', 36: 'skateboard', 37: 'surfboard', 38: 'tennis racket', 39: 'bottle', 40: 'wine glass', 41: 'cup', 42: 'fork', 43: 'knife', 44: 'spoon', 45: 'bowl', 46: 'banana', 47: 'apple', 48: 'sandwich', 49: 'orange', 50: 'broccoli', 51: 'carrot', 52: 'hot dog', 53: 'pizza', 54: 'donut', 55: 'cake', 56: 'chair', 57: 'couch', 58: 'potted plant', 59: 'bed', 60: 'dining table', 61: 'toilet', 62: 'tv', 63: 'laptop', 64: 'mouse', 65: 'remote', 66: 'keyboard', 67: 'cell phone', 68: 'microw