In [1]:
import os
import shutil
from PIL import Image
from tqdm import tqdm


In [2]:
# üìÇ Original dataset location
original_datasets = {
    "plantdoc": r"C:\Users\tiwar\plant_disease_detection\Dataset\plantdoc",
    "agri_india": r"C:\Users\tiwar\plant_disease_detection\Dataset\agri_india",
    "wheat_disease": r"C:\Users\tiwar\plant_disease_detection\Dataset\wheat_disease"
}

# üìÇ Final cleaned dataset location
processed_path = r"C:\Users\tiwar\plant_disease_detection\processed_dataset"

# üìè Set standard image size for all inputs (used in DL models)
standard_size = (224, 224)


In [3]:
def clean_and_resize_images(source_path, target_path, size=(224, 224)):
    """
    Clean, resize and copy images from source to target path.
    Skips corrupted images.
    """
    total_images = 0
    corrupted_count = 0

    for class_folder in os.listdir(source_path):
        class_path = os.path.join(source_path, class_folder)
        if not os.path.isdir(class_path):
            continue

        # Create same class folder in target
        target_class_path = os.path.join(target_path, class_folder)
        os.makedirs(target_class_path, exist_ok=True)

        # Process images in each class
        for img_file in tqdm(os.listdir(class_path), desc=f"üìÅ Processing {class_folder}"):
            src_img_path = os.path.join(class_path, img_file)
            try:
                with Image.open(src_img_path) as img:
                    img = img.convert("RGB")
                    img = img.resize(size)
                    
                    # Uniform name (no spaces, no special chars)
                    clean_name = f"{class_folder.replace(' ', '_')}_{total_images}.jpg"
                    save_path = os.path.join(target_class_path, clean_name)
                    img.save(save_path)
                    total_images += 1

            except Exception as e:
                corrupted_count += 1
                continue

    print(f"\n‚úÖ Done: {total_images} images saved.")
    print(f"‚ö†Ô∏è Corrupted/Skipped: {corrupted_count}")


In [4]:
# Make sure final target folder exists
os.makedirs(processed_path, exist_ok=True)

# Loop through and process each dataset
for name, path in original_datasets.items():
    print(f"\nüîÑ Processing Dataset: {name}")
    clean_and_resize_images(path, processed_path)



üîÑ Processing Dataset: plantdoc


üìÅ Processing Apple_leaf: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 88/88 [00:04<00:00, 18.46it/s]
üìÅ Processing Apple_rust_leaf: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 106/106 [00:05<00:00, 20.70it/s]
üìÅ Processing Apple_Scab_Leaf: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 93/93 [00:03<00:00, 26.73it/s]
üìÅ Processing Bell_pepper_leaf: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 42/42 [00:01<00:00, 27.03it/s]
üìÅ Processing Bell_pepper_leaf_spot: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñ


‚úÖ Done: 2922 images saved.
‚ö†Ô∏è Corrupted/Skipped: 0

üîÑ Processing Dataset: agri_india


üìÅ Processing American Bollworm on Cotton: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 56/56 [00:03<00:00, 17.17it/s]
üìÅ Processing Anthracnose on Cotton: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 29/29 [00:01<00:00, 16.07it/s]
üìÅ Processing Army worm: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 40/40 [00:00<00:00, 40.30it/s]
üìÅ Processing bacterial_blight in Cotton: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 489/489 [00:11<00:00, 41.00it/s]
üìÅ Processing Becterial Blight in Rice: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñ


‚úÖ Done: 15341 images saved.
‚ö†Ô∏è Corrupted/Skipped: 1

üîÑ Processing Dataset: wheat_disease


üìÅ Processing Aphid: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 903/903 [00:17<00:00, 50.39it/s]
üìÅ Processing Black Rust: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 576/576 [01:59<00:00,  4.82it/s]
üìÅ Processing Blast: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 647/647 [00:35<00:00, 18.31it/s]
üìÅ Processing Brown Rust: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1271/1271 [02:05<00:00, 10.17it/s]
üìÅ Processing Common Root Rot: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñ


‚úÖ Done: 13104 images saved.
‚ö†Ô∏è Corrupted/Skipped: 0


In [5]:
def count_processed_images(processed_dir):
    total = 0
    class_wise = {}

    for cls in os.listdir(processed_dir):
        cls_path = os.path.join(processed_dir, cls)
        if os.path.isdir(cls_path):
            count = len(os.listdir(cls_path))
            class_wise[cls] = count
            total += count

    print("üìä Image count per class:\n")
    for k, v in class_wise.items():
        print(f"üü¢ {k}: {v} images")
    
    print(f"\n‚úÖ TOTAL IMAGES: {total}")

# ‚úÖ Run this
count_processed_images(processed_path)


üìä Image count per class:

üü¢ American Bollworm on Cotton: 56 images
üü¢ Anthracnose on Cotton: 29 images
üü¢ Aphid: 903 images
üü¢ Apple_leaf: 88 images
üü¢ Apple_rust_leaf: 106 images
üü¢ Apple_Scab_Leaf: 93 images
üü¢ Army worm: 40 images
üü¢ bacterial_blight in Cotton: 489 images
üü¢ Becterial Blight in Rice: 1584 images
üü¢ Bell_pepper_leaf: 42 images
üü¢ Bell_pepper_leaf_spot: 83 images
üü¢ Black Rust: 576 images
üü¢ Blast: 647 images
üü¢ Blueberry_leaf: 117 images
üü¢ bollrot on Cotton: 2 images
üü¢ bollworm on Cotton: 22 images
üü¢ Brown Rust: 1271 images
üü¢ Brownspot: 1640 images
üü¢ Cherry_leaf: 57 images
üü¢ Common Root Rot: 614 images
üü¢ Common_Rust: 1306 images
üü¢ Corn_Gray_leaf_spot: 67 images
üü¢ Corn_leaf_blight: 194 images
üü¢ Corn_rust_leaf: 117 images
üü¢ Cotton Aphid: 39 images
üü¢ cotton mealy bug: 93 images
üü¢ cotton whitefly: 55 images
üü¢ Flag Smut: 179 images
üü¢ Fusarium Head Blight: 611 images
üü¢ grape_leaf: 75 images
üü