# **(Data Collection)**

In [None]:
!pip install kaggle

In [10]:
import os

# ダウンロードするKaggleデータセットのパス
KaggleDatasetPath = "codeinstitute/cherry-leaves"

# データセットの保存先ディレクトリ（フルパス）
DestinationFolder = os.path.join(os.getcwd(), "inputs/mildew_dataset")

# ディレクトリが存在しない場合は作成
os.makedirs(DestinationFolder, exist_ok=True)

# データセットをダウンロードして解凍
!kaggle datasets download -d {KaggleDatasetPath} -p {DestinationFolder} --unzip

Dataset URL: https://www.kaggle.com/datasets/codeinstitute/cherry-leaves
License(s): unknown
Downloading cherry-leaves.zip to /Users/azuki/cherry-leaf-disease-control/inputs/mildew_dataset
100%|█████████████████████████████████████▉| 55.0M/55.0M [00:04<00:00, 12.7MB/s]
100%|██████████████████████████████████████| 55.0M/55.0M [00:04<00:00, 11.8MB/s]


In [11]:
import os


def remove_non_image_files(my_data_dir):
    """
    指定されたフォルダ内の画像ファイル以外を削除する
    """
    image_extensions = (".png", ".jpg", ".jpeg")

    for folder in os.listdir(my_data_dir):
        folder_path = os.path.join(my_data_dir, folder)
        if os.path.isdir(folder_path):
            files = os.listdir(folder_path)
            non_image_count = 0
            image_count = 0

            for file in files:
                file_path = os.path.join(folder_path, file)

                # 画像ファイルではない & ファイルが存在する場合のみ削除
                if os.path.isfile(file_path) and not file.lower().endswith(
                    image_extensions
                ):
                    try:
                        os.remove(file_path)  # ファイルを削除
                        print(f"🗑️ 削除: {file_path}")
                        non_image_count += 1
                    except Exception as e:
                        print(f"⚠️ 削除失敗: {file_path} → {e}")
                else:
                    image_count += 1

            print(
                f"📂 {folder}: 画像 {image_count} 枚, 非画像 {non_image_count} 枚 削除済み ✅"
            )


# データクリーンアップ実行
remove_non_image_files("inputs/mildew_dataset/cherry-leaves")

📂 Healthy: 画像 2104 枚, 非画像 0 枚 削除済み ✅
📂 Infected: 画像 2104 枚, 非画像 0 枚 削除済み ✅


In [12]:
import os
import shutil

dataset_path = "inputs/mildew_dataset/cherry-leaves"

# ✅ 不要なフォルダ (.ipynb_checkpoints) を削除
for root, dirs, files in os.walk(dataset_path):
    for dir_name in dirs:
        if dir_name == ".ipynb_checkpoints":
            shutil.rmtree(os.path.join(root, dir_name))
            print(f"🗑️ 削除: {os.path.join(root, dir_name)}")

print("✅ データセットのクリーンアップ完了！")


✅ データセットのクリーンアップ完了！


In [13]:
import shutil

# 異常なフォルダが存在する場合に削除
error_path = "inputs/mildew_dataset/cherry-leaves/test/test"
if os.path.exists(error_path):
    shutil.rmtree(error_path)
    print(f"✅ 異常なフォルダを削除しました: {error_path}")
else:
    print("✅ 異常なフォルダは存在しませんでした")


✅ 異常なフォルダは存在しませんでした


In [4]:
import os
import shutil
import random
import joblib

def split_train_validation_test_images(my_data_dir, train_set_ratio, validation_set_ratio, test_set_ratio):    
    """
    Split the dataset into training, validation, and test sets.
    """
    # Validate that the sum of train, validation, and test ratios equals 1.0
    if train_set_ratio + validation_set_ratio + test_set_ratio!= 1.0:
        print("Error: train_set_ratio + validation_set_ratio + test_set_ratio should sum to 1.0")
        return

    # Get the class labels in the dataset directory
    labels = os.listdir(my_data_dir)  

    # Create 'train', 'validation', and 'test' folders with class subfolders
    for folder in ['train', 'validation', 'test']:
        for label in labels:
            os.makedirs(name=os.path.join(my_data_dir, folder, label), exist_ok=True)

    # Iterate through each class label
    for label in labels:
        # Get the list of files in the current class label directory
        files = os.listdir(os.path.join(my_data_dir, label))
        random.shuffle(files)
        # Calculate the number of files for train, validation, and test sets
        train_set_files_qty = int(len(files) * train_set_ratio)
        validation_set_files_qty = int(len(files) * validation_set_ratio)

        count = 1
        for file_name in files:
            if count <= train_set_files_qty:
                # Move the file to the 'train' set
                shutil.move(os.path.join(my_data_dir, label, file_name),
                            os.path.join(my_data_dir, 'train', label, file_name))

            elif count <= (train_set_files_qty + validation_set_files_qty):
                # Move the file to the 'validation' set
                shutil.move(
                    os.path.join(my_data_dir, label, file_name),
                    os.path.join(my_data_dir, "validation", label, file_name),
                )
            else:
                # Move the file to the 'test' set
                shutil.move(
                    os.path.join(my_data_dir, label, file_name),
                    os.path.join(my_data_dir, "test", label, file_name),
                )

            count += 1
        # Remove the original class directory after all files are moved
        os.rmdir(os.path.join(my_data_dir, label))

In [None]:
import sys
!which python
print(sys.executable)


In [3]:
!{sys.executable} -m pip install joblib


Collecting joblib
  Using cached joblib-1.4.2-py3-none-any.whl.metadata (5.4 kB)
Using cached joblib-1.4.2-py3-none-any.whl (301 kB)
Installing collected packages: joblib
Successfully installed joblib-1.4.2

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m25.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip3 install --upgrade pip[0m


In [None]:
import shutil
import os

dataset_path = "inputs/mildew_dataset/cherry-leaves"

# 🔥 すでにある train, validation, test を削除
for folder in ["train", "validation", "test"]:
    folder_path = os.path.join(dataset_path, folder)
    if os.path.exists(folder_path):
        shutil.rmtree(folder_path)  # フォルダごと削除
        print(f"🗑️ 削除: {folder_path}")

print("✅ 既存の train, validation, test を削除しました！")

# 🔄 その後、データセットを分割
split_train_validation_test_images(
    my_data_dir=dataset_path,
    train_set_ratio=0.7,
    validation_set_ratio=0.1,
    test_set_ratio=0.2,
)

In [None]:
import os

sets = ["train", "test", "validation"]
labels = ["Healthy", "Infected"]

for set_name in sets:
    for label in labels:
        path = f"inputs/mildew_dataset/cherry-leaves/{set_name}/{label}"
        try:
            number_of_files = len(os.listdir(path))
            print(f"There are {number_of_files} images in {set_name}/{label}")
        except FileNotFoundError:
            print(f"Error: Directory '{path}' not found.")

# Compute total number of images across all datasets (train, validation, test)
total_images = 0
for set_name in sets:
    for label in labels:
        path = f"inputs/mildew_dataset/cherry-leaves/{set_name}/{label}"
        try:
            total_images += len(os.listdir(path))
        except FileNotFoundError:
            pass
print(f"\nTotal number of images: {total_images}")

In [None]:
import os

base_dir = "inputs/mildew_dataset/cherry-leaves"

for subset in ['train', 'validation', 'test']:
    print(f"\n📂 {subset} セット:")
    for label in os.listdir(os.path.join(base_dir, subset)):
        count = len(os.listdir(os.path.join(base_dir, subset, label)))
        print(f"  - {label}: {count} 枚")

In [2]:
import os
import shutil
import glob

# 📌 プロジェクトのルートディレクトリ（cherry-leaf-disease-control）
root_dir = os.getcwd()  # 現在のディレクトリ

# 📌 .ipynb 以外のすべてのファイルを削除
for file_path in glob.glob(os.path.join(root_dir, "*")):
    if not file_path.endswith(".ipynb"):  # .ipynb 以外を削除
        try:
            if os.path.isfile(file_path):
                os.remove(file_path)  # ファイル削除
            elif os.path.isdir(file_path) and file_path.endswith("inputs"):
                shutil.rmtree(file_path)  # inputs フォルダを削除
        except Exception as e:
            print(f"⚠ 削除エラー: {file_path} - {e}")

# 📌 空のフォルダを削除
for dirpath, dirnames, filenames in os.walk(root_dir, topdown=False):
    for dirname in dirnames:
        dir_to_remove = os.path.join(dirpath, dirname)
        if not os.listdir(dir_to_remove):  # フォルダが空なら削除
            os.rmdir(dir_to_remove)

print("✅ .ipynb 以外のすべてのファイルと inputs/ フォルダを削除しました！")

✅ .ipynb 以外のすべてのファイルと inputs/ フォルダを削除しました！
