In [1]:
import os
import cv2
import random
import numpy as np
from sklearn.model_selection import train_test_split

# 參數設定
all_dir = "C:/Users/ycliou/Desktop/xray" # 原始資料夾
categories = ["n", "p"]
all_data = []
output_dir = "C:/Users/ycliou/Desktop/xray/8020"  # 分割後資料儲存的根目錄
train_dir = os.path.join(output_dir, 'train')  # 訓練集資料夾
test_dir = os.path.join(output_dir, 'test')  # 測試集資料夾

# 創建所有資料夾
os.makedirs(train_dir, exist_ok=True)
os.makedirs(test_dir, exist_ok=True)

# 讀取影像並進行前處理
def create_all_data():
    for category in categories:
        path = os.path.join(all_dir, category)
        class_num = categories.index(category)
        for img_name in os.listdir(path):
            img_path = os.path.join(path, img_name)
            
            if not os.path.isfile(img_path):
                continue  # 跳過目錄和非圖片檔案
            
            if not img_name.lower().endswith(('.jpg', '.png','jpeg')):
                continue  # 跳過非圖片檔案
            
            img_array = cv2.imread(img_path)
            if img_array is None:
                print(f"Failed to load image: {img_path}")
                continue  # 無法加載圖片則跳過
            
            all_data.append([img_array, class_num, img_name])  # 保存原始圖像資料和標籤

create_all_data()

# 將所有圖像隨機打亂
random.shuffle(all_data)

# 分離出 X 和 Y，X 為圖像，Y 為標籤
X = []
Y = []
image_names = []  # 保存圖像名稱

for features, label, img_name in all_data:
    X.append(features)
    Y.append(label)
    image_names.append(img_name)

X = np.array(X, dtype=object)  # 使用 dtype=object 保留原始大小的 numpy 陣列
Y = np.array(Y)

# 分割資料集
X_train, X_test, y_train, y_test, img_train, img_test = train_test_split(
    X, Y, image_names, test_size=0.2, random_state=42)

# 儲存圖片到對應的資料夾
def save_images(images, labels, img_names, base_dir):
    for img, label, img_name in zip(images, labels, img_names):
        img_save_path = os.path.join(base_dir, img_name)  # 直接使用檔名保存圖片
        cv2.imwrite(img_save_path, img)  # 保存原始大小的圖片

# 將訓練集圖片保存到 train 資料夾
save_images(X_train, y_train, img_train, train_dir)

# 將測試集圖片保存到 test 資料夾
save_images(X_test, y_test, img_test, test_dir)

print(f"圖片已保存到 '{output_dir}' 資料夾中，分為訓練集和測試集。")

圖片已保存到 'C:/Users/ycliou/Desktop/xray/8020' 資料夾中，分為訓練集和測試集。
