In [1]:
import os
import shutil
import random
from sklearn.model_selection import train_test_split
import numpy as np
from tqdm import tqdm

In [8]:
# Đường dẫn gốc
dataset_path = 'd:/MRI_4/dataset_1'
output_path = 'd:/MRI_4/dataset_1_reorganized'

In [9]:
# Tạo cấu trúc thư mục mới
folders = ['train', 'validation', 'test']
classes = ['Glioma', 'Meningioma', 'No_Tumor', 'Pituitary']

In [29]:
# Tạo thư mục mới
for folder in folders:
    folder_path = os.path.join(output_path, folder)
    if not os.path.exists(folder_path):
        os.makedirs(folder_path)
    
    for class_name in classes:
        class_path = os.path.join(folder_path, class_name)
        if not os.path.exists(class_path):
            os.makedirs(class_path)


In [30]:
# Kiểm tra cấu trúc thư mục gốc
def check_dataset_structure():
    print("=== KIỂM TRA CẤU TRÚC DATASET 1 ===")
    
    # Kiểm tra thư mục Training
    print("\nThư mục Training:")
    training_folders = os.listdir(os.path.join(dataset_path, 'Training'))
    print(f"Các thư mục con: {training_folders}")
    
    for folder in training_folders:
        path = os.path.join(dataset_path, 'Training', folder)
        if os.path.isdir(path):
            files = os.listdir(path)
            print(f"  - {folder}: {len(files)} files")
            
            # Kiểm tra xem có thư mục con không
            subdirs = [f for f in files if os.path.isdir(os.path.join(path, f))]
            if subdirs:
                print(f"    Có {len(subdirs)} thư mục con: {subdirs}")
    
    # Kiểm tra thư mục Testing
    print("\nThư mục Testing:")
    testing_folders = os.listdir(os.path.join(dataset_path, 'Testing'))
    print(f"Các thư mục con: {testing_folders}")
    
    for folder in testing_folders:
        path = os.path.join(dataset_path, 'Testing', folder)
        if os.path.isdir(path):
            files = os.listdir(path)
            print(f"  - {folder}: {len(files)} files")
            
            # Kiểm tra xem có thư mục con không
            subdirs = [f for f in files if os.path.isdir(os.path.join(path, f))]
            if subdirs:
                print(f"    Có {len(subdirs)} thư mục con: {subdirs}")

# Chạy hàm kiểm tra
check_dataset_structure()

=== KIỂM TRA CẤU TRÚC DATASET 1 ===

Thư mục Training:
Các thư mục con: ['glioma_tumor', 'meningioma_tumor', 'no_tumor', 'pituitary_tumor']
  - glioma_tumor: 1321 files
  - meningioma_tumor: 1339 files
  - no_tumor: 1595 files
  - pituitary_tumor: 1457 files

Thư mục Testing:
Các thư mục con: ['glioma', 'meningioma', 'notumor', 'pituitary']
  - glioma: 300 files
  - meningioma: 306 files
  - notumor: 405 files
  - pituitary: 300 files


In [31]:
def reorganize_dataset():
    # Biến đổi tên thư mục để phù hợp với cấu trúc
    class_mapping = {
        # Mapping cho tập Training
        'glioma_tumor': 'Glioma',
        'meningioma_tumor': 'Meningioma', 
        'no_tumor': 'No_Tumor',
        'pituitary_tumor': 'Pituitary',
        
        # Mapping cho tập Testing
        'glioma': 'Glioma',
        'meningioma': 'Meningioma',
        'notumor': 'No_Tumor',
        'pituitary': 'Pituitary'
    }
    
    # Thu thập tất cả các file
    all_files = {}
    
    # Thu thập file từ tập Training
    for class_folder in os.listdir(os.path.join(dataset_path, 'Training')):
        standard_class_name = class_mapping.get(class_folder)
        if standard_class_name:
            class_path = os.path.join(dataset_path, 'Training', class_folder)
            if standard_class_name not in all_files:
                all_files[standard_class_name] = []
            
            for img_file in os.listdir(class_path):
                all_files[standard_class_name].append(os.path.join(class_path, img_file))
    
    # Thu thập file từ tập Testing
    for class_folder in os.listdir(os.path.join(dataset_path, 'Testing')):
        standard_class_name = class_mapping.get(class_folder)  # Sử dụng mapping mới
        if standard_class_name:
            class_path = os.path.join(dataset_path, 'Testing', class_folder)
            if standard_class_name not in all_files:
                all_files[standard_class_name] = []
                
            for img_file in os.listdir(class_path):
                all_files[standard_class_name].append(os.path.join(class_path, img_file))
    
    # Kiểm tra tổng số ảnh trước khi chia
    total_images = sum(len(files) for files in all_files.values())
    print(f"Tổng số ảnh đã thu thập: {total_images}")
    
    # Phần còn lại giữ nguyên
    for class_name, files in all_files.items():
        random.shuffle(files)
        
        # Chia tập train và temp (temp bao gồm validation và test)
        train_files, temp_files = train_test_split(files, train_size=0.7, random_state=42)
        
        # Chia temp thành validation và test (50-50)
        validation_files, test_files = train_test_split(temp_files, train_size=0.5, random_state=42)
        
        print(f"Class {class_name}: {len(train_files)} train, {len(validation_files)} validation, {len(test_files)} test")
        
        # Sao chép file vào thư mục mới tương ứng
        for src_file in tqdm(train_files, desc=f"Copying {class_name} train files"):
            dst_file = os.path.join(output_path, 'train', class_name, os.path.basename(src_file))
            shutil.copy2(src_file, dst_file)
            
        for src_file in tqdm(validation_files, desc=f"Copying {class_name} validation files"):
            dst_file = os.path.join(output_path, 'validation', class_name, os.path.basename(src_file))
            shutil.copy2(src_file, dst_file)
            
        for src_file in tqdm(test_files, desc=f"Copying {class_name} test files"):
            dst_file = os.path.join(output_path, 'test', class_name, os.path.basename(src_file))
            shutil.copy2(src_file, dst_file)

In [32]:
# Thực thi việc tái tổ chức dữ liệu
reorganize_dataset()

Tổng số ảnh đã thu thập: 7023
Class Glioma: 1134 train, 243 validation, 244 test


Copying Glioma train files: 100%|██████████| 1134/1134 [00:02<00:00, 528.75it/s]
Copying Glioma validation files: 100%|██████████| 243/243 [00:00<00:00, 656.45it/s]
Copying Glioma test files: 100%|██████████| 244/244 [00:00<00:00, 891.55it/s]


Class Meningioma: 1151 train, 247 validation, 247 test


Copying Meningioma train files: 100%|██████████| 1151/1151 [00:02<00:00, 469.01it/s]
Copying Meningioma validation files: 100%|██████████| 247/247 [00:00<00:00, 705.29it/s]
Copying Meningioma test files: 100%|██████████| 247/247 [00:00<00:00, 667.73it/s]


Class No_Tumor: 1400 train, 300 validation, 300 test


Copying No_Tumor train files: 100%|██████████| 1400/1400 [00:02<00:00, 584.57it/s]
Copying No_Tumor validation files: 100%|██████████| 300/300 [00:00<00:00, 700.83it/s]
Copying No_Tumor test files: 100%|██████████| 300/300 [00:00<00:00, 946.63it/s]


Class Pituitary: 1229 train, 264 validation, 264 test


Copying Pituitary train files: 100%|██████████| 1229/1229 [00:02<00:00, 573.87it/s]
Copying Pituitary validation files: 100%|██████████| 264/264 [00:00<00:00, 881.79it/s]
Copying Pituitary test files: 100%|██████████| 264/264 [00:00<00:00, 830.81it/s]


In [33]:
# Kiểm tra số lượng ảnh trong từng tập
for folder in folders:
    print(f"\n{folder.upper()} SET:")
    for class_name in classes:
        class_path = os.path.join(output_path, folder, class_name)
        num_images = len(os.listdir(class_path))
        print(f"  {class_name.capitalize()}: {num_images} images")


TRAIN SET:
  Glioma: 1134 images
  Meningioma: 1151 images
  No_tumor: 1400 images
  Pituitary: 1229 images

VALIDATION SET:
  Glioma: 243 images
  Meningioma: 247 images
  No_tumor: 300 images
  Pituitary: 264 images

TEST SET:
  Glioma: 244 images
  Meningioma: 247 images
  No_tumor: 300 images
  Pituitary: 264 images
