In [3]:
import os
import pandas as pd

# Đường dẫn đến thư mục chứa các folder
base_dir = 'Herlev/train'  # Thay bằng đường dẫn chính xác đến thư mục của bạn

# Danh sách các class (folder names)
classes = ['carcinoma_in_situ', 'light_dysplastic', 'moderate_dysplastic','normal_columnar', 'normal_intermediate', 'normal_superficiel', 'severe_dysplastic']

# Khởi tạo danh sách để lưu dữ liệu
data = []

# Kiểm tra nếu đường dẫn thư mục tồn tại
if os.path.exists(base_dir):
    # Duyệt qua từng folder (class)
    for class_folder in os.listdir(base_dir):
        class_path = os.path.join(base_dir, class_folder)
        
        # Kiểm tra nếu class_folder là thư mục và có trong danh sách classes
        if os.path.isdir(class_path) and class_folder in classes:
            # Lấy chỉ số của class trong danh sách classes
            class_index = classes.index(class_folder)
            
            # Duyệt qua từng file trong folder hiện tại
            for filename in os.listdir(class_path):
                if filename.endswith(('.tif', '.jpeg', '.png', 'BMP', 'bmp')):  # Kiểm tra đuôi file ảnh
                    # Tạo đường dẫn theo cấu trúc "Herlev/class_folder/filename"
                    row = [f'Herlev/train/{class_folder}/{filename}'] + [0] * len(classes)
                    
                    # Đặt giá trị 1 cho cột tương ứng với class của file
                    row[class_index + 1] = 1
                    data.append(row)

    # Tạo DataFrame với các cột
    columns = ['image_name'] + classes
    df = pd.DataFrame(data, columns=columns)

    # Kiểm tra nếu DataFrame không rỗng trước khi lưu vào CSV
    if not df.empty:
        # Lưu toàn bộ DataFrame vào file Train.csv
        df.to_csv('Train.csv', index=False)
        print("Đã tạo file Train.csv")
    else:
        print("Không có dữ liệu nào trong các thư mục đã chỉ định.")
else:
    print("Đường dẫn thư mục không tồn tại. Hãy kiểm tra lại đường dẫn.")


Đã tạo file Train.csv


In [None]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split

# Đường dẫn đến thư mục chứa các folder
base_dir = 'Herlev/test'  # Thay bằng đường dẫn chính xác đến thư mục của bạn

# Danh sách các class (folder names)
classes = ['carcinoma_in_situ', 'light_dysplastic', 'moderate_dysplastic','normal_columnar', 'normal_intermediate', 'normal_superficiel', 'severe_dysplastic']

# Khởi tạo danh sách để lưu dữ liệu
data = []

# Kiểm tra nếu đường dẫn thư mục tồn tại
if os.path.exists(base_dir):
    # Duyệt qua từng folder (class)
    for class_folder in os.listdir(base_dir):
        class_path = os.path.join(base_dir, class_folder)
        
        # Kiểm tra nếu class_folder là thư mục và có trong danh sách classes
        if os.path.isdir(class_path) and class_folder in classes:
            # Lấy chỉ số của class trong danh sách classes
            class_index = classes.index(class_folder)
            
            # Duyệt qua từng file trong folder hiện tại
            for filename in os.listdir(class_path):
                if filename.endswith(('.tif', '.jpeg', '.png', '.bmp', '.BMP')):  # Kiểm tra đuôi file ảnh
                    # Tạo đường dẫn theo cấu trúc "Herlev/train/class_folder/filename"
                    row = [f'Herlev/test/{class_folder}/{filename}'] + [0] * len(classes)
                    
                    # Đặt giá trị 1 cho cột tương ứng với class của file
                    row[class_index + 1] = 1
                    data.append(row)

    # Tạo DataFrame với các cột
    columns = ['image_name'] + classes
    df = pd.DataFrame(data, columns=columns)

    # Kiểm tra nếu DataFrame không rỗng trước khi chia và lưu vào CSV
    if not df.empty:
        # Chia dữ liệu thành 50% cho test và 50% cho val
        test_df, val_df = train_test_split(df, test_size=0.5, random_state=42)
        
        # Lưu test và val vào các file CSV tương ứng
        test_df.to_csv('Test.csv', index=False)
        val_df.to_csv('Val.csv', index=False)
        print("Đã tạo các file Test.csv và Val.csv với 50% dữ liệu cho mỗi file")
    else:
        print("Không có dữ liệu nào trong các thư mục đã chỉ định.")
else:
    print("Đường dẫn thư mục không tồn tại. Hãy kiểm tra lại đường dẫn.")


Đã tạo các file Test.csv và Val.csv với 50% dữ liệu cho mỗi file


In [5]:
import pandas as pd
train = pd.read_csv('Train.csv')
test = pd.read_csv('Test.csv')
val = pd.read_csv('Val.csv')
print(train.shape)
print(test.shape)
print(val.shape)

(643, 8)
(137, 8)
(137, 8)


In [6]:
train.head()

Unnamed: 0,image_name,carcinoma_in_situ,light_dysplastic,moderate_dysplastic,normal_columnar,normal_intermediate,normal_superficiel,severe_dysplastic
0,Herlev/train/carcinoma_in_situ/149143370-14914...,1,0,0,0,0,0,0
1,Herlev/train/carcinoma_in_situ/149143370-14914...,1,0,0,0,0,0,0
2,Herlev/train/carcinoma_in_situ/149143370-14914...,1,0,0,0,0,0,0
3,Herlev/train/carcinoma_in_situ/149143370-14914...,1,0,0,0,0,0,0
4,Herlev/train/carcinoma_in_situ/149143370-14914...,1,0,0,0,0,0,0


In [7]:
# Danh sách các class (folder names)
classes = ['carcinoma_in_situ', 'light_dysplastic', 'moderate_dysplastic','normal_columnar', 'normal_intermediate', 'normal_superficiel', 'severe_dysplastic']

# Hàm đếm số lượng mẫu của từng class
def count_samples_by_class(df, classes):
    counts = {}
    for class_name in classes:
        counts[class_name] = df[class_name].sum()
    return counts

# Tạo DataFrame từ số lượng mẫu của từng class trong mỗi tập
train_counts = count_samples_by_class(train, classes)
val_counts = count_samples_by_class(val, classes)
test_counts = count_samples_by_class(test, classes)

# Tạo DataFrame để hiển thị kết quả dưới dạng bảng
counts_df = pd.DataFrame({
    'Train': train_counts,
    'Validation': val_counts,
    'Test': test_counts
})

print("Số lượng mẫu của từng class trong các tập dữ liệu:")
print(counts_df)

Số lượng mẫu của từng class trong các tập dữ liệu:
                     Train  Validation  Test
carcinoma_in_situ      105          22    23
light_dysplastic       128          29    25
moderate_dysplastic    103          22    21
normal_columnar         69          15    14
normal_intermediate     49          10    11
normal_superficiel      51          13    10
severe_dysplastic      138          26    33


In [10]:
# Danh sách các class (folder names)
classes =  ['carcinoma_in_situ', 'light_dysplastic', 'moderate_dysplastic','normal_columnar', 'normal_intermediate', 'normal_superficiel', 'severe_dysplastic']

# Hàm đếm số lượng mẫu của từng class
def count_samples_by_class(df, classes):
    counts = []
    for class_name in classes:
        counts.append(df[class_name].sum())
    return counts

# Tạo danh sách chứa số lượng mẫu của từng class trong mỗi tập
train_counts = count_samples_by_class(train, classes)
val_counts = count_samples_by_class(val, classes)
test_counts = count_samples_by_class(test, classes)

# Hiển thị kết quả dưới dạng chuỗi theo định dạng yêu cầu
print("Số lượng mẫu của từng class trong các tập dữ liệu:")
print(f"train {train_counts}")
print(f"val {val_counts}")
print(f"test {test_counts}")


Số lượng mẫu của từng class trong các tập dữ liệu:
train [105, 128, 103, 69, 49, 51, 138]
val [22, 29, 22, 15, 10, 13, 26]
test [23, 25, 21, 14, 11, 10, 33]
