In [1]:
import os
from PIL import Image
from enum import Enum

import shutil
import csv
import pandas as pd

In [2]:
'''
文件数据结构：
data-----
        |
        -----类别1
        |       |
        |       -----患者1
        |       |       |
        |       |       -----图片1.png
        |       |       |
        |       |       -----图片2.png
        |       |       。。。
        |       |
        |       -----患者2
        |       |       |
        |       |       -----图片1.png
        |       |       |
        |       |       -----图片2.png
        |       |       。。。
        |       。。。
        |
        |
        -----类别2
        |       |
        |       -----患者1
        |       |       |
        |       |       -----图片1.png
        |       |       |
        |       |       -----图片2.png
        |       |       。。。
        |       |
        |       -----患者2
        |       |       |
        |       |       -----图片1.png
        |       |       |
        |       |       -----图片2.png
        |       |       。。。
        |       。。。
        |
        |
        -----类别3
                |
                -----患者1
                |       |
                |       -----图片1.png
                |       |
                |       -----图片2.png
                |       。。。
                |
                -----患者2
                |       |
                |       -----图片1.png
                |       |
                |       -----图片2.png
                |       。。。
                。。。


对每个类别的文件，为防止数据泄露，所以要预先按患者来划分数据集。
（将图片按类别打乱训练效果非常容易数据泄露）
物理隔离是简单且有效的方法。
首先需要对数据集中患者文件夹重命名，1、2、3。。。就比较好
然后通过随机数挑选出需要进入训练集、测试集、验证集的患者
之后对数据进行包装

'''

'''
文件夹重命名
一般来说重新生成数据集就不用这么做
'''


# 指定要处理的文件夹路径
# folder_path = "E:/GBCDL/dataTest/"


# folders = os.listdir(folder_path)  #取路径下的文件名，生成列表
# for folder in folders:      #遍历列表下的文件名
#     CTPaths = os.listdir(folder_path + folder)
#     i = 1
#     for CTPath in CTPaths:
#         os.rename(os.path.join(folder_path+folder,CTPath),os.path.join(folder_path+folder,str(i)))  #子文件夹重命名
#         i = i + 1
#         # print(i)


'\n文件夹重命名\n一般来说重新生成数据集就不用这么做\n'

In [3]:
'''
随机数模块
'''

import random
 
# 指定要处理的文件夹路径
folder_path = "E:/GBCDL/dataTest/"

#取路径下的文件名，生成列表
folders = os.listdir(folder_path)
dataFolderList = {}

#遍历列表下的文件名
for folder in folders:      
    CT_paths = os.listdir(folder_path + folder)
 
    # 打乱数据
    random.shuffle(CT_paths)
    
    # 分割数据成三份 验证集、测试集、训练集。比例为： 2:2:6
    part1 = CT_paths[:len(CT_paths) // 8]
    part2 = CT_paths[len(CT_paths) // 8: 2 * len(CT_paths) // 8]
    part3 = CT_paths[2 * len(CT_paths) // 8:]

    # 写入数据
    dataFolderList.update({folder + '_val': part1}) 
    dataFolderList.update({folder + '_test': part2})
    dataFolderList.update({folder + '_train': part3})

for key,value in dataFolderList.items():
    print(key+":")
    print(value)

meCT_val:
['23', '47', '65', '28', '68', '8', '21', '51', '64', '70', '78']
meCT_test:
['12', '52', '2', '84', '7', '20', '1', '62', '80', '41', '3']
meCT_train:
['4', '60', '19', '33', '29', '66', '48', '32', '18', '26', '37', '15', '17', '79', '45', '69', '87', '25', '71', '13', '86', '42', '30', '16', '14', '27', '39', '82', '49', '77', '31', '56', '5', '38', '53', '36', '61', '88', '11', '50', '58', '57', '10', '43', '85', '59', '74', '81', '76', '72', '75', '9', '54', '24', '6', '44', '46', '55', '22', '34', '83', '63', '40', '67', '35', '73']
noCT_val:
['41', '16', '79', '70', '81', '75', '48', '68', '58', '64', '88', '78']
noCT_test:
['91', '82', '56', '34', '9', '22', '12', '84', '21', '57', '45', '3', '36']
noCT_train:
['15', '73', '54', '29', '100', '31', '27', '1', '33', '96', '50', '89', '23', '43', '32', '26', '60', '77', '69', '67', '90', '97', '14', '40', '95', '72', '44', '59', '63', '46', '65', '66', '39', '19', '87', '28', '94', '37', '83', '71', '25', '30', '98', '42

In [4]:
'''
欠采样算法
数据集三种类别不平衡
需要将其变成平衡状态再训练
'''

# 挑选数据的函数
# def selected_samples(samples_name_list, selected_number):
#     for samples_name in samples_name_list:
#         samples = dataFolderList.get(samples_name)
#         selected_samples = random.sample(samples, selected_number)
#         dataFolderList.update({samples_name: selected_samples})
        
        


# samples_meCT_VT_list = ['meCT_val', 'meCT_test']
# samples_meCT_train_list = ['meCT_train']

# samples_noCT_VT_list = ['noCT_val', 'noCT_test']
# samples_noCT_train_list = ['noCT_train']



# selected_samples(samples_meCT_VT_list, 6)
# selected_samples(samples_meCT_train_list, 25)
# selected_samples(samples_noCT_VT_list, 10)
# selected_samples(samples_noCT_train_list, 28)


# for key,value in dataFolderList.items():
#     print(key+":")
#     print(value)


'\n欠采样算法\n数据集三种类别不平衡\n需要将其变成平衡状态再训练\n'

In [5]:
# 防止list报错
# del list

In [14]:
'''
叠加原始图像和掩码图像，并将结果保存到目标目录。

param：
- original_image_path: 原始图像的路径
- mask_image_path: 掩码图像的路径
- output_image_path: 输出图像的路径

return:
- none

'''

def overlay_images(original_image_path, mask_image_path, output_image_path):

    # 打开原始图像并转换为RGBA模式
    original_image = Image.open(original_image_path).convert("RGBA")
    
    # 打开掩码图像并转换为L模式（灰度）
    mask_image = Image.open(mask_image_path).convert("L")

    # 调整掩码图像的大小与原始图像匹配
    mask_image = mask_image.resize(original_image.size, Image.Resampling.LANCZOS)

    # 创建一个全黑的图像
    black_image = Image.new('RGBA', original_image.size, (0, 0, 0, 255))

    # 使用掩码图像将原始图像和黑色图像进行合成
    result_image = Image.composite(original_image, black_image, mask_image)

    # 保存叠加后的图像
    result_image.save(output_image_path)

In [15]:
'''
图片迁移并创建csv文件
在图片迁移之前打上mask.png文件
【需要自己创建data---test、val、train文件夹】
'''
# 定义枚举类型表示类别
class Category(Enum):

    # 根治术患者CT
    meCT = 0

    # 正常CT
    noCT = 1

    # 开关腹或姑息性切除CT
    opCT = 2

    def __str__(self):
        return self.name

In [16]:
'''
删除文件夹内所有文件

param：
- folder_path：起始目录

return:
- none
'''
def delete_files_in_folder(folder_path):
    for filename in os.listdir(folder_path):
        file_path = os.path.join(folder_path, filename)
        if os.path.isfile(file_path):
            os.remove(file_path)

In [17]:
'''
将图片迁移至data文件夹下，同时进行物理隔离，并提前创建test、train、val三个csv文件保证物理隔离

param：
- label：标签名【meCT等】
- catetory：类别名【val等】
- path_list：路径列表
- folder_path：起始目录
- end_path：目标目录

return:
- none
'''
def pngPath(label, catetory, path_list, folder_path, end_path):

    # 设定目标目录路径
    catetory_path = end_path + catetory

    # 设定csv文件路径
    csv_path = catetory_path + '.csv'

    # 从path_list中拿出挑选出的文件夹名
    for path in path_list:

        # 图片根目录为：起始目录 + 标签名 + 文件夹名
        father_path = folder_path + label +'/'+ path

        # 从图片根目录里挑选图片列表
        imglist = os.listdir(father_path)
        
        # 除了mask.png以外的图片全部要处理
        imglist = list(filter(lambda x: x != 'mask.png', imglist))

        # 对图片列表的图片进行处理
        for img_path in imglist:

            # 图片路径
            first_path = father_path + '/' + img_path

            # 目标图片迁移路径
            last_path = catetory_path + '/' + img_path

            # 处理图片并复制
            overlay_images(first_path, father_path + '/' + 'mask.png', last_path)

            # # 复制图片
            # shutil.copyfile(first_path, last_path)

            print(os.path.exists(last_path))
            
            # 判断图片是否成功复制
            if(os.path.exists(last_path)):
                # 写入csv文件
                with open(csv_path, mode='a', newline='', encoding='utf-8') as file:
                    writer = csv.writer(file)
                    writer.writerow([last_path, Category[label].value])
            else:
                print(f"Copy {first_path} to {last_path} has wrong")
            

In [18]:
# 起始目录
folder_path = 'E:/GBCDL/dataTest/'

# 目标目录
end_path = 'E:/GBCDL/data/'

# 先将三个路径的label.csv初始化
with open('E:/GBCDL/data/val.csv', mode='w',  newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['img_path', 'label'])
with open('E:/GBCDL/data/test.csv', mode='w',  newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['img_path', 'label'])
with open('E:/GBCDL/data/train.csv', mode='w',  newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['img_path', 'label'])

# 删除目标目录下的全部图片
delete_files_in_folder('E:/GBCDL/data/train')
delete_files_in_folder('E:/GBCDL/data/test')
delete_files_in_folder('E:/GBCDL/data/val')

# 分别调用函数将文件夹的文件分配到各个类别，运行三次确保图片数据没有遗漏
for i in range(0, 2):
    for label in ['meCT','noCT','opCT']:

        val_list = dataFolderList.get(label + '_val')
        pngPath(label, 'val', val_list, folder_path, end_path)

        test_list = dataFolderList.get(label + '_test')
        pngPath(label, 'test', test_list, folder_path, end_path)
        
        train_list = dataFolderList.get(label + '_train')
        pngPath(label, 'train', train_list, folder_path, end_path)

True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True


In [12]:
os.path.exists('E:/GBCDL/data/train/869601253.png')

False