In [None]:
from torch.utils.data import Dataset, DataLoader
#从torch的utils模块的data工具导入
import numpy as np
from PIL import Image
# PIL是Python Imaging Library的缩写，是一个用于图像处理的库。
# 这里的Image是PIL库中的一个类，用于处理图像数据。
import os #关于系统的库，此处用来获取图片的地址
from torchvision import transforms
from torch.utils.tensorboard import SummaryWriter
from torchvision.utils import make_grid

In [None]:
img_path = r"G:\研一\线性代数\数据集\hymenoptera_data\hymenoptera_data\train\ants\0013035.jpg"
img = Image.open(img_path)

# Image.open()方法用于打开指定路径的图像文件，并返回一个Image对象。
# 这个Image对象可以进行各种图像处理操作，比如转换为numpy数组、调整大小、旋转等。
# 这里的img_path是一个字符串，表示图像文件的路径。

In [None]:
img.show

In [2]:
root_dir = "G:\研一\线性代数\数据集\hymenoptera_data\hymenoptera_data\train"
label_dir = "ants"
path = os.path.join(root_dir, label_dir)
# os.path.join()函数用于将多个路径组合成一个完整的路径。
# 这里的root_dir和label_dir是两个字符串，表示文件夹的路径和名称。
# os.path.join()函数会根据操作系统的路径分隔符（如Windows下的\或Linux下的/）来正确地组合路径。

In [None]:

class MyData(Dataset):

    def __init__(self, root_dir, label_dir):#__init__：初始化数据集，加载图像路径
        # self可以把此处的变量传递给下一个函数使用！！
        # 这里的self是指类MyData的实例对象本身。在类的方法中，self用于访问实例的属性和方法。
        # 在__getitem__方法中，self.image_list表示该实例的image_list属性。
        # 这样可以通过self来获取和操作该对象的数据，实现数据的封装和复用。
        self.root_dir = root_dir #使得一开始创建的变量root_dir，变成了全局变量
        self.label_dir = label_dir
        self.path = os.path.join(self.root_dir, self.label_dir)
        #os.path.join会对后面的两个路径进行拼接
        self.img_path = os.listdir(self.path)
        # 获取指定目录下的所有文件和目录名
        # os.listdir()函数返回指定路径下的所有文件和目录的列表。
        # 这里的self.image_list是一个包含所有图像文件名的列表。        

    # __getitem__方法是Dataset类的一个特殊方法，用于获取数据集中的一个样本。
    # 该方法接受一个索引idx作为参数，返回对应索引的样本数据。
    # 在这个方法中，我们根据索引idx获取图像和标签的文件名，然后读取图像和标签数据，并进行必要的转换。
    # 最后，将图像和标签封装成一个字典sample并返回。
    def __getitem__(self, idx):
        img_name = self.img_path[idx]#获取图像文件名
        # self.image_list是一个包含所有图像文件名的列表。
        # idx是索引，用于获取特定的图像文件名。
        # 这里的img_name是一个字符串，表示图像文件的名称。
        img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)
        #每一个文件的位置都是通过root_dir，image_dir和img_name拼接而成的,此处是具体文件位置
        img = Image.open(img_item_path)# 打开图像文件
        label = self.label_dir
        return img, label

    def __len__(self):
        # 返回数据集的长度，即图像文件的数量
        # self.image_list是一个包含所有图像文件名的列表。
        return len(self.img_path)

In [10]:
root_dir = r"G:\研一\线性代数\数据集\hymenoptera_data\hymenoptera_data\train" # 使用绝对路径，确保路径存在
ants_label_dir = "ants" # 定义了蚂蚁图像数据的标签文件夹。
bees_label_dir = "bees" # 定义了蜜蜂图像数据的标签文件夹。
ants_dataset = MyData(root_dir, ants_label_dir)
bees_dataset = MyData(root_dir, bees_label_dir)
# ants_dataset 和 bees_dataset 分别是蚂蚁和蜜蜂图像数据集的实例。
# 创建了一个 MyData 类的实例，ants_dataset 用于加载 root_dir 中 ants 目录下的蚂蚁图像数据。
train_dataset = ants_dataset + bees_dataset #数据集拼接


这段代码通过 MyData 类分别加载了存储在指定目录下的蚂蚁和蜜蜂的图像数据，并将它们分别存储在 ants_dataset 和 bees_dataset 中。这通常用于图像分类任务，其中 ants 和 bees 可能是两种不同的类别。

In [11]:
ants_dataset[0]
img, label = train_dataset[124]
img.show()  # 显示图像
len(ants_dataset)

124

In [None]:
if __name__ == '__main__':
    transform = transforms.Compose([transforms.Resize((256, 256)), transforms.ToTensor()])
    root_dir = "dataset/train"
    image_ants = "ants_image"
    label_ants = "ants_label"
    ants_dataset = MyData(root_dir, image_ants, label_ants, transform)
    image_bees = "bees_image"
    label_bees = "bees_label"
    bees_dataset = MyData(root_dir, image_bees, label_bees, transform)
    train_dataset = ants_dataset + bees_dataset

    # transforms = transforms.Compose([transforms.Resize(256, 256)])
    dataloader = DataLoader(train_dataset, batch_size=1, num_workers=2)

    writer.add_image('error', train_dataset[119]['img'])
    writer.close()
    # for i, j in enumerate(dataloader):
    #     # imgs, labels = j
    #     print(type(j))
    #     print(i, j['img'].shape)
    #     # writer.add_image("train_data_b2", make_grid(j['img']), i)
    #
    # writer.close()