### 自定义数据读取
在Dataloader_default中我们学会采用torchvision.datasets.ImageFolder这个接口来读取图像数据，**该接口默认你的训练数据是按照一个类别存放在一个文件夹下。**但是有些情况下你的图像数据不是这样维护的，比如一个文件夹下面各个类别的图像数据都有，同时用一个对应的标签文件，比如txt文件来维护图像和标签的对应关系，在这种情况下就不能用torchvision.datasets.ImageFolder来读取数据了，需要自定义一个数据读取接口。

### torchvision.datasets.ImageFolder类源码

In [None]:
class ImageFolder(data.Dataset):
    """A generic data loader where the images are arranged in this way: ::

        root/dog/xxx.png
        root/dog/xxy.png
        root/dog/xxz.png

        root/cat/123.png
        root/cat/nsdf3.png
        root/cat/asd932_.png

    参数:
        - root：在root指定的路径下寻找图片
        - transform：对PIL Image进行的转换操作，transform的输入是使用loader读取图片的返回对象
        - target_transform：对label的转换
        - loader：给定路径后如何读取图片，默认读取为RGB格式的PIL Image对象

     属性:
        classes (list):类名列表
        class_to_idx (dict):类名和类标签字典 {class_name:class_index,...}.
        imgs (list): 图像路径和标签元组的列表 [(image path,class_index)...]
    """


    def __init__(self, root, transform=None, target_transform=None,
                 loader=default_loader):
        classes, class_to_idx = find_classes(root)
        imgs = make_dataset(root, class_to_idx)
        if len(imgs) == 0:
            raise(RuntimeError("Found 0 images in subfolders of: " + root + "\n"
                               "Supported image extensions are: " + ",".join(IMG_EXTENSIONS)))

        self.root = root
        self.imgs = imgs
        self.classes = classes
        self.class_to_idx = class_to_idx
        self.transform = transform
        self.target_transform = target_transform
        self.loader = loader

    def __getitem__(self, index):
        """
        Args:
            index (int): Index

        Returns:
            tuple: (image, target) where target is class_index of the target class.
        """
        path, target = self.imgs[index]
        img = self.loader(path)
        if self.transform is not None:
            img = self.transform(img)
        if self.target_transform is not None:
            target = self.target_transform(target)

        return img, target

    def __len__(self):
        return len(self.imgs)

看起来很复杂，其实非常简单。继承的类是torch.utils.data.Dataset，主要包含三个方法：
- 初始化\_\_init\_\_，
- 获取图像\_\_getitem\_\_，
- 数据集数量 \_\_len\_\_。

\_\_init\_\_方法中先通过find_classes函数得到分类的类别名（classes）和类别名与数字类别的映射关系字典（class_to_idx）。然后通过make_dataset函数得到imags，这个imags是一个列表，其中每个值是一个tuple，每个tuple包含两个元素：图像路径和标签。剩下的就是一些赋值操作了。

在\_\_getitem\_\_方法中最重要的就是 img = self.loader(path)这行，表示数据读取，可以从\_\_init\_\_方法中看出self.loader采用的是default_loader，这个default_loader的核心就是用python的PIL库的Image模块来读取图像数据。


**稍微看下default_loader函数，该函数主要分两种情况调用两个函数，一般采用pil_loader函数。**

In [None]:
def pil_loader(path):
    with open(path, 'rb') as f:
        with Image.open(f) as img:
            return img.convert('RGB')

def accimage_loader(path):
    import accimage
    try:
        return accimage.Image(path)
    except IOError:
        # Potentially a decoding problem, fall back to PIL.Image
        return pil_loader(path)

def default_loader(path):
    from torchvision import get_image_backend
    if get_image_backend() == 'accimage':
        return accimage_loader(path)
    else:

看懂了ImageFolder这个类，就可以自定义一个你自己的数据读取接口了。

**首先在PyTorch中和数据读取相关的类基本都要继承一个基类：torch.utils.data.Dataset。然后再改写其中的__init__、__len__、__getitem__等方法即可。**

### 图片分类数据集

图片分类数据集应该分为train,val,两个目录，每个类别的所有图片放到该类名对应的目录下，可以直接调用torchvision.datasets.ImageFolder类分装数据集

### 图片分割数据集

In [1]:
import os

### 训练集，测试集lst文档准备

In [28]:
root_dir="./data_segmentation"
sub_dirs=os.listdir(root_dir)
print(sub_dirs)

train=[]

#['raw', 'gt']
for idx,sub_dir in enumerate(sub_dirs):
    phasenames=os.listdir(os.path.join(root_dir,sub_dir))
    
    #['train']
    for phasename in phasenames:
        pwd_dir=os.path.join(root_dir,sub_dir,phasename)
        
        if phasename=='train':
            
            if idx==0:
                
                train_raw_filenames=[sub_dir+'/'+phasename+'/'+item for item in os.listdir(pwd_dir)]
            if idx==1:
                
                train_gt_filenames=[sub_dir+'/'+phasename+'/'+item for item in os.listdir(pwd_dir)]
        if phasename=='test':
            test_filenames=[sub_dir+'/'+phasename+'/'+item for item in os.listdir(pwd_dir)]
    
# print(train_raw_filenames)
# print(train_gt_filenames)
# print(test_filenames)

for train_raw,train_gt in zip(train_raw_filenames,train_gt_filenames):
    train.append(train_raw+'\t'+train_gt)
    
print(train[0])

['raw', 'gt']
1
['raw/train/0d1a9caf4350_16.jpg', 'raw/train/0cdf5b5d0ce1_01.jpg', 'raw/train/0cdf5b5d0ce1_02.jpg', 'raw/train/0cdf5b5d0ce1_03.jpg', 'raw/train/0cdf5b5d0ce1_04.jpg', 'raw/train/0cdf5b5d0ce1_05.jpg', 'raw/train/0cdf5b5d0ce1_06.jpg', 'raw/train/0cdf5b5d0ce1_07.jpg', 'raw/train/0cdf5b5d0ce1_08.jpg', 'raw/train/0cdf5b5d0ce1_09.jpg', 'raw/train/0cdf5b5d0ce1_10.jpg', 'raw/train/0cdf5b5d0ce1_11.jpg', 'raw/train/0cdf5b5d0ce1_12.jpg', 'raw/train/0cdf5b5d0ce1_13.jpg', 'raw/train/0cdf5b5d0ce1_14.jpg', 'raw/train/0cdf5b5d0ce1_15.jpg', 'raw/train/0cdf5b5d0ce1_16.jpg', 'raw/train/0ce66b539f52_01.jpg', 'raw/train/0ce66b539f52_02.jpg', 'raw/train/0ce66b539f52_03.jpg', 'raw/train/0ce66b539f52_04.jpg', 'raw/train/0ce66b539f52_05.jpg', 'raw/train/0ce66b539f52_06.jpg', 'raw/train/0ce66b539f52_07.jpg', 'raw/train/0ce66b539f52_08.jpg', 'raw/train/0ce66b539f52_09.jpg', 'raw/train/0ce66b539f52_10.jpg', 'raw/train/0ce66b539f52_11.jpg', 'raw/train/0ce66b539f52_12.jpg', 'raw/train/0ce66b539f52_13

In [30]:
with open(os.path.join(root_dir,'list/train.lst'),'a+') as train_file:
    for item in train:
        train_file.write(item+os.linesep)

In [31]:
with open(os.path.join(root_dir,'list/test.lst'),'a+') as test_file:
    for item in test_filenames:
        test_file.write(item+os.linesep)

### 训练集，测试集lst文档内容
#### list/train.lst：(原图路径名 制表符 gt图路径名)
raw/train/0d1a9caf4350_16.jpg	gt/train/0d1a9caf4350_16_mask.gif

raw/train/0cdf5b5d0ce1_01.jpg	gt/train/0cdf5b5d0ce1_01_mask.gif

raw/train/0cdf5b5d0ce1_02.jpg	gt/train/0cdf5b5d0ce1_02_mask.gif

raw/train/0cdf5b5d0ce1_03.jpg	gt/train/0cdf5b5d0ce1_03_mask.gif

raw/train/0cdf5b5d0ce1_04.jpg	gt/train/0cdf5b5d0ce1_04_mask.gif

raw/train/0cdf5b5d0ce1_05.jpg	gt/train/0cdf5b5d0ce1_05_mask.gif

raw/train/0cdf5b5d0ce1_06.jpg	gt/train/0cdf5b5d0ce1_06_mask.gif

raw/train/0cdf5b5d0ce1_07.jpg	gt/train/0cdf5b5d0ce1_07_mask.gif

#### list/test.lst：(原图路径名)

### 自定义Dataset

In [32]:
from torch.utils import data

In [None]:
class MyDataset(data.Dataset):
    def __init__(self,
                root,
                list_path,
                ignore_label=255):
        super(MyDataset,self).__init__()
        