In [1]:
# Dataset类

In [2]:
import os
import numpy as np
import torch
from PIL import Image


class PennFudanDataset(object):
    def __init__(self, root, transforms):
        self.root = root
        self.transforms = transforms
        # 下载所有图像文件，为其排序
        # 确保它们对齐,而且这样就把图片名字列出来了，方便了加载图片
        self.imgs = list(sorted(os.listdir(os.path.join(root, "PNGImages"))))
        self.masks = list(sorted(os.listdir(os.path.join(root, "PedMasks"))))

    def __getitem__(self, idx):
        # load images ad masks
        img_path = os.path.join(self.root, "PNGImages", self.imgs[idx])
        mask_path = os.path.join(self.root, "PedMasks", self.masks[idx])
        img = Image.open(img_path).convert("RGB")
        # 请注意我们还没有将mask转换为RGB,
        # 因为每种颜色对应一个不同的实例
        # 0是背景
        mask = Image.open(mask_path)
        # 将PIL图像转换为numpy数组
        mask = np.array(mask)
        # 实例被编码为不同的颜色
        obj_ids = np.unique(mask)
        # 第一个id是背景(即0)，所以删除它
        obj_ids = obj_ids[1:]

        # 将相同颜色编码的mask分成一组 这样可能更好理解：masks = (mask == obj_ids[:, None, None])
        # mask为2维，用None扩充obj_ids维度，masks为3维
        # 二进制格式
        masks = mask == obj_ids[:, None, None]

        # 获取每个mask的边界框坐标
        num_objs = len(obj_ids)
        boxes = []
        for i in range(num_objs):
            # masks[i]为2维，所以np.where返回2个tuple，分别为此颜色编码的元素在各个维度的下标
            # 这里的数据中不同颜色的mask应该是语义分割的像素点，选出最大最小的x坐标和y坐标就得到了目标区域,因为这里我们做的目标检测，所以需要这个信息
            pos = np.where(masks[i])
            xmin = np.min(pos[1])
            xmax = np.max(pos[1])
            ymin = np.min(pos[0])
            ymax = np.max(pos[0])
            boxes.append([xmin, ymin, xmax, ymax])

        # 将所有转换为torch.Tensor
        boxes = torch.as_tensor(boxes, dtype=torch.float32)
        # 这里仅有一个类(行人，所以直接全部置为1)
        labels = torch.ones((num_objs,), dtype=torch.int64)
        masks = torch.as_tensor(masks, dtype=torch.uint8)

        image_id = torch.tensor([idx])
        area = (boxes[:, 3] - boxes[:, 1]) * (boxes[:, 2] - boxes[:, 0])
        # 假设所有实例都不是人群
        iscrowd = torch.zeros((num_objs,), dtype=torch.int64)

        target = {}
        target["boxes"] = boxes  # 这张图片里所有的目标区域
        target["labels"] = labels   # 每个目标区域的类型
        target["masks"] = masks    # 图像掩膜 mask
        target["image_id"] = image_id  # 图片id
        target["area"] = area          # 每个区域的面积
        target["iscrowd"] = iscrowd    # 每个区域是否是人群(这里假设的都不是)

        if self.transforms is not None:
            img, target = self.transforms(img, target)

        return img, target

    def __len__(self):
        return len(self.imgs)

In [52]:
# 处理完了麻烦的数据，我们终于可以定义模型了，这里我们使用mask R-CNN， 这是 Faster R-CNN的升级版。也是detectron使用的目标检测算法。