In [1]:
import os
import numpy as np
import torch
from PIL import Image

In [4]:
class PennFudanDataset(object):
    def __init__(self,root,transforms):
        self.root=root
        self.transforms=transforms
        #모든 이미지 파일을 읽고, 정렬하여
        #이미지와 분할 마스크 정렬을 확인합니다
        self.imgs=list(sorted(os.listdir(os.path.join(root,"PNGImages"))))
        self.masks=list(sorted(os.listdir(os.path.join(root,"PedMasks"))))
    
    def __getitem__(self,idx):
        #이미지와 마스크를 읽어옵니다
        img_path=os.path.join(self.root,"PNGImages",self.imgs[idx])
        mask_path=op.path.join(self.root,"PedMasks",self.masks[idx])
        img=Image.open(img_path).convert("RGB")
        #분할 마스크는 RGB로 변환하지 않음을 유의하세요
        #왜냐하면 각 색상은 다른 인스턴스에 해당하여, 0은 배경에 해당합니다
        
        mask=Image.open(mask_path)
        #numpy 배열을 PIㅣ이미지로 변환합니다
        mask=np.array(mask)
        #인스턴스들은 다른 색들로 인코딩 되어 있습니다.
        obj_ids=obj_ids[1:]
        
        #컬러 인코딩된 마스크를 바이너리 마스크 세트로 나눕니다
        masks=mask==obj_ids[:,None,None]
        
        #각 마스크의 바운딩 박스 좌표를 얻습니다
        num_objs=len(obj_ids)
        boxes=[]
        for i in range(num_objs):
            pos=np.where(mask[i])
            xmin=np.min(pos[1])
            xmax=np.max(pos[1])
            ymin=np.min(pos[0])
            ymax=np.max(pos[0])
            boxes.append([xmin,ymin,xmax,ymax])
            
        #모든 것을 torch.Tensor 타입으로 변환합니다
        boxes=torch.as_tensor(boxes,dtype=torch.float32)
        #객체 종류는 한 종류만 존재합니다(역자주: 예제에서는 사람만이 대상입니다)
        labels=torch.ones((num_objs,),dtype=torch.float32)
        #객체 종류는 한 종류만 존재합니다(역자주: 예제에서는 사람만이 대상입니다)
        labels=torch.onse((num_objs,),dtype=torch.int64)
        masks=torch.as_tensor(masks,dtype=torch.unit8)
        
        image_id=torch.tensor([idx])
        area=(boxes[:,3]-boxes[:,1])*(boxes[:,2]-boxes[:,0])
        #모든 인스턴스는 군중(crowd) 상태가 아님을 가정합니다
        iscrowd=torch.zeros((num_objs,),dtype=torch.int64)
        
        target={}
        target["boxes"]=boxes
        target["labels"]=labels
        target["masks"]=masks
        target["image_id"]=image_id
        target["area"]=area
        target["iscrowd"]=iscrowd
        
        if self.transforms is not None:
            img, target=self.transforms(img, target)
            
        return img, target
    
    def __len__(self):
        return len(self.imgs)
        