### Custom Dataset 만들기

- 목표: pytorch에서 제공하는 mnist 데이터셋을 불러오는 mnist class처럼 내가 수집한 데이터를 불러올 수 있는 클래스를 만들 수 있다

In [1]:
from torchvision import datasets, transforms

In [13]:
class CustomDataset():
    def __init__(self, x):
        """
        클래스의 인스턴스가 생성될 때 호출되는 생성자 메서드
        객체의 초기 상태를 설정
        """
        print("안녕")
        self.x = x
        
    def __getitem__(self, idx):
        """
        객체가 인덱싱 연산(`obj[idx]`)을 수행할 때 호출되는 특수 메서드
        데이터셋, 리스트, 딕셔너리와 같은 자료구조에서 개별 요소에 접근할 때 사용
        """
        return self.x[idx]
    
    def __len__(self):
        """
        객체의 길이를 반환하는 특수 메서드로, `len(obj)` 호출 시 실행
        데이터셋의 샘플 개수나 컨테이너 객체(리스트, 튜플 등)의 원소 개수를 정의하는 데 사용
        """
        return len(self.x)
    
    def __str__(self):
        """
        객체를 문자열로 표현할 때 호출되는 특수 메서드
        `print()` 함수 또는 `str()` 함수 호출 시 반환되는 문자열을 정의
        """
        return "안녕하세요"
    

In [15]:
dataset = CustomDataset(x=[1, 2, 3, 4, 5])
print(dataset)
len(dataset)
for d in dataset:
    print(d)


안녕
안녕하세요
1
2
3
4
5


#### MNIST 비교하기

In [16]:
data_transform = transforms.Compose(
    [
        transforms.ToTensor(),
        transforms.Resize(32),
        transforms.Normalize((0.5,), (1.0,))
    ]
)

train_data = datasets.MNIST(root="./", train=True, download=True, transform=data_transform)
test_data = datasets.MNIST(root="./", train=False, download=True, transform=data_transform)

In [29]:
train_data
# init - 속성에 data, targets가 있다
# len - 전체 데이터의 개수가 출력된다
# getitem - index에 맞춰 (data, target)이 출력된다 - transform이 적용됨
# str - 데이터셋에 대한 설명이 작성된다

# DataLoader(train_data, batch_size=batch_size, shuffle=True)
# -> train_data의 인덱싱을 이용해서 랜덤으로 나눠준다는 것 을 알 수 있음


Dataset MNIST
    Number of datapoints: 60000
    Root location: ./
    Split: Train
    StandardTransform
Transform: Compose(
               ToTensor()
               Resize(size=32, interpolation=bilinear, max_size=None, antialias=True)
               Normalize(mean=(0.5,), std=(1.0,))
           )

In [21]:
len(train_data)

60000

In [17]:
print(train_data)

Dataset MNIST
    Number of datapoints: 60000
    Root location: ./
    Split: Train
    StandardTransform
Transform: Compose(
               ToTensor()
               Resize(size=32, interpolation=bilinear, max_size=None, antialias=True)
               Normalize(mean=(0.5,), std=(1.0,))
           )


In [18]:
train_data.data[0]

tensor([[  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
        [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
        [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
        [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
        [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
        [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   3,  18,
          18,  18, 126, 136, 175,  26, 166, 255, 247, 127,   0,   0,   0,   0],
        [  0,   0,   0,   0,   0,   0,   0,   

In [20]:
train_data.targets

tensor([5, 0, 4,  ..., 5, 6, 8])

In [19]:
train_data[0]

(tensor([[[-0.5000, -0.5000, -0.5000,  ..., -0.5000, -0.5000, -0.5000],
          [-0.5000, -0.5000, -0.5000,  ..., -0.5000, -0.5000, -0.5000],
          [-0.5000, -0.5000, -0.5000,  ..., -0.5000, -0.5000, -0.5000],
          ...,
          [-0.5000, -0.5000, -0.5000,  ..., -0.5000, -0.5000, -0.5000],
          [-0.5000, -0.5000, -0.5000,  ..., -0.5000, -0.5000, -0.5000],
          [-0.5000, -0.5000, -0.5000,  ..., -0.5000, -0.5000, -0.5000]]]),
 5)

### Kaggle data로 CustomDataset 만들기

In [30]:
# 알집 풀기
import zipfile

file_path = "../cat-and-dog.zip"
output_dir = "../data/cat-and-dog"
with zipfile.ZipFile(file_path, "r") as zip:
    zip.extractall(path=output_dir)


In [None]:
from pathlib import Path
import random
random.seed(1030)

# 미션: 이미지 경로가 담긴 train_list, test_list 만들기
# 추가 미션: train_list 만들 때 조건을 걸어서 val_list도 만들기

test_dir = Path("../data/cat-and-dog/test_set/test_set/")
train_dir = Path("../data/cat-and-dog/training_set/training_set/")

test_dogs = [str(p) for p in test_dir.glob("dogs/*.jpg")]
test_cats = [str(p) for p in test_dir.glob("cats/*.jpg")]

train_dogs = [str(p) for p in train_dir.glob("dogs/*.jpg")]
train_cats = [str(p) for p in train_dir.glob("cats/*.jpg")]

# Train 데이터를 80:20 비율로 랜덤 샘플링
num_val_dogs = int(len(train_dogs) * 0.2)
num_val_cats = int(len(train_cats) * 0.2)

val_dogs = random.sample(train_dogs, num_val_dogs)  # 개(dog) 검증셋
val_cats = random.sample(train_cats, num_val_cats)  # 고양이(cat) 검증셋

# Validation 데이터셋을 제외하고 남은 데이터를 Train 데이터셋으로 사용
train_dogs = list(set(train_dogs) - set(val_dogs))
train_cats = list(set(train_cats) - set(val_cats))

print(len(test_dogs), len(test_cats), len(train_dogs), len(train_cats), len(val_dogs), len(val_cats))

# 최종 리스트 생성
test_list = test_dogs + test_cats
train_list = train_dogs + train_cats
val_list = val_dogs + val_cats

print(len(test_list), len(train_list), len(val_list))

1012 1011 3204 3200 801 800
6404 1601 2023


In [103]:
import numpy as np
from PIL import Image
# CustomDataSet
# 생성자 def __init__(self, root)
# 속성 만들기: root
#   - 폴더경로를 입력받습니다(ex. "cat-and-dog")
# 메서드 만들기: def get_datalist(self)
#   - train_list, test_list를 클래스의 속성으로 만들어줍니다.

class CustomDataset():
    """
    고양이, 개 이미지를 불러오는 클래스
    고양이: 0, 개: 1
    """
    def __init__(self, root: str, train: bool, transform: transforms.Compose):
        self.root = root
        self.path = Path(root)
        
        if train == True:
            folder_name = "training_set"
        else:
            folder_name = "test_set"
            
        self.data_list = self.get_data_list(folder_name)
        self.transform = transform
        
    def __len__(self):
        return len(self.data_list)
    
    def __getitem__(self, index):
        image_path = self.data_list[index]
        target = 0 if "cat" in image_path.name else 1
        image = Image.open(image_path)
        data = self.transform(np.array(image))
        return (data, target)
    
    def get_data_list(self, folder_name):
        dogs = list(self.path.glob(f"{folder_name}/*/dogs/*.jpg"))
        cats = list(self.path.glob(f"{folder_name}/*/cats/*.jpg"))
        return dogs + cats
    
    
        # # Train 데이터를 80:20 비율로 랜덤 샘플링
        # num_val_dogs = int(len(train_dogs) * 0.2)
        # num_val_cats = int(len(train_cats) * 0.2)

        # val_dogs = random.sample(train_dogs, num_val_dogs)  # 개(dog) 검증셋
        # val_cats = random.sample(train_cats, num_val_cats)  # 고양이(cat) 검증셋

        # # Validation 데이터셋을 제외하고 남은 데이터를 Train 데이터셋으로 사용
        # train_dogs = list(set(train_dogs) - set(val_dogs))
        # train_cats = list(set(train_cats) - set(val_cats))

        # # 최종 리스트 생성
        # self.test_list = test_dogs + test_cats
        # self.train_list = train_dogs + train_cats
        # self.val_list = val_dogs + val_cats


In [110]:
from torchvision import transforms

data_transform = transforms.Compose(
    [
        transforms.ToTensor()
        # RGB로 되어있는 (0~255) 이미지를 0과 1 사이의 tensor로 변환
    ]
)

mydata = CustomDataset("../data/cat-and-dog", train=True, transform=data_transform)
print(mydata.root)
print(mydata.data_list[0])
print(len(mydata))
print(mydata[0][0][0])

mydata = CustomDataset("../data/cat-and-dog", train=False, transform=data_transform)
print(mydata.root)
print(mydata.data_list[0])
print(len(mydata))
print(mydata[0][0][0])

../data/cat-and-dog
..\data\cat-and-dog\training_set\training_set\dogs\dog.1.jpg
8005
tensor([[0.9333, 0.6627, 0.5451,  ..., 0.5216, 0.5020, 0.4980],
        [0.9804, 0.6784, 0.5216,  ..., 0.4510, 0.4353, 0.4314],
        [0.9725, 0.6667, 0.5059,  ..., 0.3333, 0.3255, 0.3294],
        ...,
        [1.0000, 0.9961, 0.9882,  ..., 0.9373, 0.9333, 0.9333],
        [1.0000, 1.0000, 0.9882,  ..., 0.9608, 0.9569, 0.9569],
        [1.0000, 1.0000, 0.9961,  ..., 0.9804, 0.9725, 0.9765]])
../data/cat-and-dog
..\data\cat-and-dog\test_set\test_set\dogs\dog.4001.jpg
2023
tensor([[0.4902, 0.3020, 0.3020,  ..., 0.5490, 0.5412, 0.5451],
        [0.5333, 0.3451, 0.3059,  ..., 0.5490, 0.5451, 0.5490],
        [0.5686, 0.3961, 0.2980,  ..., 0.5490, 0.5451, 0.5490],
        ...,
        [0.6157, 0.6039, 0.6314,  ..., 0.6392, 0.6157, 0.5961],
        [0.6157, 0.6039, 0.6314,  ..., 0.6471, 0.6157, 0.5882],
        [0.6157, 0.6039, 0.6314,  ..., 0.6471, 0.6118, 0.5804]])


In [81]:
# 클래스 CustomDataSet를 활용하여 데이터를 train_data라는 변수에 저장
# train_data[0] -> 첫 번째 train_data의 transform이 적용된 데이터와 라벨을 출력


tensor([[[0.1529, 0.1529, 0.1569,  ..., 0.8118, 0.7922, 0.7882],
         [0.1569, 0.1569, 0.1569,  ..., 0.7961, 0.7804, 0.7725],
         [0.1569, 0.1569, 0.1569,  ..., 0.7804, 0.7804, 0.7804],
         ...,
         [0.1255, 0.1176, 0.1020,  ..., 0.1412, 0.1608, 0.2235],
         [0.1255, 0.1176, 0.1020,  ..., 0.1647, 0.1725, 0.2157],
         [0.1255, 0.1137, 0.0980,  ..., 0.2000, 0.1647, 0.1569]],

        [[0.1725, 0.1725, 0.1725,  ..., 0.8000, 0.7804, 0.7765],
         [0.1765, 0.1765, 0.1725,  ..., 0.7843, 0.7686, 0.7608],
         [0.1765, 0.1765, 0.1725,  ..., 0.7647, 0.7608, 0.7608],
         ...,
         [0.1176, 0.1098, 0.0941,  ..., 0.0902, 0.1176, 0.1804],
         [0.1176, 0.1098, 0.0941,  ..., 0.1137, 0.1333, 0.1765],
         [0.1176, 0.1059, 0.0902,  ..., 0.1490, 0.1255, 0.1176]],

        [[0.1569, 0.1569, 0.1686,  ..., 0.6784, 0.6510, 0.6392],
         [0.1608, 0.1608, 0.1686,  ..., 0.6627, 0.6392, 0.6235],
         [0.1608, 0.1608, 0.1686,  ..., 0.6510, 0.6431, 0.