In [4]:
import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

In [5]:

class CustomDataset(Dataset):
    def __init__(self, text, labels):
        # 초기 데이터 생성 방법을 지정
        self.labels = labels
        self.data = text
    def __len__(self):
        # 데이터의 전체 길이 return
        return len(self.labels)
    def __getitem__(self, idx):
        # index 값을 주었을 때 반환되는 데이터의 형태 (X, y)
        label = self.labels[idx]
        text = self.data[idx]
        sample = {"Text": text, "Class": label}
        return sample

In [6]:
text = ['Happy', 'Amazing', 'Sad', 'Unhappy', 'Glum' ]
labels = ['Positive', 'Positive', 'Negative', 'Negative', 'Negative']
MyDataset = CustomDataset(text, labels)

In [7]:
#DataLodaer -> batch를 생성해주는 클래스 
MyDataLoader = DataLoader(MyDataset, batch_size=2, shuffle=True)


In [8]:
next(iter(MyDataLoader))

{'Text': ['Sad', 'Glum'], 'Class': ['Negative', 'Negative']}

In [9]:
for dataset in MyDataLoader:
    print(dataset)

{'Text': ['Glum', 'Amazing'], 'Class': ['Negative', 'Positive']}
{'Text': ['Sad', 'Unhappy'], 'Class': ['Negative', 'Negative']}
{'Text': ['Happy'], 'Class': ['Positive']}


### collate_fn

In [13]:
class ExDataset(Dataset):
    def __init__(self, num):
        self.num = num
    
    def __len__(self):
        return self.num
    
    def __getitem__(self,idx):
        return {"X":torch.tensor([idx]*(idx+1), dtype=torch.float32),
                "Y":torch.tensor(idx, dtype=torch.float32)}

In [18]:
dataset_ex = ExDataset(num = 10)
dataloader_ex = torch.utils.data.DataLoader(dataset_ex, batch_size=1)


In [21]:
for d in dataloader_ex:
    print(f"X : {d['X']}")

X : tensor([[0.]])
X : tensor([[1., 1.]])
X : tensor([[2., 2., 2.]])
X : tensor([[3., 3., 3., 3.]])
X : tensor([[4., 4., 4., 4., 4.]])
X : tensor([[5., 5., 5., 5., 5., 5.]])
X : tensor([[6., 6., 6., 6., 6., 6., 6.]])
X : tensor([[7., 7., 7., 7., 7., 7., 7., 7.]])
X : tensor([[8., 8., 8., 8., 8., 8., 8., 8., 8.]])
X : tensor([[9., 9., 9., 9., 9., 9., 9., 9., 9., 9.]])


batch size를 2로 변경하면 에러 발생 -> 같은 배치 안의 input x의 길이가 다르기 때문 

input의 길이를 동일하게 맞추어 줘야함. 같은 배치 안에 길이가 가장 긴 input의 맞춰 다른 input에 임의로 0값을 패딩

In [44]:
def my_collate_fn(samples):
    collate_X = []
    collate_y = []
    
    max_len = max([len(sample['X']) for sample in samples])
    
    for sample in samples:
        
        diff = max_len - len(sample['X'])
        if diff > 0: # 같은 배치 안에서 가장 긴 input의 길이에 맞춰서 0으로 패딩 
            print(f"배치에서 가장 긴 길이 : {max_len}")
            zero_pad = torch.zeros(size=(diff,))
            collate_X.append(torch.cat([sample['X'], zero_pad],dim=0))
        else:
            collate_X.append(sample['X'])

    collate_y = [sample['Y'] for sample in samples]
    return {'X':torch.stack(collate_X),
            'Y':torch.stack(collate_y)}

In [45]:
dataloader_ex2 = DataLoader(dataset_ex, batch_size=2, collate_fn = my_collate_fn)


In [49]:
for d in dataloader_ex2:
    print(f"X : {d['X']}")
    print(f"Y : {d['Y']}")

배치에서 가장 긴 길이 : 2
X : tensor([[0., 0.],
        [1., 1.]])
Y : tensor([0., 1.])
배치에서 가장 긴 길이 : 4
X : tensor([[2., 2., 2., 0.],
        [3., 3., 3., 3.]])
Y : tensor([2., 3.])
배치에서 가장 긴 길이 : 6
X : tensor([[4., 4., 4., 4., 4., 0.],
        [5., 5., 5., 5., 5., 5.]])
Y : tensor([4., 5.])
배치에서 가장 긴 길이 : 8
X : tensor([[6., 6., 6., 6., 6., 6., 6., 0.],
        [7., 7., 7., 7., 7., 7., 7., 7.]])
Y : tensor([6., 7.])
배치에서 가장 긴 길이 : 10
X : tensor([[8., 8., 8., 8., 8., 8., 8., 8., 8., 0.],
        [9., 9., 9., 9., 9., 9., 9., 9., 9., 9.]])
Y : tensor([8., 9.])
