[Custom Dataset]

- 데이터셋 : iris.csv
- 커스텀 데이터셋 : irisDataset

In [25]:
# [1-1] 모듈 로딩
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader

import pandas as pd
import numpy as np

In [26]:
iris_df = pd.read_csv('../data/iris.csv')

In [27]:
# [1-2] 데이터 전처리
iris_df.variety = iris_df.variety.replace({'Setosa':0, 'Versicolor':1, 'Virginica':2})

iris_df.variety

  iris_df.variety = iris_df.variety.replace({'Setosa':0, 'Versicolor':1, 'Virginica':2})


0      0
1      0
2      0
3      0
4      0
      ..
145    2
146    2
147    2
148    2
149    2
Name: variety, Length: 150, dtype: int64

In [28]:
# [2-1] 커스텀 데이터셋 클래스 설계 및 구현

In [29]:
# iris 전용 데이터셋 클래스
class irisDataset(Dataset):
    # 피쳐와 타겟 분리 및 전처리 진행
    def __init__(self, featureDF, targetDF):
        super().__init__()
        self.feature = featureDF
        self.target = targetDF
        self.rows = featureDF.shape[0]
        self.cols = featureDF.shape[1]
        
        
    # 데이터셋 샘플 수 반환 메서드
    def __len__(self):
        return self.rows
    
        
    # DataLoader에서 batch_size 만큼 호출하는 메서드ge
    # 인덱스에 해당하는 피쳐와 타겟 반환
    # 단, Tensor 형태여야 한다
    def __getitem__(self, index):
        arr_feature = self.feature.iloc[index].values
        arr_target = self.target.iloc[index].values
        
        return torch.FloatTensor(arr_feature), torch.FloatTensor(arr_target)

In [30]:
# 데이터셋 인스턴스 생성
featureDF = iris_df[iris_df.columns[:-1]]
targetDF = iris_df[iris_df.columns[-1:]]
print(f'피쳐 : {featureDF.shape}, 타겟 : {targetDF.shape}')

피쳐 : (150, 4), 타겟 : (150, 1)


In [31]:
data_set = irisDataset(featureDF, targetDF)
data_set[1]

(tensor([4.9000, 3.0000, 1.4000, 0.2000]), tensor([0.]))

In [32]:
# DataLoader 연동

In [33]:
# DataLoader 인스턴스 생성
loader = DataLoader(data_set, batch_size=10, shuffle=True)
loader

<torch.utils.data.dataloader.DataLoader at 0x263bbba1fa0>

In [34]:
# batch_size = 10 이라서 10개 가져옴
# shuffle = True 라서 랜덤으로 10개 가져옴 

for feature, target in loader:
    print(feature, target, sep='\n')
    break

tensor([[6.3000, 2.8000, 5.1000, 1.5000],
        [6.0000, 2.9000, 4.5000, 1.5000],
        [5.7000, 4.4000, 1.5000, 0.4000],
        [5.7000, 2.8000, 4.1000, 1.3000],
        [5.0000, 3.2000, 1.2000, 0.2000],
        [5.1000, 3.5000, 1.4000, 0.3000],
        [6.1000, 3.0000, 4.6000, 1.4000],
        [5.5000, 4.2000, 1.4000, 0.2000],
        [7.4000, 2.8000, 6.1000, 1.9000],
        [6.0000, 2.7000, 5.1000, 1.6000]])
tensor([[2.],
        [1.],
        [0.],
        [1.],
        [0.],
        [0.],
        [1.],
        [0.],
        [2.],
        [1.]])
