### [ 데이터 전용 Dataset/DataLoader ]
- pytorch에서 데이터 관리 및 유지보수를 위한 클래스 제공
- Dataset : 사용자 데이터에 맞게 커스텀 클래스 생성
- DataLoader : 배치크기만큼 데이터를 추출해 주는 역할

[1] 모듈 로딩 및 데이터 준비<hr>

In [1]:
## [1-1] 모듈 로딩
from torch.utils.data import Dataset, DataLoader 
import torch 
import pandas as pd 

In [2]:
## [1-2] 데이터 준비 
DATA_01 = '../Data/study_score_multi.csv'
DATA_02 = '../Data/iris.csv'

[2] 커스텀 데이터셋 클래스 생성 및 데이터 적용 <hr>

In [None]:
## ------------------------------------------------------------
## [2-1] 데이터 로딩 
## ------------------------------------------------------------
dataDF = pd.read_csv(DATA_01)

##- 회귀용으로 타겟은 2D (Loss function에 따라 변경 가능함!)
featureDF = dataDF[dataDF.columns[:-1]]
targetDF  = dataDF[dataDF.columns[-1:]]

print(f"featureDF : {featureDF.shape},  targetDF :{targetDF.shape}")

featureDF : (5000, 3),  targetDF :(5000, 1)


In [19]:
## --------------------------------------------------------------------------------
## [2-2] 커스텀 데이터셋 클래스 정의
## --------------------------------------------------------------------------------
## 클래스이름 : RegDataset
## 부모클래스 : Dataset
## 오버라이딩 : _ _init_ _(self)        : [필수] 피쳐, 타겟, [선택]행수, 컬럼수, 타겟 수...
##            _ _len_ _(self)          : len() 내장함수 실행 시 자동 호출, 샘플 수 반환
##            _ _getitem_ _(self, idx) : 인스턴스명[idx] 시 자동 호출,
##                                       idx에 해당하는 피쳐, 타겟을 텐서화 해서 반환
## --------------------------------------------------------------------------------
class RegDataset(Dataset):

    ##- 피쳐와 타겟 저장 및 기타 속성 초기화 
    def __init__(self, featureDF, targetDF):
        super().__init__()
        ## 피쳐, 타겟 초기화 필수
        self.x = featureDF.values
        self.y = targetDF.values
        ## 선택
        self.rows = featureDF.shape[0]
        self.cols = featureDF.shape[1]
        self.colnames = featureDF.columns

    ##- 데이터 샘플 수 반환 메서드 : len() 함수에 자동호출됨
    def __len__(self):
        return self.rows 
    
    ##- 인덱스에 해당하는 피쳐와 타겟 텐서 반환 메서드 : 인스턴스명[index]에 자동호출됨
    def __getitem__(self, index):
        xTS = torch.tensor(self.x[index], dtype=torch.float32)
        yTS = torch.tensor(self.y[index], dtype=torch.float32)
        return xTS, yTS
    
    ##- 커스텀 메서드
    def printInfo(self):
        print(f'데이터셋 형태 : {self.x.shape}')



In [20]:
## --------------------------------------------------------------------------------
## [2-3] 커스텀 데이터셋 인스턴스 생성 및 사용
## --------------------------------------------------------------------------------
myDS = RegDataset(featureDF, targetDF)

print(f'타  입 : {type(myDS)}')
print(f'컬럼명 : {myDS.colnames}')
print(f'샘플수 : {myDS.rows}')
print(f'타  겟 : {myDS.y.shape}')

타  입 : <class '__main__.RegDataset'>
컬럼명 : Index(['study_hours', 'sleep_hours', 'participation'], dtype='object')
샘플수 : 5000
타  겟 : (5000, 1)


In [21]:
## 메서드 사용 
myDS.printInfo()

데이터셋 형태 : (5000, 3)


In [22]:
## 필수 오버라이딩 메서드
print( len(myDS) )
print( myDS[0] )

5000
(tensor([ 1.4500,  5.2800, 97.4000]), tensor([32.8000]))


In [37]:
## --------------------------------------------------------------------------------
## [2-4] DataLoader를 활용한 데이터 추출 => 배치크기만큼 데이터 추출
## --------------------------------------------------------------------------------
BATCH_SIZE = 53
myDL = DataLoader(myDS, batch_size=BATCH_SIZE, shuffle=True, drop_last=True)

print(f'타입 :{type(myDL)}')


타입 :<class 'torch.utils.data.dataloader.DataLoader'>


In [38]:
##- 배치크기만큼 데이터 추출 --------------------------------------
##- DataLoader            : 추출 데이터 인덱스
##- Dataset.__getitem__() : 인덱스에 해당하는 피쳐와 타겟 텐서 
##- -----------------------------------------------------------
for xTS, yTS in myDL:
    print(xTS.shape, yTS.shape)


torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
torch.Size([53, 3]) torch.Size([53, 1])
