#### 사용자 정의 데이터셋
- pytorch에서 딥러닝시 대량의 데이터 사용에 따른 부하(H/W, S/W) 및 많은 시간 소요에 대한 해결책으로 제시
- 대량 데이터셋 전용 철 모듈 제공
- DataSet과 DataLoader
    * DataSet => 데이터 전처리, 텐서화등의 작업 진행
    * DataLoader => Dataset 인스턴스를 사용해서 배치 크기만큼 데이터를 추출함

[1] 모듈로딩 및 데이터 준비

In [2]:
import torch
import torch.nn as nn
from torch.utils.data import Dataset,DataLoader
import pandas as pd
from sklearn.preprocessing import LabelEncoder       # 타겟칼럼 수치화

# 데이터 
DATA_FILE='../data/iris.csv'
irisDF=pd.read_csv(DATA_FILE)
irisDF

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [4]:
# 타겟 칼럼 수치화 ===> LabelEncoder
encoder=LabelEncoder()
encoder.fit(irisDF['variety'])
irisDF['variety']=encoder.transform(irisDF['variety'])

In [5]:
irisDF.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


[2] 사용자 정의 데이터셋 클레스생성

In [7]:
# 클레스목적 : 학습용 데이터셋 텐서화 및 전처리
# 클레스이름 : CustomDataSet
# 부모클레스 : torch.utils.data.Dataset
# 매개변수 : featureDF,targetDF

class CustomDataset(Dataset):
    # 데이터 로딩 및 전처리 진행과 인스턴스 생성 메서드
    def __init__(self,featureDF,targetDF):
        super().__init__()
        self.featureDF=featureDF
        self.targetDF=targetDF
        self.n_rows=featureDF.shape[0]
        self.n_features=featureDF.shape[1]
    # 데이터의 개수 반환 메서드 
    def __len__(self):
        return self.n_rows
    # 특정 index의 데이터와 타겟 반환 메서드 => Tensor 반환!!!
    def __getitem__(self,idx):
        featureTS=torch.FloatTensor(self.featureDF.iloc[idx].values)
        targetTS=torch.FloatTensor(self.targetDF.iloc[idx].values)
        return featureTS,targetTS

In [36]:
# 함수기능: 파일확장자별 데이터 프레임 변환 기능
# 클레스이름 : convertDataFrame
# 매개변수 : data_path 파일 경로
# 함수 결과 : DataFrame
def convertDataFrame(data_path,exit_header=0):
    ext=data_path.rsplit('.')[-1]
    if ext=='csv':
        return pd.read_csv(data_path,header=exit_header)
    elif ext=='json':
        return pd.read_json(data_path,header=exit_header)
    elif ext in['xlsx','xls']:
        return pd.read_excel(data_path,header=exit_header)
    else:
        return pd.read_table(data_path,header=exit_header)

In [37]:
# 클레스기능: 파일기반 데이터셋
# 클레스이름 : FileDataset
# 부모클레스 : torch.utils.data.Dataset
# 매개변수 : data_path 파일 경로

class FileDataset(Dataset):
    # 데이터 로딩 및 전처리 진행과 인스턴스 생성 메서드
    def __init__(self,data_path):
        super().__init__()
        dataDF=convertDataFrame(data_path)
        self.featuresDF=dataDF[dataDF.columns[:-1]]
        self.targetDF=dataDF[dataDF.columns[-1:]]
        self.n_features=self.featuresDF.shape[1]
        self.n_rows=self.featuresDF.shape[0]

    # 데이터의 개수 반환 메서드 
    def __len__(self):
        return self.n_rows
    # 특정 index의 데이터와 타겟 반환 메서드 => Tensor 반환!!!
    def __getitem__(self,idx):
        featureTS=torch.FloatTensor(self.featuresDF.iloc[idx].values)
        targetTS=torch.FloatTensor(self.targetDF.iloc[idx].values)
        return featureTS,targetTS

[3] 데이터셋 인스턴스 생성

In [20]:
# 피쳐와 타겟 추출
featureDF,targetDF=irisDF[irisDF.columns[:-1]],irisDF[irisDF.columns[-1:]]
print(f'featureDF => {featureDF.shape}, targetDF => {targetDF.shape}')

# IRIS 데이터셋 인스턴스 생성
irisDS=CustomDataset(featureDF,targetDF)


featureDF => (150, 4), targetDF => (150, 1)


In [21]:
# IRIS 데이터셋 속성
irisDS.n_features,irisDS.n_rows

(4, 150)

In [22]:
irisDS[0]

(tensor([5.1000, 3.5000, 1.4000, 0.2000]), tensor([0.]))

[4] 데이터로더 인스턴스 생성

In [33]:
## 필요한 것 : Dataset 인스턴스, Batch_size=1 defalt
irisDL=DataLoader(irisDS,batch_size=32)

In [38]:
for dataTS,targetTS in irisDL:
    print(dataTS.shape,targetTS.shape)
    break
    

torch.Size([32, 4]) torch.Size([32, 1])
