#### 사용자정의 데이터 셋
- Pytorch에서 딥러닝 시 대량의 데이터 사요에 따른 부하(H/W, S/W) 및 많은 시간 소요에 대한 해결책으로 제시
-대량 데이터셋 전용 처리 모듈
- DataSet과 DataLoader  
    * DataSet = >  데이터셋 전처리, 텐서화 등의 작업을 진행
    * DataLoader => Dataset 인스턴스를 사용해서 배치 크기 만큼 데이터를 추출함

[1] 모듈로딩 및 데이터 준비

In [7]:
## 모듈로딩
import torch    # 텐서 관련 모듈
import torch.nn as nn # 인공신경망 관련 모듈
from torch.utils.data import Dataset, DataLoader
import torch.nn.functional as F # 인공신경망 관련 함수들 모듈 ( 손실 함수, 활성화함수 등등 )
import torch.optim as optim # 최적화 관련 모듈 ( 가중치 , 절편 빠르게 찾아주는 알고리즘 )
from torchinfo import summary # 모델 구조 및 저보 관련 모듈
from torchmetrics.regression import * # 회귀 성능 관련
from torchmetrics.classification import * # 분류 성능 관련

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [8]:
# 데이터
DATA_FILE = r'C:\Users\zizonkjs\머신러닝,딥러닝\data\iris.csv'
irisdf=pd.read_csv(DATA_FILE)
irisdf

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [9]:
# target 컬럼 수치화
from sklearn.preprocessing import LabelEncoder
label = LabelEncoder()
label.fit(irisdf['variety'])
irisdf['variety']=label.transform(irisdf['variety'])
irisdf

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


[2] 사용자 정의 데이터셋 클래스 생성 <hr>

In [10]:
# 클래스목적 : 학습용 데이터셋 Tensor화 및 전처리
# 클래스 이름 : CustomDataSet
# 부모클래스 : torch.util.data.DataSet
# 클래스 매개변수 : featuredf, targetdf


class CustomDataset(Dataset):
    # 데이터 로딩 및 전처리 진행과 인스턴스 생성 메서드
    def __init__(self, featuredf, targetdf):
        super().__init__()
        self.featuredf= featuredf
        self.targetdf = targetdf
        self.n_rows = featuredf.shape[0]
        self.n_features = featuredf.shape[1]

    # 데이터의 개수 반환 메서드
    def __len__(self):
        return self.n_rows

    # 특정 index의 데이터와 타겟 반환 메서드 -> Tensor로 반환해줘야함
    def __getitem__(self, idx):
        featureTS=torch.FloatTensor(self.featuredf.iloc[idx].values)
        targetTS=torch.FloatTensor(self.targetdf.iloc[idx].values)
        return featureTS, targetTS


[3] 데이터셋 인스턴스 생성 <hr>

In [19]:
featuredf = irisdf[irisdf.columns[:-1]]  # 마지막 열을 제외한 모든 열 (특성)
targetdf = irisdf[[irisdf.columns[-1]]]    # 마지막 열 (타겟)
irisds = CustomDataset(featuredf, targetdf)

print(irisds.n_features, irisds.n_rows)
print(irisds[0])


4 150
(tensor([5.1000, 3.5000, 1.4000, 0.2000]), tensor([0.]))


[4] 데이터로더 인스턴스 생성

In [24]:
# 필요한것 : Dataset  인스턴스, Batch_size=1
irisdl=DataLoader(irisds, batch_size=5)

In [27]:
for datats, targetts in irisdl:
    print(datats.shape, targetts.shape)
    break

torch.Size([5, 4]) torch.Size([5, 1])


In [28]:
# 함수기능 : 파일 확장자별 데이터프레임 변환 기능
# 함수 이름 : convertDataFrame
# 매개 변수 : data_path
# 함수결과 : DataFrame

def convertDataFrame(data_path, exit_header=0):
    ext = data_path.rsplit('.')[-1]
    if ext == 'csv':
        return pd.read_csv(data_path, header=exit_header )
    elif ext == 'json':
        return pd.read_json(data_path, header=exit_header)
    elif ext in ['xlsx', 'xls']:
        return pd.read_excel(data_path, header=exit_header)
    else:
        return pd.read_table(data_path, header=exit_header)
    

In [None]:
# 클래스기능 : 파일기반 데이터셋
# 클래스이름 : FileDataset
# 매개 변수 : data_path 파일경로
# 부모클래스 : utils.data.Dataset

class FileDataset(Dataset):
    # 데이터 로딩 및 전처리 진행과 인스턴스 생성 메서드
    def __init__(self, data_path):
        
        super().__init__()

        datadf=convertDataFrame(data_path)
        self.featuredf=datadf[datadf.columns[:-1]]
        self.targetdf = datadf[datadf.columns[-1:]]

        self.n_features=datadf.shape[1]
        self.n_rows = self.featuredf.shape[0]


    # 데이터의 개수 반환 메서드
    def __len__(self):
        return self.n_rows

    # 특정 index의 데이터와 타겟 반환 메서드 -> Tensor로 반환해줘야함
    def __getitem__(self, idx):
        featureTS=torch.FloatTensor(self.featuredf.iloc[idx].values)
        targetTS=torch.FloatTensor(self.targetdf.iloc[idx].values)
        return featureTS, targetTS