#### Autograd
- 자동 미분을 수행하는 모듈
- 신경망 학습에 필수적인 도구
- 연산그래프를 생성하고 이를 통해 역전파(Backpropagation)과정에서 기울기(Gradient)를 자동으로 계산
#### 연산그래프
: 텐서와 연산을 기록하여 방향성 비순환 그래프를 제작한다. 
#### 역전파
: backward()를 호출하면 Autograd는 그래프에 따라 각 텐서의 기울기을 계산하고 .grad속성을 저장한다. 
#### 자동 미분
: 미분을 수작업으로 계산할 필요없이 Autograd가 자동으로 기울기을 계산한다. 

#### DataSet과 DataLoader
- 데이터 전처리와 모델 학습을 효율적으로 수행하기 위한 핵심 구성 요소
- DataSet은 데이터(Feature)와 레이블(Target)을 저장
- DataLoader는 이러한 데이터를 쉽게 순회할 수 있게 한다.

#### DataSet과 DataLoader의 개념
#### DataSet
- 역할 : 데이터샘플과 그에 해당하는 레이블 저장
- 주요 Method
- - init : 데이터 초기화 및 데이터 로드
  - len : 데이터셋의 샘플 갯수 반환
  - getitem : 주어진 인덱스에 해당하는 샘플을 반환

#### DataLoader
- 역할 : DataSet을 batch단위로 쉽게 접근할 수 있도록하는 iterable객체를 제공
- 주요 method
- - batch_size : 한번에 불러올 배치의 크기
  - shuffle : 데이터를 무작위로 섞을지 여부
  - num_workers : 데이터를 로드할때 사용할 서브 프로세스의 수 

In [1]:
# 기본 DataSet 클래스 정의
from torch.utils.data import Dataset

In [2]:
class SimpleDataset(Dataset):
    def __init__(self, data, labels):
        self.data = data
        self.labels = labels

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return self.data[idx], self.labels[idx]

In [3]:
data = [
    [1,2],
    [3,4],
    [5,6]
]

labels = [0,1,0]
dataset = SimpleDataset(data, labels)

In [7]:
dataset

<__main__.SimpleDataset at 0x7d26137d3b90>

In [8]:
print(dataset.data)
print(dataset.labels)
print(len(dataset))
print(dataset[1])

[[1, 2], [3, 4], [5, 6]]
[0, 1, 0]
3
([3, 4], 1)


In [10]:
# 기본 DataLoader 사용 : Shuffle하지 않고 전체를 한번에 사용
from torch.utils.data import DataLoader

dataLoader = DataLoader(dataset, batch_size=3, shuffle=False)
for batch in dataLoader:
    print(batch)

[[tensor([1, 3, 5]), tensor([2, 4, 6])], tensor([0, 1, 0])]


In [12]:
# shuffle하고 2개씩 불러오기
dataLoader = DataLoader(dataset, batch_size=2, shuffle=True)
for batch in dataLoader:
    print(batch)

[[tensor([5, 3]), tensor([6, 4])], tensor([0, 1])]
[[tensor([1]), tensor([2])], tensor([0])]


In [13]:
# 이미지 데이터셋 사용
from torchvision import datasets, transforms

root_dir = "./Data"
transform = transforms.Compose([transforms.ToTensor()])
mnist_train = datasets.MNIST(root=root_dir, train=True, download=True, transform=transform)
train_loader = DataLoader(mnist_train, batch_size=64, shuffle=True)

100%|██████████| 9.91M/9.91M [00:00<00:00, 17.7MB/s]
100%|██████████| 28.9k/28.9k [00:00<00:00, 481kB/s]
100%|██████████| 1.65M/1.65M [00:00<00:00, 4.43MB/s]
100%|██████████| 4.54k/4.54k [00:00<00:00, 6.55MB/s]


In [26]:
# 사용자 정의 DataSet 클래스
import torch

class CustomDataset(Dataset):
    def __init__(self):
        self.data_x = torch.randn(99, 3)
        self.data_y = torch.randint(0, 2, (99,))
    def __len__(self):
        return len(self.data_x)
    def __getitem__(self, idx):
        return self.data_x[idx], self.data_y[idx]

In [27]:
custom_dataset = CustomDataset()
custom_dataloader = DataLoader(custom_dataset, batch_size=10)

In [28]:
for inputs, targets in custom_dataloader:
    print(inputs.shape, targets.shape)

torch.Size([10, 3]) torch.Size([10])
torch.Size([10, 3]) torch.Size([10])
torch.Size([10, 3]) torch.Size([10])
torch.Size([10, 3]) torch.Size([10])
torch.Size([10, 3]) torch.Size([10])
torch.Size([10, 3]) torch.Size([10])
torch.Size([10, 3]) torch.Size([10])
torch.Size([10, 3]) torch.Size([10])
torch.Size([10, 3]) torch.Size([10])
torch.Size([9, 3]) torch.Size([9])


In [29]:
custom_dataset.data_x

tensor([[-0.5692, -1.7382, -1.4479],
        [ 1.0930, -0.1590,  1.5539],
        [-0.9303, -0.3882,  0.4479],
        [ 1.2487, -0.2474,  0.4061],
        [-0.7280,  1.8161, -0.5077],
        [-0.7982,  0.1750, -0.9335],
        [-1.0627, -0.2218,  0.3525],
        [ 2.0799, -1.3814,  1.5532],
        [ 0.4759, -1.6245,  1.5428],
        [-1.2272,  0.5592, -0.8794],
        [-0.6910,  3.3201,  0.4202],
        [-0.1897, -1.1424, -0.1249],
        [ 0.0738,  1.3075, -0.5998],
        [-0.5316,  0.7659, -0.7977],
        [-0.6554, -0.0967,  0.3748],
        [-0.8255,  1.6310, -0.0828],
        [-0.8016, -0.0089,  2.0940],
        [ 0.7614, -1.2738,  0.0689],
        [ 0.3241, -0.7718,  0.4208],
        [-0.1403, -0.7573, -0.5806],
        [ 1.3246,  0.8075,  1.0749],
        [ 1.4834, -0.0528, -0.4905],
        [ 0.3730, -2.5337, -0.5774],
        [-0.0087,  1.3226,  0.4990],
        [ 1.1006,  0.4243,  1.5330],
        [ 0.3210, -0.1382,  0.0875],
        [ 1.4943,  0.4700, -1.2742],
 

In [30]:
# 텍스트 데이터셋 처리
class TextDataset(Dataset):
    def __init__(self, text_data):
        self.text_data = text_data
    def __len__(self):
        return len(self.text_data)
    def __getitem__(self, idx):
        return self.text_data[idx]

In [31]:
text_data = ["Hello","World","PyTorch"]
text_dataset = TextDataset(text_data)
text_loader = DataLoader(text_data, batch_size=1)

for text in text_loader:
    print(text)

['Hello']
['World']
['PyTorch']


In [32]:
# csv 파일을 이용한 Dataset 생성
import pandas as pd

class CSVDataset(Dataset):
    def __init__(self, csv_file):
        self.data_frame = pd.read_csv(csv_file)
    def __len__(self):
        return len(self.data_frame)
    def __getitem__(self, idx):
        row = self.data_frame.iloc[idx]
        return torch.tensor(row.values[:-1]), torch.tensor(row.values[-1])
        

In [33]:
csv_dataset = CSVDataset("/kaggle/input/data-df-sample/df_sample.csv")
csv_loader = DataLoader(csv_dataset, batch_size=5)
for batch in csv_loader:
    print(batch)

[tensor([[100,  90],
        [ 95,  95],
        [ 88,  85]]), tensor([80, 93, 92])]
