In [3]:
import torch
from torch.utils.data import Dataset, DataLoader

# 1. 파이썬 리스트 데이터 (예: X=입력, y=정답)
X = [[1,2], [3,4], [5,6], [7,8]]
y = [0, 1, 0, 1]

# 2. 커스텀 Dataset 클래스 정의
class SimpleDataset(Dataset):
    def __init__(self, X, y):
        self.X = torch.tensor(X, dtype=torch.float32)
        self.y = torch.tensor(y, dtype=torch.long)
    def __len__(self):
        return len(self.X)
    def __getitem__(self, idx):
        return self.X[idx], self.y[idx]

dataset = SimpleDataset(X, y)

# 3. DataLoader로 배치 단위 샘플 추출
loader = DataLoader(dataset, batch_size=2, shuffle=True)

print("=== 배치 샘플 ===")
for batch_X, batch_y in loader:
    print("입력:", batch_X)
    print("정답:", batch_y)

=== 배치 샘플 ===
입력: tensor([[3., 4.],
        [1., 2.]])
정답: tensor([1, 0])
입력: tensor([[7., 8.],
        [5., 6.]])
정답: tensor([1, 0])


In [3]:
import torch
from torch.utils.data import Dataset, DataLoader

class OddEvenDataset(Dataset):
    def __init__(self, numbers):
        self.data = torch.tensor(numbers, dtype=torch.float32)
    def __len__(self):
        return len(self.data)
    def __getitem__(self, idx):
        num = self.data[idx]
        label = 1 if num % 2 == 1 else 0   # 홀수=1, 짝수=0
        return num, label

# 예시 데이터: 1~10
dataset = OddEvenDataset(range(1, 11))
loader = DataLoader(dataset, batch_size=4, shuffle=False)

for nums, labels in loader:
    print("숫자:", nums.tolist(), "  홀수(1)/짝수(0):", labels.tolist())

숫자: [1.0, 2.0, 3.0, 4.0]   홀수(1)/짝수(0): [1, 0, 1, 0]
숫자: [5.0, 6.0, 7.0, 8.0]   홀수(1)/짝수(0): [1, 0, 1, 0]
숫자: [9.0, 10.0]   홀수(1)/짝수(0): [1, 0]


In [4]:
import torch
from torch.utils.data import Dataset, DataLoader

class StringLengthDataset(Dataset):
    def __init__(self, str_list):
        self.data = str_list
    def __len__(self):
        return len(self.data)
    def __getitem__(self, idx):
        string = self.data[idx]
        length = len(string)
        return string, length

# 예시 데이터
words = ["apple", "banana", "hi", "PyTorch", "a"]
dataset = StringLengthDataset(words)
loader = DataLoader(dataset, batch_size=2, shuffle=False)

for strings, lengths in loader:
    print("문자열:", strings, "  길이:", lengths.tolist())

문자열: ('apple', 'banana')   길이: [5, 6]
문자열: ('hi', 'PyTorch')   길이: [2, 7]
문자열: ('a',)   길이: [1]


```python
def main():
    print("")
```


In [12]:
import torch
from torch.utils.data import Dataset, DataLoader

# 1. 파이썬 리스트 데이터 (예: X=입력, y=정답)
X = [[1,2,3,4], [5,6,7,8], [9, 10, 11,12], 
     [13, 14, 15, 16], [17,18,19,20]]
y = [0,1,0,1,0]

# 2. 커스텀 Dataset 클래스 정의
class SimpleDataset(Dataset):
    def __init__(self, X, y):
        self.X = torch.tensor(X, dtype=torch.float32)
        self.y = torch.tensor(y, dtype=torch.long)
    def __len__(self):
        return len(self.X)
    def __getitem__(self, idx):
        return self.X[idx], self.y[idx]

dataset = SimpleDataset(X, y)
print(f"데이타:{dataset[0]}" )
# 3. DataLoader로 배치 단위 샘플 추출
loader = DataLoader(dataset, batch_size=1, shuffle=True)

print("=== 배치 샘플 ===")
for idx,data in enumerate(dataset):
    print(f" {idx} 데이타:{data}" )
    

데이타:(tensor([1., 2., 3., 4.]), tensor(0))
=== 배치 샘플 ===
 0 데이타:(tensor([1., 2., 3., 4.]), tensor(0))
 1 데이타:(tensor([5., 6., 7., 8.]), tensor(1))
 2 데이타:(tensor([ 9., 10., 11., 12.]), tensor(0))
 3 데이타:(tensor([13., 14., 15., 16.]), tensor(1))
 4 데이타:(tensor([17., 18., 19., 20.]), tensor(0))


In [13]:
from torch.utils.data import Dataset

# 가장 기본적인 Dataset 클래스
class SimpleDataset(Dataset):
    """
    PyTorch Dataset의 기본 구조
    
    반드시 구현해야 하는 3가지 메서드:
    1. __init__: 초기화
    2. __len__: 데이터셋 크기 반환
    3. __getitem__: 특정 인덱스의 데이터 반환
    """
    
    def __init__(self, data, labels):
        """
        데이터셋 초기화
        
        Args:
            data: 입력 데이터 (리스트, 배열 등)
            labels: 정답 라벨
        """
        self.data = data
        self.labels = labels
        print(f" Dataset 생성 완료!")
        print(f"   - 데이터 개수: {len(data)}")
        print(f"   - 라벨 개수: {len(labels)}")
    
    def __len__(self):
        """
        데이터셋의 총 크기 반환
        
        Returns:
            int: 데이터셋의 크기
        """
        return len(self.data)
    
    def __getitem__(self, idx):
        """
        특정 인덱스의 데이터와 라벨 반환
        
        Args:
            idx: 데이터 인덱스
            
        Returns:
            tuple: (데이터, 라벨)
        """
        # 인덱스에 해당하는 데이터와 라벨 가져오기
        sample_data = self.data[idx]
        sample_label = self.labels[idx]
        
        return sample_data, sample_label

# 예시 데이터 생성
print(" 예시 데이터 생성:")
sample_data = [
    [1, 2, 3, 4],      # 데이터 1
    [5, 6, 7, 8],      # 데이터 2  
    [9, 10, 11, 12],   # 데이터 3
    [13, 14, 15, 16],  # 데이터 4
    [17, 18, 19, 20]   # 데이터 5
]

sample_labels = [1, 2, 3, 4, 5]  # 해당하는 라벨들

# Dataset 생성
simple_dataset = SimpleDataset(sample_data, sample_labels)

print(f"\n Dataset 크기: {len(simple_dataset)}")
print(f" 1 번째 데이터: {simple_dataset[0]}")
print(f" 2 번째 데이터: {simple_dataset[1]}")
print(f" 3 번째 데이터: {simple_dataset[2]}")
print(f" 4 번째 데이터: {simple_dataset[3]}")
print(f" 5 번째 데이터: {simple_dataset[4]}")

 예시 데이터 생성:
 Dataset 생성 완료!
   - 데이터 개수: 5
   - 라벨 개수: 5

 Dataset 크기: 5
 1 번째 데이터: ([1, 2, 3, 4], 1)
 2 번째 데이터: ([5, 6, 7, 8], 2)
 3 번째 데이터: ([9, 10, 11, 12], 3)
 4 번째 데이터: ([13, 14, 15, 16], 4)
 5 번째 데이터: ([17, 18, 19, 20], 5)


In [14]:
class NumberDataset(Dataset):
    """수치 데이터를 위한 Dataset 클래스"""
    
    def __init__(self, num_samples=1000, input_dim=10, num_classes=3):
        """
        랜덤한 수치 데이터셋 생성
        
        Args:
            num_samples: 샘플 개수
            input_dim: 입력 차원 (특성 개수)
            num_classes: 클래스 개수
        """
        print(f" 랜덤 데이터셋 생성 중...")
        
        # 랜덤한 입력 데이터 생성 (평균=0, 표준편차=1인 정규분포)
        self.data = torch.randn(num_samples, input_dim)
        
        # 랜덤한 라벨 생성
        self.labels = torch.randint(0, num_classes, (num_samples,))
        
        print(f" 생성 완료!")
        print(f"   - 샘플 수: {num_samples}")
        print(f"   - 입력 차원: {input_dim}")
        print(f"   - 클래스 수: {num_classes}")
        print(f"   - 데이터 shape: {self.data.shape}")
        print(f"   - 라벨 shape: {self.labels.shape}")
    
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        return self.data[idx], self.labels[idx]
    
    def get_stats(self):
        """데이터셋 통계 정보 출력"""
        print(f" 데이터셋 통계:")
        print(f"   - 데이터 평균: {self.data.mean():.3f}")
        print(f"   - 데이터 표준편차: {self.data.std():.3f}")
        print(f"   - 라벨 분포: {torch.bincount(self.labels)}")

# 수치 데이터셋 생성 및 확인
num_dataset = NumberDataset(num_samples=500, input_dim=20, num_classes=5)
num_dataset.get_stats()

# 몇 개 샘플 확인해보기
print(f"\n 샘플 확인:")
for i in range(3):
    data, label = num_dataset[i]
    print(f"   샘플 {i}: data shape={data.shape}, label={label.item()}")

 랜덤 데이터셋 생성 중...
 생성 완료!
   - 샘플 수: 500
   - 입력 차원: 20
   - 클래스 수: 5
   - 데이터 shape: torch.Size([500, 20])
   - 라벨 shape: torch.Size([500])
 데이터셋 통계:
   - 데이터 평균: 0.001
   - 데이터 표준편차: 0.994
   - 라벨 분포: tensor([105,  93, 108,  93, 101])

 샘플 확인:
   샘플 0: data shape=torch.Size([20]), label=3
   샘플 1: data shape=torch.Size([20]), label=0
   샘플 2: data shape=torch.Size([20]), label=1


In [15]:
from torch.utils.data import DataLoader

print(" DataLoader")
print("=" * 40)
print()
print("1. 배치 처리: 여러 데이터를 묶어서 처리")
print("2. 셔플링: 데이터 순서를 섞어서 학습 효과 향상")
print("3. 멀티프로세싱: 여러 프로세서로 빠른 데이터 로딩")
print("4. 메모리 관리: 필요한 만큼만 메모리에 로드")

# 앞서 만든 데이터셋 사용
dataset = NumberDataset(num_samples=100, input_dim=5, num_classes=3)

# DataLoader 생성
dataloader = DataLoader(
    dataset=dataset,          # 사용할 데이터셋
    batch_size=10,           # 한 번에 처리할 데이터 개수
    shuffle=True,            # 데이터 순서를 섞을지 여부
    num_workers=0,           # 멀티프로세싱 워커 수 (코랩에서는 0 권장)
    drop_last=False          # 마지막 배치가 작을 때 제거할지 여부
)

print(f"\n DataLoader 정보:")
print(f"   - 총 데이터 개수: {len(dataset)}")
print(f"   - 배치 크기: {dataloader.batch_size}")
print(f"   - 총 배치 개수: {len(dataloader)}")
print(f"   - 셔플 여부: {dataloader.sampler is not None}")

 DataLoader

1. 배치 처리: 여러 데이터를 묶어서 처리
2. 셔플링: 데이터 순서를 섞어서 학습 효과 향상
3. 멀티프로세싱: 여러 프로세서로 빠른 데이터 로딩
4. 메모리 관리: 필요한 만큼만 메모리에 로드
 랜덤 데이터셋 생성 중...
 생성 완료!
   - 샘플 수: 100
   - 입력 차원: 5
   - 클래스 수: 3
   - 데이터 shape: torch.Size([100, 5])
   - 라벨 shape: torch.Size([100])

 DataLoader 정보:
   - 총 데이터 개수: 100
   - 배치 크기: 10
   - 총 배치 개수: 10
   - 셔플 여부: True
