# 삽질하며 배우는 딥러닝: 커스텀 데이터셋 실습

## 보유 데이터 개요

### 1. 이미지 데이터
- **파일 형식**: JPEG
- **이미지 크기**: 다양함 (최소 100x100부터 최대 1000x1000까지)
- **컬러 모드**: RGB (일부 그레이스케일 포함)
- **총 이미지 수**: 5,000장

### 2. 메타데이터 (CSV 파일)
- **파일명**: `images.csv`
- **구조**:
  | 컬럼명 | 설명 | 데이터 타입 |
  |--------|------|-------------|
  | filename | 이미지 파일명 (확장자 포함) | 문자열 |
  | label | 분류 레이블 (0-4) | 정수 |

### 3. 디렉토리 구조
project/

│

├── images/

│   ├── image1.jpg

│   ├── image2.jpg

│   └── ...

│

└── images.csv


### 4. 레이블 분포
- 0 (고양이): 20%
- 1 (강아지): 20%
- 2 (새): 20%
- 3 (물고기): 20%
- 4 (햄스터): 20%

### 5. 특이사항
- 약 10%의 이미지가 그레이스케일로 저장됨
- 일부 이미지에 워터마크 존재
- 이미지 크기가 다양하여 리사이징 필요
- 극소수 이미지 (약 1%)의 품질이 매우 낮음

## 데이터 사용 목적
이 데이터셋은 PyTorch를 사용한 커스텀 데이터셋 구현 실습에 사용됩니다. 
학습자들은 이 데이터를 활용하여 다음 작업들을 수행하게 됩니다:

1. CSV 파일에서 이미지 경로와 레이블 읽기
2. PyTorch의 Dataset 클래스를 상속받아 커스텀 데이터셋 클래스 구현
3. 이미지 로딩 및 전처리 (리사이징, 정규화 등)
4. DataLoader를 사용한 배치 처리
5. 데이터 증강 기법 적용

이 실습을 통해 학습자들은 실제 프로젝트에서 마주칠 수 있는 다양한 데이터 관련 문제들을 해결하며 
PyTorch를 사용한 데이터 처리 능력을 향상시킬 수 있습니다.


In [None]:
import torch
from torch.utils.data import Dataset
import pandas as pd
from PIL import Image
import os

class CustomImageDataset(______):
    def __init__(self, csv_file, img_dir, transform=None):
        self.img_labels = ______.read_csv(______)
        self.img_dir = img_dir
        self.transform = transform

    def __len__(self):
        return ______

    def __getitem__(self, idx):
        img_path = os.path.______(self.img_dir, self.img_labels.iloc[idx, 0])
        
        image = Image.______(img_path).______(______)  # 이미지 모드 변환 추가
        
        label = self.img_labels.______(idx, 1)
        
        if self.transform:
            image = self.______(image)
        
        return image, label

# 데이터셋 사용 예시
from torchvision import transforms

# 이미지 전처리를 위한 transform 정의
transform = transforms.Compose([
    transforms.Resize((______, ______)),
    transforms.______(____),  # 랜덤 회전 추가
    transforms.ToTensor(),
    transforms.______((____, ____, ____), (____, ____, ____))
])

# CustomImageDataset의 인스턴스 생성
dataset = ______(__file__='images.csv', img_dir='./images', transform=______)

# DataLoader 생성
from torch.utils.data import ______
dataloader = ______(dataset, batch_size=______, shuffle=______, num_workers=______)

