In [None]:
/kaggle/input/car-zip-data/train

In [6]:
#데이터를 불러오기

import torch
from torchvision import transforms
from torchvision.datasets import ImageFolder
from torch.utils.data import DataLoader

# 1) 전처리(transform) 정의 (예: 크기 조정 + 텐서 변환)
transform = transforms.Compose([
    transforms.Resize((224, 224)),      # 모델 입력 크기에 맞춰주세요
    transforms.RandomHorizontalFlip(),  # 학습 시 간단한 증강
    transforms.ToTensor(),              # PIL → Tensor
    transforms.Normalize(               # ImageNet 통계 기준 정규화 (필요시)
        mean=[0.485, 0.456, 0.406],
        std=[0.229, 0.224, 0.225]
    )
])

# 2) 데이터셋 로드
train_dataset = ImageFolder(
    root= '/kaggle/input/car-zip-data/train',  # 상위 폴더 경로
    transform=transform                   # 위에서 정의한 전처리
)

# 3) 클래스명 ↔ 인덱스 매핑 확인
print(train_dataset.class_to_idx)
# 예: {'avante': 0, 'bongo': 1, …}

# 4) DataLoader 생성
train_loader = DataLoader(
    train_dataset,
    batch_size=32,
    shuffle=True,
    num_workers=4,   # I/O 병렬 처리 개수 (CPU 코어 수에 맞게 조절)
    pin_memory=True  # GPU 사용 시 메모리 고정하면 속도 향상
)

# 5) 배치 확인
images, labels = next(iter(train_loader))
print(images.shape, labels.shape)
# 예: torch.Size([32, 3, 224, 224]) torch.Size([32])

{'1시리즈_F20_2013_2015': 0, '1시리즈_F20_2016_2019': 1, '1시리즈_F40_2020_2024': 2, '2008_2015_2017': 3, '2시리즈_그란쿠페_F44_2020_2024': 4, '2시리즈_액티브_투어러_F45_2019_2021': 5, '2시리즈_액티브_투어러_U06_2022_2024': 6, '3008_2세대_2018_2023': 7, '3시리즈_E90_2005_2012': 8, '3시리즈_F30_2013_2018': 9, '3시리즈_G20_2019_2022': 10, '3시리즈_G20_2023_2025': 11, '3시리즈_GT_F34_2014_2021': 12, '4시리즈_F32_2014_2020': 13, '4시리즈_G22_2021_2023': 14, '4시리즈_G22_2024_2025': 15, '5008_2세대_2018_2019': 16, '5008_2세대_2021_2024': 17, '5시리즈_F10_2010_2016': 18, '5시리즈_G30_2017_2023': 19, '5시리즈_G60_2024_2025': 20, '5시리즈_GT_F07_2010_2017': 21, '6시리즈_F12_2011_2018': 22, '6시리즈_GT_G32_2018_2020': 23, '6시리즈_GT_G32_2021_2024': 24, '718_박스터_2017_2024': 25, '718_카이맨_2017_2024': 26, '7시리즈_F01_2009_2015': 27, '7시리즈_G11_2016_2018': 28, '7시리즈_G11_2019_2022': 29, '7시리즈_G70_2023_2025': 30, '8시리즈_G15_2020_2024': 31, '911_2003_2019': 32, '911_992_2020_2024': 33, 'A4_B9_2016_2019': 34, 'A4_B9_2020_2024': 35, 'A5_F5_2019_2024': 36, 'A6_C8_2019_2025': 37, 'A7_2012_201

In [7]:
from collections import Counter
import pandas as pd

# 1) 클래스 목록과 인덱스 확인
classes = train_dataset.classes
num_classes = len(classes)

# 2) 전체 이미지 수
total_images = len(train_dataset)

# 3) 클래스별 이미지 개수 계산
#    train_dataset.targets 에는 각 샘플의 레이블 인덱스가 리스트로 들어 있습니다.
class_counts = Counter(train_dataset.targets)

# 4) 보기 좋게 DataFrame 으로 정리
df = pd.DataFrame({
    'class_name': classes,
    'count': [class_counts[i] for i in range(num_classes)]
})

# 5) 출력
print(f'클래스 수: {num_classes}')
print(f'전체 이미지 수: {total_images}\n')
print('클래스별 이미지 개수:')
print(df)

클래스 수: 396
전체 이미지 수: 33137

클래스별 이미지 개수:
                  class_name  count
0         1시리즈_F20_2013_2015     86
1         1시리즈_F20_2016_2019     83
2         1시리즈_F40_2020_2024     79
3             2008_2015_2017     86
4    2시리즈_그란쿠페_F44_2020_2024     87
..                       ...    ...
391          팰리세이드_2019_2022     83
392           팰리세이드_LX3_2025     75
393       프리우스_4세대_2016_2018     80
394       프리우스_4세대_2019_2022     90
395         프리우스_C_2018_2020     86

[396 rows x 2 columns]
