In [1]:
# 1. 데이터셋 파일명 분석 및 통계 수집

import os
import re
import pandas as pd
from collections import defaultdict

In [2]:
# 데이터 디렉토리 경로 설정 (로컬 환경에 맞게 변경)
base_dir = '/home/gyuha_lee/DCC2024/dataset'  # 데이터셋이 위치한 최상위 경로로 설정합니다.
train_image_dir = os.path.join(base_dir, 'training_image')  # 학습 이미지 경로
val_image_dir = os.path.join(base_dir, 'validation_image')  # 검증 이미지 경로

In [3]:
# 파일명 패턴 설정 (예: T_00253_60_popart_W.jpg)
file_pattern = re.compile(r'([WT])_(\d+)_(\d+)_(\w+)_(\w+)\.jpg')

In [4]:
# Training 및 Validation 데이터셋 통계 결과 저장
statistics_train = defaultdict(lambda: defaultdict(int))
statistics_val = defaultdict(lambda: defaultdict(int))

In [5]:
# 주어진 이미지 디렉토리에서 파일명 분석 및 통계 작성 함수
def calculate_statistics(image_directory, statistics):
    for root, _, files in os.walk(image_directory):
        for filename in files:
            match = file_pattern.match(filename)
            if match:
                _, _, _, style, gender = match.groups()
                # 성별 & 스타일 기준으로 이미지 수 집계
                if gender == "W":
                    gender_label = "여자"
                elif gender == "M":
                    gender_label = "남자"
                else:
                    continue
                statistics[gender_label][style] += 1

In [6]:
# Training 데이터셋 통계 집계
calculate_statistics(train_image_dir, statistics_train)

# Validation 데이터셋 통계 집계
calculate_statistics(val_image_dir, statistics_val)

In [7]:
# 성별 및 스타일별 이미지 수를 DataFrame으로 변환
train_stat_list = []
for gender, styles in statistics_train.items():
    for style, count in styles.items():
        train_stat_list.append([gender, style, count])

val_stat_list = []
for gender, styles in statistics_val.items():
    for style, count in styles.items():
        val_stat_list.append([gender, style, count])

In [9]:
# DataFrame 생성
train_stat_df = pd.DataFrame(train_stat_list, columns=["성별", "스타일", "이미지 수"])
val_stat_df = pd.DataFrame(val_stat_list, columns=["성별", "스타일", "이미지 수"])

print("Training 데이터셋의 성별 & 스타일 통계표:")
print(train_stat_df, end ="\n\n")

print("Validation 데이터셋의 성별 & 스타일 통계표:")
print(val_stat_df)

Training 데이터셋의 성별 & 스타일 통계표:
    성별             스타일  이미지 수
0   남자     metrosexual    278
1   남자             ivy    237
2   남자  sportivecasual    298
3   남자            mods    269
4   남자            bold    268
5   남자          hiphop    274
6   남자        normcore    364
7   남자          hippie    260
8   여자          kitsch     91
9   여자          lounge     45
10  여자           disco     37
11  여자   bodyconscious     95
12  여자  sportivecasual    157
13  여자          hippie     91
14  여자        normcore    153
15  여자      athleisure     67
16  여자          hiphop     48
17  여자        lingerie     55
18  여자        oriental     78
19  여자         minimal    139
20  여자        feminine    154
21  여자        cityglam     67
22  여자         classic     77
23  여자            punk     65
24  여자      genderless     77
25  여자       powersuit    120
26  여자          grunge     31
27  여자         ecology     64
28  여자           space     37
29  여자        military     33
30  여자          popart     41

Validation

In [91]:
# 결과를 CSV 파일로 저장
train_stat_df.to_csv('train_style_statistics.csv', index=False)
val_stat_df.to_csv('val_style_statistics.csv', index=False)

In [92]:
# 2. ResNet-18 모델 학습 및 검증

import torch
import torchvision.transforms as transforms
from torchvision import datasets, models
from torch.utils.data import DataLoader
import torch.nn as nn
import torch.optim as optim

In [93]:
# 데이터 전처리 및 데이터 로더 설정
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.RandomHorizontalFlip(),
    transforms.RandomRotation(10),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

In [None]:
# Training 및 Validation 데이터셋 로드
train_dataset = datasets.ImageFolder(train_image_dir, transform=transform)
val_dataset = datasets.ImageFolder(val_image_dir, transform=transform)

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False)

In [None]:
# ResNet-18 모델 설정 (pretrained weights 없이 무작위 초기화)
model = models.resnet18(pretrained=False)
num_features = model.fc.in_features
model.fc = nn.Linear(num_features, len(train_dataset.classes))  # 출력 클래스 수 설정

In [None]:
# 모델 학습 설정
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model = model.to(device)

criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)

In [None]:
# 모델 학습
num_epochs = 10
for epoch in range(num_epochs):
    model.train()
    running_loss = 0.0
    for inputs, labels in train_loader:
        inputs, labels = inputs.to(device), labels.to(device)

        # 옵티마이저 초기화
        optimizer.zero_grad()

        # 순전파 및 역전파, 최적화
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()

    # Validation 데이터로 성능 평가
    model.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for inputs, labels in val_loader:
            inputs, labels = inputs.to(device), labels.to(device)
            outputs = model(inputs)
            _, predicted = torch.max(outputs, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    val_accuracy = correct / total
    print(f'Epoch {epoch+1}/{num_epochs}, Loss: {running_loss/len(train_loader):.4f}, Validation Accuracy: {val_accuracy:.4f}')

In [None]:
print("학습 완료")