## Mission 1-1: 패션 스타일 이미지 분류

#### 1-1. 주어진 이미지 데이터의 파일명은 아래와 같은 형식이다. 
<pre><code> "{W/T}_{이미지ID}_{시대별}_{스타일별}_{성별}.jpg"</code></pre> 

#### 이에 기반하여 "이미지ID" 수 기준으로 성별 & 스타일 통계치를 도출한다.

In [1]:
import os
# 파일 시스템을 탐색하여 디렉터리 내 파일 목록을 가져오는데 사용
import pandas as pd
# 통계 데이터를 표 형태로 저장하고 출력하는 데 사용
from collections import defaultdict 
# 중첩된 딕셔너리 형태로 데이터를 쉽게 저장하기 위해 사용

In [2]:
# 이미지 파일명에서 성별 및 스타일을 추출하는 함수
def extract_info_from_filename(filename):
    # 파일명 예시: "W_00237_60_popart_W.jpg"
    #             [0] [1] [2]  [3]  [4]
    parts = filename.split('_')
    if len(parts) < 4:
        return None, None  
        # 형식이 맞지 않는 파일명은 무시
    style = parts[3]  
    # 스타일 정보는 파일명의 구분 중 앞에서 네 번째 요소
    gender = '여성' if parts[-1].startswith('W') else '남성'  
    # 성별 정보는 파일명의 구분 중 뒤에서 첫 번째 요소
    return gender, style


In [3]:
# 디렉토리 내 파일명으로 통계 정보를 추출하는 함수
def generate_statistics(directory):
    # 성별 & 스타일별 이미지 수를 저장할 딕셔너리
    stats = defaultdict(lambda: defaultdict(int))
    
    # 디렉토리 내 모든 파일명에 대해 성별과 스타일 정보 추출
    for filename in os.listdir(directory):
        if filename.endswith(".jpg"):
            gender, style = extract_info_from_filename(filename)
            if gender and style:
                stats[gender][style] += 1
                
    # 통계 정보를 DataFrame으로 변환
    stats_list = []
    for gender, style_dict in stats.items():
        for style, count in style_dict.items():
            stats_list.append([gender, style, count])

    stats_df = pd.DataFrame(stats_list, columns=['성별', '스타일', '이미지 수'])
    return stats_df.head(1000)
    # 이미지 수의 내림차순으로 데이터프레임 출력


In [4]:
# Training 및 Validation 데이터 경로
training_image_dir = '/home/gyuha_lee/DCC2024/dataset/training_image'
validation_image_dir = '/home/gyuha_lee/DCC2024/dataset/validation_image'


In [5]:
# Training image 데이터 통계 도출
generate_statistics(training_image_dir)



Unnamed: 0,성별,스타일,이미지 수
0,남성,metrosexual,278
1,남성,ivy,237
2,남성,sportivecasual,298
3,남성,mods,269
4,남성,bold,268
5,남성,hiphop,274
6,남성,normcore,364
7,남성,hippie,260
8,여성,kitsch,91
9,여성,lounge,45


In [6]:
# Validation image 데이터 통계 도출
generate_statistics(validation_image_dir)


Unnamed: 0,성별,스타일,이미지 수
0,남성,metrosexual,58
1,남성,normcore,51
2,남성,hippie,82
3,남성,bold,57
4,남성,ivy,79
5,남성,mods,80
6,남성,sportivecasual,52
7,남성,hiphop,66
8,여성,minimal,35
9,여성,powersuit,34
