In [1]:
import os
import pandas as pd

In [2]:
def count_images_by_gender_and_style(file_names, valid_image_ids):
    rows = []  # 결과를 저장할 리스트

    # 파일명 분석 및 카운트
    for filename in file_names:
        # 파일 확장자 체크
        if not filename.endswith('.json'):
            continue

        # .json 제거
        no_jpg_filename = filename.split('.')[0]
        parts = no_jpg_filename.split('_')

        # 성별, 스타일, 이미지 ID 추출
        gender = '여성' if parts[4] == 'W' else '남성'
        style = parts[3]  
        image_id = parts[1] 

        # 유효한 스타일과 이미지 ID일 때만 추가
        if style is not None and image_id is not None and image_id in valid_image_ids:
            rows.append({'성별': gender, '스타일': style, '이미지 ID': image_id})

    # DataFrame 생성
    df = pd.DataFrame(rows)

    # 중복된 행 제거
    df = df.drop_duplicates(subset=['성별', '스타일', '이미지 ID'])

    # 성별과 스타일별로 이미지 수 집계
    result = df.groupby(['성별', '스타일']).size().reset_index(name='이미지 수')
    result = result.sort_values(by='성별')
    
    return result

#### train

In [3]:
# traininig_label 폴더
train_folder_path_label = './training_label'

# 폴더 내의 파일 목록 가져오기
train_file_list_label = os.listdir(train_folder_path_label)
train_file_names_label = [filename for filename in train_file_list_label]

In [4]:
# 유효한 traininig_image ID 목록
train_folder_path = './training_image'

# 폴더 내의 파일 목록 가져오기
train_file_list = os.listdir(train_folder_path)
train_file_names = [filename for filename in train_file_list]

# 이미지 ID 추출
train_image_ID = list(set(name.split('_')[1] for name in train_file_names))

In [5]:
# traininig_image 폴더
result_train = count_images_by_gender_and_style(train_file_names_label, train_image_ID)
result_train.to_csv('mission_2-1_train.csv', index=False)

In [10]:
result_train

Unnamed: 0,성별,스타일,이미지 수
0,남성,bold,312
1,남성,hiphop,353
2,남성,hippie,274
3,남성,ivy,256
4,남성,metrosexual,332
5,남성,mods,330
6,남성,normcore,754
7,남성,sportivecasual,687
21,여성,lounge,167
22,여성,military,36


#### validation

In [6]:
# validation_label 폴더
val_folder_path_label = './validation_label'

# 폴더 내의 파일 목록 가져오기
val_file_list_label = os.listdir(val_folder_path_label)
val_file_names_label = [filename for filename in val_file_list_label]

In [7]:
# 유효한 validation_image ID 목록
val_folder_path = './validation_image'

# 폴더 내의 파일 목록 가져오기
val_file_list = os.listdir(val_folder_path)
val_file_names = [filename for filename in val_file_list]

# 이미지 ID 추출
val_image_ID = list(set(name.split('_')[1] for name in val_file_names))

In [8]:
# validation_image 폴더
result_val = count_images_by_gender_and_style(val_file_names_label, val_image_ID)
result_val.to_csv('mission_2-1_val.csv', index=False)

In [9]:
result_val

Unnamed: 0,성별,스타일,이미지 수
0,남성,bold,59
1,남성,hiphop,67
2,남성,hippie,82
3,남성,ivy,79
4,남성,metrosexual,58
5,남성,mods,81
6,남성,normcore,63
7,남성,sportivecasual,66
21,여성,lounge,12
22,여성,military,9
