In [3]:
import os
import pandas as pd
from collections import defaultdict


In [4]:

# 성별, 스타일별 이미지를 카운트할 딕셔너리 (Training & Validation 각각)
image_count = {
    'training': defaultdict(lambda: defaultdict(int)),
    'validation': defaultdict(lambda: defaultdict(int))
}


In [5]:

# 데이터 파일 경로 (Training & Validation)
data_paths = [
    ("/home/gyuha_lee/DCC2024/dataset/training_label", 'training'),    # Training 이미지 경로
    ("/home/gyuha_lee/DCC2024/dataset/validation_label", 'validation') # Validation 이미지 경로
]


In [6]:

# 각 경로의 파일들을 순회하며 데이터 파싱
for path, dataset_type in data_paths:
    for filename in os.listdir(path):
        # 파일 이름 예: W_96626_60_minimal_W_008455.json
        parts = os.path.splitext(filename)[0].split('_')
        
        # 성별: 첫 번째 요소 (W or M)
        gender = '여성' if parts[0] == 'W' else '남성'
        
        # 스타일: 네 번째 요소
        style = parts[3]
        
        # 성별 & 스타일 조합의 이미지 수 증가
        image_count[dataset_type][gender][style] += 1


In [7]:

# Training과 Validation 데이터 각각에 대해 통계 데이터를 pandas 데이터프레임으로 변환
def create_dataframe(image_count, dataset_type):
    gender_list = []
    style_list = []
    image_count_list = []

    for gender in image_count[dataset_type]:
        for style, count in image_count[dataset_type][gender].items():
            gender_list.append(gender)
            style_list.append(style)
            image_count_list.append(count)

    # DataFrame 생성
    df = pd.DataFrame({
        '성별': gender_list,
        '스타일': style_list,
        '이미지 수': image_count_list
    })
    return df


In [8]:

# Training 데이터 통계 출력
print("Training 데이터 통계:")
training_df = create_dataframe(image_count, 'training')
print(training_df)


Training 데이터 통계:
    성별             스타일  이미지 수
0   여성        normcore  16411
1   여성        oriental   4573
2   여성  sportivecasual  15918
3   여성         minimal   9652
4   여성             ivy   8778
5   여성     metrosexual   8020
6   여성         classic   5604
7   여성       powersuit  12510
8   여성            bold   9109
9   여성          kitsch   5607
10  여성      genderless   3024
11  여성        cityglam   5199
12  여성           space   2978
13  여성            punk   5454
14  여성          hippie  13692
15  여성            mods   8017
16  여성        feminine  11400
17  여성         ecology   3464
18  여성      athleisure   2583
19  여성          lounge   3310
20  여성   bodyconscious   4125
21  여성          grunge   1805
22  여성          popart   3041
23  여성          hiphop   9006
24  여성        military   2093
25  여성           disco   3115
26  여성        lingerie   2750
27  남성  sportivecasual   7177
28  남성        normcore   6526
29  남성          hippie   1387
30  남성         ecology    470
31  남성          lounge 

In [9]:

# Validation 데이터 통계 출력
print("\nValidation 데이터 통계:")
validation_df = create_dataframe(image_count, 'validation')
print(validation_df)



Validation 데이터 통계:
    성별             스타일  이미지 수
0   여성  sportivecasual   3064
1   여성         classic   1086
2   여성             ivy   1976
3   여성        normcore   2383
4   여성        cityglam    875
5   여성   bodyconscious    748
6   여성           space    593
7   여성     metrosexual   1297
8   여성          hiphop   1651
9   여성        feminine   2083
10  여성        oriental    788
11  여성          kitsch    851
12  여성            mods   1590
13  여성            punk    738
14  여성         minimal   1598
15  여성          popart    558
16  여성          hippie   2751
17  여성            bold   1454
18  여성       powersuit   2269
19  여성        military    318
20  여성        lingerie    404
21  여성           disco    538
22  여성          lounge    440
23  여성          grunge    334
24  여성      athleisure    480
25  여성         ecology    623
26  여성      genderless    453
27  남성  sportivecasual   1087
28  남성          kitsch     91
29  남성          hiphop    333
30  남성         minimal    201
31  남성            bo

In [10]:

# 선택적으로 CSV 파일로 저장 (원하는 경우)
training_df.to_csv('training_fashion_image_statistics.csv', index=False)
validation_df.to_csv('validation_fashion_image_statistics.csv', index=False)