In [1]:
import os
import shutil
import random
from collections import defaultdict
from tqdm import tqdm

# 원본 true 데이터 경로
base_true_dir = r'D:\golfDataset\스포츠 사람 동작 영상(골프)\Training\Public\male\tf\true'
json_dir = os.path.join(base_true_dir, 'json')
jpg_dir = os.path.join(base_true_dir, 'jpg')

# 저장할 대상 디렉토리
balanced_dir = os.path.join(base_true_dir, 'balanced_true')
save_json_dir = os.path.join(balanced_dir, 'json')
save_jpg_dir = os.path.join(balanced_dir, 'jpg')
os.makedirs(save_json_dir, exist_ok=True)
os.makedirs(save_jpg_dir, exist_ok=True)

# 스윙 단위로 그룹화 (key: 스윙 식별자 ex: '20201116_General_001_DOS_A_M40_MM_001')
swing_groups = defaultdict(list)

for file in os.listdir(json_dir):
    if file.endswith('.json'):
        name_without_ext = file[:-5]  # remove .json
        # 스윙 구분: 마지막 4자리 이전까지 동일하면 같은 스윙
        swing_key = '_'.join(name_without_ext.split('_')[:-1])  # 마지막 번호 제외
        swing_groups[swing_key].append(name_without_ext)

# 스윙 단위로 섞고 선택
swing_keys = list(swing_groups.keys())
random.shuffle(swing_keys)

selected_files = []
frame_count = 0
max_frames = 40000

for swing_key in swing_keys:
    frames = swing_groups[swing_key]
    if frame_count + len(frames) > max_frames:
        break
    selected_files.extend(frames)
    frame_count += len(frames)

print(f"선택된 스윙 수: {len(selected_files)}개 프레임 수: {frame_count}")

# 선택된 json/jpg 복사
for name in tqdm(selected_files, desc="Copying selected swing files"):
    json_src = os.path.join(json_dir, name + '.json')
    jpg_src = os.path.join(jpg_dir, name + '.jpg')
    
    if os.path.exists(json_src):
        shutil.copy2(json_src, os.path.join(save_json_dir, os.path.basename(json_src)))
    else:
        print(f"[!] 누락된 JSON: {json_src}")
        
    if os.path.exists(jpg_src):
        shutil.copy2(jpg_src, os.path.join(save_jpg_dir, os.path.basename(jpg_src)))
    else:
        print(f"[!] 누락된 JPG: {jpg_src}")


선택된 스윙 수: 39968개 프레임 수: 39968


Copying selected swing files: 100%|██████████| 39968/39968 [01:26<00:00, 462.13it/s]
