# 라이브러리

In [None]:
import os
import shutil
import pandas as pd
from sklearn.model_selection import train_test_split

# 경로설정

In [None]:
# 이미지와 라벨 경로 설정
image_dir = 'path_to_images'  # 이미지가 있는 디렉토리 경로
label_dir = 'path_to_labels'  # 라벨이 있는 디렉토리 경로
output_dir1 = 'output_dir1'   # 첫 번째 출력 디렉토리
output_dir2 = 'output_dir2'   # 두 번째 출력 디렉토리

# 함수

In [None]:
# 클래스 정보를 읽어오기 (여기서는 라벨 파일의 첫 번째 라인을 읽는다고 가정)
def read_first_class_label(label_file):
    with open(os.path.join(label_dir, label_file), 'r') as file:
        line = file.readline().strip()
        class_label = line.split(' ')[0]  # 클래스 라벨이 첫 번째 요소라고 가정
        return class_label

# 실행

In [None]:
# 모든 이미지와 라벨 파일 리스트 불러오기
image_files = sorted([f for f in os.listdir(image_dir) if f.endswith('.jpg')])
label_files = sorted([f for f in os.listdir(label_dir) if f.endswith('.txt')])

# 이미지 파일과 라벨 파일 매핑
data = pd.DataFrame({'image': image_files, 'label': label_files})

data['class'] = data['label'].apply(read_first_class_label)

# 각 클래스별로 데이터 나누기
output_data1 = pd.DataFrame()
output_data2 = pd.DataFrame()

for class_label, group in data.groupby('class'):
    group1, group2 = train_test_split(group, test_size=0.5, random_state=42)
    output_data1 = pd.concat([output_data1, group1])
    output_data2 = pd.concat([output_data2, group2])

# 첫 번째 폴더로 파일 이동
for _, row in output_data1.iterrows():
    shutil.copy(os.path.join(image_dir, row['image']), os.path.join(output_dir1, row['image']))
    shutil.copy(os.path.join(label_dir, row['label']), os.path.join(output_dir1, row['label']))

# 두 번째 폴더로 파일 이동
for _, row in output_data2.iterrows():
    shutil.copy(os.path.join(image_dir, row['image']), os.path.join(output_dir2, row['image']))
    shutil.copy(os.path.join(label_dir, row['label']), os.path.join(output_dir2, row['label']))

print(f"데이터가 {output_dir1}와 {output_dir2}로 성공적으로 나뉘었습니다.")