In [None]:
import os
import random
import shutil

# Путь к директории с полным датасетом
full_dataset = '/path/to/full/dataset'
# Путь к директории для подвыборки
subset_path = '/path/to/subset/dataset/train'
validation_path = '/path/to/subset/dataset/validation'
test_path = '/path/to/subset/dataset/test'

# Убедимся, что необходимые директории существуют
os.makedirs(subset_path, exist_ok=True)
os.makedirs(validation_path, exist_ok=True)
os.makedirs(test_path, exist_ok=True)

# Список всех файлов изображений и аннотаций в датасете
image_files = [f for f in os.listdir(full_dataset) if f.endswith('.jpg')]
annotation_files = [f for f in os.listdir(full_dataset) if f.endswith('.txt')]

# Убедимся, что количество изображений и аннотаций совпадает
assert len(image_files) == len(annotation_files), "Количество изображений и аннотаций должно совпадать"

# Функция для копирования файлов
def copy_files(indices, src_path, dst_path):
    for idx in indices:
        image_file = image_files[idx]
        annotation_file = annotation_files[idx]
        shutil.copy(os.path.join(src_path, image_file), os.path.join(dst_path, image_file))
        shutil.copy(os.path.join(src_path, annotation_file), os.path.join(dst_path, annotation_file))

# Выбираем 5000 случайных изображений и соответствующих аннотаций для валидации
validation_indices = random.sample(range(len(image_files)), 5000)
copy_files(validation_indices, full_dataset, validation_path)

# Удаляем файлы, использованные для валидации, из полного набора данных
for idx in sorted(validation_indices, reverse=True):
    os.remove(os.path.join(full_dataset, image_files[idx]))
    os.remove(os.path.join(full_dataset, annotation_files[idx]))

# Обновляем списки файлов после удаления
image_files = [f for f in os.listdir(full_dataset) if f.endswith('.jpg')]
annotation_files = [f for f in os.listdir(full_dataset) if f.endswith('.txt')]

# Выбираем 1000 случайных изображений и соответствующих аннотаций для обучения
train_indices = random.sample(range(len(image_files)), 1000)
copy_files(train_indices, full_dataset, subset_path)

# Выбираем 200 случайных изображений и соответствующих аннотаций для теста из валидационной подвыборки
validation_image_files = [f for f in os.listdir(validation_path) if f.endswith('.jpg')]
validation_annotation_files = [f for f in os.listdir(validation_path) if f.endswith('.txt')]
test_indices = random.sample(range(len(validation_image_files)), 200)
copy_files(test_indices, validation_path, test_path)

print("Подвыборки успешно созданы")
