In [None]:
import os
import random
import shutil

# Установим фиксированный random state для воспроизводимости
random_state = 42
random.seed(random_state)

# Путь к директории с исходным набором данных
path = '/path/to/dataset'
# Путь к директории A1
a1_path = os.path.join(path, 'A1')
images_path = os.path.join(a1_path, 'images')
labels_path = os.path.join(a1_path, 'labels')

# Путь к директориям для validation и train
validation_path = os.path.join(path, 'validation_set')
train_path = os.path.join(path, 'train_set')

# Убедимся, что необходимые директории существуют
os.makedirs(validation_path, exist_ok=True)
os.makedirs(os.path.join(validation_path, 'images'), exist_ok=True)
os.makedirs(os.path.join(validation_path, 'labels'), exist_ok=True)

# Список всех файлов изображений и аннотаций в датасете
image_files = [f for f in os.listdir(images_path) if f.endswith('.jpg')]
annotation_files = [f for f in os.listdir(labels_path) if f.endswith('.txt')]

# Убедимся, что количество изображений и аннотаций совпадает
assert len(image_files) == len(annotation_files), "Количество изображений и аннотаций должно совпадать"

# Выбираем 5000 случайных изображений и соответствующих аннотаций для валидации
validation_indices = random.sample(range(len(image_files)), 5000)

# Копируем выбранные файлы в директорию validation и удаляем их из исходной директории
for idx in validation_indices:
    image_file = image_files[idx]
    annotation_file = annotation_files[idx]
    shutil.move(os.path.join(images_path, image_file), os.path.join(validation_path, 'images', image_file))
    shutil.move(os.path.join(labels_path, annotation_file), os.path.join(validation_path, 'labels', annotation_file))

# Переименовываем директорию A1 в train_set
os.rename(a1_path, train_path)

print("Подвыборка для валидации успешно создана и исходная директория переименована")
