In [2]:
import os
import shutil
import random
from sklearn.model_selection import train_test_split

def create_validation_set(train_dir, valid_ratio=0.15):
    """
    Создает validation set из training set
    
    Args:
        train_dir: путь к директории с train данными
        valid_ratio: доля данных для validation set
    """
    # Создаем директории для validation set
    valid_dir = train_dir.replace('train', 'valid')
    os.makedirs(os.path.join(valid_dir, 'images'), exist_ok=True)
    os.makedirs(os.path.join(valid_dir, 'labels'), exist_ok=True)
    
    # Получаем список всех изображений
    images = [f for f in os.listdir(os.path.join(train_dir, 'images'))
             if f.endswith(('.jpg', '.png')) and '_aug_' not in f]
    
    # Разделяем на train и validation
    train_images, valid_images = train_test_split(
        images, test_size=valid_ratio, random_state=42
    )
    
    # Перемещаем файлы в validation директорию
    for img_name in valid_images:
        # Перемещаем изображение
        shutil.move(
            os.path.join(train_dir, 'images', img_name),
            os.path.join(valid_dir, 'images', img_name)
        )
        
        # Перемещаем соответствующую разметку
        label_name = img_name.rsplit('.', 1)[0] + '.txt'
        if os.path.exists(os.path.join(train_dir, 'labels', label_name)):
            shutil.move(
                os.path.join(train_dir, 'labels', label_name),
                os.path.join(valid_dir, 'labels', label_name)
            )
    
    print(f"Created validation set with {len(valid_images)} images")
    print(f"Remaining training set: {len(train_images)} images")

if __name__ == "__main__":
    create_validation_set("train")

Created validation set with 175 images
Remaining training set: 991 images
