In [None]:
import os
import pandas as pd
import shutil
from sklearn.model_selection import train_test_split
from tqdm import tqdm

In [None]:
csv_path = 'cat_dog.csv' # Caminho do CSV
image_folder = './cat_dog'  # Pasta onde vou salvar as imagens
output_dir = "./split_data" # Pasta com o resultado da separação

data = pd.read_csv(csv_path)

# Definindo o tamanho de cada conjunto (treinamento, validação e teste)
train_size = 0.7
val_size = 0.15
test_size = 0.15

# Splits
train_data, temp_data = train_test_split(data, test_size=(val_size + test_size), stratify=data['labels'])
val_data, test_data = train_test_split(temp_data, test_size=(test_size / (val_size + test_size)), stratify=temp_data['labels'])

# Definição de diretórios
train_dir = os.path.join(output_dir, "train")
val_dir = os.path.join(output_dir, "val")
test_dir = os.path.join(output_dir, "test")

# Função para criar os diretórios
def create_class_dirs(base_dir, classes):
    for cls in classes:
        os.makedirs(os.path.join(base_dir, str(cls)), exist_ok=True)

# criando os diretórios
classes = data['labels'].unique()
create_class_dirs(train_dir, classes)
create_class_dirs(val_dir, classes)
create_class_dirs(test_dir, classes)

# Função para copiar as imagens para os respectivos diretórios
def copy_files(data_split, target_dir):
    for _, row in tqdm(data_split.iterrows(), total=len(data_split)):
        image_name, label = row['image'], row['labels']
        src_path = os.path.join(image_folder, image_name)
        target_class_dir = os.path.join(target_dir, str(label))
        
        if os.path.exists(src_path):
            shutil.copy(src_path, target_class_dir)
        else:
            print(f"Warning: {src_path} não existe!")

# Copiando as imagens para os respectivos diretórios
copy_files(train_data, train_dir)
copy_files(val_data, val_dir)
copy_files(test_data, test_dir)