# Prepare dataset

## Solo dividir imagenes

In [4]:
import os
import json
import random
from shutil import copyfile

# Ruta de la carpeta que contiene las imágenes
ruta_imagenes = './images'

# Ruta del archivo COCO con las anotaciones
ruta_anotaciones = './coco.json'

# Ruta para almacenar los conjuntos divididos
ruta_destino = './dataset'

# Porcentaje de división
porcentaje_entrenamiento = 80
porcentaje_validacion = 10
porcentaje_prueba = 10

# Crear carpetas de destino si no existen
for carpeta in ['entrenamiento', 'validacion', 'prueba']:
    carpeta_destino = os.path.join(ruta_destino, carpeta)
    os.makedirs(carpeta_destino, exist_ok=True)

# Cargar anotaciones COCO
with open(ruta_anotaciones, 'r') as f:
    data = json.load(f)

# Obtener lista de imágenes
imagenes = data['images']
total_imagenes = len(imagenes)

# Calcular cantidad de imágenes para cada conjunto
cantidad_entrenamiento = int(total_imagenes * (porcentaje_entrenamiento / 100))
cantidad_validacion = int(total_imagenes * (porcentaje_validacion / 100))
cantidad_prueba = total_imagenes - cantidad_entrenamiento - cantidad_validacion

# Mezclar aleatoriamente la lista de imágenes
random.shuffle(imagenes)

# Dividir las imágenes en conjuntos
conjunto_entrenamiento = imagenes[:cantidad_entrenamiento]
conjunto_validacion = imagenes[cantidad_entrenamiento: cantidad_entrenamiento + cantidad_validacion]
conjunto_prueba = imagenes[cantidad_entrenamiento + cantidad_validacion:]

# Función para copiar archivos a las carpetas de destino
def copiar_archivos(conjunto, carpeta_destino):
    for imagen in conjunto:
        nombre_imagen = imagen['file_name']
        ruta_imagen_origen = os.path.join(ruta_imagenes, nombre_imagen)
        ruta_imagen_destino = os.path.join(carpeta_destino, nombre_imagen)
        copyfile(ruta_imagen_origen, ruta_imagen_destino)

# Copiar archivos a las carpetas de destino
copiar_archivos(conjunto_entrenamiento, os.path.join(ruta_destino, 'entrenamiento'))
copiar_archivos(conjunto_validacion, os.path.join(ruta_destino, 'validacion'))
copiar_archivos(conjunto_prueba, os.path.join(ruta_destino, 'prueba'))

print(f'División completada: {cantidad_entrenamiento} imágenes para entrenamiento, {cantidad_validacion} imágenes para validación, {cantidad_prueba} imágenes para prueba.')


División completada: 54 imágenes para entrenamiento, 6 imágenes para validación, 8 imágenes para prueba.


# Dividir image + JSON file

In [6]:
import os
import json
import random
from shutil import copyfile

# Ruta de la carpeta que contiene las imágenes
ruta_imagenes = './images'

# Ruta del archivo COCO con las anotaciones
ruta_anotaciones = './coco.json'

# Ruta para almacenar los conjuntos divididos
ruta_destino = './dataset'

# Porcentaje de división
porcentaje_entrenamiento = 80
porcentaje_validacion = 10
porcentaje_prueba = 10

# Crear carpetas de destino si no existen
for carpeta in ['entrenamiento', 'validacion', 'prueba']:
    carpeta_destino = os.path.join(ruta_destino, carpeta)
    os.makedirs(carpeta_destino, exist_ok=True)

# Cargar anotaciones COCO
with open(ruta_anotaciones, 'r') as f:
    data = json.load(f)

# Obtener lista de imágenes
imagenes = data['images']
total_imagenes = len(imagenes)

# Calcular cantidad de imágenes para cada conjunto
cantidad_entrenamiento = int(total_imagenes * (porcentaje_entrenamiento / 100))
cantidad_validacion = int(total_imagenes * (porcentaje_validacion / 100))
cantidad_prueba = total_imagenes - cantidad_entrenamiento - cantidad_validacion

# Mezclar aleatoriamente la lista de imágenes
random.shuffle(imagenes)

# Dividir las imágenes y las anotaciones en conjuntos
conjunto_entrenamiento = imagenes[:cantidad_entrenamiento]
conjunto_validacion = imagenes[cantidad_entrenamiento: cantidad_entrenamiento + cantidad_validacion]
conjunto_prueba = imagenes[cantidad_entrenamiento + cantidad_validacion:]

def copiar_archivos_y_anotaciones(conjunto, carpeta_destino):
    anotaciones = {'images': [], 'annotations': [], 'categories': data['categories']}
    
    for imagen in conjunto:
        nombre_imagen = imagen['file_name']
        ruta_imagen_origen = os.path.join(ruta_imagenes, nombre_imagen)
        ruta_imagen_destino = os.path.join(carpeta_destino, nombre_imagen)
        copyfile(ruta_imagen_origen, ruta_imagen_destino)

        # Añadir la imagen a las anotaciones
        anotaciones['images'].append(imagen)

        # Añadir las anotaciones asociadas a la imagen
        image_id = imagen['id']
        anotaciones['annotations'].extend([anno for anno in data['annotations'] if anno['image_id'] == image_id])

    # Guardar anotaciones en un archivo JSON
    ruta_json = os.path.join(carpeta_destino, f'coco_annotation_{carpeta.lower()}.json')
    with open(ruta_json, 'w') as f:
        json.dump(anotaciones, f)

# Copiar archivos y anotaciones a las carpetas de destino
copiar_archivos_y_anotaciones(conjunto_entrenamiento, os.path.join(ruta_destino, 'entrenamiento'))
copiar_archivos_y_anotaciones(conjunto_validacion, os.path.join(ruta_destino, 'validacion'))
copiar_archivos_y_anotaciones(conjunto_prueba, os.path.join(ruta_destino, 'prueba'))

print(f'División completada: {cantidad_entrenamiento} imágenes para entrenamiento, {cantidad_validacion} imágenes para validación, {cantidad_prueba} imágenes para prueba.')


División completada: 54 imágenes para entrenamiento, 6 imágenes para validación, 8 imágenes para prueba.
