In [None]:
#Autor: Alonso Melgarejo
#Contacto: alonsoraulmgs@gmail.com
#Copyright: Big Data Academy

In [None]:
#Antes de comenzar deberemos subir a nuestra carpeta Data de Google Drive la carpeta "IMAGES_RAW" que contiene el dataset de imágenes

# Conexión al repositorio de datos

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Librerías

In [2]:
#Importamos las librerías para manipular el sistema de archivos
# Estas librerías nos permite ser agnósticos al sistema de archivos
# Son libreris estadar.
import os
import shutil

# Rutas de los directorios

In [3]:
#Definimos la ruta en donde están las imágenes
ruta_images_raw = '/content/drive/MyDrive/Data/IMAGES_RAW'

In [4]:
#Definimos la ruta en donde colocaremos las imágenes dividadas en entrenamiento y validación
ruta_images_split = '/content/drive/MyDrive/Data/IMAGES_RAW_SPLIT'

# Creación de carpeta "IMAGES_RAW_SPLIT"

In [None]:
#Dentro de esta carpeta crearemos dos subcarpetas:
# "train" en donde colocaremos un porcentaje de imágenes para entrenar el modelo
# "test" en donde colocaremos un porcentaje de imágenes para validar el modelo

In [None]:
#Creamos la ruta
#Si verificamos en nuestro sistema de archivos, veremos la carpeta
#Si lo volvemos a ejecutar, nos mostrará un error, ya que la ruta ya existe
os.mkdir(ruta_images_split)

In [None]:
#Usaremos la función para verificar previamente si existe la ruta
os.path.exists(ruta_images_split)

True

In [None]:
#La manera correcta para crear es:
#Si la ruta no existe, crearla
if not os.path.exists(ruta_images_split):
  os.mkdir(ruta_images_split)

In [None]:
#Dentro de la carpeta deberemos crear dos subcarpetas: train y test
os.mkdir(ruta_images_split+'/train')
os.mkdir(ruta_images_split+'/test')

In [None]:
#Dentro de "train" y "test" deberemos crear las carpetas para cada categoria de las imagenes
#Obtenemos los nombres de los subdirectorios
os.listdir(ruta_images_raw)

['PERRO', 'GATO', 'AVE']

In [None]:
#Almacenaremos esta lista en una variable para iterarla
directorios_categorias = os.listdir(ruta_images_raw)
directorios_categorias

['PERRO', 'GATO', 'AVE']

In [None]:
#Iteramos la variable para crear los subdirectorios
for categoria in directorios_categorias:
  os.mkdir(ruta_images_split+'/train/'+categoria)
  os.mkdir(ruta_images_split+'/test/'+categoria)

# Diviendo las imágenes en entrenamiento y validación

In [None]:
#Para nuestras imágenes, tenemos tres categorías (ave, gato, perro)
#Para cada categoría, un 80% de las imágenes se usarán para entrenar el modelo y un 20% para validar el modelo
#Vamos a implementar manualmente la división para una categoría, luego encapsularemos el código en una función para usarlo en otras categorías

In [None]:
#Para cada categoria, deberemos leer los nombres de archivos
#Definimos el nombre de la categoria
categoria = 'AVE'

In [None]:
#Leemos los nombres de archivos de imagenes
imagenes = os.listdir(ruta_images_raw+'/'+categoria)
imagenes

['AVE_003.jpg',
 'AVE_006.jpg',
 'AVE_002.jpg',
 'AVE_004.jpg',
 'AVE_005.jpg',
 'AVE_017.jpg',
 'AVE_022.jpg',
 'AVE_018.jpg',
 'AVE_029.jpg',
 'AVE_021.jpg',
 'AVE_016.jpg',
 'AVE_015.jpg',
 'AVE_025.jpg',
 'AVE_010.jpg',
 'AVE_020.jpg',
 'AVE_011.jpg',
 'AVE_008.jpg',
 'AVE_032.jpg',
 'AVE_027.jpg',
 'AVE_009.jpg',
 'AVE_031.jpg',
 'AVE_019.jpg',
 'AVE_028.jpg',
 'AVE_030.jpg',
 'AVE_014.jpg',
 'AVE_023.jpg',
 'AVE_013.jpg',
 'AVE_033.jpg',
 'AVE_007.jpg',
 'AVE_024.jpg',
 'AVE_012.jpg',
 'AVE_026.jpg',
 'AVE_001.jpg']

In [None]:
#Tenemos que aleatorizar el orden de este array
#Colocaremos el array en numpy para usar una función utilitaria
#Importamos numpy
import numpy as np

In [None]:
#Convertimos el array en un array de numpy
array_imagenes = np.array(imagenes)
array_imagenes

array(['AVE_003.jpg', 'AVE_006.jpg', 'AVE_002.jpg', 'AVE_004.jpg',
       'AVE_005.jpg', 'AVE_017.jpg', 'AVE_022.jpg', 'AVE_018.jpg',
       'AVE_029.jpg', 'AVE_021.jpg', 'AVE_016.jpg', 'AVE_015.jpg',
       'AVE_025.jpg', 'AVE_010.jpg', 'AVE_020.jpg', 'AVE_011.jpg',
       'AVE_008.jpg', 'AVE_032.jpg', 'AVE_027.jpg', 'AVE_009.jpg',
       'AVE_031.jpg', 'AVE_019.jpg', 'AVE_028.jpg', 'AVE_030.jpg',
       'AVE_014.jpg', 'AVE_023.jpg', 'AVE_013.jpg', 'AVE_033.jpg',
       'AVE_007.jpg', 'AVE_024.jpg', 'AVE_012.jpg', 'AVE_026.jpg',
       'AVE_001.jpg'], dtype='<U11')

In [None]:
#Usamos la función shuffle para aleatoriezar el orden de las imágenes
np.random.shuffle(array_imagenes)
array_imagenes

array(['AVE_009.jpg', 'AVE_008.jpg', 'AVE_029.jpg', 'AVE_033.jpg',
       'AVE_006.jpg', 'AVE_028.jpg', 'AVE_025.jpg', 'AVE_020.jpg',
       'AVE_014.jpg', 'AVE_015.jpg', 'AVE_013.jpg', 'AVE_027.jpg',
       'AVE_004.jpg', 'AVE_019.jpg', 'AVE_031.jpg', 'AVE_012.jpg',
       'AVE_016.jpg', 'AVE_026.jpg', 'AVE_022.jpg', 'AVE_003.jpg',
       'AVE_011.jpg', 'AVE_010.jpg', 'AVE_024.jpg', 'AVE_007.jpg',
       'AVE_017.jpg', 'AVE_023.jpg', 'AVE_030.jpg', 'AVE_018.jpg',
       'AVE_001.jpg', 'AVE_002.jpg', 'AVE_021.jpg', 'AVE_005.jpg',
       'AVE_032.jpg'], dtype='<U11')

In [None]:
#Definimos el porcentaje de datos para validar
porcentaje_test = 0.2

In [None]:
#Obtenemos la cantidad de imágenes que tiene nuestro Dataset para la categoría AVE que estamos procesando
cantidad = array_imagenes.size
cantidad

33

In [None]:
#Obtenemos la cantidad de datos para validar
cantidad_test = int(cantidad * porcentaje_test)
cantidad_test

6

In [None]:
#Cortamos el array para obtener los datos de validación
array_imagenes_test = array_imagenes[0:cantidad_test]
array_imagenes_test

array(['AVE_009.jpg', 'AVE_008.jpg', 'AVE_029.jpg', 'AVE_033.jpg',
       'AVE_006.jpg', 'AVE_028.jpg'], dtype='<U11')

In [None]:
#Cortamos el array para obtener los datos de entrenamiento
array_imagenes_train = array_imagenes[cantidad_test:]
array_imagenes_train

array(['AVE_025.jpg', 'AVE_020.jpg', 'AVE_014.jpg', 'AVE_015.jpg',
       'AVE_013.jpg', 'AVE_027.jpg', 'AVE_004.jpg', 'AVE_019.jpg',
       'AVE_031.jpg', 'AVE_012.jpg', 'AVE_016.jpg', 'AVE_026.jpg',
       'AVE_022.jpg', 'AVE_003.jpg', 'AVE_011.jpg', 'AVE_010.jpg',
       'AVE_024.jpg', 'AVE_007.jpg', 'AVE_017.jpg', 'AVE_023.jpg',
       'AVE_030.jpg', 'AVE_018.jpg', 'AVE_001.jpg', 'AVE_002.jpg',
       'AVE_021.jpg', 'AVE_005.jpg', 'AVE_032.jpg'], dtype='<U11')

In [None]:
#Copiamos las imagenes de entrenamiento a la carpeta de entrenamiento
for archivo in array_imagenes_train:
  shutil.copy2(
      ruta_images_raw+'/'+categoria+'/'+archivo, 
      ruta_images_split+'/train/'+categoria
  )

In [None]:
#Copiamos las imagenes de validacion a la carpeta de validacion
for archivo in array_imagenes_test:
  shutil.copy2(
      ruta_images_raw+'/'+categoria+'/'+archivo, 
      ruta_images_split+'/test/'+categoria
  )

In [None]:
#Crearemos una función que automatice esto

#Adicionalmente a los pasos mostrados, agregaremos un paso para borrar la carpeta por si anteriormente ya la hemos creado
#Importamos esta librería
import shutil

#Definimos nuestra función
def split_files(ruta_images_raw, ruta_images_split, porcentaje_test):
  print("Iniciando proceso...")

  #Verificamos si la carpeta output existe
  #Si existe, la borramos
  if os.path.exists(ruta_images_split):
    shutil.rmtree(ruta_images_split)

  #Creamos la ruta
  os.mkdir(ruta_images_split)

  #Dentro de la carpeta deberemos crear dos subcarpetas: train y test
  os.mkdir(ruta_images_split+'/train')
  os.mkdir(ruta_images_split+'/test')

  #Dentro de "train" y "test" deberemos crear las carpetas para cada categoria de las imagenes
  #Obtenemos los nombres de los subdirectorios
  directorios_categorias = os.listdir(ruta_images_raw)
  directorios_categorias

  #Iteramos la variable para crear los subdirectorios
  for categoria in directorios_categorias:
    os.mkdir(ruta_images_split+'/train/'+categoria)
    os.mkdir(ruta_images_split+'/test/'+categoria)
  
  #Iteramos cada categoría para dividir la data en validacion y entrenamiento
  for categoria in directorios_categorias:
    print("Procesando categoria: "+categoria)

    #Leemos los nombres de archivos de imagenes
    imagenes = os.listdir(ruta_images_raw+'/'+categoria)

    #Lo converitmos en array de numpy
    array_imagenes = np.array(imagenes)

    #Usamos la función shuffle para aleatoriezar el orden de las imágenes
    np.random.shuffle(array_imagenes)

    #Obtenemos la cantidad de imágenes que tiene nuestro Dataset para la categoría AVE que estamos procesando
    cantidad = array_imagenes.size

    #Obtenemos la cantidad de datos para validar
    cantidad_test = int(cantidad * porcentaje_test)
    
    #Hacemos el corte para validar
    array_imagenes_test = array_imagenes[0:cantidad_test]

    #Hacemos el corte para entrenar
    array_imagenes_train = array_imagenes[cantidad_test:]

    #Movemos los archivos a la carpeta de entrenamiento
    for archivo in array_imagenes_test:
      shutil.copy2(ruta_images_raw+'/'+categoria+'/'+archivo, ruta_images_split+'/test/'+categoria)

    #Movemos los archivos a la carpeta de entrenamiento
    for archivo in array_imagenes_train:
      shutil.copy2(ruta_images_raw+'/'+categoria+'/'+archivo, ruta_images_split+'/train/'+categoria)

  print("Proceso finalizado")

In [None]:
#Usamos la función para dividir nuestros datos en entrenamiento y validación
split_files(ruta_images_raw, ruta_images_split, 0.2)

Iniciando proceso...
Procesando categoria: PERRO
Procesando categoria: GATO
Procesando categoria: AVE
Proceso finalizado
