## Carga desde Drive

A continuación se muestra cómo cargar las imágenes asumiendo que están guardadas en Drive y separadas en carpetas para entrenamiento y prueba, cada carpeta con sub-folders para cada clase.

Sólo se ilustra el procedimiento para las imágenes de entrenamiento. Para las de prueba se hace un procedimiento análogo.

También se puede modificar para leer todas las imágenes (sin distinción train/test) y hacer la división de los datos posteriormente.


In [None]:
from google.colab import drive
drive.mount('/content/drive/')

In [None]:
import os
import cv2
import numpy as np
from tqdm import tqdm
from random import shuffle
import matplotlib.pyplot as plt

In [None]:
# lista con los nombres de los sub-folders de cada clase
CATEGORIES = ['clase_1', 'clase_2']
TRAIN_DIR = '/ruta a la carpeta que contiene los sub-folders con las imagenes de entrenamiento'
IMG_SIZE = 50

In [None]:
def create_training_data():

  training_data = []
  for category in CATEGORIES: # para cada sub-folder con cada una de las clases

    path = os.path.join(TRAIN_DIR, category)  # crea ruta a carpetas con las clases
    class_num = CATEGORIES.index(category)  # genera etiqueta numérica según posición de la categoria

    for img in tqdm(os.listdir(path)): # itera sobre cada imagen de cada categoria

      img_array = cv2.imread(os.path.join(path, img), cv2.IMREAD_GRAYSCALE)  # lee imagen en forma de array en escala de grises
      img_array = cv2.resize(img_array, (IMG_SIZE, IMG_SIZE))  # todas la imagenes de igual tamaño
      training_data.append([img_array, class_num])  # agrega el par [imagen, etiqueta] a los datos de entrenamiento

  shuffle(training_data)
  return training_data

In [None]:
training_data = create_training_data()

In [None]:
X_train = []
y_train = []

for features, label in training_data:
  X_train.append(features)
  y_train.append(label)

# forma requerida por keras: (batch_size, dim_1, dim_2, channels), default channels_last
X_train = np.array(X_train).reshape(-1, IMG_SIZE, IMG_SIZE, 1)
y_train = np.array(y_train)

In [None]:
print(X_train.shape)
print(y_train.shape)

El siguiente bloque es para guardar los datos ya listos y no tener que hacer todo el proceso la próxima vez que se quiera trabajar con ellos.

In [None]:
np.save('X_train.npy', X_train)
np.save('y_train.npy', y_train)

Ya teniendo los datos preprocesados guardados, basta solo con montar la unidad, importar las librerías y ejecutar la siguiente celda para cargarlos (las celdas anteriores se pueden omitir).

In [None]:
X_train = np.load('/ruta para imagenes de entrenamiento guardadas/X_train.npy', allow_pickle=True)
y_train = np.load('ruta para etiquetas de entrenamiento guardadas/y_train.npy', allow_pickle=True)

Como los datos son arreglos de numpy, se pueden estandarizar en una sola línea.

In [None]:
X_norm = X_train/255.0

## Desde el equipo (folder comprimido)

In [None]:
from google.colab import files
uploaded = files.upload()

In [None]:
# muestra el directorio actual (print working directory)
!pwd

In [None]:
import zipfile
import io
datos = zipfile.ZipFile(io.BytesIO(uploaded['nombre_folder.zip']), 'r')
datos.extractall()

El resultado de la extracción se guarda en el directorio de trabajo actual. A partir de ahí se puede leer como ya se vió.