In [1]:
#Autor: Alonso Melgarejo
#Contacto: alonsoraulmgs@gmail.com
#Copyright: Big Data Academy

# Librerías

In [2]:
#Instalamos las librerías
!pip install tf-nightly

Collecting tf-nightly
  Downloading tf_nightly-2.8.0.dev20211021-cp37-cp37m-manylinux2010_x86_64.whl (488.6 MB)
[K     |████████████████████████████████| 488.6 MB 28 kB/s 
Collecting libclang>=9.0.1
  Downloading libclang-12.0.0-py2.py3-none-manylinux1_x86_64.whl (13.4 MB)
[K     |████████████████████████████████| 13.4 MB 236 kB/s 
Collecting keras-nightly~=2.8.0.dev
  Downloading keras_nightly-2.8.0.dev2021102107-py2.py3-none-any.whl (1.3 MB)
[K     |████████████████████████████████| 1.3 MB 42.6 MB/s 
Collecting tensorflow-io-gcs-filesystem>=0.21.0
  Downloading tensorflow_io_gcs_filesystem-0.21.0-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (2.1 MB)
[K     |████████████████████████████████| 2.1 MB 73.0 MB/s 
Collecting tf-estimator-nightly~=2.8.0.dev
  Downloading tf_estimator_nightly-2.8.0.dev2021102108-py2.py3-none-any.whl (462 kB)
[K     |████████████████████████████████| 462 kB 49.8 MB/s 
[?25hCollecting tb-nightly~=2.7.0.a
  Downloading tb_nightly-2.7.0a202110

In [3]:
#Importamos las librerías
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import preprocessing
from tensorflow.keras.preprocessing import image_dataset_from_directory
from tensorflow.keras.utils import to_categorical
import os
import shutil
import numpy as np

# Conexión al repositorio de datos

In [4]:
#Nos conectamos al repositorio de datos
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Configuración de rutas

In [5]:
#Ruta de la carpeta de imágenes de entrenamiento
ruta_imagenes_entrenamiento = '/content/drive/MyDrive/Data/IMAGES_RAW_SPLIT/train'

In [6]:
#Ruta de la carpeta de imágenes de validacion
ruta_imagenes_validacion = '/content/drive/MyDrive/Data/IMAGES_RAW_SPLIT/test'

In [7]:
#Ruta en donde se almacenarán los tensores
ruta_tensores = '/content/drive/MyDrive/Data/TENSORS'

In [8]:
#Ruta en donde se almacenarán los tensores de entrenamiento
ruta_tensores_entrenamiento = '/content/drive/MyDrive/Data/TENSORS/train'

In [9]:
#Ruta en donde se almacenarán los tensores de validacion
ruta_tensores_validacion = '/content/drive/MyDrive/Data/TENSORS/test'

# Configuración de imágenes

In [10]:
#Tipo de canal de color
color_mode="rgb"

In [11]:
#Tamaño de las imágenes en píxeles
image_size=(32, 32)

In [12]:
#El dataset puede tener imágenes que no sean de 32x32, en ese caso se redimenzionaran
interpolation="bilinear"

In [13]:
#Es el parámetro que nos evita el colapso de la memoria RAM, procesaremos las imágenes de 10 en 10
batch_size=10

In [14]:
#La carpeta divide las imágenes en subcategorías, al activar esta opción le estamos diciendo que cada subcarpeta es una categoría
labels="inferred"

In [15]:
#Cada categoría es etiquetada con un número (0, 1, 2)
label_mode="int"

In [16]:
#Finalmente, al momento de tensorizar las imágenes, aleatoriezamos su orden para leerlas en desorden
shuffle=True

# Funciones utilitarias

In [17]:
#Funcion para guardar imagenes como tensores en disco duro
def almacenar_en_disco_como_tensores(tensor, ruta):
  #Si existe, la ruta, la borramos
  if os.path.exists(ruta):
    shutil.rmtree(ruta)

  #Creamos la carpeta en donde guardaremos los archivos de tensores
  os.mkdir(ruta)
  
  #Iteramos los tensores leídos
  index = 0
  for tensor_features, tensor_labels in iter(tensor):
    #Convertimos los features a array
    tensor_features_numpy = tensor_features.numpy()

    #Convertimos los labels a categóricos
    tensor_labels_categorico = to_categorical(tensor_labels, num_classes = len(tensor.class_names))

    #Colocamos los datos en un diccionario
    dataset = {}
    dataset['features'] = tensor_features_numpy
    dataset['labels'] = tensor_labels_categorico
    dataset['metadata'] = tensor.class_names

    #Guardamos los datos tensoriales en un archivo
    dataset_numpy = np.array(dataset)
    np.savez(ruta+'/tensor_' + str(index), dataset_numpy)

    index = index + 1

# Programa [Tensorizar datos de entrenamiento]

In [18]:
#Verificamos si la carpeta de tensores existe
#Si existe, la borramos
if os.path.exists(ruta_tensores):
  shutil.rmtree(ruta_tensores)

#Creamos la ruta
os.mkdir(ruta_tensores)

In [19]:
#Leemos la carpeta de imágenes de entrenamiento como tensores
tensor_entrenamiento = image_dataset_from_directory(
    ruta_imagenes_entrenamiento, #Ruta de la carpeta con imágenes
    color_mode=color_mode, #Tipo de canal de color
    image_size=image_size, #Tamaño de las imágenes
    interpolation=interpolation, #El dataset puede tener imágenes que no sean de 32x32, en ese caso se redimenzionaran
    batch_size=batch_size, #Es el parámetro que nos evita el colapso de la memoria RAM, procesaremos las imágenes de 10 en 10
    labels=labels, #La carpeta divide las imágenes en subcategorías, al activar esta opción le estamos diciendo que cada subcarpeta es una categoría
    label_mode=label_mode, #Cada categoría es etiquetada con un número (0, 1, 2)
    shuffle=shuffle #Finalmente, al momento de tensorizar las imágenes, aleatoriezamos su orden para leerlas en desorden
)

Found 82 files belonging to 3 classes.


In [20]:
#Creamos la carpeta en donde guardaremos los archivos de tensores
os.mkdir(ruta_tensores_entrenamiento)

In [21]:
#Guardamos el tensor en la carpeta
almacenar_en_disco_como_tensores(tensor_entrenamiento, ruta_tensores_entrenamiento)

# Programa [Tensorizar datos de entrenamiento]

In [22]:
#Leemos la carpeta de imágenes de validacio como tensores
tensor_validacion = image_dataset_from_directory(
    ruta_imagenes_validacion, #Ruta de la carpeta con imágenes
    color_mode=color_mode, #Tipo de canal de color
    image_size=image_size, #Tamaño de las imágenes
    interpolation=interpolation, #El dataset puede tener imágenes que no sean de 32x32, en ese caso se redimenzionaran
    batch_size=batch_size, #Es el parámetro que nos evita el colapso de la memoria RAM, procesaremos las imágenes de 10 en 10
    labels=labels, #La carpeta divide las imágenes en subcategorías, al activar esta opción le estamos diciendo que cada subcarpeta es una categoría
    label_mode=label_mode, #Cada categoría es etiquetada con un número (0, 1, 2)
    shuffle=shuffle #Finalmente, al momento de tensorizar las imágenes, aleatoriezamos su orden para leerlas en desorden
)

Found 18 files belonging to 3 classes.


In [23]:
#Creamos la carpeta en donde guardaremos los archivos de tensores
os.mkdir(ruta_tensores_validacion)

In [24]:
#Guardamos el tensor en la carpeta
almacenar_en_disco_como_tensores(tensor_validacion, ruta_tensores_validacion)