In [1]:
#Autor: Alonso Melgarejo
#Contacto: alonsoraulmgs@gmail.com
#Copyright: Big Data Academy

# Librerías

In [2]:
import numpy as np

# Conexión al repositorio de datos

In [3]:
#Nos conectamos a Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Leyendo un archivo tensor

In [4]:
#Definimos la ruta del archivo de features que queremos leer
#Vamos a leer el primer tensor de entrenamiento
ruta = '/content/drive/MyDrive/Data/TENSORS/train/tensor_0.npz'

In [5]:
#Con Numpy, realizamos la lectura
tensor = np.load(ruta, allow_pickle=True)

In [6]:
#Si consultamos la variable, es del tipo NpzFile
#Deberemos extraer los datos que están almacenados en esta variable
type(tensor)

numpy.lib.npyio.NpzFile

In [7]:
#Extracción de la metadata del archivo
metadata = tensor['arr_0'][()]['metadata']
metadata

['AVE', 'GATO', 'PERRO']

In [8]:
#Extracción del tensor de features del archivo
tensor_features = tensor['arr_0'][()]['features']
tensor_features.shape

(10, 32, 32, 3)

In [9]:
#Extracción del tensor de labels del archivo
tensor_labels = tensor['arr_0'][()]['labels']
tensor_labels

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.]], dtype=float32)

# Leyendo todos los archivos de tensores de una carpeta

In [10]:
#Importamos de python la librería que nos permite listar archivos
import glob

In [11]:
#Listamos el contenido de una de las carpetas de archivos tensores
archivos_entrenamiento = glob.glob('/content/drive/MyDrive/Data/TENSORS/train/*')
archivos_entrenamiento

['/content/drive/MyDrive/Data/TENSORS/train/tensor_0.npz',
 '/content/drive/MyDrive/Data/TENSORS/train/tensor_1.npz',
 '/content/drive/MyDrive/Data/TENSORS/train/tensor_2.npz',
 '/content/drive/MyDrive/Data/TENSORS/train/tensor_3.npz',
 '/content/drive/MyDrive/Data/TENSORS/train/tensor_4.npz',
 '/content/drive/MyDrive/Data/TENSORS/train/tensor_5.npz',
 '/content/drive/MyDrive/Data/TENSORS/train/tensor_6.npz',
 '/content/drive/MyDrive/Data/TENSORS/train/tensor_7.npz',
 '/content/drive/MyDrive/Data/TENSORS/train/tensor_8.npz']

In [12]:
#Cada archivo tiene un tensor de 10 imágenes
#Vamos a iterar cada archivo, leer las 10 imágenes e ir acumulándolas en un nuevo tensor

In [13]:
#Variable para acumular los tensores features
x_train = []

In [14]:
#Variable para acumular los tensores labels
y_train = []

In [15]:
#Variable de metadata del archivo
metadata = []

In [16]:
#Iteramos los archivos
index = 0
for archivo in archivos_entrenamiento:
  #Leemos los datos del archivo
  tensor = np.load(archivo, allow_pickle=True)

  #Extracción de la metadata del archivo
  meta = tensor['arr_0'][()]['metadata']
  
  #Extracción del tensor de features del archivo
  tensor_features = tensor['arr_0'][()]['features']

  #Extracción del tensor de labels del archivo
  tensor_labels = tensor['arr_0'][()]['labels']

  #Si es la primera iteración, colocamos los valores en las variables acumulativas
  if index == 0:
    x_train = tensor_features
    y_train = tensor_labels
    metadata = meta
  else:
    x_train = np.concatenate((x_train, tensor_features))
    y_train = np.concatenate((y_train, tensor_labels))

  #Aumentamos el contador de iteraciones
  index = index + 1

In [17]:
#Consultamos las dimensiones del tensor de features para entrenamiento y notaremos que se cargaron las 82 imagenes
x_train.shape

(82, 32, 32, 3)

In [18]:
#Consultamos las dimensiones del tensor de labesls para entrenamiento y notaremos que se cargaron los 82 labels para cada imagen
y_train.shape

(82, 3)

# Función utilitaria para lectura de tensores desde disco

In [19]:
#Definimos la función
def leer_tensor(ruta):
  #Definimos las variables acumulativas
  x = []
  y = []
  metadata = []

  #Listamos el contenido de una de las carpetas de archivos tensores
  lista_de_archivos = glob.glob(ruta)

  #Iteramos los archivos
  index = 0
  for archivo in lista_de_archivos:
    #Leemos los datos del archivo
    tensor = np.load(archivo, allow_pickle=True)

    #Extracción de la metadata del archivo
    meta = tensor['arr_0'][()]['metadata']
    
    #Extracción del tensor de features del archivo
    tensor_features = tensor['arr_0'][()]['features']

    #Extracción del tensor de labels del archivo
    tensor_labels = tensor['arr_0'][()]['labels']

    #Si es la primera iteración, colocamos los valores en las variables acumulativas
    if index == 0:
      x = tensor_features
      y = tensor_labels
      metadata = meta
    else:
      x = np.concatenate((x, tensor_features))
      y = np.concatenate((y, tensor_labels))

    #Aumentamos el contador de iteraciones
    index = index + 1

  #Devolvemos las variables
  return x, y, metadata

# Uso de la función para leer la carpeta de tensores de entrenamiento

In [20]:
#Definimos la ruta de los archivos de tensores de entrenamiento
ruta_tensores_entrenamiento = '/content/drive/MyDrive/Data/TENSORS/train/*'

In [21]:
#Leemos los archivos
x_train, y_train, metadata_train = leer_tensor(ruta_tensores_entrenamiento)

In [22]:
#Features de entrenamiento
x_train.shape

(82, 32, 32, 3)

In [23]:
#Labels de entrenamiento
y_train.shape

(82, 3)

In [24]:
#Metadata
metadata_train

['AVE', 'GATO', 'PERRO']

# Uso de la función para leer la carpeta de tensores de entrenamiento

In [25]:
#Definimos la ruta de los archivos de tensores de validación
ruta_tensores_validacion = '/content/drive/MyDrive/Data/TENSORS/test/*'

In [26]:
#Leemos los archivos
x_test, y_test, metadata_test = leer_tensor(ruta_tensores_validacion)

In [27]:
#Features de validación
x_test.shape

(18, 32, 32, 3)

In [28]:
#Labels de validación
y_test.shape

(18, 3)

In [29]:
#Metadata
metadata_test

['AVE', 'GATO', 'PERRO']