# HDF5

<font color = 'blue'>
    
   h5py es un paquete de Python que provee una interfaz para el formato de datos binarios HDF5.
    
   HDF5 permite almacenar grandes cantidades de datos numéricos y manipular facilmente esos datos desde numpy (p.e. dividirlo en conjuntos de datos de varios terabytes como si fueran arreglos en numpy).
   
   Miles de conjuntos de datos pueden almacenarse en un solo archivo, categorizarse y etiquetarse como lo desee. 
   
   HDF5 es un contenedor para dos tipos de objetos:
   
   -**Conjuntos de datos**: arreglos de conjuntos de datos---> se trabajan como arreglos en numpy
    
   -**Grupos**: son contenedores similares a carpetas que contienen conjuntos de datos y otros grupos--->se trabajan como diccionarios

## Diccionarios en Python.

Un diccionario en python tiene la forma: 

<font color = 'red'>

dict = {key: value}

<font color = 'black'>

Es un conjunto de pares key, value. Cada key esta asociado con un value. Key y value pueden ser de cualquier tipo. 

Para acceder a un valor del diccionario:


<font color = 'red'>

dict[key] <font color = 'black'>regresa el correcpondiente value. 

**1** abrir un archivo para lectura.

In [2]:
import numpy as np

import h5py

# se tiene acceso al paquete h5py para interactuar con los archivos .h5


f = h5py.File('datasets/train_catvnoncat.h5', 'r')

# se abre el archivo ya existente "train_catvnoncat.h5" que esta dentro de la carpeta "datasets".
# r ---> solo lectura
# se crea como un objeto "f"

 **Recuerda** un archivo h5 actua como un diccionario de python, por tanto, podemos ver sus 'keys':

In [3]:
f.keys()

<KeysViewHDF5 ['list_classes', 'train_set_x', 'train_set_y']>

Basados en la observación, hay tres conjuntos de datos en el archivo: 'list_classes', 'train_set_x' y 'train_set_y'. 
Vamos a examinar cada conjunto de datos.

In [4]:
dset = f['list_classes']
dsetx = f['train_set_x']
dsety = f['train_set_y']

# cada conjunto de datos del archivo se convierte en un objeto


El objeto que obtuvimos no es un arreglo, sino un conjunto de datos HDF5. Al igual que las matrices NumPy, los conjuntos de datos tienen tanto una forma como un tipo de datos:

In [5]:
print(dset.shape, dset.dtype)
print(dsetx.shape, dsetx.dtype)
print(dsety.shape, dsety.dtype)

(2,) |S7
(209, 64, 64, 3) uint8
(209,) int64


También son compatibles con el corte de arreglos. Así es como lee y escribe datos de un conjunto de datos en el archivo:

In [6]:
dset[0], dset[1]


# el objeto dset que viene del conjunto de datos "list_classes" solo tiene dos elementos (es de tamaño (2,)): el 0 y el 1
# asociados a las cadenas de texto:

(b'non-cat', b'cat')

In [7]:
index = 5

dsetx[index]

# llama al elemento "index" del conjunto dsetx

# el conjunto de datos train_set_x que se convirtio al objeto dsetx contiene matrices RGB de 209 imagenes de 64 pixeles 
# por 64 pixeles

# como vimos el tamaño del objeto dsetx es (209, 64, 64, 3) por lo que tiene 209 elementos (matrices RGB de imagenes)
# que se enumeran de 0 a 208.


array([[[ 84,  79,  50],
        [ 84,  79,  51],
        [ 77,  72,  44],
        ...,
        [ 67,  50,  25],
        [ 40,  29,  12],
        [ 37,  26,  12]],

       [[ 99,  93,  59],
        [ 92,  86,  54],
        [ 78,  73,  44],
        ...,
        [ 64,  49,  24],
        [ 45,  31,  14],
        [ 38,  27,  12]],

       [[110, 103,  68],
        [ 99,  94,  60],
        [ 87,  83,  49],
        ...,
        [ 77,  56,  27],
        [ 52,  36,  17],
        [ 39,  28,  14]],

       ...,

       [[ 49,  33,  18],
        [ 48,  33,  19],
        [ 49,  35,  18],
        ...,
        [ 58,  38,  24],
        [ 57,  37,  22],
        [ 61,  38,  22]],

       [[ 47,  31,  19],
        [ 48,  33,  19],
        [ 50,  34,  18],
        ...,
        [ 60,  40,  24],
        [ 60,  38,  22],
        [ 62,  38,  24]],

       [[ 47,  33,  19],
        [ 45,  32,  18],
        [ 48,  32,  19],
        ...,
        [ 65,  40,  23],
        [ 58,  38,  22],
        [ 56,  35,  22]]

In [8]:
index = 20

dsety[index]

# llama al elemento "index" del conjunto dsety

# el conjunto de datos train_set_y que se convirtio al objeto dsety contiene unos y ceros para indicar si 
# una imagen es un gato o no

# 1 --> es un gato
# 0 --> no es un gato

# como vimos el tamaño del objeto dsety es (209, ) por lo que tiene 209 elementos que se enumeran de 0 a 208. 

0

Para **crear** un archivo:

Podemos crear un archivo estableciendo el modo en w cuando se inicializa el objeto File. Algunos otros modos son a (para acceso de lectura / escritura / creación) y r + (para acceso de lectura / escritura). 

In [9]:
k = h5py.File("datasets/prueba.hdf5", "w")


El objeto File tiene un par de métodos. Uno de ellos es create_dataset, que como su nombre lo indica, crea un conjunto de datos de forma y tipo dados.

In [10]:
dataset = k.create_dataset("mydataset", (100,), dtype='i')

# el atributo create_dataset se aplica al objeto k. El conjunto creado en k se nombra mydataset, tiene tamaño 100 
# y es de tipo entero.

In [11]:
# Ejercicio propuesto: Realiza un tratamiento similar al que hicimos al archivo train_catvnoncat.h5 al archivo 
# test_catvnoncat.h5. 