Manejo eficiente de datasets y transformaciones en TensorFlow
===

* *10 min* | Última modificación: Abril 3, 2020.

## Introducción

TF contiene funciones para el manejo eficiente de conjuntos de datos de gran tamaño. Este procesamiento se realiza usando un streaming de datos, tal que no es necesario cargar la totalidad de los datos a memoria para su procesamiento. El esquema es el siguiente (https://www.tensorflow.org/api_docs/python/tf/data/Dataset):

1. Se crea una fuente de datos para los datos de entrada (un objeto de Python, un archivo en disco, etc).

2. Se define el preprocesamiento a aplicar para realizar la transformación de datos.

3. Se itera sobre el dataset (como si fuese un stream) y se procesan los elementos.

## Uso

In [1]:
#
#  Preparación
#
import warnings

warnings.filterwarnings("ignore")

import tensorflow as tf
import numpy as np

print(tf.__version__)

2.1.0


### Conversión de un objeto de Python

In [2]:
#
#  Cada elemento de la lista es convertido en un tensor
#
tensors = tf.data.Dataset.from_tensor_slices([1, 2, 3, 4, 5, 6])

#
# Imprime el contenido
#
for tensor in tensors:
    print(tensor)

tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)


### Conversión del contenido de un archivo

In [3]:
%%writefile demo.txt
linea 1
linea 2
linea 3
linea 4

Overwriting demo.txt


In [4]:
#
#  Lectura del contenido del archivo como tensores
#
tensors = tf.data.TextLineDataset("demo.txt")

#
# Imprime el contenido
#
for tensor in tensors:
    print(tensor, '---', tensor.numpy())

tf.Tensor(b'linea 1', shape=(), dtype=string) --- b'linea 1'
tf.Tensor(b'linea 2', shape=(), dtype=string) --- b'linea 2'
tf.Tensor(b'linea 3', shape=(), dtype=string) --- b'linea 3'
tf.Tensor(b'linea 4', shape=(), dtype=string) --- b'linea 4'
