<h1 style='font-size:40px'> Loading and Preprocessing Data with TensorFlow</h1>

<h2 style='font-size:30px'> The Data API</h2>
<div> 
    <ul style='font-size:20px'>
        <li> 
            A Data API é um módulo do Tensor Flow voltado ao tratamento de datasets volumosos. É interessante ser usado quando os dados não cabem na memória RAM ou placa de vídeo.
        </li>
        <li> 
            A classe `Dataset` é onde nossos dados são armazenados.
        </li>
    </ul>
</div>

In [9]:
import tensorflow as tf
import tensorflow.keras as keras

# Criando um `Dataset` a partir de um `tf.range`. 
X = tf.range(10)

# Cada número de `X` será encapsulado em um tensor.
dataset = tf.data.Dataset.from_tensor_slices(X)

for item in dataset:
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(7, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(9, shape=(), dtype=int32)


In [10]:
# O mesmo Dataset poderia ter sido montado da seguinte maneira:
dataset = tf.data.Dataset.range(10)

<h3 style='font-size:30px;font-style:italic'> Chaining Transformations</h3>
<div> 
    <ul style='font-size:20px'>
        <li> 
            As funções da classe `Dataset` nunca fazem transformações in-place; sempre retornam um novo objeto.
        </li>
    </ul>
</div>

In [21]:
#  `repeat` repetirá os dados do dataset, enquanto `batch` vai criar uma quantidade n de batches com os dados.
for item in dataset.repeat(3).batch(7):
    # Para evitar que um último batch com os elementos restantes do dataset seja considerado, passe `drop_remainder`=True.
    print(item)

tf.Tensor([0 1 2 3 4 5 6], shape=(7,), dtype=int64)
tf.Tensor([7 8 9 0 1 2 3], shape=(7,), dtype=int64)
tf.Tensor([4 5 6 7 8 9 0], shape=(7,), dtype=int64)
tf.Tensor([1 2 3 4 5 6 7], shape=(7,), dtype=int64)
tf.Tensor([8 9], shape=(2,), dtype=int64)


In [26]:
# `map` aplica uma função por elemento.
list(dataset.map(lambda x: x**2))

[<tf.Tensor: shape=(), dtype=int64, numpy=0>,
 <tf.Tensor: shape=(), dtype=int64, numpy=1>,
 <tf.Tensor: shape=(), dtype=int64, numpy=4>,
 <tf.Tensor: shape=(), dtype=int64, numpy=9>,
 <tf.Tensor: shape=(), dtype=int64, numpy=16>,
 <tf.Tensor: shape=(), dtype=int64, numpy=25>,
 <tf.Tensor: shape=(), dtype=int64, numpy=36>,
 <tf.Tensor: shape=(), dtype=int64, numpy=49>,
 <tf.Tensor: shape=(), dtype=int64, numpy=64>,
 <tf.Tensor: shape=(), dtype=int64, numpy=81>]

<p style='color:red'> Grifado 546</p>