En el capítulo 2, viste que la carga y el preprocesamiento de datos es una parte importante de cualquier proyecto de aprendizaje automático. Usó Pandas para cargar y explorar el conjunto de datos de viviendas de California (modificado), que se almacenó en un archivo CSV, y aplicó los transformadores de Scikit-Learn para el preprocesamiento. Estas herramientas son bastante convenientes, y probablemente las usarás a menudo, especialmente cuando explores y experimentes con datos.

Sin embargo, al entrenar modelos de TensorFlow en grandes conjuntos de datos, es posible que prefiera utilizar la propia API de carga y preprocesamiento de datos de TensorFlow, llamada tf.data. Es capaz de cargar y procesar previamente datos de manera extremadamente eficiente, leyendo desde múltiples archivos en paralelo utilizando multihilo y colas, barajando y mezclando muestras por lotes, y más. Además, puede hacer todo esto sobre la marcha: carga y preprocesa el siguiente lote de datos a través de múltiples núcleos de CPU, mientras que sus GPU o TPU están ocupados entrenando el lote actual de datos.

La API de tf.data le permite manejar conjuntos de datos que no caben en la memoria, y le permite hacer un uso completo de sus recursos de hardware, acelerando así la formación. Fuera del estante, la API tf.data puede leer desde archivos de texto (como archivos CSV), archivos binarios con registros de tamaño fijo y archivos binarios que utilizan el formato TFRecord de TensorFlow, que admite registros de diferentes tamaños.

TFRecord es un formato binario flexible y eficiente que generalmente contiene búferes de protocolo (un formato binario de código abierto). La API tf.data también es compatible con la lectura de bases de datos SQL. Además, muchas extensiones de código abierto están disponibles para leer desde todo tipo de fuentes de datos, como el servicio BigQuery de Google (consulte https://tensorflow.org/io).

Keras también viene con capas de preprocesamiento potentes pero fáciles de usar que se pueden incrustar en sus modelos: de esta manera, cuando implementa un modelo en producción, podrá ingerir datos sin procesar directamente, sin tener que agregar ningún código de preprocesamiento adicional. Esto elimina el riesgo de desajuste entre el código de preprocesamiento utilizado durante el entrenamiento y el código de preprocesamiento utilizado en la producción, lo que probablemente causaría un sesgo de entrenamiento/servicio. Y si implementa su modelo en múltiples aplicaciones codificadas en diferentes lenguajes de programación, no tendrá que volver a implementar el mismo código de preprocesamiento varias veces, lo que también reduce el riesgo de desajuste.

Como verá, ambas API se pueden utilizar conjuntamente, por ejemplo, para beneficiarse de la carga eficiente de datos que ofrece tf.data y la comodidad de las capas de preprocesamiento de Keras.

En este capítulo, primero cubriremos la API de tf.data y el formato TFRecord. Luego exploraremos las capas de preprocesamiento de Keras y cómo usarlas con la API tf.data. Por último, echaremos un vistazo rápido a algunas bibliotecas relacionadas que pueden resultarle útiles para cargar y procesar datos, como los conjuntos de datos de TensorFlow y TensorFlow Hub. Así que, ¡comencemos!


# La API de tf.data


Toda la API de tf.data gira en torno al concepto de un `tf.data.Dataset`: esto representa una secuencia de elementos de datos. Por lo general, utilizará conjuntos de datos que leen gradualmente los datos del disco, pero por simplicidad, creemos un conjunto de datos a partir de un tensor de datos simple usando `tf.data.Dataset.from_tensor_slices()`:

In [1]:
import tensorflow as tf

X = tf.range(10)  # cualquier tensor de datos
dataset = tf.data.Dataset.from_tensor_slices(X)
dataset

2024-03-14 01:30:32.652103: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE4.1 SSE4.2 AVX AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2024-03-14 01:30:38.766635: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE4.1 SSE4.2 AVX AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


<TensorSliceDataset element_spec=TensorSpec(shape=(), dtype=tf.int32, name=None)>

La función `from_tensor_slices()` toma un tensor y crea un `tf.data.Dataset` cuyos elementos son todos los sectores de `X` a lo largo de la primera dimensión, por lo que este conjunto de datos contiene 10 elementos: tensores 0, 1, 2,…, 9. En este En este caso, habríamos obtenido el mismo conjunto de datos si hubiéramos usado `tf.data.Dataset.range(10)` (excepto que los elementos serían enteros de 64 bits en lugar de enteros de 32 bits).

Simplemente puede iterar sobre los elementos de un conjunto de datos de esta manera:

In [2]:
for item in dataset:
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(7, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(9, shape=(), dtype=int32)


#### NOTA

La API de tf.data es una API de streaming: puedes iterar de manera muy eficiente a través de los elementos de un conjunto de datos, pero la API no está diseñada para indexar o cortar.

#### ----------------------------------------------------------------------------

Un conjunto de datos también puede contener tuplas de tensores, o diccionarios de pares de nombre/tensor, o incluso tuplas anidadas y diccionarios de tensores. Al cortar una tupla, un diccionario o una estructura anidada, el conjunto de datos solo cortará los tensores que contiene, al tiempo que preservará la estructura de tupla/diccionario. Por ejemplo:

In [3]:
X_nested = {"a": ([1, 2, 3], [4, 5, 6]), "b": [7, 8, 9]}
dataset = tf.data.Dataset.from_tensor_slices(X_nested)

for item in dataset:
    print(item)

{'a': (<tf.Tensor: shape=(), dtype=int32, numpy=1>, <tf.Tensor: shape=(), dtype=int32, numpy=4>), 'b': <tf.Tensor: shape=(), dtype=int32, numpy=7>}
{'a': (<tf.Tensor: shape=(), dtype=int32, numpy=2>, <tf.Tensor: shape=(), dtype=int32, numpy=5>), 'b': <tf.Tensor: shape=(), dtype=int32, numpy=8>}
{'a': (<tf.Tensor: shape=(), dtype=int32, numpy=3>, <tf.Tensor: shape=(), dtype=int32, numpy=6>), 'b': <tf.Tensor: shape=(), dtype=int32, numpy=9>}


## Transformaciones de encadenamiento

Una vez que tenga un conjunto de datos, puede aplicarle todo tipo de transformaciones llamando a sus métodos de transformación. Cada método devuelve un nuevo conjunto de datos, por lo que puede encadenar transformaciones como esta (esta cadena se ilustra en la Figura 13-1):

In [4]:
dataset = tf.data.Dataset.from_tensor_slices(tf.range(10))
dataset = dataset.repeat(3).batch(7)
for item in dataset:
    print(item)

tf.Tensor([0 1 2 3 4 5 6], shape=(7,), dtype=int32)
tf.Tensor([7 8 9 0 1 2 3], shape=(7,), dtype=int32)
tf.Tensor([4 5 6 7 8 9 0], shape=(7,), dtype=int32)
tf.Tensor([1 2 3 4 5 6 7], shape=(7,), dtype=int32)
tf.Tensor([8 9], shape=(2,), dtype=int32)


En este ejemplo, primero llamamos al método `repeat()` en el conjunto de datos original y devuelve un nuevo conjunto de datos que repite los elementos del conjunto de datos original tres veces. ¡Por supuesto, esto no copiará todos los datos en la memoria tres veces! Si llama a este método sin argumentos, el nuevo conjunto de datos repetirá el conjunto de datos de origen para siempre, por lo que el código que itera sobre el conjunto de datos tendrá que decidir cuándo detenerse.

Luego llamamos al método `batch()` en este nuevo conjunto de datos y nuevamente esto crea un nuevo conjunto de datos. Éste agrupará los elementos del conjunto de datos anterior en lotes de siete elementos.

![](https://learning.oreilly.com/api/v2/epubs/urn:orm:book:9781098125967/files/assets/mls3_1301.png)

(_Figura 13-1. Encadenar las transformaciones del conjunto de datos_)

Finalmente, iteramos sobre los elementos de este conjunto de datos final. El método `batch()` tenía que generar un lote final de tamaño dos en lugar de siete, pero puede llamar a `batch()` con `drop_remainder=True` si desea que elimine este lote final, de modo que todos los lotes tengan exactamente el mismo tamaño.


#### ADVERTENCIA

Los métodos de los conjuntos de datos no modifican los conjuntos de datos, sino que crean otros nuevos. Así que asegúrese de mantener una referencia a estos nuevos conjuntos de datos (por ejemplo, con `dataset = ...`), o de lo contrario no pasará nada.

#### ------------------------------------------------------------------------

También puedes transformar los elementos llamando al método `map()`. Por ejemplo, esto crea un nuevo conjunto de datos con todos los lotes multiplicados por dos:

In [5]:
dataset = dataset.map(lambda x: x * 2)  # x is a batch

for item in dataset:
    print(item)

tf.Tensor([ 0  2  4  6  8 10 12], shape=(7,), dtype=int32)
tf.Tensor([14 16 18  0  2  4  6], shape=(7,), dtype=int32)
tf.Tensor([ 8 10 12 14 16 18  0], shape=(7,), dtype=int32)
tf.Tensor([ 2  4  6  8 10 12 14], shape=(7,), dtype=int32)
tf.Tensor([16 18], shape=(2,), dtype=int32)


Este método `map()` es al que llamará para aplicar cualquier preprocesamiento a sus datos. A veces, esto incluirá cálculos que pueden ser bastante intensivos, como remodelar o rotar una imagen, por lo que normalmente querrás generar varios subprocesos para acelerar las cosas. Esto se puede hacer estableciendo el argumento `num_parallel_calls` en la cantidad de subprocesos a ejecutar o en `tf.data.AUTOTUNE`. Tenga en cuenta que la función que pase al método `map()` debe poder convertirse en una función TF (consulte el Capítulo 12).

También es posible simplemente filtrar el conjunto de datos utilizando el método `filter()`. Por ejemplo, este código crea un conjunto de datos que solo contiene los lotes cuya suma es superior a 50:

In [6]:
dataset = dataset.filter(lambda x: tf.reduce_sum(x) > 50)

for item in dataset:
    print(item)

tf.Tensor([14 16 18  0  2  4  6], shape=(7,), dtype=int32)
tf.Tensor([ 8 10 12 14 16 18  0], shape=(7,), dtype=int32)
tf.Tensor([ 2  4  6  8 10 12 14], shape=(7,), dtype=int32)


A menudo querrás ver sólo unos pocos elementos de un conjunto de datos. Puedes usar el método `take()` para eso:

In [7]:
for item in dataset.take(2):
    print(item)

tf.Tensor([14 16 18  0  2  4  6], shape=(7,), dtype=int32)
tf.Tensor([ 8 10 12 14 16 18  0], shape=(7,), dtype=int32)


## Alear los datos

Como discutimos en el capítulo 4, el descenso de gradiente funciona mejor cuando las instancias del conjunto de entrenamiento son independientes y están distribuidas de manera idéntica (IID). Una forma sencilla de asegurar esto es mezclar las instancias, utilizando el método shuffle(). Creará un nuevo conjunto de datos que comenzará llenando un búfer con los primeros elementos del conjunto de datos de origen. Luego, cada vez que se le pida un elemento, sacará uno al azar del búfer y lo reemplazará por uno nuevo del conjunto de datos de origen, hasta que haya iterado por completo a través del conjunto de datos de origen. En este punto, continuará sacando artículos al azar del búfer hasta que esté vacío. Debe especificar el tamaño del búfer, y es importante que sea lo suficientemente grande, o de lo contrario, el barajamiento no será muy efectivo.⁠ Simplemente no exceda la cantidad de RAM que tiene, aunque incluso si tiene suficiente, no hay necesidad de ir más allá del tamaño del conjunto de datos. Puedes proporcionar una semilla aleatoria si quieres el mismo orden aleatorio cada vez que ejecutes tu programa. Por ejemplo, el siguiente código crea y muestra un conjunto de datos que contiene los números enteros 0 a 9, repetidos dos veces, mezclado con un búfer de tamaño 4 y una semilla aleatoria de 42, y por lotes con un tamaño de lote de 7:

In [8]:
dataset = tf.data.Dataset.range(10).repeat(2)
dataset = dataset.shuffle(buffer_size=4, seed=42).batch(7)

for item in dataset:
    print(item)

tf.Tensor([1 4 2 3 5 0 6], shape=(7,), dtype=int64)
tf.Tensor([9 8 2 0 3 1 4], shape=(7,), dtype=int64)
tf.Tensor([5 7 9 6 7 8], shape=(6,), dtype=int64)


#### PROPINA

Si llama a `repeat()` en un conjunto de datos mezclado, de forma predeterminada generará un nuevo orden en cada iteración. Generalmente, esto es una buena idea, pero si prefiere reutilizar el mismo orden en cada iteración (por ejemplo, para pruebas o depuración), puede configurar `reshuffle_each_itera⁠tion=False` al llamar a `shuffle()`.

Para un conjunto de datos grande que no cabe en la memoria, este simple enfoque de búfer aleatorio puede no ser suficiente, ya que el búfer será pequeño en comparación con el conjunto de datos. Una solución es mezclar los datos de origen en sí (por ejemplo, en Linux puedes mezclar archivos de texto usando el comando `shuf`). ¡Esto definitivamente mejorará mucho el barajo! Incluso si los datos de origen se barajan, por lo general querrá barajarlos un poco más, o de lo contrario se repetirá el mismo orden en cada época, y el modelo puede terminar siendo sesgado (por ejemplo, debido a algunos patrones espurios presentes por casualidad en el orden de los datos de origen). Para mezclar un poco más las instancias, un enfoque común es dividir los datos de origen en varios archivos y luego leerlos en un orden aleatorio durante el entrenamiento. Sin embargo, las instancias ubicadas en el mismo archivo aún terminarán cerca unas de otras. Para evitar esto, puede elegir varios archivos al azar y leerlos simultáneamente, intercalando sus registros. Además de eso, puedes añadir un búfer de barajar usando el método `shuffle()`. Si esto suena a mucho trabajo, no te preocupes: la API tf.data hace que todo esto sea posible en solo unas pocas líneas de código. Vamos a repasar cómo puedes hacer esto.


## Líneas entrelazar desde varios archivos

En primer lugar, supongamos que ha cargado el conjunto de datos de viviendas de California, lo ha mezclado (a menos que ya se haya barajado) y lo ha dividido en un conjunto de entrenamiento, un conjunto de validación y un conjunto de pruebas. Luego divide cada conjunto en muchos archivos CSV que se ven así (cada fila contiene ocho características de entrada más el valor medio de la casa objetivo):

`MedInc,HouseAge,AveRooms,AveBedrms,Popul...,AveOccup,Lat...,Long...,MedianHouseValue 3.5214,15,0,3.050,1.107,1447.0,1.606,37.63,-122.43,1.442 5.3275,5.0,6.490,0.991,3464.0,3.443,33.69,-117.39,1.687 3.1,29.0,7.542,1.592,1328.0,2.251,38.44,-122.98,1.621 [...]
`

Supongamos también que `train_filepaths` contiene la lista de rutas de archivos de entrenamiento (y también tiene `valid_filepaths` y `test_filepaths`):

In [9]:
train_filepaths

-> ['datasets/housing/my_train_00.csv', 'datasets/housing/my_train_01.csv', ...]

SyntaxError: invalid syntax (1436994433.py, line 3)

Alternativamente, podría usar patrones de archivo; por ejemplo, `train_filepaths ="datasets/housing/my_train_*.csv"` Ahora vamos a crear un conjunto de datos que contenga solo estas rutas de archivo:

In [10]:
filepath_dataset = tf.data.Dataset.list_files(train_filepaths, seed=42)

NameError: name 'train_filepaths' is not defined

De forma predeterminada, la función `list_files()` devuelve un conjunto de datos que mezcla las rutas de los archivos. En general, esto es algo bueno, pero puedes configurar `shuffle=False` si no lo deseas por algún motivo.

A continuación, puede llamar al método `interleave()` para leer cinco archivos a la vez e intercalar sus líneas. También puedes omitir la primera línea de cada archivo (que es la fila del encabezado) usando el método `skip()`:

In [None]:
n_readers = 5
dataset = filepath_dataset.interleave(
    lambda filepath: tf.data.TextLineDataset(filepath).skip(1),
    cycle_length=n_readers)

El método `interleave()` creará un conjunto de datos que extraerá cinco rutas de archivo del `filepath_dataset`, y para cada una llamará a la función que le asignó (una lambda en este ejemplo) para crear un nuevo conjunto de datos (en este caso, un `TextLineDataset`). Para ser claros, en esta etapa habrá siete conjuntos de datos en total: el conjunto de datos de ruta de archivo, el conjunto de datos entrelazados y los cinco conjuntos de datos TextLine creados internamente por el conjunto de datos entrelazados. Cuando itera sobre el conjunto de datos entrelazados, recorrerá estos cinco `TextLineDatasets`, leyendo una línea a la vez de cada uno hasta que todos los conjuntos de datos se queden sin elementos. Luego, buscará las siguientes cinco rutas de archivo del `filepath_dataset` y las intercalará de la misma manera, y así sucesivamente hasta que se quede sin rutas de archivo. Para que el intercalado funcione mejor, es preferible tener archivos de idéntica longitud; de lo contrario, el final del archivo más largo no se intercalará.

De forma predeterminada, `interleave()` no utiliza paralelismo; simplemente lee una línea a la vez de cada archivo, de forma secuencial. Si desea que realmente lea archivos en paralelo, puede configurar el argumento `num_parallel_calls` del método `interleave()` en la cantidad de subprocesos que desee (recuerde que el método map() también tiene este argumento). Incluso puede configurarlo en `tf.data.AUTOTUNE` para que TensorFlow elija dinámicamente la cantidad correcta de subprocesos según la CPU disponible. Veamos qué contiene el conjunto de datos ahora:

In [12]:
for line in dataset.take(5):
    print(line)

tf.Tensor([3 4 2 0 1 8 5], shape=(7,), dtype=int64)
tf.Tensor([6 9 0 3 4 1 6], shape=(7,), dtype=int64)
tf.Tensor([7 5 8 2 7 9], shape=(6,), dtype=int64)


Estas son las primeras filas (ignorando la fila de encabezado) de cinco archivos CSV, elegidos al azar. ¡Se ve bien!

#### NOTA

Es posible pasar una lista de rutas de archivos al constructor `TextLineDataset`: revisará cada archivo en orden, línea por línea. Si también establece el argumento `num_parallel_reads` en un número mayor que uno, entonces el conjunto de datos leerá esa cantidad de archivos en paralelo e intercalará sus líneas (sin tener que llamar al método `interleave()`). Sin embargo, no mezclará los archivos ni se saltará las líneas del encabezado.

#### -------------------------------------------------------------------------

## Preprocesamiento de los datos

Ahora que tenemos un conjunto de datos de vivienda que devuelve cada instancia como un tensor que contiene una cadena de bytes, necesitamos hacer un poco de preprocesamiento, incluido el análisis de las cadenas y el escalado de los datos. Implementemos un par de funciones personalizadas que realizarán este preprocesamiento:

In [None]:
X_mean, X_std = [...]  # mean and scale of each feature in the training set
n_inputs = 8

def parse_csv_line(line):
    defs = [0.] * n_inputs + [tf.constant([], dtype=tf.float32)]
    fields = tf.io.decode_csv(line, record_defaults=defs)
    return tf.stack(fields[:-1]), tf.stack(fields[-1:])

def preprocess(line):
    x, y = parse_csv_line(line)
    return (x - X_mean) / X_std, y

Vamos a revisar este código:

+ Primero, el código supone que hemos calculado previamente la media y la desviación estándar de cada característica en el conjunto de entrenamiento. `X_mean` y `X_std` son solo tensores 1D (o matrices NumPy) que contienen ocho flotantes, uno por característica de entrada. Esto se puede hacer utilizando Scikit-Learn `StandardScaler` en una muestra aleatoria suficientemente grande del conjunto de datos. Más adelante en este capítulo, usaremos una capa de preprocesamiento de Keras.

- La función `parse_csv_line()` toma una línea CSV y la analiza. Para ayudar con eso, utiliza la función `tf.io.decode_csv()`, que toma dos argumentos: el primero es la línea a analizar y el segundo es una matriz que contiene el valor predeterminado para cada columna en el archivo CSV. Esta matriz (`defs`) le dice a TensorFlow no solo el valor predeterminado para cada columna, sino también el número de columnas y sus tipos. En este ejemplo, le decimos que todas las columnas de características son flotantes y que los valores faltantes deben ser cero por defecto, pero proporcionamos una matriz vacía de tipo `tf.float32` como valor predeterminado para la última columna (el destino): la matriz le dice a TensorFlow que esta columna contiene flotantes, pero que no hay un valor predeterminado, por lo que generará una excepción si encuentra un valor faltante.

+ La función `tf.io.decode_csv()` devuelve una lista de tensores escalares (uno por columna), pero necesitamos devolver una matriz de tensores 1D. Entonces llamamos a `tf.stack()` en todos los tensores excepto en el último (el objetivo): esto apilará estos tensores en una matriz 1D. Luego hacemos lo mismo con el valor objetivo: esto lo convierte en una matriz tensorial 1D con un valor único, en lugar de un tensor escalar. La función `tf.io.decode_csv()` está completa, por lo que devuelve las características de entrada y el objetivo.

- Finalmente, la función `preprocess()` personalizada simplemente llama a la función `parse_csv_line()`, escala las características de entrada restando las medias de las características y luego dividiéndolas por las desviaciones estándar de las características, y devuelve una tupla que contiene las características escaladas y el objetivo.

Vamos a probar esta función de preprocesamiento:

In [15]:
preprocess(b'4.2083,44.0,5.3232,0.9171,846.0,2.3370,37.47,-122.2,2.782')

'''
(<tf.Tensor: shape=(8,), dtype=float32, numpy=
 array([ 0.16579159,  1.216324  , -0.05204564, -0.39215982, -0.5277444 ,
        -0.2633488 ,  0.8543046 , -1.3072058 ], dtype=float32)>,
 <tf.Tensor: shape=(1,), dtype=float32, numpy=array([2.782], dtype=float32)>)
'''

NameError: name 'preprocess' is not defined

¡Se ve bien! La función `preprocess()` puede convertir una instancia de una cadena de bytes a un tensor escalado agradable, con su etiqueta correspondiente. Ahora podemos usar el método `map()` del conjunto de datos para aplicar la función `preprocess()` a cada muestra del conjunto de datos.


## Juntandolo todo

Para hacer que el código sea más reutilizable, juntemos todo lo que hemos discutido hasta ahora en otra función de ayuda; creará y devolverá un conjunto de datos que cargará de manera eficiente los datos de vivienda de California de múltiples archivos CSV, los procesará previamente, los barajará y los agrupará por lotes (ver Figura 13-2):

In [16]:
def csv_reader_dataset(filepaths, n_readers=5, n_read_threads=None,
                       n_parse_threads=5, shuffle_buffer_size=10_000, seed=42,
                       batch_size=32):
    dataset = tf.data.Dataset.list_files(filepaths, seed=seed)
    dataset = dataset.interleave(
        lambda filepath: tf.data.TextLineDataset(filepath).skip(1),
        cycle_length=n_readers, num_parallel_calls=n_read_threads)
    dataset = dataset.map(preprocess, num_parallel_calls=n_parse_threads)
    dataset = dataset.shuffle(shuffle_buffer_size, seed=seed)
    return dataset.batch(batch_size).prefetch(1)

Tenga en cuenta que utilizamos el método `prefetch()` en la última línea. Esto es importante para el rendimiento, como verá ahora.

![](https://learning.oreilly.com/api/v2/epubs/urn:orm:book:9781098125967/files/assets/mls3_1302.png)

(_Figura 13-2. Carga y preprocesamiento de datos de varios archivos CSV_)


## Pre-recarga

Al llamar a `prefetch(1)` al final de la función personalizada `csv_reader_dataset()`, estamos creando un conjunto de datos que hará todo lo posible para estar siempre un lote por delante.⁠2 En otras palabras, mientras nuestro algoritmo de entrenamiento está trabajando en un lote, el conjunto de datos ya estará trabajando en paralelo para preparar el siguiente lote (por ejemplo, leyendo los datos del disco y preprocesándolos). Esto puede mejorar drásticamente el rendimiento, como se ilustra en la Figura 13-3.

Si también nos aseguramos de que la carga y el preprocesamiento sean multiproceso (al configurar `num_parallel_calls` al llamar a `interleave()` y `map()`), podemos explotar múltiples núcleos de CPU y, con suerte, hacer que la preparación de un lote de datos sea más corta que ejecutar un paso de entrenamiento en la GPU: esto De esta manera, la GPU se utilizará casi al 100% (excepto el tiempo de transferencia de datos de la CPU a la GPU⁠3) y el entrenamiento se ejecutará mucho más rápido.

![](https://learning.oreilly.com/api/v2/epubs/urn:orm:book:9781098125967/files/assets/mls3_1303.png)

(_Figura 13-3. Con la precarga, la CPU y la GPU funcionan en paralelo: como la GPU funciona en un lote, la CPU funciona en el siguiente_)

#### TIP

Si planea comprar una tarjeta GPU, su potencia de procesamiento y su tamaño de memoria son, por supuesto, muy importantes (en particular, una gran cantidad de RAM es crucial para grandes modelos de visión por ordenador o de procesamiento de lenguaje natural). Igualmente importante para un buen rendimiento es el ancho de banda de memoria de la GPU; este es el número de gigabytes de datos que puede entrar o salir de su RAM por segundo.

#### --------------------------------------------------------

Si el conjunto de datos es lo suficientemente pequeño como para caber en la memoria, puede acelerar significativamente el entrenamiento utilizando el método `cache()` del conjunto de datos para almacenar en caché su contenido en la RAM. Por lo general, debe hacer esto después de cargar y preprocesar los datos, pero antes de mezclarlos, repetirlos, agruparlos y buscarlos previamente. De esta manera, cada instancia solo se leerá y preprocesará una vez (en lugar de una vez por época), pero los datos se seguirán mezclando de forma diferente en cada época y el siguiente lote se seguirá preparando con antelación.

Ahora ha aprendido cómo crear canales de entrada eficientes para cargar y preprocesar datos de múltiples archivos de texto. Hemos analizado los métodos de conjuntos de datos más comunes, pero hay algunos más que quizás quieras ver, como `concatenate()`, `zip()`, `window()`, `reduce()`, `shard()`, `flat_map()`, `apply( )`, `desbatch()` y `padded_batch()`. También hay algunos métodos de clase más, como `from_generator()` y `from_ten⁠sors()`, que crean un nuevo conjunto de datos a partir de un generador de Python o una lista de tensores, respectivamente. Consulte la documentación de la API para obtener más detalles. También tenga en cuenta que hay funciones experimentales disponibles en `tf.data.experimental`, muchas de las cuales probablemente llegarán a la API principal en futuras versiones (por ejemplo, consulte la clase `CsvDataset`, así como el método `make_csv_dataset()`, que se encarga de de inferir el tipo de cada columna).


## Uso del conjunto de datos con Keras

Ahora podemos usar la función personalizada `csv_reader_dataset()` que escribimos anteriormente para crear un conjunto de datos para el conjunto de entrenamiento, y para el conjunto de validación y el conjunto de prueba. El conjunto de entrenamiento se barajará en cada época (tenga en cuenta que el conjunto de validación y el conjunto de prueba también se barajarán, aunque realmente no los necesitamos):

In [None]:
train_set = csv_reader_dataset(train_filepaths)
valid_set = csv_reader_dataset(valid_filepaths)
test_set = csv_reader_dataset(test_filepaths)

Ahora puedes simplemente construir y entrenar un modelo de Keras usando estos conjuntos de datos. Cuando llamas al método `fit()` del modelo, pasas train_set en lugar de `X_train`, `y_train`, y pasas `validation_data=valid_set` en lugar de `validation_data=(X_valid, y_valid)`. El método `fit()` se encargará de repetir el conjunto de datos de entrenamiento una vez por época, utilizando un orden aleatorio diferente en cada época:

In [None]:
model = tf.keras.Sequential([...])
model.compile(loss="mse", optimizer="sgd")
model.fit(train_set, validation_data=valid_set, epochs=5)

Simiarmente, puedes pasar el dataset a los métodos `evaluate` y `predict`:

In [None]:
test_mse = model.evaluate(test_set)
new_set = test_set.take(3)  # pretend we have 3 new samples
y_pred = model.predict(new_set)  # or you could just pass a NumPy array

A diferencia de los otros conjuntos, el `new_set` normalmente no contendrá etiquetas. Si es así, como es el caso aquí, Keras los ignorará. Tenga en cuenta que en todos estos casos, aún puede usar matrices NumPy en lugar de conjuntos de datos si lo prefiere (pero, por supuesto, primero deben haberse cargado y preprocesado).

Si desea construir su propio bucle de entrenamiento personalizado (como se discute en el capítulo 12), puede iterar sobre el conjunto de entrenamiento, de forma muy natural:

In [None]:
n_epochs = 5
for epoch in range(n_epochs):
    for X_batch, y_batch in train_set:
        [...]  # perform one gradient descent step

De hecho, incluso es posible crear una función TF (ver Capítulo 12) que entrene el modelo para toda una época. Esto realmente puede acelerar el entrenamiento:

In [None]:
@tf.function
def train_one_epoch(model, optimizer, loss_fn, train_set):
    for X_batch, y_batch in train_set:
        with tf.GradientTape() as tape:
            y_pred = model(X_batch)
            main_loss = tf.reduce_mean(loss_fn(y_batch, y_pred))
            loss = tf.add_n([main_loss] + model.losses)
        gradients = tape.gradient(loss, model.trainable_variables)
        optimizer.apply_gradients(zip(gradients, model.trainable_variables))

optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)
loss_fn = tf.keras.losses.mean_squared_error
for epoch in range(n_epochs):
    print("\rEpoch {}/{}".format(epoch + 1, n_epochs), end="")
    train_one_epoch(model, optimizer, loss_fn, train_set)

En Keras, el argumento `steps_per_execution` del método `compile()` le permite definir el número de lotes que procesará el método `fit()` durante cada llamada a la función `tf.function` utiliza para el entrenamiento. El valor predeterminado es sólo 1, por lo que si lo configura en 50, a menudo verá una mejora significativa en el rendimiento. Sin embargo, los métodos `on_batch_*()` de las devoluciones de llamada de Keras solo se llamarán cada 50 lotes.

¡Enhorabuena, ahora sabes cómo construir potentes tuberías de entrada usando la API tf.data! Sin embargo, hasta ahora hemos estado utilizando archivos CSV, que son comunes, simples y convenientes, pero no realmente eficientes, y no admiten muy bien estructuras de datos grandes o complejas (como imágenes o audio). Así que, veamos cómo usar TFRecords en su lugar.

#### TIP

Si está satisfecho con los archivos CSV (o cualquier otro formato que esté utilizando), no tiene que usar TFRecords. Como dice el refrán, si no está roto, ¡no lo arregles! Los TFRecords son útiles cuando el cuello de botella durante el entrenamiento está cargando y anandando los datos.

#### --------------------------------------------------

# El formato TFRecord

El formato TFRecord es el formato preferido de TensorFlow para almacenar grandes cantidades de datos y leerlos de manera eficiente. Es un formato binario muy simple que solo contiene una secuencia de registros binarios de diferentes tamaños (cada registro se compone de una longitud, una suma de comprobación de CRC para comprobar que la longitud no estaba dañada, luego los datos reales y, finalmente, una suma de comprobación de CRC para los datos). Puedes crear fácilmente un archivo TFRecord usando la clase `tf.io.TFRecordWriter`:

In [18]:
with tf.io.TFRecordWriter("my_data.tfrecord") as f:
    f.write(b"This is the first record")
    f.write(b"And this is the second record")

Y luego puedes usar `tf.data.TFRecordDataset` para leer uno o más archivos TFRecord:

In [19]:
filepaths = ["my_data.tfrecord"]
dataset = tf.data.TFRecordDataset(filepaths)
for item in dataset:
    print(item)

tf.Tensor(b'This is the first record', shape=(), dtype=string)
tf.Tensor(b'And this is the second record', shape=(), dtype=string)


Esto mostrará:

In [None]:
tf.Tensor(b'Este es el primer registro', shape=(), dtype=string) tf.Tensor(b'Y este es el segundo registro', shape=(), dtype=string)

#### TIP

De forma predeterminada, un `TFRecordDataset` leerá los archivos uno por uno, pero puede hacer que lea varios archivos en paralelo e intercalar sus registros pasando al constructor una lista de rutas de archivos y configurando `num_parallel_reads` en un número mayor que uno. Alternativamente, puede obtener el mismo resultado usando `list_files()` e `interleave()` como hicimos antes para leer múltiples archivos CSV.

#### --------------------------------------------------------


## Archivos TFRecord comprimidos

A veces puede ser útil comprimir sus archivos TFRecord, especialmente si necesitan ser cargados a través de una conexión de red. Puedes crear un archivo TFRecord comprimido estableciendo el argumento `options`:

In [22]:
options = tf.io.TFRecordOptions(compression_type="GZIP")
with tf.io.TFRecordWriter("my_compressed.tfrecord", options) as f:
    f.write(b"Compress, compress, compress!")

Al leer un archivo TFRecord comprimido, debe especificar el tipo de compresión:

In [25]:
dataset = tf.data.TFRecordDataset(["my_compressed.tfrecord"],
                                  compression_type="GZIP")

## Una breve introducción a los búferes de protocolo

A pesar de que cada registro puede usar cualquier formato binario que desee, los archivos TFRecord suelen contener búferes de protocolo serializados (también llamados protobufs). Este es un formato binario portátil, extensible y eficiente desarrollado en Google en 2001 y hecho de código abierto en 2008; los protobufs ahora se utilizan ampliamente, en particular en gRPC, el sistema de llamadas de procedimientos remotos de Google. Se definen usando un lenguaje simple que se ve así:

In [None]:
syntax = "proto3";
message Person {
    string name = 1;
    int32 id = 2;
    repeated string email = 3;
}

Esta definición de protobuf dice que estamos usando la versión 3 del formato protobuf y especifica que cada objeto `Person` puede (opcionalmente) tener un nombre `name` de tipo cadena, una identificación de tipo int32 y cero o más campos de correo electrónico `email`, cada uno de tipo cadena. Los números `1, 2 y 3` son los identificadores de campo: se utilizarán en la representación binaria de cada registro. Una vez que tenga una definición en un archivo .proto, puede compilarlo. Esto requiere `protoc`, el compilador de protobuf, para generar clases de acceso en Python (o algún otro lenguaje). Tenga en cuenta que las definiciones de protobuf que generalmente usará en TensorFlow ya han sido compiladas para usted y sus clases de Python son parte de la biblioteca de TensorFlow, por lo que no necesitará usar `protoc`. Todo lo que necesitas saber es cómo usar las clases de acceso de protobuf en Python. Para ilustrar los conceptos básicos, veamos un ejemplo simple que utiliza las clases de acceso generadas para el protobuf Person (el código se explica en los comentarios):

In [None]:
from person_pb2 import Person  # import the generated access class

person = Person(name="Al", id=123, email=["a@b.com"])  # create a Person
print(person)  # display the Person

'''
name: "Al"
id: 123
email: "a@b.com"
'''

person.name  # read a field

'''
'Al'
'''

person.name = "Alice"  # modify a field
person.email[0]  # repeated fields can be accessed like arrays

'''
'a@b.com'
'''

person.email.append("c@d.com")  # add an email address
serialized = person.SerializeToString()  # serialize person to a byte string
serialized

'''
b'\n\x05Alice\x10{\x1a\x07a@b.com\x1a\x07c@d.com'
'''

person2 = Person()  # create a new Person
person2.ParseFromString(serialized)  # parse the byte string (27 bytes long)

'''
27
'''

person == person2  # now they are equal

'''
True
'''

En resumen, importamos la clase `Person` generada por `protoc`, creamos una instancia y jugamos con ella, visualizándola y leyendo y escribiendo algunos campos, luego la serializamos usando el método `SerializeToString()`. Estos son los datos binarios que están listos para ser guardados o transmitidos a través de la red. Al leer o recibir estos datos binarios, podemos analizarlos usando el método ParseFromString() y obtenemos una copia del objeto que fue serializado.⁠

Puede guardar el objeto `Person` serializado en un archivo TFRecord, luego cargarlo y analizarlo: todo funcionaría bien. Sin embargo, `ParseFromString()` no es una operación de TensorFlow, por lo que no podría usarlo en una función de preprocesamiento en una canalización tf.data (excepto envolviéndolo en una operación `tf.py_function()`, lo que haría que el código fuera más lento y menos portátil, como vio en el Capítulo 12). Sin embargo, puede usar la función `tf.io.decode_proto()`, que puede analizar cualquier protobuf que desee, siempre que le dé la definición de protobuf (consulte el cuaderno para ver un ejemplo). Dicho esto, en la práctica generalmente querrás utilizar los protobufs predefinidos para los cuales TensorFlow proporciona operaciones de análisis dedicadas. Veamos ahora estos protobufs predefinidos.


## TensorFlow Protobufs

El protobuf principal que se utiliza normalmente en un archivo TFRecord es el protobuf `Example`, que representa una instancia en un conjunto de datos. Contiene una lista de características con nombre, donde cada característica puede ser una lista de cadenas de bytes, una lista de flotantes o una lista de números enteros. Aquí está la definición de protobuf (del código fuente de TensorFlow):

In [None]:
syntax = "proto3";
message BytesList { repeated bytes value = 1; }
message FloatList { repeated float value = 1 [packed = true]; }
message Int64List { repeated int64 value = 1 [packed = true]; }
message Feature {
    oneof kind {
        BytesList bytes_list = 1;
        FloatList float_list = 2;
        Int64List int64_list = 3;
    }
};
message Features { map<string, Feature> feature = 1; };
message Example { Features features = 1; };

Las definiciones de `BytesList`, `FloatList` e `Int64List` son bastante sencillas. Tenga en cuenta que `[packed = true]` se utiliza para campos numéricos repetidos, para una codificación más eficiente. Una `Feature` contiene una `BytesList`, una `FloatList` o una `Int64List`. Una característica (con una `s`) contiene un diccionario que asigna un nombre de característica al valor de característica correspondiente. Y finalmente, un `Example` contiene solo un objeto `Features`.

#### NOTA

¿Por qué se definió Ejemplo, ya que no contiene más que un objeto `Features`? Bueno, es posible que algún día los desarrolladores de TensorFlow decidan agregarle más campos. Siempre que la nueva definición de ejemplo todavía contenga el campo de `features`, con el mismo ID, será compatible con versiones anteriores. Esta extensibilidad es una de las grandes características de los protobufs.

#### ------------------------------------

Así es como puedes crear un `tf.train.Example` que represente a la misma persona que antes:

In [None]:
from tensorflow.train import BytesList, FloatList, Int64List
from tensorflow.train import Feature, Features, Example

person_example = Example(
    features=Features(
        feature={
            "name": Feature(bytes_list=BytesList(value=[b"Alice"])),
            "id": Feature(int64_list=Int64List(value=[123])),
            "emails": Feature(bytes_list=BytesList(value=[b"a@b.com",
                                                          b"c@d.com"]))
        }))

El código es un poco detallado y repetitivo, pero podrías envolverlo fácilmente dentro de una pequeña función de ayuda. Ahora que tenemos un protobuf `Example`, podemos serializarlo llamando a su método `SerializeToString()`, y luego escribir los datos resultantes en un archivo TFRecord. Escribámoslo cinco veces para fingir que tenemos varios contactos:

In [None]:
with tf.io.TFRecordWriter("my_contacts.tfrecord") as f:
    for _ in range(5):
        f.write(person_example.SerializeToString())

¡Normalmente escribirías mucho más de cinco `Examples`! Por lo general, crearía un script de conversión que lea su formato actual (por ejemplo, archivos CSV), cree un protobuf de `Example` para cada instancia, los serialice y los guarde en varios archivos TFRecord, idealmente mezclándolos en el proceso. Esto requiere un poco de trabajo, así que una vez más asegúrese de que sea realmente necesario (quizás su canalización funcione bien con archivos CSV).

Ahora que tenemos un buen archivo TFRecord que contiene varios ejemplos serializados, intentamos cargarlo.


## Ejemplos de carga y análisis

Para cargar los protobufs de ejemplo serializados, usaremos `tf.data.TFRecordDataset` una vez más y analizaremos cada ejemplo usando `tf.io.parse_single_example()`. Requiere al menos dos argumentos: un tensor escalar de cadena que contenga los datos serializados y una descripción de cada característica. La descripción es un diccionario que asigna cada nombre de característica a un descriptor `tf.io.FixedLenFeature` que indica la forma, el tipo y el valor predeterminado de la característica, o a un descriptor `tf.io.VarLenFeature` que indica solo el tipo si la longitud de la lista de características puede varían (como para la función `"emails"`).

El siguiente código define un diccionario de descripción, luego crea un `TFRecordDataset` y le aplica una función de preprocesamiento personalizada para analizar cada protobuf de `Example` serializado que contiene este conjunto de datos:

In [None]:
feature_description = {
    "name": tf.io.FixedLenFeature([], tf.string, default_value=""),
    "id": tf.io.FixedLenFeature([], tf.int64, default_value=0),
    "emails": tf.io.VarLenFeature(tf.string),
}

def parse(serialized_example):
    return tf.io.parse_single_example(serialized_example, feature_description)

dataset = tf.data.TFRecordDataset(["my_contacts.tfrecord"]).map(parse)
for parsed_example in dataset:
    print(parsed_example)

Las características de longitud fija se ananzan como tensores regulares, pero las características de longitud variable se ananizan como tensores dispersos. Puedes convertir un tensor disperso en un tensor denso usando `tf.sparse.to_dense()`, pero en este caso es más sencillo acceder a sus valores:

In [None]:
tf.sparse.to_dense(parsed_example["emails"], default_value=b"")
#<tf.Tensor: [...] dtype=string, numpy=array([b'a@b.com', b'c@d.com'], [...])>

parsed_example["emails"].values
#<tf.Tensor: [...] dtype=string, numpy=array([b'a@b.com', b'c@d.com'], [...])>

En lugar de analizar los ejemplos uno por uno usando `tf.io.parse_single_example()`, es posible que desee analizarlos por lote usando `tf.io.parse_example()`:

In [None]:
def parse(serialized_examples):
    return tf.io.parse_example(serialized_examples, feature_description)

dataset = tf.data.TFRecordDataset(["my_contacts.tfrecord"]).batch(2).map(parse)
for parsed_examples in dataset:
    print(parsed_examples)  # two examples at a time

Por último, una `BytesList` puede contener cualquier dato binario que desee, incluido cualquier objeto serializado. Por ejemplo, puede usar `tf.io.encode_jpeg()` para codificar una imagen usando el formato JPEG y colocar estos datos binarios en una `BytesList`. Más tarde, cuando su código lea TFRecord, comenzará analizando el `Example`, luego necesitará llamar a tf.io.decode_jpeg() para analizar los datos y obtener la imagen original (o puede usar `tf.io.decode_image( )`, que puede decodificar cualquier imagen BMP, GIF, JPEG o PNG). También puede almacenar cualquier tensor que desee en `BytesList` serializando el tensor usando `tf.io.serialize_tensor()` y luego colocando la cadena de bytes resultante en una función BytesList. Más adelante, cuando analice TFRecord, podrá analizar estos datos usando `tf.io.parse_tensor()`. Consulte el cuaderno de este capítulo en https://homl.info/colab3 para ver ejemplos de cómo almacenar imágenes y tensores en un archivo TFRecord.

Como puede ver, el protobuf de `Example` es bastante flexible, por lo que probablemente será suficiente para la mayoría de los casos de uso. Sin embargo, puede resultar un poco engorroso de utilizar cuando se trata de listas de listas. Por ejemplo, supongamos que desea clasificar documentos de texto. Cada documento se puede representar como una lista de oraciones, donde cada oración se representa como una lista de palabras. Y quizás cada documento también tenga una lista de comentarios, donde cada comentario se representa como una lista de palabras. También puede haber algunos datos contextuales, como el autor, el título y la fecha de publicación del documento. El protobuf `SequenceExample` de TensorFlow está diseñado para tales casos de uso.

## Manejo de listas utilizando el ejemplo de secuencia Protobuf

Aquí está la definición del protobuf `SequenceExample`:

In [None]:
message FeatureList { repeated Feature feature = 1; };
message FeatureLists { map<string, FeatureList> feature_list = 1; };
message SequenceExample {
    Features context = 1;
    FeatureLists feature_lists = 2;
};

Un `SequenceExample` contiene un objeto `Features` para los datos contextuales y un objeto `FeatureLists` que contiene uno o más objetos `FeatureList` con nombre (por ejemplo, una FeatureList denominada `"content"` y otra denominada `"comments"`). Cada `FeatureList` contiene una lista de objetos `Feature`, cada uno de los cuales puede ser una lista de cadenas de bytes, una lista de enteros de 64 bits o una lista de flotantes (en este ejemplo, cada `Feature` representaría una oración o un comentario, tal vez en en forma de lista de identificadores de palabras). Crear un `SequenceExample`, serializarlo y analizarlo es similar a crear, serializar y analizar un ejemplo, pero debe usar `tf.io.parse_single_sequence_example()` para analizar un único SequenceExample o `tf.io.parse_sequence_example()` para analizar un lote . Ambas funciones devuelven una tupla que contiene las características del contexto (como un diccionario) y las listas de características (también como un diccionario). Si las listas de características contienen secuencias de diferentes tamaños (como en el ejemplo anterior), es posible que desee convertirlas en tensores irregulares usando `tf.RaggedTensor.from_sparse()` (consulte el cuaderno para ver el código completo):

In [None]:
parsed_context, parsed_feature_lists = tf.io.parse_single_sequence_example(
    serialized_sequence_example, context_feature_descriptions,
    sequence_feature_descriptions)
parsed_content = tf.RaggedTensor.from_sparse(parsed_feature_lists["content"])

Ahora que sabe cómo almacenar, cargar, analizar y preprocesar de manera eficiente los datos utilizando la API tf.data, TFRecords y protobufs, es hora de centrar nuestra atención en las capas de preprocesamiento de Keras.

# Capas de preprocesamiento de Keras

Preparar sus datos para una red neuronal normalmente requiere normalizar las características numéricas, codificar las características categóricas y el texto, recortar y redimensionar las imágenes, y más. Hay varias opciones para esto:

- El preprocesamiento se puede hacer con anticipación al preparar sus archivos de datos de entrenamiento, utilizando cualquier herramienta que le guste, como NumPy, Pandas o Scikit-Learn. Tendrá que aplicar exactamente los mismos pasos de preprocesamiento en la producción, para asegurarse de que su modelo de producción reciba entradas preprocesadas similares a las que fue entrenada.

+ Alternativamente, puede preprocesar sus datos sobre la marcha mientras los carga con tf.data, aplicando una función de preprocesamiento a cada elemento de un conjunto de datos usando el método `map()` de ese conjunto de datos, como hicimos anteriormente en este capítulo. Nuevamente, deberá aplicar los mismos pasos de preprocesamiento en producción.

- Un último enfoque es incluir capas de preprocesamiento directamente dentro de su modelo para que pueda procesar previamente todos los datos de entrada sobre la marcha durante el entrenamiento, y luego utilizar las mismas capas de preprocesamiento en producción. El resto de este capítulo andará este último enfoque.

Keras ofrece muchas capas de preprocesamiento que puede incluir en sus modelos: se pueden aplicar a características numéricas, características categóricas, imágenes y texto. Repasaremos las características numéricas y categóricas en las siguientes secciones, así como el preprocesamiento básico de texto, y cubriremos el preprocesamiento de imágenes en el capítulo 14 y el preprocesamiento de texto más avanzado en el capítulo 16.

## La capa de normalización

Como vimos en el Capítulo 10, Keras proporciona una capa de `Normalization` que podemos usar para estandarizar las características de entrada. Podemos especificar la media y la varianza de cada característica al crear la capa o, más simplemente, pasar el conjunto de entrenamiento al método `adapt()` de la capa antes de ajustar el modelo, para que la capa pueda medir las medias y las variaciones de las características en su propio antes del entrenamiento:

In [None]:
norm_layer = tf.keras.layers.Normalization()
model = tf.keras.models.Sequential([
    norm_layer,
    tf.keras.layers.Dense(1)
])
model.compile(loss="mse", optimizer=tf.keras.optimizers.SGD(learning_rate=2e-3))
norm_layer.adapt(X_train)  # computes the mean and variance of every feature
model.fit(X_train, y_train, validation_data=(X_valid, y_valid), epochs=5)

#### TIP

La muestra de datos pasada al método `adapt()` debe ser lo suficientemente grande como para ser representativa de su conjunto de datos, pero no tiene que ser el conjunto de entrenamiento completo: para la capa de `Normalization`, generalmente se necesitarán unos cientos de instancias muestreadas aleatoriamente del conjunto de entrenamiento. ser suficiente para obtener una buena estimación de las medias y variaciones de las características.

#### -------------------------------------------------

Dado que incluimos la capa de `Normalization` dentro del modelo, ahora podemos implementar este modelo en producción sin tener que preocuparnos por la normalización nuevamente: el modelo simplemente se encargará de ello (consulte la Figura 13-4). ¡Fantástico! Este enfoque elimina por completo el riesgo de discrepancia en el preprocesamiento, que ocurre cuando las personas intentan mantener un código de preprocesamiento diferente para capacitación y producción, pero actualizan uno y se olvidan de actualizar el otro. Luego, el modelo de producción termina recibiendo datos preprocesados de una manera que no esperaba. Si tienen suerte, obtendrán un error claro. De lo contrario, la precisión del modelo simplemente se degrada silenciosamente.

![](https://learning.oreilly.com/api/v2/epubs/urn:orm:book:9781098125967/files/assets/mls3_1304.png)

(_Figura 13-4. Incluyendo capas de preprocesamiento dentro de un modelo_)

Incluir la capa de preprocesamiento directamente en el modelo es agradable y sencillo, pero ralentizará el entrenamiento (sólo muy ligeramente en el caso de la capa de `Normalization`): de hecho, dado que el preprocesamiento se realiza sobre la marcha durante el entrenamiento, ocurre una vez por época. Podemos hacerlo mejor normalizando todo el conjunto de entrenamiento solo una vez antes del entrenamiento. Para hacer esto, podemos usar la capa de `Normalization` de forma independiente (muy parecida a un Scikit-Learn `StandardScaler`):

In [None]:
norm_layer = tf.keras.layers.Normalization()
norm_layer.adapt(X_train)
X_train_scaled = norm_layer(X_train)
X_valid_scaled = norm_layer(X_valid)

Ahora podemos entrenar un modelo en los datos a escala, esta vez sin una capa `Normalization`:

In [None]:
model = tf.keras.models.Sequential([tf.keras.layers.Dense(1)])
model.compile(loss="mse", optimizer=tf.keras.optimizers.SGD(learning_rate=2e-3))
model.fit(X_train_scaled, y_train, epochs=5,
          validation_data=(X_valid_scaled, y_valid))

¡Bien! Esto debería acelerar un poco el entrenamiento. Pero ahora el modelo no preprocesará sus entradas cuando lo implementemos en producción. Para solucionar este problema, sólo necesitamos crear un nuevo modelo que envuelva tanto la capa de `Normalization` adaptada como el modelo que acabamos de entrenar. Luego podemos implementar este modelo final en producción, y este se encargará tanto de preprocesar sus entradas como de hacer predicciones (consulte la Figura 13-5):

In [None]:
final_model = tf.keras.Sequential([norm_layer, model])
X_new = X_test[:3]  # pretend we have a few new instances (unscaled)
y_pred = final_model(X_new)  # preprocesses the data and makes predictions

![](https://learning.oreilly.com/api/v2/epubs/urn:orm:book:9781098125967/files/assets/mls3_1305.png)

(_Figura 13-5. Preprocesar los datos solo una vez antes de entrenar utilizando capas de preprocesamiento, luego implementar estas capas dentro del modelo final_)

Ahora tenemos lo mejor de ambos mundos: el entrenamiento es rápido porque solo procesamos previamente los datos una vez antes de que comience el entrenamiento, y el modelo final puede procesar previamente sus entradas sobre la marcha sin ningún riesgo de desajuste de preprocesamiento.

Además, las capas de preprocesamiento de Keras funcionan muy bien con la API tf.data. Por ejemplo, es posible pasar un `tf.data.Dataset` al método `adapt()` de una capa de preprocesamiento. También es posible aplicar una capa de preprocesamiento de Keras a un `tf.data.Dataset` utilizando el método `map()` del conjunto de datos. Por ejemplo, así es como podría aplicar una capa de `Normalization` adaptada a las entidades de entrada de cada lote en un conjunto de datos:

In [None]:
dataset = dataset.map(lambda X, y: (norm_layer(X), y))

Por último, si alguna vez necesita más funciones de las que proporcionan las capas de preprocesamiento de Keras, siempre puede escribir su propia capa de Keras, tal como lo comentamos en el Capítulo 12. Por ejemplo, si la capa de `Normalization` no existiera, podría obtener un resultado similar. usando la siguiente capa personalizada:

In [None]:
import numpy as np

class MyNormalization(tf.keras.layers.Layer):
    def adapt(self, X):
        self.mean_ = np.mean(X, axis=0, keepdims=True)
        self.std_ = np.std(X, axis=0, keepdims=True)

    def call(self, inputs):
        eps = tf.keras.backend.epsilon()  # a small smoothing term
        return (inputs - self.mean_) / (self.std_ + eps)

A continuación, echemos un vistazo a otra capa de preprocesamiento de Keras para características numéricas: la capa `Discretization`.


## La capa de discreción

El objetivo de la capa de `Discretization` es transformar una característica numérica en una característica categórica asignando rangos de valores (llamados contenedores) a categorías. A veces, esto resulta útil para entidades con distribuciones multimodales o con entidades que tienen una relación altamente no lineal con el objetivo. Por ejemplo, el siguiente código asigna una característica de edad numérica a tres categorías: menos de 18, 18 a 50 (no incluido) y 50 o más:

In [None]:
age = tf.constant([[10.], [93.], [57.], [18.], [37.], [5.]])
discretize_layer = tf.keras.layers.Discretization(bin_boundaries=[18., 50.])
age_categories = discretize_layer(age)
age_categories
# <tf.Tensor: shape=(6, 1), dtype=int64, numpy=array([[0],[2],[2],[1],[1],[0]])>

En este ejemplo, proporcionamos los límites de contenedor deseados. Si lo prefiere, puede proporcionar la cantidad de contenedores que desea y luego llamar al método `adapt()` de la capa para permitirle encontrar los límites de contenedor apropiados según los percentiles de valor. Por ejemplo, si configuramos `num_bins=3`, entonces los límites del contenedor se ubicarán en los valores justo debajo de los percentiles 33 y 66 (en este ejemplo, en los valores 10 y 37):

In [None]:
discretize_layer = tf.keras.layers.Discretization(num_bins=3)
discretize_layer.adapt(age)
age_categories = discretize_layer(age)
age_categories
# <tf.Tensor: shape=(6, 1), dtype=int64, numpy=array([[1],[2],[2],[1],[2],[0]])>

Los identificadores de categorías como estos generalmente no deben pasarse directamente a una red neuronal, ya que sus valores no se pueden comparar de manera significativa. En su lugar, deben codificarse, por ejemplo, usando una codificación en caliente. Echemos un vistazo a cómo hacer esto ahora.

## La capa de codificación de categorías

Cuando sólo hay unas pocas categorías (por ejemplo, menos de una docena o dos), la codificación one-hot suele ser una buena opción (como se analiza en el Capítulo 2). Para hacer esto, Keras proporciona la capa `CategoryEncoding`. Por ejemplo, codifiquemos en caliente la característica `age_categories` que acabamos de crear:

In [None]:
onehot_layer = tf.keras.layers.CategoryEncoding(num_tokens=3)
onehot_layer(age_categories)
'''
<tf.Tensor: shape=(6, 3), dtype=float32, numpy=
array([[0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.]], dtype=float32)>
'''

Si intenta codificar más de una característica categórica a la vez (lo que solo tiene sentido si todas usan las mismas categorías), la clase `CategoryEncoding` realizará codificación multi-caliente de forma predeterminada: el tensor de salida contendrá un 1 para cada categoría presente en cualquier característica de entrada. Por ejemplo:

In [None]:
two_age_categories = np.array([[1, 0], [2, 2], [2, 0]])
onehot_layer(two_age_categories)
'''
<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[1., 1., 0.],
       [0., 0., 1.],
       [1., 0., 1.]], dtype=float32)>
'''

Si cree que es útil saber cuántas veces ocurrió cada categoría, puede configurar `output_mode="count"` al crear la capa `CategoryEncoding`, en cuyo caso el tensor de salida contendrá el número de ocurrencias de cada categoría. En el ejemplo anterior, el resultado sería el mismo excepto por la segunda fila, que sería `[0., 0., 2.]`.

Tenga en cuenta que tanto la codificación multi-hot como la codificación de recuento pierden información, ya que no es posible saber de qué característica proviene cada categoría activa. Por ejemplo, tanto `[0, 1]` como `[1, 0]` están codificados como `[1., 1., 0.]`. Si desea evitar esto, debe codificar en caliente cada función por separado y concatenar las salidas. De esta manera, `[0, 1]` se codificaría como `[1., 0., 0., 0., 1., 0.]` y `[1, 0]` se codificaría como `[0., 1., 0. , 1., 0., 0.]`. Puede obtener el mismo resultado modificando los identificadores de categorías para que no se superpongan. Por ejemplo:

In [None]:
onehot_layer = tf.keras.layers.CategoryEncoding(num_tokens=3 + 3)
onehot_layer(two_age_categories + [0, 3])  # adds 3 to the second feature
'''
<tf.Tensor: shape=(3, 6), dtype=float32, numpy=
array([[0., 1., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 1.],
       [0., 0., 1., 1., 0., 0.]], dtype=float32)>
''' 

En esta salida, las tres primeras columnas corresponden a la primera característica, y las tres últimas corresponden a la segunda característica. Esto permite al modelo distinguir las dos características. Sin embargo, también aumenta el número de características que se alimentan al modelo y, por lo tanto, requiere más parámetros del modelo. Es difícil saber de antemano si una sola codificación multi-hot o una codificación de one-hot por característica funcionará mejor: depende de la tarea, y es posible que tengas que probar ambas opciones.

Ahora puedes codificar características enteras categóricas usando la codificación de uno o más caliente. Pero, ¿qué pasa con las características categóricas del texto? Para esto, puedes usar la capa `StringLookup`.


## La capa de búsqueda de cuerdas

Usemos la capa Keras `StringLookup` para codificar en caliente una característica de `cities`:

In [None]:
cities = ["Auckland", "Paris", "Paris", "San Francisco"]
str_lookup_layer = tf.keras.layers.StringLookup()
str_lookup_layer.adapt(cities)
str_lookup_layer([["Paris"], ["Auckland"], ["Auckland"], ["Montreal"]])

# <tf.Tensor: shape=(4, 1), dtype=int64, numpy=array([[1], [3], [3], [0]])>

Primero creamos una capa `StringLookup`, luego la adaptamos a los datos: descubre que hay tres categorías distintas. Luego usamos la capa para codificar algunas ciudades. Están codificados como enteros de forma predeterminada. Las categorías desconocidas se asignan a 0, como es el caso de "Montreal" en este ejemplo. Las categorías conocidas están numeradas a partir de 1, desde la categoría más frecuente hasta la menos frecuente.

Convenientemente, si configura `output_mode="one_hot"` al crear la capa `StringLookup`, generará un vector one-hot para cada categoría, en lugar de un número entero:

In [None]:
str_lookup_layer = tf.keras.layers.StringLookup(output_mode="one_hot")
str_lookup_layer.adapt(cities)
str_lookup_layer([["Paris"], ["Auckland"], ["Auckland"], ["Montreal"]])
'''
<tf.Tensor: shape=(4, 4), dtype=float32, numpy=
array([[0., 1., 0., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.],
       [1., 0., 0., 0.]], dtype=float32)>
'''

#### TIP

Keras también incluye una capa `IntegerLookup` que actúa de manera muy similar a la capa `StringLookup` pero toma números enteros como entrada, en lugar de cadenas.

#### -----------------------------------------------

Si el conjunto de entrenamiento es muy grande, puede ser conveniente adaptar la capa solo a un subconjunto aleatorio del conjunto de entrenamiento. En este caso, el método `adapt()` de la capa puede omitir algunas de las categorías más raras. De forma predeterminada, los asignaría a todos a la categoría 0, haciéndolos indistinguibles para el modelo. Para reducir este riesgo (sin dejar de adaptar la capa solo en un subconjunto del conjunto de entrenamiento), puede establecer `num_oov_indices` en un número entero mayor que 1. Esta es la cantidad de depósitos fuera de vocabulario (OOV) que se usarán: cada uno desconocido La categoría se asignará pseudoaleatoriamente a uno de los depósitos OOV, utilizando una función hash que mide el número de depósitos OOV. Esto permitirá que el modelo distinga al menos algunas de las categorías raras. Por ejemplo:

In [None]:
str_lookup_layer = tf.keras.layers.StringLookup(num_oov_indices=5)
str_lookup_layer.adapt(cities)
str_lookup_layer([["Paris"], ["Auckland"], ["Foo"], ["Bar"], ["Baz"]])

# <tf.Tensor: shape=(4, 1), dtype=int64, numpy=array([[5], [7], [4], [3], [4]])>

Dado que hay cinco depósitos OOV, el ID de la primera categoría conocida ahora es 5 (`"París"`). Pero `"Foo"`, `"Bar"` y `"Baz"` son desconocidos, por lo que cada uno de ellos se asigna a uno de los depósitos OOV. `"Bar"` tiene su propio depósito dedicado (con ID 3), pero lamentablemente `"Foo"` y `"Baz"` están asignados al mismo depósito (con ID 4), por lo que no se pueden distinguir según el modelo. Esto se llama colisión de hash. La única forma de reducir el riesgo de colisión es aumentar la cantidad de depósitos OOV. Sin embargo, esto también aumentará el número total de categorías, lo que requerirá más RAM y parámetros de modelo adicionales una vez que las categorías estén codificadas en caliente. Por lo tanto, no aumente demasiado ese número.

Esta idea de asignar categorías pseudoal azar a cubos se llama el truco de hashing. Keras proporciona una capa dedicada que hace precisamente eso: la capa `Hashing`.


## La capa de hasing

Para cada categoría, la capa Keras `Hashing` calcula un hash, módulo el número de depósitos (o "contenedores"). El mapeo es completamente pseudoaleatorio, pero estable entre ejecuciones y plataformas (es decir, la misma categoría siempre se asignará al mismo número entero, siempre que el número de contenedores no cambie). Por ejemplo, usemos la capa `Hashing` para codificar algunas ciudades:

In [None]:
hashing_layer = tf.keras.layers.Hashing(num_bins=10)
hashing_layer([["Paris"], ["Tokyo"], ["Auckland"], ["Montreal"]])

# <tf.Tensor: shape=(4, 1), dtype=int64, numpy=array([[0], [1], [9], [1]])>

El beneficio de esta capa es que no necesita ser adaptada en absoluto, lo que a veces puede ser útil, especialmente en un entorno fuera del núcleo (cuando el conjunto de datos es demasiado grande para caber en la memoria). Sin embargo, una vez más tenemos una colisión de hash: "Tokio" y "Montreal" están asignados a la misma identificación, lo que los hace indistinguibles por el modelo. Por lo tanto, por lo general es preferible atenerse a la capa `StringLookup`.

Ahora echemos un vistazo a otra forma de codificar categorías: incrustaciones entrenables.

## Codificación De Características Categóricas Mediante Incrustaciones

Una incrustación es una representación densa de algunos datos de mayor dimensión, como una categoría o una palabra en un vocabulario. Si hay 50.000 categorías posibles, entonces la codificación en caliente produciría un vector disperso de 50.000 dimensiones (es decir, que contiene en su mayoría ceros). Por el contrario, una incrustación sería un vector denso comparativamente pequeño; por ejemplo, con solo 100 dimensiones.

En el aprendizaje profundo, las incorporaciones generalmente se inicializan de forma aleatoria y luego se entrenan mediante descenso de gradiente, junto con los demás parámetros del modelo. Por ejemplo, la categoría `"NEAR BAY"` en el conjunto de datos de vivienda de California podría representarse inicialmente mediante un vector aleatorio como `[0,131, 0,890]`, mientras que la categoría `"NEAR OCEAN"` podría representarse mediante otro vector aleatorio como `[0,631, 0,791 ]`. En este ejemplo, utilizamos incrustaciones 2D, pero el número de dimensiones es un hiperparámetro que puedes modificar.

Dado que estas incorporaciones se pueden entrenar, mejorarán gradualmente durante el entrenamiento; y como en este caso representan categorías bastante similares, el descenso del gradiente ciertamente terminará acercándolos, mientras que tenderá a alejarlos de la incorporación de la categoría `"INLAND"` (ver Figura 13-6). De hecho, cuanto mejor sea la representación, más fácil será para la red neuronal hacer predicciones precisas, por lo que el entrenamiento tiende a hacer que las incorporaciones sean representaciones útiles de las categorías. Esto se llama aprendizaje de representación (verá otros tipos de aprendizaje de representación en el Capítulo 17).

![](https://learning.oreilly.com/api/v2/epubs/urn:orm:book:9781098125967/files/assets/mls3_1306.png)

(_Figura 13-6. Las incrustaciones mejorarán gradualmente durante el entrenamiento_)

#### INSERCIONES DE PALABRAS

Las incrustaciones generalmente serán representaciones útiles para la tarea en cuestión, sino que muy a menudo estas mismas incrustaciones se pueden reutilizar con éxito para otras tareas. El ejemplo más común de esto son las incrustaciones de palabras (es decir, incrustaciones de palabras individuales): cuando está trabajando en una tarea de procesamiento de lenguaje natural, a menudo es mejor reutilizar incrustaciones de palabras preentrenadas que entrenar a las suyas propias.

La idea de usar vectores para representar palabras se remonta a la década de 1960, y se han utilizado muchas técnicas sofisticadas para generar vectores útiles, incluido el uso de redes neuronales. Pero las cosas realmente despegaron en 2013, cuando Tomáš Mikolov y otros investigadores de Google publicaron un artículo⁠6 que describía una técnica eficiente para aprender incrustaciones de palabras usando redes neuronales, superando significativamente los intentos anteriores. Esto les permitió aprender incrustaciones en un corpus muy grande de texto: entrenaron una red neuronal para predecir las palabras cerca de cualquier palabra y obtuvieron incrustaciones de palabras asombrosas. Por ejemplo, los sinónimos tenían incrustaciones muy cercanas, y palabras relacionadas semánticamente como Francia, España e Italia terminaron agrupadas.

Sin embargo, no se trata solo de proximidad: las incrustaciones de palabras también se organizaron a lo largo de ejes significativos en el espacio de incrustación. Aquí hay un ejemplo famoso: si calculas Rey - Hombre + Mujer (sumando y restando los vectores de incrustación de estas palabras), entonces el resultado estará muy cerca de la incrustación de la palabra Reina (ver Figura 13-7). En otras palabras, ¡la palabra incrustaciones codifica el concepto de género! Del mismo modo, puede calcular Madrid - España + Francia, y el resultado está cerca de París, lo que parece mostrar que la noción de ciudad capital también se codificó en las incrustaciones.

![](https://learning.oreilly.com/api/v2/epubs/urn:orm:book:9781098125967/files/assets/mls3_1307.png)

(_Figura 13-7. Las incrustaciones de palabras de palabras similares tienden a estar cerca, y algunos ejes parecen codificar conceptos significativos_)

Desafortunadamente, las incrustaciones de palabras a veces capturan nuestros peores prejuicios. Por ejemplo, aunque aprenden correctamente que el hombre es para el rey como la mujer es para la reina, también parecen aprender que el hombre es para el médico como la mujer es para la enfermera: ¡un sesgo bastante sexista! Para ser justos, este ejemplo en particular es probablemente exagerado, como se señaló en un artículo de 2019⁠7 de Malvina Nissim et al. Sin embargo, garantizar la equidad en los algoritmos de aprendizaje profundo es un tema de investigación importante y activo.

Keras proporciona una capa de incrustación `Embedding`, que envuelve una matriz de incrustación: esta matriz tiene una fila por categoría y una columna por dimensión de `Embedding`. De forma predeterminada, se inicializa aleatoriamente. Para convertir un ID de categoría en una `Embedding`, la capa `Embedding` simplemente busca y devuelve la fila que corresponde a esa categoría. ¡Eso es todo al respecto! Por ejemplo, inicialicemos una capa de incrustación con cinco filas e `Embedding` 2D, y usémosla para codificar algunas categorías:

In [None]:
tf.random.set_seed(42)
embedding_layer = tf.keras.layers.Embedding(input_dim=5, output_dim=2)
embedding_layer(np.array([2, 4, 2]))
'''
<tf.Tensor: shape=(3, 2), dtype=float32, numpy=
array([[-0.04663396,  0.01846724],
       [-0.02736737, -0.02768031],
       [-0.04663396,  0.01846724]], dtype=float32)>
'''

Como puede ver, la categoría 2 se codifica (dos veces) como el vector 2D `[-0.04663396, 0.01846724]`, mientras que la categoría 4 se codifica como `[-0.02736737, -0.02768031]`. Dado que la capa aún no está entrenada, estas codificaciones son aleatorias.

#### ADVERTENCIA

Una capa de `Embedding` se inicializa aleatoriamente, por lo que no tiene sentido usarla fuera de un modelo como una capa de preprocesamiento independiente a menos que la inicialice con pesos previamente entrenados.

Si desea incrustar un atributo de texto categórico, simplemente puede encadenar una capa `StringLookup` y una capa `Embedding`, así:

In [None]:
>>> tf.random.set_seed(42)
>>> ocean_prox = ["<1H OCEAN", "INLAND", "NEAR OCEAN", "NEAR BAY", "ISLAND"]
>>> str_lookup_layer = tf.keras.layers.StringLookup()
>>> str_lookup_layer.adapt(ocean_prox)
>>> lookup_and_embed = tf.keras.Sequential([
...     str_lookup_layer,
...     tf.keras.layers.Embedding(input_dim=str_lookup_layer.vocabulary_size(),
...                               output_dim=2)
... ])
...
>>> lookup_and_embed(np.array([["<1H OCEAN"], ["ISLAND"], ["<1H OCEAN"]]))
'''
<tf.Tensor: shape=(3, 2), dtype=float32, numpy=
array([[-0.01896119,  0.02223358],
       [ 0.02401174,  0.03724445],
       [-0.01896119,  0.02223358]], dtype=float32)>
'''s

Tenga en cuenta que el número de filas en la matriz de incrustación debe ser igual al tamaño del vocabulario: ese es el número total de categorías, incluidas las categorías conocidas más los depósitos OOV (solo uno por defecto). El método `vocabulary_size()` de la clase `StringLookup` devuelve convenientemente este número.

#### PROPINA

En este ejemplo utilizamos incrustaciones 2D, pero como regla general, las incrustaciones suelen tener de 10 a 300 dimensiones, dependiendo de la tarea, el tamaño del vocabulario y el tamaño de su conjunto de entrenamiento. Tendrás que ajustar este hiperparámetro.

#### ------------------------------------------------

Juntando todo, ahora podemos crear un modelo de Keras que pueda procesar una característica de texto categórica junto con características numéricas regulares y aprender una incrustación para cada categoría (así como para cada cubo OOV):

In [None]:
X_train_num, X_train_cat, y_train = [...]  # load the training set
X_valid_num, X_valid_cat, y_valid = [...]  # and the validation set

num_input = tf.keras.layers.Input(shape=[8], name="num")
cat_input = tf.keras.layers.Input(shape=[], dtype=tf.string, name="cat")
cat_embeddings = lookup_and_embed(cat_input)
encoded_inputs = tf.keras.layers.concatenate([num_input, cat_embeddings])
outputs = tf.keras.layers.Dense(1)(encoded_inputs)
model = tf.keras.models.Model(inputs=[num_input, cat_input], outputs=[outputs])
model.compile(loss="mse", optimizer="sgd")
history = model.fit((X_train_num, X_train_cat), y_train, epochs=5,
                    validation_data=((X_valid_num, X_valid_cat), y_valid))

Este modelo toma dos entradas: `num_input`, que contiene ocho características numéricas por instancia, más `cat_input`, que contiene una única entrada de texto categórico por instancia. El modelo utiliza el modelo `lookup_and_embed` que creamos anteriormente para codificar cada categoría de proximidad al océano como la incrustación entrenable correspondiente. A continuación, concatena las entradas numéricas y las incrustaciones utilizando la función `concatenate()` para producir las entradas codificadas completas, que están listas para ser alimentadas a una red neuronal. Podríamos agregar cualquier tipo de red neuronal en este punto, pero por simplicidad simplemente agregamos una única capa de salida densa y luego creamos el modelo Keras con las entradas y salidas que acabamos de definir. A continuación compilamos el modelo y lo entrenamos, pasando las entradas numéricas y categóricas.

Como vio en el Capítulo 10, dado que las capas de entrada se denominan `"num"` y `"cat"`, también podríamos haber pasado los datos de entrenamiento al método `fit()` usando un diccionario en lugar de una tupla: `{"num": X_train_num, "gato": X_train_cat}`. Alternativamente, podríamos haber pasado un `tf.data.Dataset` que contenga lotes, cada uno representado como `((X_batch_num, X_batch_cat), y_batch)` o como `({"num": X_batch_num, "cat": X_batch_cat}, y_batch)`. Y por supuesto lo mismo ocurre con los datos de validación.

#### NOTA

La codificación one-hot seguida de una capa `Dense` (sin función de activación ni sesgos) es equivalente a una capa de `Embedding`. Sin embargo, la capa de `Embedding` utiliza muchos menos cálculos, ya que evita muchas multiplicaciones por cero; la diferencia de rendimiento se vuelve clara cuando crece el tamaño de la matriz de incrustación. La matriz de peso de la capa `Dense` desempeña el papel de matriz de `Embedding`. Por ejemplo, usar vectores one-hot de tamaño 20 y una capa Densa con 10 unidades es equivalente a usar una capa de `Embedding` con `input_dim=20` y `output_dim=10`. Como resultado, sería un desperdicio utilizar más dimensiones de incrustación que el número de unidades en la capa que sigue a la capa de `Embedding`.

#### -----------------------------------------------

Vale, ahora que has aprendido a codificar características categóricas, es hora de centrar nuestra atención en el preprocesamiento de texto.


# Preprocesamiento de texto

Keras proporciona una capa TextVectorization para el preprocesamiento básico de texto. Al igual que la capa `StringLookup`, debes pasarle un vocabulario al crearla o dejar que aprenda el vocabulario a partir de algunos datos de entrenamiento usando el método `adapt()`. Veamos un ejemplo:


In [None]:
train_data = ["To be", "!(to be)", "That's the question", "Be, be, be."]
text_vec_layer = tf.keras.layers.TextVectorization()
text_vec_layer.adapt(train_data)
text_vec_layer(["Be good!", "Question: be or be?"])

'''
<tf.Tensor: shape=(2, 4), dtype=int64, numpy=
array([[2, 1, 0, 0],
       [6, 2, 1, 2]])>
'''

Las dos frases "¡Sé bueno!" y “Pregunta: ¿ser o ser?” se codificaron como `[2, 1, 0, 0]` y `[6, 2, 1, 2]`, respectivamente. El vocabulario se aprendió a partir de las cuatro oraciones en los datos de entrenamiento: “be” = 2, “to” = 3, etc. Para construir el vocabulario, el método `adapt()` primero convirtió las oraciones de entrenamiento a minúsculas y eliminó la puntuación, lo cual es ¿Por qué “Ser”, “ser” y “ser”? están todos codificados como “be” = 2. A continuación, las oraciones se dividieron en espacios en blanco y las palabras resultantes se ordenaron por frecuencia descendente, produciendo el vocabulario final. Al codificar oraciones, las palabras desconocidas se codifican como 1. Por último, dado que la primera oración es más corta que la segunda, se completó con ceros.

#### PROPINA

La capa `TextVectorization` tiene muchas opciones. Por ejemplo, puede conservar el caso y la puntuación si lo desea, estableciendo `standarize = None`, o puede pasar cualquier función de estandarización que desee como argumento de `standarize`. Puede evitar la división configurando `split=None`, o puede pasar su propia función de división. Puede configurar el argumento `output_sequence_length` para garantizar que todas las secuencias de salida se recorten o rellenen a la longitud deseada, o puede configurar ragged=True para obtener un tensor irregular en lugar de un tensor normal. Consulte la documentación para conocer más opciones.

#### ---------------------------------------------

Los ID de palabras deben codificarse, generalmente usando una capa de `Embedding`: lo haremos en el Capítulo 16. Alternativamente, puede configurar el argumento modo_salida de la capa `TextVectorization` en `"multi_hot"` o `"count"` para obtener las codificaciones correspondientes. Sin embargo, simplemente contar palabras no suele ser lo ideal: palabras como “para” y “el” son tan frecuentes que apenas importan, mientras que palabras más raras como “baloncesto” son mucho más informativas. Por lo tanto, en lugar de configurar Output_mode en `"multi_hot"` o `"count"`, generalmente es preferible configurarlo en `"tf_idf"`, que significa frecuencia de término × frecuencia de documento inversa (TF-IDF). Esto es similar a la codificación de recuento, pero las palabras que aparecen con frecuencia en los datos de entrenamiento se reducen y, a la inversa, las palabras raras se aumentan. Por ejemplo:

In [None]:
text_vec_layer = tf.keras.layers.TextVectorization(output_mode="tf_idf")
text_vec_layer.adapt(train_data)
text_vec_layer(["Be good!", "Question: be or be?"])

'''
<tf.Tensor: shape=(2, 6), dtype=float32, numpy=
array([[0.96725637, 0.6931472 , 0. , 0. , 0. , 0.        ],
       [0.96725637, 1.3862944 , 0. , 0. , 0. , 1.0986123 ]], dtype=float32)>
'''

Hay muchas variantes de TF-IDF, pero la forma en que la capa TextVectorization lo implementa es multiplicando cada recuento de palabras por un peso igual a log(1 + d / (f + 1)), donde d es el número total de oraciones (también conocido como , documentos) en los datos de entrenamiento y f cuenta cuántas de estas oraciones de entrenamiento contienen la palabra dada. Por ejemplo, en este caso hay d = 4 oraciones en los datos de entrenamiento, y la palabra “be” aparece en f = 3 de ellas. Dado que la palabra "ser" aparece dos veces en la oración "Pregunta: ¿ser o ser?", se codifica como 2 × log(1 + 4 / (1 + 3)) ≈ 1,3862944. La palabra “pregunta” sólo aparece una vez, pero como es una palabra menos común, su codificación es casi igual de alta: 1 × log(1 + 4 / (1 + 1)) ≈ 1,0986123. Tenga en cuenta que el peso promedio se utiliza para palabras desconocidas.

Este enfoque de la codificación de texto es fácil de usar y puede dar resultados bastante buenos para las tareas básicas de procesamiento del lenguaje natural, pero tiene varias limitaciones importantes: solo funciona con lenguajes que separan las palabras con espacios, no distingue entre homónimos (por ejemplo, "soportar" frente a "oso de peluche"), no da ninguna pista a su modelo de que palabras como "evolución" y "evolucionario" estén relacionadas, etc. Y si usas la codificación multi-hot, count o TF-IDF, entonces se pierde el orden de las palabras. Entonces, ¿cuáles son las otras opciones?

Una opción es utilizar la biblioteca de texto TensorFlow, que proporciona funciones de preprocesamiento de texto más avanzadas que la capa `TextVectorization`. Por ejemplo, incluye varios tokenizadores de subpalabras capaces de dividir el texto en tokens más pequeños que las palabras, lo que hace posible que el modelo detecte más fácilmente que la "evolución" y la "evolución" tienen algo en común (más sobre la tokenización de subpalabras en el Capítulo 16).

Otra opción es utilizar componentes de modelo de lenguaje preentrenados. Echemos un vistazo a esto ahora.

## Uso de componentes de modelo de lenguaje preentrenado

La biblioteca de TensorFlow Hub facilita la reutilización de los componentes del modelo preentrenados en sus propios modelos, para texto, imagen, audio y más. Estos componentes del modelo se llaman módulos. Simplemente navegue por el repositorio de TF Hub, encuentre el que necesita y copie el ejemplo de código en su proyecto, y el módulo se descargará automáticamente y se incluirá en una capa de Keras que puede incluir directamente en su modelo. Los módulos suelen contener tanto código de preprocesamiento como pesos preentrenados, y generalmente no requieren entrenamiento adicional (pero, por supuesto, el resto de su modelo sin duda requerirá entrenamiento).

Por ejemplo, hay disponibles algunos potentes modelos de lenguaje preentrenados. Los más potentes son bastante grandes (varios gigabytes), así que para un ejemplo rápido usemos el módulo thennlm `nnlm-en-dim50`, versión 2, que es un módulo bastante básico que toma texto sin procesar como entrada y genera incrustaciones de oraciones de 50 dimensiones. Importaremos TensorFlow Hub y lo usaremos para cargar el módulo, luego usaremos ese módulo para codificar dos frases en vectores:

In [None]:
import tensorflow_hub as hub

hub_layer = hub.KerasLayer("https://tfhub.dev/google/nnlm-en-dim50/2")
sentence_embeddings = hub_layer(tf.constant(["To be", "Not to be"]))
sentence_embeddings.numpy().round(2)

'''
array([[-0.25,  0.28,  0.01,  0.1 ,  [...] ,  0.05,  0.31],
       [-0.2 ,  0.2 , -0.08,  0.02,  [...] , -0.04,  0.15]], dtype=float32)
'''

La capa `hub.KerasLayer` descarga el módulo desde la URL proporcionada. Este módulo en particular es un codificador de oraciones: toma cadenas como entrada y codifica cada una como un único vector (en este caso, un vector de 50 dimensiones). Internamente, analiza la cadena (dividiendo palabras en espacios) e incrusta cada palabra usando una matriz de incrustación que fue previamente entrenada en un corpus enorme: el corpus Google News 7B (¡siete mil millones de palabras!). Luego calcula la media de todas las incrustaciones de palabras y el resultado es la incrustación de la oración.⁠9

Solo necesita incluir este `hub_layer` en su modelo y estará listo para comenzar. Tenga en cuenta que este modelo de idioma en particular fue entrenado en el idioma inglés, pero hay muchos otros idiomas disponibles, así como modelos multilingües.

Por último, pero no menos importante, la excelente biblioteca de Transformers de código abierto de Hugging Face también facilita la inclusión de poderosos componentes de modelos de lenguaje dentro de tus propios modelos. Puedes navegar por Hugging Face Hub, elegir el modelo que quieras y usar los ejemplos de código proporcionados para empezar. Solía contener solo modelos de lenguaje, pero ahora se ha ampliado para incluir modelos de imagen y más.

Volveremos al procesamiento del lenguaje natural con más profundidad en el capítulo 16. Ahora echemos un vistazo a las capas de preprocesamiento de imágenes de Keras.


## Capas de preprocesamiento de imágenes

La API de preprocesamiento de Keras incluye tres capas de preprocesamiento de imágenes:

- `tf.keras.layers.Resizing` cambia el tamaño de las imágenes de entrada al tamaño deseado. Por ejemplo, `Resizing(height=100, width=200)` cambia el tamaño de cada imagen a 100 × 200, posiblemente distorsionando la imagen. Si configura `crop_to_aspect_ratio=True`, la imagen se recortará según la proporción de imagen de destino para evitar distorsiones.

+ `tf.keras.layers.Rescaling` cambia la escala de los valores de píxeles. Por ejemplo, `Rescal⁠ing(scale=2/255, offset=-1)` escala los valores de 0 → 255 a –1 → 1.

- `tf.keras.layers.CenterCrop` recorta la imagen, manteniendo solo un parche central de la altura y el ancho deseados.

Por ejemplo, carguemos un par de imágenes de muestra y las recortemos al centro. Para esto, usaremos la función `load_sample_images()` de Scikit-Learn; esto carga dos imágenes en color, una de un templo chino y la otra de una flor (esto requiere la biblioteca Pillow, que ya debería estar instalada si está utilizando Colab o si siguió las instrucciones de instalación):

In [None]:
from sklearn.datasets import load_sample_images

images = load_sample_images()["images"]
crop_image_layer = tf.keras.layers.CenterCrop(height=100, width=100)
cropped_images = crop_image_layer(images)

Keras también incluye varias capas para el aumento de datos, como `RandomCrop`, `RandomFlip`, `RandomTranslation`, `RandomRotation`, `RandomZoom`, `RandomHeight`, `RandomWidth` y `RandomContrast`. Estas capas solo están activas durante el entrenamiento y aplican aleatoriamente alguna transformación a las imágenes de entrada (sus nombres se explican por sí solos). El aumento de datos aumentará artificialmente el tamaño del conjunto de entrenamiento, lo que a menudo conduce a un mejor rendimiento, siempre que las imágenes transformadas parezcan imágenes realistas (no aumentadas). Cubriremos el procesamiento de imágenes más de cerca en el próximo capítulo.

#### NOTA

En esencia, las capas de preprocesamiento de Keras se basan en la API de bajo nivel de TensorFlow. Por ejemplo, la capa de `Normalization` usa `tf.nn.moments()` para calcular tanto la media como la varianza, la capa de `Discretization` usa `tf.raw_ops.Bucketize()`, `CategoricalEncoding` usa `tf.math.bincount()`, `IntegerLookup` y `StringLookup` usan el paquete `tf.lookup`, `Hashing` y `TextVectorization` usan varias operaciones del paquete `tf.strings`, `Embedding` usa `tf.nn.embedding_lookup()` y las capas de preprocesamiento de imágenes usan las operaciones del paquete `tf.image`. Si la API de preprocesamiento de Keras no es suficiente para sus necesidades, es posible que en ocasiones necesite utilizar directamente la API de bajo nivel de TensorFlow.

#### -----------------------------------------------------------

Ahora echamos un vistazo a otra forma de cargar datos de manera fácil y eficiente en TensorFlow.

# El Proyecto De Conjuntos De Datos De TensorFlow

El proyecto TensorFlow Datasets (TFDS) hace que sea muy fácil cargar conjuntos de datos comunes, desde pequeños como MNIST o Fashion MNIST hasta grandes conjuntos de datos como ImageNet (¡necesitarás bastante espacio en disco!). La lista incluye conjuntos de datos de imágenes, conjuntos de datos de texto (incluidos los conjuntos de datos de traducción), conjuntos de datos de audio y vídeo, series temporales y mucho más. Puedes visitar https://homl.info/tfds para ver la lista completa, junto con una descripción de cada conjunto de datos. También puede consultar Conozca sus datos, que es una herramienta para explorar y comprender muchos de los conjuntos de datos proporcionados por TFDS.

TFDS no está incluido con TensorFlow, pero si se está ejecutando en Colab o si siguió las instrucciones de instalación en https://homl.info/install, entonces ya está instalado. A continuación, puede importar `tensorflow_datasets`, generalmente como `tfds`, y luego llamar a la función `tfds.load()`, que descargará los datos que desee (a menos que ya se hayan descargado anteriormente) y devolverá los datos como un diccionario de conjuntos de datos (normalmente uno para entrenamiento y otro para pruebas, pero esto depende del conjunto de datos que elija). Por ejemplo, vamos a descargar MNIST:

In [None]:
import tensorflow_datasets as tfds

datasets = tfds.load(name="mnist")
mnist_train, mnist_test = datasets["train"], datasets["test"]

A continuación, puede aplicar cualquier transformación que desee (normalmente barajando, por lotes y preencuado), y estará listo para entrenar a su modelo. He aquí un ejemplo sencillo:

In [None]:
for batch in mnist_train.shuffle(10_000, seed=42).batch(32).prefetch(1):
    images = batch["image"]
    labels = batch["label"]
    # [...] do something with the images and labels

#### TIP

La función `load()` puede mezclar los archivos que descarga: simplemente configure `shuffle_files=True`. Sin embargo, esto puede ser insuficiente, por lo que es mejor mezclar un poco más los datos de entrenamiento.

#### ----------------------------------------------

Tenga en cuenta que cada elemento del conjunto de datos es un diccionario que contiene tanto las características como las etiquetas. Pero Keras espera que cada elemento sea una tupla que contenga dos elementos (de nuevo, las características y las etiquetas). Podrías transformar el conjunto de datos usando el método themap `map()`, así:

In [None]:
mnist_train = mnist_train.shuffle(buffer_size=10_000, seed=42).batch(32)
mnist_train = mnist_train.map(lambda items: (items["image"], items["label"]))
mnist_train = mnist_train.prefetch(1)

Pero es más sencillo pedirle a la función `load()` que haga esto por usted estableciendo `as_supervised=True` (obviamente, esto funciona solo para conjuntos de datos etiquetados).

Por último, TFDS proporciona una forma conveniente de dividir `split` los datos utilizando el argumento de división. Por ejemplo, si desea utilizar el primer 90% del conjunto de entrenamiento para entrenamiento, el 10% restante para validación y todo el conjunto de prueba para pruebas, entonces puede configurar `split=["train[:90%]", "train[90%:]", "test"]`. La función `load()` devolverá los tres conjuntos. Aquí hay un ejemplo completo, cargando y dividiendo el conjunto de datos MNIST usando TFDS, luego usando estos conjuntos para entrenar y evaluar un modelo Keras simple:

In [None]:
train_set, valid_set, test_set = tfds.load(
    name="mnist",
    split=["train[:90%]", "train[90%:]", "test"],
    as_supervised=True
)
train_set = train_set.shuffle(buffer_size=10_000, seed=42).batch(32).prefetch(1)
valid_set = valid_set.batch(32).cache()
test_set = test_set.batch(32).cache()
tf.random.set_seed(42)
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(10, activation="softmax")
])
model.compile(loss="sparse_categorical_crossentropy", optimizer="nadam",
              metrics=["accuracy"])
history = model.fit(train_set, validation_data=valid_set, epochs=5)
test_loss, test_accuracy = model.evaluate(test_set)

¡Enhorabuena, has llegado al final de este capítulo bastante técnico! Puede sentir que está un poco lejos de la belleza abstracta de las redes neuronales, pero el hecho es que el aprendizaje profundo a menudo implica grandes cantidades de datos, y saber cómo cargarlos, analizarlos y procesarlos previamente de manera eficiente es una habilidad crucial. En el siguiente capítulo, analizaremos las redes neuronales convolucionales, que se encuentran entre las arquitecturas de redes neuronales más exitosas para el procesamiento de imágenes y muchas otras aplicaciones.

# Ejercicios

¿Por qué querrías usar la API de tf.data?

¿Cuáles son los beneficios de dividir un conjunto de datos grande en varios archivos?

Durante el entrenamiento, ¿cómo puede saber que su canalización de entrada es el cuello de botella? ¿Qué puedes hacer para arreglarlo?

¿Puedes guardar cualquier dato binario en un archivo TFRecord, o solo en buffers de protocolo serializados?

Why would you go through the hassle of converting all your data to the Example protobuf format? Why not use your own protobuf definition?

Al usar TFRecords, ¿cuándo te gustaría activar la compresión? ¿Por qué no lo haces sistemáticamente?

Los datos se pueden procesar previamente directamente al escribir los archivos de datos, o dentro de la canalización tf.data, o en capas de preprocesamiento dentro de su modelo. ¿Puedes enumerar algunos pros y contras de cada opción?

Nombra algunas formas comunes en las que puedes codificar características enteras categóricas. ¿Qué pasa con el texto?

Load the Fashion MNIST dataset (introduced in Chapter 10); split it into a training set, a validation set, and a test set; shuffle the training set; and save each dataset to multiple TFRecord files. 

Each record should be a serialized Example protobuf with two features: the serialized image (use tf.io.serialize_tensor() to serialize each image), and the label.⁠10 Then use tf.data to create an efficient dataset for each set. Finally, use a Keras model to train these datasets, including a preprocessing layer to standardize each input feature. Try to make the input pipeline as efficient as possible, using TensorBoard to visualize profiling data.

In this exercise you will download a dataset, split it, create a tf.data.Dataset to load it and preprocess it efficiently, then build and train a binary classification model containing an Embedding layer:

Descargue el conjunto de datos de reseñas de películas grandes, que contiene 50 000 reseñas de películas de la base de datos de películas de Internet (IMDb). Los datos están organizados en dos directorios, entrenamiento y prueba, cada uno de los cuales contiene un subdirectorio pos con 12.500 revisiones positivas y un subdirectorio neg con 12.500 revisiones negativas. Cada revisión se almacena en un archivo de texto separado. Hay otros archivos y carpetas (incluidas las versiones de bolsa de palabras preprocesadas), pero los ignoraremos en este ejercicio.

Divida el conjunto de pruebas en un conjunto de validación (15 000) y un conjunto de pruebas (10 000).
Utilice tf.data para crear un conjunto de datos eficiente para cada conjunto.

Create a binary classification model, using a TextVectorization layer to preprocess each review.

Add an Embedding layer and compute the mean embedding for each review, multiplied by the square root of the number of words (see Chapter 16). This rescaled mean embedding can then be passed to the rest of your model.

Entrena el modelo y mira qué precisión obtienes. Intenta optimizar tus tuberías para que el entrenamiento sea lo más rápido posible.

Utilice TFDS para cargar el mismo conjunto de datos más fácilmente:tfds.load("imdb_reviews")

Las soluciones a estos ejercicios están disponibles al final del cuaderno de este capítulo, en https://homl.info/colab3.