Capas de preprocesamiento de texto --- 0:00 min
===

* Última modificación: Marzo 7, 2022 | YouTube

* Adaptado de: https://keras.io/api/layers/preprocessing_layers/text/

Importación de librerías
---

In [1]:
import os

os.environ["TF_CPP_MIN_LOG_LEVEL"] = "2"

import tensorflow as tf

tf.__version__

'2.8.0'

Capa TextVectorization
--

* Estandarización: minúsculas + eliminación de signos de puntuación

* Particionamiento en strings (usualmente palabras)

* Recombinación de strings (usualmente n-gramas)

* Indexación de tokens (asociación de un único entero con cada token)

* Transformación de cada ejemplo usando su índice, usualmente en un vector de enteros o en un vector flotante denso.

**Ejemplo 1**

In [2]:
#
# Texto de ejemplo
#
text_dataset = tf.data.Dataset.from_tensor_slices(
    [
        "foo",
        "bar",
        "baz",
    ]
)

#
# Tamaño máximo del vocabulario
#
max_features = 5000

#
# Tamaño máximo de la secuencia
#
max_len = 4

#
# Creación de la capa
#
vectorize_layer = tf.keras.layers.TextVectorization(
    max_tokens=max_features,
    output_mode="int",
    output_sequence_length=max_len,
)

#
# Se llama a `adapt` sobre un dataset de texto para crear el vocabulario.
#
vectorize_layer.adapt(text_dataset.batch(64))


model = tf.keras.models.Sequential()

#
# Se crea una capa de enetrada de tamaño (1,), ya que se necesita garantizar
# que hay exactamente un string de entrada por batch, y de tipo `string`
#
model.add(tf.keras.Input(shape=(1,), dtype=tf.string))

#
# Se adiciona la capa de vectorización (despues de aprendido el vocabularo).
# Como salida se obtiene un tensor de tamaño de (batch_size, max_len) y que
# contiene los indices al vocabulario
#
model.add(vectorize_layer)

#
# El modelo obtenido puede mapear strings a enteros; se suele adicionar una
# capa embedding para mapear los enteros al embedding.
#
input_data = [
    ["foo qux bar"],
    ["qux baz"],
]
model.predict(input_data)

array([[2, 1, 4, 0],
       [1, 3, 0, 0]])

**Ejemplo 2**

In [3]:
vocab_data = [
    "earth",
    "wind",
    "and",
    "fire",
]
max_len = 4

#
# Se crea una capa pasando directamente el vocabulario. También se puede
# indicar el vocabulario con una palabra por línea
#
vectorize_layer = tf.keras.layers.TextVectorization(
    max_tokens=max_features,
    output_mode="int",
    output_sequence_length=max_len,
    vocabulary=vocab_data,
)

#
# Ya que se paso el vocabulario directamente, no hay necesidad de llamar a
# `adapt`. El vocabulario contiene el padding token ('') y el OOV token
# ('[UNK]'), y los tokens pasados.
#
vectorize_layer.get_vocabulary()

['', '[UNK]', 'earth', 'wind', 'and', 'fire']