##### Copyright 2021 The TensorFlow Authors.

In [None]:
#@title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Tutorial del componente TFX Estimator

***Una introducción detallada de los componentes de TensorFlow Extended (TFX)***

Nota: Recomendamos ejecutar este tutorial en un bloc de notas de Colab, ¡no es necesario configurarlo! Simplemente haga clic en "Ejecutar en Google Colab".

<div class="devsite-table-wrapper"><table class="tfo-notebook-buttons" align="left">
<td><a target="_blank" href="https://www.tensorflow.org/tfx/tutorials/tfx/components"><img src="https://www.tensorflow.org/images/tf_logo_32px.png">Ver en TensorFlow.org</a></td>
<td><a target="_blank" href="https://colab.research.google.com/github/tensorflow/docs-l10n/blob/master/site/es-419/tfx/tutorials/tfx/components.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png">Ejecutar en Google Colab</a></td>
<td><a target="_blank" href="https://github.com/tensorflow/docs-l10n/blob/master/site/es-419/tfx/tutorials/tfx/components.ipynb"><img width="32px" src="https://www.tensorflow.org/images/GitHub-Mark-32px.png">Ver fuente en GitHub</a></td>
<td><a target="_blank" href="https://storage.googleapis.com/tensorflow_docs/docs-l10n/site/es-419/tfx/tutorials/tfx/components.ipynb"><img width="32px" src="https://www.tensorflow.org/images/download_logo_32px.png">Descargar el bloc de notas</a></td>
</table></div>

> Advertencia: Los estimadores no se recomiendan para código nuevo. Los estimadores ejecutan el código de estilo `v1.Session` que es más difícil de escribir correctamente y que puede tener un comportamiento inesperado; particularmente, cuando se combina con código TF 2. Los estimadores están incluidos dentro de nuestras [garantías de compatibilidad](https://tensorflow.org/guide/versions), pero no se les harán correcciones a menos que se trate de vulneraciones a la seguridad. Para más detalles, consulte la [Guía de migración](https://tensorflow.org/guide/migrate).

En este tutorial basado en Colab repasaremos de forma interactiva cada componente integrado de TensorFlow Extended (TFX).

Cubre cada paso de un proceso de aprendizaje automático de un extremo a otro, desde la ingesta de datos hasta la inserción de un modelo en servicio.

Cuando haya terminado, el contenido de este bloc de notas se puede exportar automáticamente como código fuente de canalización de TFX, que podrá orquestar con Apache Airflow y Apache Beam.

Nota: Este bloc de notas y sus API asociadas son **experimentales** y se encuentran en desarrollo activo. Se esperan cambios importantes en funcionalidad, comportamiento y presentación.

## Antecedentes

En este bloc de notas se demuestra cómo utilizar TFX en un entorno Jupyter/Colab. Aquí, analizamos el ejemplo de Chicago Taxi en un bloc de notas interactivo.

Trabajar en un bloc de notas interactivo es una forma útil de familiarizarse con la estructura de una canalización de TFX. También es útil a la hora de desarrollar sus propias canalizaciones como un entorno de desarrollo ligero, pero debe tener en cuenta que existen diferencias en la forma en que se organizan los bloc de notas interactivos y en cómo acceden a los artefactos de metadatos.

### Orquestación

En una implementación de producción de TFX, se usará un orquestador como Apache Airflow, Kubeflow Pipelines o Apache Beam para orquestar un grafo de canalización predefinido de componentes de TFX. En un bloc de notas interactivo, el bloc de notas en sí es el orquestador y ejecuta cada componente de TFX a medida que se ejecutan las celdas del bloc de notas.

### Metadatos

En una implementación de producción de TFX, accederá a los metadatos a través de la API ML Metadata (MLMD). MLMD almacena propiedades de metadatos en una base de datos como MySQL o SQLite, y almacena las cargas útiles de metadatos en un almacén persistente, como en su sistema de archivos. En un bloc de notas interactivo, tanto las propiedades como las cargas útiles se almacenan en una base de datos SQLite efímera en el directorio `/tmp` del bloc de notas Jupyter o del servidor Colab.

## Preparar

En primer lugar, tenemos que instalar e importar los paquetes necesarios, configurar rutas y descargar datos.

### Actualización de pip

Para evitar actualizar Pip en un sistema cuando se ejecuta localmente, verifique que se esté ejecutando en Colab. Por supuesto, los sistemas locales se pueden actualizar por separado.

In [None]:
try:
  import colab
  !pip install --upgrade pip
except:
  pass

### Instalación de TFX

**Nota: En Google Colab, debido a las actualizaciones de paquetes, la primera vez que ejecuta esta celda debe reiniciar el tiempo de ejecución (Tiempo de ejecución &gt; Reiniciar tiempo de ejecución...).**

In [None]:
!pip install tfx

### Desinstalación de shapely

TODO(b/263441833) Esta es una solución temporal para evitar un ImportError. En última instancia, debería solucionarse admitiendo una versión reciente de Bigquery, en lugar de desinstalar otras dependencias adicionales.

In [None]:
!pip uninstall shapely -y

## ¿Reinició el tiempo de ejecución?

Si está usando Google Colab, la primera vez que ejecute la celda anterior, debe reiniciar el tiempo de ejecución (Tiempo de ejecución &gt; Reiniciar tiempo de ejecución...). Esto se debe a la forma en que Colab carga los paquetes.

### Importación de paquetes

Importamos los paquetes necesarios, incluidas las clases de componentes de TFX estándar.

In [None]:
import os
import pprint
import tempfile
import urllib

import absl
import tensorflow as tf
import tensorflow_model_analysis as tfma
tf.get_logger().propagate = False
pp = pprint.PrettyPrinter()

from tfx import v1 as tfx
from tfx.orchestration.experimental.interactive.interactive_context import InteractiveContext

%load_ext tfx.orchestration.experimental.interactive.notebook_extensions.skip

Revisemos las versiones de la biblioteca.

In [None]:
print('TensorFlow version: {}'.format(tf.__version__))
print('TFX version: {}'.format(tfx.__version__))

### Configuración de rutas de canalización

In [None]:
# This is the root directory for your TFX pip package installation.
_tfx_root = tfx.__path__[0]

# This is the directory containing the TFX Chicago Taxi Pipeline example.
_taxi_root = os.path.join(_tfx_root, 'examples/chicago_taxi_pipeline')

# This is the path where your model will be pushed for serving.
_serving_model_dir = os.path.join(
    tempfile.mkdtemp(), 'serving_model/taxi_simple')

# Set up logging.
absl.logging.set_verbosity(absl.logging.INFO)

### Descarga de datos de muestra

Descargamos el conjunto de datos de ejemplo para usarlo en nuestra canalización de TFX.

El conjunto de datos que estamos usando es el [conjunto de datos Taxi Trips](https://data.cityofchicago.org/Transportation/Taxi-Trips/wrvz-psew) publicado por la ciudad de Chicago. Las columnas de este conjunto de datos son las siguientes:

<table>
<tr>
<td>pickup_community_area</td>
<td>fare</td>
<td>trip_start_month</td>
</tr>
<tr>
<td>trip_start_hour</td>
<td>trip_start_day</td>
<td>trip_start_timestamp</td>
</tr>
<tr>
<td>pickup_latitude</td>
<td>pickup_longitude</td>
<td>dropoff_latitude</td>
</tr>
<tr>
<td>dropoff_longitude</td>
<td>trip_miles</td>
<td>pickup_census_tract</td>
</tr>
<tr>
<td>dropoff_census_tract</td>
<td>payment_type</td>
<td>company</td>
</tr>
<tr>
<td>trip_seconds</td>
<td>dropoff_community_area</td>
<td>tips</td>
</tr>
</table>

Con este conjunto de datos, compilaremos un modelo que predice `tips` de un viaje.

In [None]:
_data_root = tempfile.mkdtemp(prefix='tfx-data')
DATA_PATH = 'https://raw.githubusercontent.com/tensorflow/tfx/master/tfx/examples/chicago_taxi_pipeline/data/simple/data.csv'
_data_filepath = os.path.join(_data_root, "data.csv")
urllib.request.urlretrieve(DATA_PATH, _data_filepath)

Veamos rápidamente al archivo CSV.

In [None]:
!head {_data_filepath}

*Descargo de responsabilidad: Este sitio ofrece aplicaciones que usan datos que fueron modificados para su uso desde su fuente original, www.cityofchicago.org, el sitio web oficial de la ciudad de Chicago. La ciudad de Chicago no garantiza el contenido, la exactitud, la puntualidad o la integridad de ninguno de los datos que se proporcionan en este sitio. Los datos proporcionados en este sitio están sujetos a cambios en cualquier momento. Se entiende que los datos proporcionados en este sitio se usan bajo su propia responsabilidad.*

### Cómo crear el InteractiveContext

Por último, creamos un InteractiveContext, que nos permitirá ejecutar componentes de TFX de forma interactiva en este bloc de notas.

In [None]:
# Here, we create an InteractiveContext using default parameters. This will
# use a temporary directory with an ephemeral ML Metadata database instance.
# To use your own pipeline root or database, the optional properties
# `pipeline_root` and `metadata_connection_config` may be passed to
# InteractiveContext. Calls to InteractiveContext are no-ops outside of the
# notebook.
context = InteractiveContext()

## Cómo ejecutar componentes de TFX de forma interactiva

En las siguientes celdas, creamos componentes de TFX uno por uno, ejecutamos cada uno de ellos y visualizamos sus artefactos de salida.

### ExampleGen

El componente `ExampleGen` suele estar al inicio de una canalización de TFX. Será el encargado de lo siguiente:

1. Dividir los datos en conjuntos de entrenamiento y evaluación (de forma predeterminada, 2/3 de entrenamiento + 1/3 de evaluación)
2. Convertir datos al formato `tf.Example` (obtenga más información [aquí](https://www.tensorflow.org/tutorials/load_data/tfrecord))
3. Copiar los datos en el directorio `_tfx_root` para que otros componentes puedan acceder

`ExampleGen` toma como entrada la ruta a su fuente de datos. En nuestro caso, esta es la ruta `_data_root` que contiene el CSV descargado.

Nota: En este bloc de notas, podemos crear instancias de componentes uno por uno y ejecutarlos con `InteractiveContext.run()`. Por el contrario, en un entorno de producción, especificaríamos todos los componentes por adelantado en una `Pipeline` para pasarlos al orquestador (consulte la [Guía para compilar una canalización de TFX](https://www.tensorflow.org/tfx/guide/build_tfx_pipeline)).

In [None]:
example_gen = tfx.components.CsvExampleGen(input_base=_data_root)
context.run(example_gen)

Examinemos los artefactos de salida de `ExampleGen`. Este componente produce dos artefactos, ejemplos de entrenamiento y ejemplos de evaluación:

In [None]:
artifact = example_gen.outputs['examples'].get()[0]
print(artifact.split_names, artifact.uri)

También podemos echar un vistazo a los tres primeros ejemplos de entrenamiento:

In [None]:
# Get the URI of the output artifact representing the training examples, which is a directory
train_uri = os.path.join(example_gen.outputs['examples'].get()[0].uri, 'Split-train')

# Get the list of files in this directory (all compressed TFRecord files)
tfrecord_filenames = [os.path.join(train_uri, name)
                      for name in os.listdir(train_uri)]

# Create a `TFRecordDataset` to read these files
dataset = tf.data.TFRecordDataset(tfrecord_filenames, compression_type="GZIP")

# Iterate over the first 3 records and decode them.
for tfrecord in dataset.take(3):
  serialized_example = tfrecord.numpy()
  example = tf.train.Example()
  example.ParseFromString(serialized_example)
  pp.pprint(example)

Ahora que `ExampleGen` ha terminado de ingerir los datos, el siguiente paso es el análisis de datos.

### StatisticsGen

El componente `StatisticsGen` calcula estadísticas sobre su conjunto de datos para el análisis de datos, así como para su uso en componentes posteriores. Usa la biblioteca [TensorFlow Data Validation](https://www.tensorflow.org/tfx/data_validation/get_started).

`StatisticsGen` toma como entrada el conjunto de datos que acabamos de ingerir con ayuda de `ExampleGen`.

In [None]:
statistics_gen = tfx.components.StatisticsGen(examples=example_gen.outputs['examples'])
context.run(statistics_gen)

Una vez que `StatisticsGen` termina de ejecutarse, podemos ver las estadísticas generadas. Intente experimentar con los diferentes gráficos.

In [None]:
context.show(statistics_gen.outputs['statistics'])

### SchemaGen

El componente `SchemaGen` genera un esquema basado en sus estadísticas de datos. (Un esquema define los límites, tipos y propiedades esperados de las características de su conjunto de datos). También usa la biblioteca [TensorFlow Data Validation](https://www.tensorflow.org/tfx/data_validation/get_started).

`SchemaGen` tomará como entrada las estadísticas que generamos con `StatisticsGen`, tomando como referencia la división del entrenamiento de forma predeterminada.

In [None]:
schema_gen = tfx.components.SchemaGen(
    statistics=statistics_gen.outputs['statistics'],
    infer_feature_shape=False)
context.run(schema_gen)

Una vez que `SchemaGen` termine de ejecutarse, podremos visualizar el esquema generado como una tabla.

In [None]:
context.show(schema_gen.outputs['schema'])

Cada característica del conjunto de datos aparece como una fila en la tabla del esquema, junto con sus propiedades. El esquema también captura todos los valores que toma una característica categórica, denominada dominio.

Para obtener más información sobre los esquemas, consulte [la documentación de SchemaGen](https://www.tensorflow.org/tfx/guide/schemagen).

### ExampleValidator

El componente `ExampleValidator` detecta anomalías en sus datos, según las expectativas definidas por el esquema. También utiliza la biblioteca [TensorFlow Data Validation](https://www.tensorflow.org/tfx/data_validation/get_started).

`ExampleValidator` tomará como entrada las estadísticas de `StatisticsGen` y el esquema de `SchemaGen`.

In [None]:
example_validator = tfx.components.ExampleValidator(
    statistics=statistics_gen.outputs['statistics'],
    schema=schema_gen.outputs['schema'])
context.run(example_validator)

Una vez que `ExampleValidator` termine de ejecutarse, podremos visualizar las anomalías como una tabla.

In [None]:
context.show(example_validator.outputs['anomalies'])

En la tabla de anomalías podemos ver que no hay anomalías. Esto es lo que esperaríamos, ya que este es el primer conjunto de datos que analizamos y el esquema se adapta a él. Debe revisar este esquema: cualquier cosa inesperada significa una anomalía en los datos. Una vez revisado, el esquema se puede usar para proteger datos futuros y las anomalías producidas aquí se pueden usar para depurar el rendimiento del modelo, comprender cómo evolucionan los datos con el tiempo e identificar errores en los datos.

### Transform

El componente `Transform` ejecuta ingeniería de características tanto para el entrenamiento como para el servicio. Utiliza la biblioteca [TensorFlow Transform](https://www.tensorflow.org/tfx/transform/get_started).

`Transform` tomará como entrada los datos de `ExampleGen`, el esquema de `SchemaGen`, así como un módulo que contiene código Transform definido por el usuario.

A continuación, veamos un ejemplo de código de Transform definido por el usuario (para obtener una introducción a las API de TensorFlow Transform, [consulte el tutorial](https://www.tensorflow.org/tfx/tutorials/transform/simple)). Primero, definimos algunas constantes para la ingeniería de características:

Nota: La magia de celda `%%writefile` guardará el contenido de la celda como un archivo `.py` en el disco. Esto permite que el componente `Transform` cargue su código como un módulo.


In [None]:
_taxi_constants_module_file = 'taxi_constants.py'

In [None]:
%%writefile {_taxi_constants_module_file}

# Categorical features are assumed to each have a maximum value in the dataset.
MAX_CATEGORICAL_FEATURE_VALUES = [24, 31, 12]

CATEGORICAL_FEATURE_KEYS = [
    'trip_start_hour', 'trip_start_day', 'trip_start_month',
    'pickup_census_tract', 'dropoff_census_tract', 'pickup_community_area',
    'dropoff_community_area'
]

DENSE_FLOAT_FEATURE_KEYS = ['trip_miles', 'fare', 'trip_seconds']

# Number of buckets used by tf.transform for encoding each feature.
FEATURE_BUCKET_COUNT = 10

BUCKET_FEATURE_KEYS = [
    'pickup_latitude', 'pickup_longitude', 'dropoff_latitude',
    'dropoff_longitude'
]

# Number of vocabulary terms used for encoding VOCAB_FEATURES by tf.transform
VOCAB_SIZE = 1000

# Count of out-of-vocab buckets in which unrecognized VOCAB_FEATURES are hashed.
OOV_SIZE = 10

VOCAB_FEATURE_KEYS = [
    'payment_type',
    'company',
]

# Keys
LABEL_KEY = 'tips'
FARE_KEY = 'fare'

A continuación, escribimos un `preprocessing_fn` que toma datos sin procesar como entrada y devuelve características transformadas en las que nuestro modelo puede entrenar:

In [None]:
_taxi_transform_module_file = 'taxi_transform.py'

In [None]:
%%writefile {_taxi_transform_module_file}

import tensorflow as tf
import tensorflow_transform as tft

import taxi_constants

_DENSE_FLOAT_FEATURE_KEYS = taxi_constants.DENSE_FLOAT_FEATURE_KEYS
_VOCAB_FEATURE_KEYS = taxi_constants.VOCAB_FEATURE_KEYS
_VOCAB_SIZE = taxi_constants.VOCAB_SIZE
_OOV_SIZE = taxi_constants.OOV_SIZE
_FEATURE_BUCKET_COUNT = taxi_constants.FEATURE_BUCKET_COUNT
_BUCKET_FEATURE_KEYS = taxi_constants.BUCKET_FEATURE_KEYS
_CATEGORICAL_FEATURE_KEYS = taxi_constants.CATEGORICAL_FEATURE_KEYS
_FARE_KEY = taxi_constants.FARE_KEY
_LABEL_KEY = taxi_constants.LABEL_KEY


def preprocessing_fn(inputs):
  """tf.transform's callback function for preprocessing inputs.
  Args:
    inputs: map from feature keys to raw not-yet-transformed features.
  Returns:
    Map from string feature key to transformed feature operations.
  """
  outputs = {}
  for key in _DENSE_FLOAT_FEATURE_KEYS:
    # If sparse make it dense, setting nan's to 0 or '', and apply zscore.
    outputs[key] = tft.scale_to_z_score(
        _fill_in_missing(inputs[key]))

  for key in _VOCAB_FEATURE_KEYS:
    # Build a vocabulary for this feature.
    outputs[key] = tft.compute_and_apply_vocabulary(
        _fill_in_missing(inputs[key]),
        top_k=_VOCAB_SIZE,
        num_oov_buckets=_OOV_SIZE)

  for key in _BUCKET_FEATURE_KEYS:
    outputs[key] = tft.bucketize(
        _fill_in_missing(inputs[key]), _FEATURE_BUCKET_COUNT)

  for key in _CATEGORICAL_FEATURE_KEYS:
    outputs[key] = _fill_in_missing(inputs[key])

  # Was this passenger a big tipper?
  taxi_fare = _fill_in_missing(inputs[_FARE_KEY])
  tips = _fill_in_missing(inputs[_LABEL_KEY])
  outputs[_LABEL_KEY] = tf.where(
      tf.math.is_nan(taxi_fare),
      tf.cast(tf.zeros_like(taxi_fare), tf.int64),
      # Test if the tip was > 20% of the fare.
      tf.cast(
          tf.greater(tips, tf.multiply(taxi_fare, tf.constant(0.2))), tf.int64))

  return outputs


def _fill_in_missing(x):
  """Replace missing values in a SparseTensor.
  Fills in missing values of `x` with '' or 0, and converts to a dense tensor.
  Args:
    x: A `SparseTensor` of rank 2.  Its dense shape should have size at most 1
      in the second dimension.
  Returns:
    A rank 1 tensor where missing values of `x` have been filled in.
  """
  if not isinstance(x, tf.sparse.SparseTensor):
    return x

  default_value = '' if x.dtype == tf.string else 0
  return tf.squeeze(
      tf.sparse.to_dense(
          tf.SparseTensor(x.indices, x.values, [x.dense_shape[0], 1]),
          default_value),
      axis=1)

Ahora, pasamos este código de ingeniería de características al componente `Transform` y lo ejecutamos para transformar sus datos.

In [None]:
transform = tfx.components.Transform(
    examples=example_gen.outputs['examples'],
    schema=schema_gen.outputs['schema'],
    module_file=os.path.abspath(_taxi_transform_module_file))
context.run(transform)

Examinemos los artefactos de salida de `Transform`. Este componente produce dos tipos de resultados:

- `transform_graph` es el grafo que puede realizar las operaciones de preprocesamiento (este grafo se incluirá en los modelos de servicio y evaluación).
- `transformed_examples` representa los datos de evaluación y entrenamiento preprocesados.

In [None]:
transform.outputs

Echemos un vistazo al artefacto `transform_graph`. Apunta a un directorio que contiene tres subdirectorios.

In [None]:
train_uri = transform.outputs['transform_graph'].get()[0].uri
os.listdir(train_uri)

El subdirectorio `transformed_metadata` contiene el esquema de los datos preprocesados. El subdirectorio `transform_fn` contiene el grafo de preprocesamiento real. El subdirectorio `metadata` contiene el esquema de los datos originales.

También podemos echar un vistazo a los primeros tres ejemplos transformados:

In [None]:
# Get the URI of the output artifact representing the transformed examples, which is a directory
train_uri = os.path.join(transform.outputs['transformed_examples'].get()[0].uri, 'Split-train')

# Get the list of files in this directory (all compressed TFRecord files)
tfrecord_filenames = [os.path.join(train_uri, name)
                      for name in os.listdir(train_uri)]

# Create a `TFRecordDataset` to read these files
dataset = tf.data.TFRecordDataset(tfrecord_filenames, compression_type="GZIP")

# Iterate over the first 3 records and decode them.
for tfrecord in dataset.take(3):
  serialized_example = tfrecord.numpy()
  example = tf.train.Example()
  example.ParseFromString(serialized_example)
  pp.pprint(example)

Después de que el componente `Transform` haya transformado sus datos en características, el siguiente paso es entrenar un modelo.

### Trainer

El componente `Trainer` entrenará un modelo que usted defina en TensorFlow (ya sea mediante el uso de la API Estimator o de la API Keras con [`model_to_estimator`](https://www.tensorflow.org/api_docs/python/tf/keras/estimator/model_to_estimator)).

`Trainer` toma como entrada el esquema de `SchemaGen`, los datos transformados y el grafo de `Transform`, los parámetros de entrenamiento, así como un módulo que contiene código de modelo definido por el usuario.

Veamos un ejemplo de código de modelo definido por el usuario a continuación (para obtener una introducción a las API de TensorFlow Estimator, [consulte el tutorial](https://www.tensorflow.org/tutorials/estimator/premade)):

In [None]:
_taxi_trainer_module_file = 'taxi_trainer.py'

In [None]:
%%writefile {_taxi_trainer_module_file}

import tensorflow as tf
import tensorflow_model_analysis as tfma
import tensorflow_transform as tft
from tensorflow_transform.tf_metadata import schema_utils
from tfx_bsl.tfxio import dataset_options

import taxi_constants

_DENSE_FLOAT_FEATURE_KEYS = taxi_constants.DENSE_FLOAT_FEATURE_KEYS
_VOCAB_FEATURE_KEYS = taxi_constants.VOCAB_FEATURE_KEYS
_VOCAB_SIZE = taxi_constants.VOCAB_SIZE
_OOV_SIZE = taxi_constants.OOV_SIZE
_FEATURE_BUCKET_COUNT = taxi_constants.FEATURE_BUCKET_COUNT
_BUCKET_FEATURE_KEYS = taxi_constants.BUCKET_FEATURE_KEYS
_CATEGORICAL_FEATURE_KEYS = taxi_constants.CATEGORICAL_FEATURE_KEYS
_MAX_CATEGORICAL_FEATURE_VALUES = taxi_constants.MAX_CATEGORICAL_FEATURE_VALUES
_LABEL_KEY = taxi_constants.LABEL_KEY


# Tf.Transform considers these features as "raw"
def _get_raw_feature_spec(schema):
  return schema_utils.schema_as_feature_spec(schema).feature_spec


def _build_estimator(config, hidden_units=None, warm_start_from=None):
  """Build an estimator for predicting the tipping behavior of taxi riders.
  Args:
    config: tf.estimator.RunConfig defining the runtime environment for the
      estimator (including model_dir).
    hidden_units: [int], the layer sizes of the DNN (input layer first)
    warm_start_from: Optional directory to warm start from.
  Returns:
    A dict of the following:
      - estimator: The estimator that will be used for training and eval.
      - train_spec: Spec for training.
      - eval_spec: Spec for eval.
      - eval_input_receiver_fn: Input function for eval.
  """
  real_valued_columns = [
      tf.feature_column.numeric_column(key, shape=())
      for key in _DENSE_FLOAT_FEATURE_KEYS
  ]
  categorical_columns = [
      tf.feature_column.categorical_column_with_identity(
          key, num_buckets=_VOCAB_SIZE + _OOV_SIZE, default_value=0)
      for key in _VOCAB_FEATURE_KEYS
  ]
  categorical_columns += [
      tf.feature_column.categorical_column_with_identity(
          key, num_buckets=_FEATURE_BUCKET_COUNT, default_value=0)
      for key in _BUCKET_FEATURE_KEYS
  ]
  categorical_columns += [
      tf.feature_column.categorical_column_with_identity(  # pylint: disable=g-complex-comprehension
          key,
          num_buckets=num_buckets,
          default_value=0) for key, num_buckets in zip(
              _CATEGORICAL_FEATURE_KEYS,
              _MAX_CATEGORICAL_FEATURE_VALUES)
  ]
  return tf.estimator.DNNLinearCombinedClassifier(
      config=config,
      linear_feature_columns=categorical_columns,
      dnn_feature_columns=real_valued_columns,
      dnn_hidden_units=hidden_units or [100, 70, 50, 25],
      warm_start_from=warm_start_from)


def _example_serving_receiver_fn(tf_transform_graph, schema):
  """Build the serving in inputs.
  Args:
    tf_transform_graph: A TFTransformOutput.
    schema: the schema of the input data.
  Returns:
    Tensorflow graph which parses examples, applying tf-transform to them.
  """
  raw_feature_spec = _get_raw_feature_spec(schema)
  raw_feature_spec.pop(_LABEL_KEY)

  raw_input_fn = tf.estimator.export.build_parsing_serving_input_receiver_fn(
      raw_feature_spec, default_batch_size=None)
  serving_input_receiver = raw_input_fn()

  transformed_features = tf_transform_graph.transform_raw_features(
      serving_input_receiver.features)

  return tf.estimator.export.ServingInputReceiver(
      transformed_features, serving_input_receiver.receiver_tensors)


def _eval_input_receiver_fn(tf_transform_graph, schema):
  """Build everything needed for the tf-model-analysis to run the model.
  Args:
    tf_transform_graph: A TFTransformOutput.
    schema: the schema of the input data.
  Returns:
    EvalInputReceiver function, which contains:
      - Tensorflow graph which parses raw untransformed features, applies the
        tf-transform preprocessing operators.
      - Set of raw, untransformed features.
      - Label against which predictions will be compared.
  """
  # Notice that the inputs are raw features, not transformed features here.
  raw_feature_spec = _get_raw_feature_spec(schema)

  serialized_tf_example = tf.compat.v1.placeholder(
      dtype=tf.string, shape=[None], name='input_example_tensor')

  # Add a parse_example operator to the tensorflow graph, which will parse
  # raw, untransformed, tf examples.
  features = tf.io.parse_example(serialized_tf_example, raw_feature_spec)

  # Now that we have our raw examples, process them through the tf-transform
  # function computed during the preprocessing step.
  transformed_features = tf_transform_graph.transform_raw_features(
      features)

  # The key name MUST be 'examples'.
  receiver_tensors = {'examples': serialized_tf_example}

  # NOTE: Model is driven by transformed features (since training works on the
  # materialized output of TFT, but slicing will happen on raw features.
  features.update(transformed_features)

  return tfma.export.EvalInputReceiver(
      features=features,
      receiver_tensors=receiver_tensors,
      labels=transformed_features[_LABEL_KEY])


def _input_fn(file_pattern, data_accessor, tf_transform_output, batch_size=200):
  """Generates features and label for tuning/training.

  Args:
    file_pattern: List of paths or patterns of input tfrecord files.
    data_accessor: DataAccessor for converting input to RecordBatch.
    tf_transform_output: A TFTransformOutput.
    batch_size: representing the number of consecutive elements of returned
      dataset to combine in a single batch

  Returns:
    A dataset that contains (features, indices) tuple where features is a
      dictionary of Tensors, and indices is a single Tensor of label indices.
  """
  return data_accessor.tf_dataset_factory(
      file_pattern,
      dataset_options.TensorFlowDatasetOptions(
          batch_size=batch_size, label_key=_LABEL_KEY),
      tf_transform_output.transformed_metadata.schema)


# TFX will call this function
def trainer_fn(trainer_fn_args, schema):
  """Build the estimator using the high level API.
  Args:
    trainer_fn_args: Holds args used to train the model as name/value pairs.
    schema: Holds the schema of the training examples.
  Returns:
    A dict of the following:
      - estimator: The estimator that will be used for training and eval.
      - train_spec: Spec for training.
      - eval_spec: Spec for eval.
      - eval_input_receiver_fn: Input function for eval.
  """
  # Number of nodes in the first layer of the DNN
  first_dnn_layer_size = 100
  num_dnn_layers = 4
  dnn_decay_factor = 0.7

  train_batch_size = 40
  eval_batch_size = 40

  tf_transform_graph = tft.TFTransformOutput(trainer_fn_args.transform_output)

  train_input_fn = lambda: _input_fn(  # pylint: disable=g-long-lambda
      trainer_fn_args.train_files,
      trainer_fn_args.data_accessor,
      tf_transform_graph,
      batch_size=train_batch_size)

  eval_input_fn = lambda: _input_fn(  # pylint: disable=g-long-lambda
      trainer_fn_args.eval_files,
      trainer_fn_args.data_accessor,
      tf_transform_graph,
      batch_size=eval_batch_size)

  train_spec = tf.estimator.TrainSpec(  # pylint: disable=g-long-lambda
      train_input_fn,
      max_steps=trainer_fn_args.train_steps)

  serving_receiver_fn = lambda: _example_serving_receiver_fn(  # pylint: disable=g-long-lambda
      tf_transform_graph, schema)

  exporter = tf.estimator.FinalExporter('chicago-taxi', serving_receiver_fn)
  eval_spec = tf.estimator.EvalSpec(
      eval_input_fn,
      steps=trainer_fn_args.eval_steps,
      exporters=[exporter],
      name='chicago-taxi-eval')

  run_config = tf.estimator.RunConfig(
      save_checkpoints_steps=999, keep_checkpoint_max=1)

  run_config = run_config.replace(model_dir=trainer_fn_args.serving_model_dir)

  estimator = _build_estimator(
      # Construct layers sizes with exponetial decay
      hidden_units=[
          max(2, int(first_dnn_layer_size * dnn_decay_factor**i))
          for i in range(num_dnn_layers)
      ],
      config=run_config,
      warm_start_from=trainer_fn_args.base_model)

  # Create an input receiver for TFMA processing
  receiver_fn = lambda: _eval_input_receiver_fn(  # pylint: disable=g-long-lambda
      tf_transform_graph, schema)

  return {
      'estimator': estimator,
      'train_spec': train_spec,
      'eval_spec': eval_spec,
      'eval_input_receiver_fn': receiver_fn
  }

Ahora, pasamos este código de modelo al componente `Trainer` y lo ejecutamos para entrenar el modelo.

In [None]:
from tfx.components.trainer.executor import Executor
from tfx.dsl.components.base import executor_spec

trainer = tfx.components.Trainer(
    module_file=os.path.abspath(_taxi_trainer_module_file),
    custom_executor_spec=executor_spec.ExecutorClassSpec(Executor),
    examples=transform.outputs['transformed_examples'],
    schema=schema_gen.outputs['schema'],
    transform_graph=transform.outputs['transform_graph'],
    train_args=tfx.proto.TrainArgs(num_steps=10000),
    eval_args=tfx.proto.EvalArgs(num_steps=5000))
context.run(trainer)

#### Análisis del entrenamiento con TensorBoard

Opcionalmente, podemos conectar TensorBoard al Trainer para analizar las curvas de entrenamiento de nuestro modelo.

In [None]:
# Get the URI of the output artifact representing the training logs, which is a directory
model_run_dir = trainer.outputs['model_run'].get()[0].uri

%load_ext tensorboard
%tensorboard --logdir {model_run_dir}

### Evaluator

El componente `Evaluator` calcula las métricas de rendimiento del modelo sobre el conjunto de evaluación. Utiliza la biblioteca [TensorFlow Data Analysis](https://www.tensorflow.org/tfx/model_analysis/get_started). Opcionalmente, `Evaluator` también puede validar que un modelo recién entrenado es mejor que el modelo anterior. Esto es útil en una configuración de canalización de producción donde se puede entrenar y validar automáticamente un modelo todos los días. En este bloc de notas, solo entrenamos un modelo, por lo que `Evaluator` automáticamente etiquetará el modelo como "bueno".

`Evaluator` tomará como entrada los datos de `ExampleGen`, el modelo entrenado de `Trainer` y la configuración de segmentación. La configuración de segmentación le permite dividir sus métricas según los valores de las características (por ejemplo, ¿cómo se desempeña su modelo en viajes en taxi que comienzan a las 8 a. m. versus a las 8 p. m.?). Vea un ejemplo de esta configuración a continuación:

In [None]:
eval_config = tfma.EvalConfig(
    model_specs=[
        # Using signature 'eval' implies the use of an EvalSavedModel. To use
        # a serving model remove the signature to defaults to 'serving_default'
        # and add a label_key.
        tfma.ModelSpec(signature_name='eval')
    ],
    metrics_specs=[
        tfma.MetricsSpec(
            # The metrics added here are in addition to those saved with the
            # model (assuming either a keras model or EvalSavedModel is used).
            # Any metrics added into the saved model (for example using
            # model.compile(..., metrics=[...]), etc) will be computed
            # automatically.
            metrics=[
                tfma.MetricConfig(class_name='ExampleCount')
            ],
            # To add validation thresholds for metrics saved with the model,
            # add them keyed by metric name to the thresholds map.
            thresholds = {
                'accuracy': tfma.MetricThreshold(
                    value_threshold=tfma.GenericValueThreshold(
                        lower_bound={'value': 0.5}),
                    # Change threshold will be ignored if there is no
                    # baseline model resolved from MLMD (first run).
                    change_threshold=tfma.GenericChangeThreshold(
                       direction=tfma.MetricDirection.HIGHER_IS_BETTER,
                       absolute={'value': -1e-10}))
            }
        )
    ],
    slicing_specs=[
        # An empty slice spec means the overall slice, i.e. the whole dataset.
        tfma.SlicingSpec(),
        # Data can be sliced along a feature column. In this case, data is
        # sliced along feature column trip_start_hour.
        tfma.SlicingSpec(feature_keys=['trip_start_hour'])
    ])

A continuación, le pasamos esta configuración `Evaluator` y lo ejecutamos.

In [None]:
# Use TFMA to compute a evaluation statistics over features of a model and
# validate them against a baseline.

# The model resolver is only required if performing model validation in addition
# to evaluation. In this case we validate against the latest blessed model. If
# no model has been blessed before (as in this case) the evaluator will make our
# candidate the first blessed model.
model_resolver = tfx.dsl.Resolver(
      strategy_class=tfx.dsl.experimental.LatestBlessedModelStrategy,
      model=tfx.dsl.Channel(type=tfx.types.standard_artifacts.Model),
      model_blessing=tfx.dsl.Channel(
          type=tfx.types.standard_artifacts.ModelBlessing)).with_id(
              'latest_blessed_model_resolver')
context.run(model_resolver)

evaluator = tfx.components.Evaluator(
    examples=example_gen.outputs['examples'],
    model=trainer.outputs['model'],
    eval_config=eval_config)
context.run(evaluator)

Ahora examinemos los artefactos de salida de `Evaluator`. 

In [None]:
evaluator.outputs

Al usar el resultado `evaluation` podemos mostrar la visualización predeterminada de métricas globales en todo el conjunto de evaluación.

In [None]:
context.show(evaluator.outputs['evaluation'])

Para ver la visualización de métricas de evaluación segmentadas, podemos llamar directamente a la biblioteca TensorFlow Model Analysis.

In [None]:
import tensorflow_model_analysis as tfma

# Get the TFMA output result path and load the result.
PATH_TO_RESULT = evaluator.outputs['evaluation'].get()[0].uri
tfma_result = tfma.load_eval_result(PATH_TO_RESULT)

# Show data sliced along feature column trip_start_hour.
tfma.view.render_slicing_metrics(
    tfma_result, slicing_column='trip_start_hour')

Esta visualización muestra las mismas métricas, pero calculadas en cada valor de característica de `trip_start_hour` en lugar de en todo el conjunto de evaluación.

TensorFlow Model Analysis admite muchas otras visualizaciones, como indicadores de equidad y el trazado de una serie temporal del rendimiento del modelo. Para obtener más información, consulte [el tutorial](https://www.tensorflow.org/tfx/tutorials/model_analysis/tfma_basic).

Dado que agregamos umbrales a nuestra configuración, el resultado de validación también está disponible. La presencia de un artefacto `blessing` indica que nuestro modelo pasó la validación. Como esta es la primera validación que se realiza, el candidato queda automáticamente aprobado.

In [None]:
blessing_uri = evaluator.outputs['blessing'].get()[0].uri
!ls -l {blessing_uri}

Ahora también puede verificar el éxito al cargar el registro del resultado de la validación:

In [None]:
PATH_TO_RESULT = evaluator.outputs['evaluation'].get()[0].uri
print(tfma.load_validation_result(PATH_TO_RESULT))

### Pusher

El componente `Pusher` suele estar al final de una canalización de TFX. Comprueba si un modelo ha pasado la validación y, de ser así, exporta el modelo a `_serving_model_dir`.

In [None]:
pusher = tfx.components.Pusher(
    model=trainer.outputs['model'],
    model_blessing=evaluator.outputs['blessing'],
    push_destination=tfx.proto.PushDestination(
        filesystem=tfx.proto.PushDestination.Filesystem(
            base_directory=_serving_model_dir)))
context.run(pusher)

Examinemos los artefactos de salida de `Pusher`. 

In [None]:
pusher.outputs

En particular, Pusher exportará su modelo en el formato SavedModel, que se ve así:

In [None]:
push_uri = pusher.outputs['pushed_model'].get()[0].uri
model = tf.saved_model.load(push_uri)

for item in model.signatures.items():
  pp.pprint(item)

¡Hemos terminado nuestro recorrido por los componentes integrados en TFX!