## Paso 1:Instalar todas las dependencias y configurar el entorno

In [1]:
!pip install tensorflow-data-validation

Collecting protobuf<5,>=3.20.3
  Using cached protobuf-4.23.4-cp39-cp39-win_amd64.whl (422 kB)
Installing collected packages: protobuf
  Attempting uninstall: protobuf
    Found existing installation: protobuf 3.20.3
    Uninstalling protobuf-3.20.3:
      Successfully uninstalled protobuf-3.20.3
Successfully installed protobuf-4.23.4




In [2]:
!pip install --upgrade tensorflow-data-validation





## Paso 2: Importar las librerías para el proyecto

In [4]:
import pandas as pd
import os
os.environ["PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION"]="python"
import tensorflow as tf
import tensorflow_data_validation as tfdv

from __future__ import print_function

## Paso 3: Análisis descriptivo del dataset


In [5]:
dataset = pd.read_csv("https://raw.githubusercontent.com/joanby/tensorflow2/master/datasets/pollution-small.csv")

In [6]:
dataset.shape

(2188, 5)

In [10]:
dataset

Unnamed: 0,Date,pm10,no2,so2,soot
0,1/1/2009,98.67,14.10,44.38,34.81
1,1/2/2009,52.33,14.10,29.75,33.06
2,1/3/2009,74.67,20.50,36.25,39.25
3,1/4/2009,72.00,17.30,46.44,34.38
4,1/5/2009,81.00,25.64,56.56,45.59
...,...,...,...,...,...
2183,12/24/2014,178.07,106.03,33.76,43.22
2184,12/25/2014,98.00,82.28,27.73,31.50
2185,12/26/2014,24.07,44.24,15.76,16.46
2186,12/27/2014,24.03,42.27,18.57,14.21


In [11]:
training_data = dataset[:1600]

In [12]:
training_data.describe()

Unnamed: 0,pm10,no2,so2,soot
count,1600.0,1600.0,1600.0,1600.0
mean,49.656494,30.980519,16.229981,21.551956
std,35.211906,12.400788,10.621896,12.127354
min,6.38,9.74,4.01,6.0
25%,28.345,22.5675,9.7775,14.4
50%,38.835,28.715,13.275,18.63
75%,58.05,36.37,19.2825,24.0725
max,277.25,138.01,123.13,107.65


In [13]:
training_data

Unnamed: 0,Date,pm10,no2,so2,soot
0,1/1/2009,98.67,14.10,44.38,34.81
1,1/2/2009,52.33,14.10,29.75,33.06
2,1/3/2009,74.67,20.50,36.25,39.25
3,1/4/2009,72.00,17.30,46.44,34.38
4,1/5/2009,81.00,25.64,56.56,45.59
...,...,...,...,...,...
1595,5/15/2013,29.91,39.25,12.55,19.06
1596,5/16/2013,22.16,35.04,12.07,19.19
1597,5/17/2013,25.90,31.57,12.96,19.50
1598,5/18/2013,21.64,34.27,15.05,20.00


In [14]:
test_set = dataset[1600:]

In [15]:
test_set.describe()

Unnamed: 0,pm10,no2,so2,soot
count,588.0,588.0,588.0,588.0
mean,44.648248,37.296922,13.60517,18.44131
std,28.992087,10.94005,5.098944,6.596459
min,11.9,15.07,4.99,8.0
25%,28.3375,29.2175,10.1225,14.41
50%,35.555,35.815,12.345,17.09
75%,50.8125,43.8725,15.855,20.9625
max,273.77,106.03,38.03,87.21


## Paso 3.1: Análisis descriptivo y validación con TFDV

### Generar análisis descriptivo del dataset


In [16]:
train_stats = tfdv.generate_statistics_from_dataframe(dataframe=training_data)#Se puede añadir njobs

### Inferir el esquema 

In [17]:
schema = tfdv.infer_schema(statistics=train_stats)#Informacion de los datos

In [18]:
tfdv.display_schema(schema)

Unnamed: 0_level_0,Type,Presence,Valency,Domain
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
'Date',BYTES,required,,-
'pm10',FLOAT,required,,-
'no2',FLOAT,required,,-
'so2',FLOAT,required,,-
'soot',FLOAT,required,,-


### Calcular los estadísticos  descriptivos del conjunto de testing


In [19]:
test_stats = tfdv.generate_statistics_from_dataframe(dataframe=test_set)

## Paso 4: Comparar estadísticos del conjunto de test con Schema

### Buscar anomalías en los nuevos datos

In [20]:
anomalies = tfdv.validate_statistics(statistics=test_stats, schema=schema)

### Mostrar todas las anomalías detectadas

- Número entero mayor que  10
- Tipo STRING cuando se esperaba un tipo INT
- Tipo FLOAT cuando se esperaba un tipo INT
- Número entero menor que 0

In [21]:
tfdv.display_anomalies(anomalies)

### Nuevos datos CON anomalías

In [86]:
test_set_copy = test_set.copy()

In [87]:
test_set_copy.drop("soot", axis=1, inplace=True)

In [88]:
test_set_copy["pm10"] = "Edmundo"

In [89]:
test_set_copy['pm10']

1600    Edmundo
1601    Edmundo
1602    Edmundo
1603    Edmundo
1604    Edmundo
         ...   
2183    Edmundo
2184    Edmundo
2185    Edmundo
2186    Edmundo
2187    Edmundo
Name: pm10, Length: 588, dtype: object

### Estadísticos basados en datos con anomalías

In [90]:
test_set_copy_stats = tfdv.generate_statistics_from_dataframe(dataframe=test_set_copy)#Toda la columna debe de tener el mismo tipo de datos

In [91]:
anomalies_new = tfdv.validate_statistics(statistics=test_set_copy_stats, schema=schema)

In [92]:
tfdv.display_anomalies(anomalies_new)

Unnamed: 0_level_0,Anomaly short description,Anomaly long description
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1
'soot',Column dropped,Column is completely missing
'pm10',Unexpected data type,Expected data of type: FLOAT but got STRING


## Paso 5: Preparar el esquema para subir a producción

In [93]:
schema.default_environment.append("TRAINING")#Entorno de entrenamieto
schema.default_environment.append("SERVING")#Recoleccion de datos en el servidor 

### Eliminar la columna objetivo del esquema de producción

In [98]:
tfdv.get_feature(schema, "soot").not_in_environment.append("SERVING")#Quitando soot del enviroment SERVING

### Comprobar anomalías entre el entorno del servidor y nuevos datos entrantes

In [103]:
test_set_copy = test_set.copy()
test_set_copy.drop("soot", axis=1, inplace=True)
test_set_copy_stats = tfdv.generate_statistics_from_dataframe(dataframe=test_set_copy)
serving_env_anomalies = tfdv.validate_statistics(test_set_copy_stats, schema, environment="SERVING")

In [104]:
tfdv.display_anomalies(serving_env_anomalies)

## Paso 6: Congelar el esquema

In [105]:
tfdv.write_schema_text(schema = schema, output_path = "pollution_schema.pbtxt")#Para el server

# More data

Hemos visto mucho temario en esta sección - desde importar el dataset a crear un esquema de TensorFlow Data Validation que detecta anomalías en tiempo real en el servidor!

Sin embargo, ¿ahora qué? ¿Qué hacemos después de guardar el esquema?

TensorFlow Data Validation (TFDV) es una pequeña parte de una tecnología más general llamada TensorFlow Extended, que se ha creado para poder llevar todo un proyecto de deep learning desde su concepción hasta su puesta a punto en producción.

El esquema que hemos guardado se puede usar de muchos modos. El más común sería junto con TensorFlow Transform, parte también de la librería TensorFlow Extended. Esta tecnología es muy útil para pipelines desde la recogida o minado del dato hasta su almacenamiento para análisis posterior, ya que TensorFlow Transform conoce el tipo de dato que espera basándose en las estadísticas generadas en el esquema.

Hay también otra forma muy útil de usar el esquema creado, y es usando la visualización de datos antes del periodo de inferencia.

Aquí un par de links adicionales donde podrás leer y aprender más acercan TFDV y cómo usarlo en implementaciones end-to-end:



1. Un gran post del blog Towards Data Science donde se explica como usar la parte de visualización de datos de TFDV y el proceso ingenieril necesario en mucho más detalle:

https://towardsdatascience.com/hands-on-tensorflow-data-validation-61e552f123d7



2. Tutorial original de TensorFlow sobre como implementar el TFDV de principio hasta el fin:

https://www.tensorflow.org/tfx/guide/tfdv



3. TensorFlow Data Validation - Pipeline de validación de datos personalizada:

https://www.tensorflow.org/tfx/data_validation/get_started