In [1]:
import pandas as pd
import tensorflow_data_validation as tfdv

In [2]:
from __future__ import print_function

In [3]:
dataset = pd.read_csv('../input/pollution-small.csv')

In [4]:
dataset.shape

(2188, 5)

In [5]:
training_data = dataset[:1600]

In [6]:
training_data.describe()

Unnamed: 0,pm10,no2,so2,soot
count,1600.0,1600.0,1600.0,1600.0
mean,49.656494,30.980519,16.229981,21.551956
std,35.211906,12.400788,10.621896,12.127354
min,6.38,9.74,4.01,6.0
25%,28.345,22.5675,9.7775,14.4
50%,38.835,28.715,13.275,18.63
75%,58.05,36.37,19.2825,24.0725
max,277.25,138.01,123.13,107.65


In [7]:
test_data = dataset[1600:]

In [8]:
test_data.describe()

Unnamed: 0,pm10,no2,so2,soot
count,588.0,588.0,588.0,588.0
mean,44.648248,37.296922,13.60517,18.44131
std,28.992087,10.94005,5.098944,6.596459
min,11.9,15.07,4.99,8.0
25%,28.3375,29.2175,10.1225,14.41
50%,35.555,35.815,12.345,17.09
75%,50.8125,43.8725,15.855,20.9625
max,273.77,106.03,38.03,87.21


## Paso 1: Analisis descriptivo Tensorflow Data Validation (tfdv)

In [9]:
# Esquema del set de datos, todos los estadisticos descriptivos se almacenan aqui
train_stats = tfdv.generate_statistics_from_dataframe(dataframe = training_data)

#### Inferir el esquema

In [10]:
schema = tfdv.infer_schema(statistics = train_stats)

In [11]:
tfdv.display_schema(schema)

Unnamed: 0_level_0,Type,Presence,Valency,Domain
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
'Date',BYTES,required,,-
'pm10',FLOAT,required,,-
'no2',FLOAT,required,,-
'so2',FLOAT,required,,-
'soot',FLOAT,required,,-


### Calcular los estadísticos descriptivos del conjunto de testing

In [12]:
test_stats = tfdv.generate_statistics_from_dataframe(dataframe = test_data)

## Paso 2: Comparar estadísticos del conjunto de test con Schema

### Buscar anomalías en los nuevos datos

In [13]:
# Se estarán evaluando anomalias en función al esquema de entrenamiento,
# quiere decir que este indicador nos puede decir si hay discrepancias entre
# el Testing y el Training dataset
anomalies = tfdv.validate_statistics(statistics=test_stats, schema=schema)

### Mostrar todas las anomalias detectadas

- Número entero mayor que 10
- Tipo String cuando se espera un INT
- Tipo FLOAT cuando se espera un INT
- Número entero mayor que 0

In [14]:
tfdv.display_anomalies(anomalies)

### Nuevos datos con anomalias

In [17]:
# Creemos anomalias para evidenciar la naturaleza de display_anommalies
test_set_copy = test_data.copy()
# Ahora hacemos el daño
test_set_copy.drop("soot", axis=1, inplace=True)

### Estadísticos basados en datos con anomalías

In [19]:
 # Generar estadisticos de copia
test_set_copy_stats = tfdv.generate_statistics_from_dataframe(dataframe=test_set_copy)

# Validar anomalias
anomalies_copy = tfdv.validate_statistics(statistics=test_set_copy_stats, schema=schema) 

# Ver si hay anomalias
tfdv.display_anomalies(anomalies_copy) 

  pd.set_option('max_colwidth', -1)


Unnamed: 0_level_0,Anomaly short description,Anomaly long description
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1
'soot',Column dropped,Column is completely missing


## Paso 3: Preparar el esquema para subir a producción

In [20]:
# Creación de entornos para la fase entrendamiento y la recolección de datos
# de el servidor
schema.default_environment.append("TRAINING")
schema.default_environment.append("SERVING")

### Eliminar la columna objetivo del esquema de producción

In [21]:
# Del esquema conseguir la columna soot y
# la eliminamos del entorno de SERVING entonces
# no estará en el entorno del servidor
tfdv.get_feature(schema, 'soot').not_in_environment.append('SERVING')

### Comprobar anomalías entre el entorno del servidor y nuevos datos entrantes

In [23]:
# Utilizamos del esquema, la variante de entorno SERVING
serving_env_anomalies = tfdv.validate_statistics(test_set_copy_stats, schema, environment='SERVING')
tfdv.display_anomalies(serving_env_anomalies)

## Parte 4: Congelar el Esquema

In [26]:
tfdv.write_schema_text(schema = schema, output_path = 'pollution_schema.pbtxt')