# Exemplo aplicação TensorFlow Data Validation
Esse notebook possui um exemplo prático da aplicação do TF Data Validation e o TensorFlow Transform. Os links das documentações oficiais estão abaixo:

Tutorial de *getting started* do TFDV:
- https://www.tensorflow.org/tfx/data_validation/get_started

Tipos de anomalias que podemos detectar com o TFDV:
- https://github.com/tensorflow/metadata/blob/master/tensorflow_metadata/proto/v0/anomalies.proto



## Instalação e importação das bibliotecas


In [2]:
import tensorflow as tf

print('Installing TensorFlow Data Validation')
!pip install -q tensorflow_data_validation[visualization]

Installing TensorFlow Data Validation
[K     |████████████████████████████████| 2.4MB 2.8MB/s 
[K     |████████████████████████████████| 112kB 12.9MB/s 
[K     |████████████████████████████████| 3.5MB 17.3MB/s 
[K     |████████████████████████████████| 2.0MB 42.7MB/s 
[K     |████████████████████████████████| 63.2MB 53kB/s 
[K     |████████████████████████████████| 296kB 44.8MB/s 
[K     |████████████████████████████████| 10.4MB 45.9MB/s 
[K     |████████████████████████████████| 327kB 51.8MB/s 
[K     |████████████████████████████████| 788kB 39.0MB/s 
[K     |████████████████████████████████| 1.2MB 47.9MB/s 
[K     |████████████████████████████████| 51kB 6.2MB/s 
[K     |████████████████████████████████| 225kB 47.8MB/s 
[K     |████████████████████████████████| 61kB 7.7MB/s 
[K     |████████████████████████████████| 81kB 8.1MB/s 
[K     |████████████████████████████████| 184kB 41.5MB/s 
[K     |████████████████████████████████| 174kB 45.7MB/s 
[K     |████████████████

**IMPORTANTE**


Após a instalação da biblioteca acima, é necessário reiniciar o Runtime do notebook, para isso vá em: **Runtime > Restart runtime**.

Feito isso, vamos prosseguir com o import das demais bibliotecas que serão usadas:

In [5]:
import tensorflow_data_validation as tfdv
import pandas as pd

Error importing tfx_bsl_extension.arrow.array_util. Some tfx_bsl functionalities are not availableError importing tfx_bsl_extension.arrow.table_util. Some tfx_bsl functionalities are not available: libarrow.so.16: cannot open shared object file: No such file or directoryError importing tfx_bsl_extension.coders. Some tfx_bsl functionalities are not available

## Leitura do dataframe

Vamos ler o arquivo CSV para transformá - lo em um dataframe.

In [3]:
dataframe = pd.read_csv('iris.csv')
dataframe = dataframe.sample(frac=1)
dataframe.head()

NameError: ignored

## Gerando as estatísticas manualmente

Uma opção do próprio pandas que nos permite observar algumas estatísticas do dataframe:

In [4]:
dataframe.describe()

NameError: ignored

In [0]:
dataframe_treinamento = dataframe[:100]
dataframe_teste = dataframe[100:]

## Geração de estatísticas com TFDV
- Utiliza o apache beam para paralelismo a fim de melhorar a performance em grandes datasets.
- Utiliza o Facets https://pair-code.github.io/facets/

In [0]:
estatisticas_treinamento = tfdv.generate_statistics_from_dataframe(dataframe = dataframe_treinamento)
estatisticas_treinamento

datasets {
  num_examples: 100
  features {
    type: FLOAT
    num_stats {
      common_stats {
        num_non_missing: 100
        min_num_values: 1
        max_num_values: 1
        avg_num_values: 1.0
        num_values_histogram {
          buckets {
            low_value: 1.0
            high_value: 1.0
            sample_count: 10.0
          }
          buckets {
            low_value: 1.0
            high_value: 1.0
            sample_count: 10.0
          }
          buckets {
            low_value: 1.0
            high_value: 1.0
            sample_count: 10.0
          }
          buckets {
            low_value: 1.0
            high_value: 1.0
            sample_count: 10.0
          }
          buckets {
            low_value: 1.0
            high_value: 1.0
            sample_count: 10.0
          }
          buckets {
            low_value: 1.0
            high_value: 1.0
            sample_count: 10.0
          }
          buckets {
            low_value: 1.0
        

### Visualizando as estatísticas



In [0]:
tfdv.visualize_statistics(estatisticas_treinamento)

## Inferindo e visualizando o esquema
O schema gera um modelo para os nossos dados, podendo ser uma tarefa um pouco trabalhosa quando em conjuntos muito grandes, portanto o TF nos ajuda com isso, criando um schema inicial, que vai nos fornecer:

- Tipo do dado.
- Quais features precisam estar presentes 
- Domínio
- Obrigatoriedade
- Documentação dos dados

Com isso, conseguimos informar aquilo que se espera dos dados, capturando problemas nos mesmos nas demais etapas.

**nota:** Se trata de um schema inicial, provavelmente será necessário melhorá - lo manualmente

In [0]:
schema = tfdv.infer_schema(statistics=estatisticas_treinamento)
schema

feature {
  name: "sepal-length"
  type: FLOAT
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }
}
feature {
  name: "sepal-width"
  type: FLOAT
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }
}
feature {
  name: "petal-length"
  type: FLOAT
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }
}
feature {
  name: "petal-width"
  type: FLOAT
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }
}
feature {
  name: "class"
  type: BYTES
  domain: "class"
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }
}
string_domain {
  name: "class"
  value: "Iris-setosa"
  value: "Iris-versicolor"
  value: "Iris-virginica"
}

In [0]:
tfdv.display_schema(schema)

Unnamed: 0_level_0,Type,Presence,Valency,Domain
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
'sepal-length',FLOAT,required,,-
'sepal-width',FLOAT,required,,-
'petal-length',FLOAT,required,,-
'petal-width',FLOAT,required,,-
'class',STRING,required,,'class'


Unnamed: 0_level_0,Values
Domain,Unnamed: 1_level_1
'class',"'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'"


## Estatísticas para a base de teste
Agora é a vez de calcular e ver as estatísticas da base de teste.

In [0]:
estatisticas_teste = tfdv.generate_statistics_from_dataframe(dataframe = dataframe_teste)

tfdv.visualize_statistics(lhs_statistics=estatisticas_teste, rhs_statistics=estatisticas_treinamento,
                          lhs_name='DATASET TESTE', rhs_name='DATASET TREINAMENTO')

## Checagem de anomalias nos dados de treinamento

In [0]:
anomalias = tfdv.validate_statistics(statistics = estatisticas_teste, schema = schema)

In [0]:
tfdv.display_anomalies(anomalias)

In [0]:
#tfdv.get_domain(schema, 'class').value.append('iris-virginica') podemos tambem diminuir a rigorosidade da validação do modelo sobre o domínio  
# https://github.com/tensorflow/metadata/blob/master/tensorflow_metadata/proto/v0/anomalies.proto # lista de anomalias

## Criando novas anomalias
Vamos explorar o que mais nosso detector consegue encontrar!

In [0]:
import numpy as np 
dataframe_teste.at[8, 'sepal-length']=np.nan
dataframe_teste.at[30, 'class']='10'

In [0]:
dataframe_teste

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width,class
8,,2.9,1.4,0.2,Iris-setosa
30,4.8,3.1,1.6,0.2,10
145,6.7,3.0,5.2,2.3,Iris-virginica
107,7.3,2.9,6.3,1.8,Iris-virginica
49,5.0,3.3,1.4,0.2,Iris-setosa
83,6.0,2.7,5.1,1.6,Iris-versicolor
55,5.7,2.8,4.5,1.3,Iris-versicolor
10,5.4,3.7,1.5,0.2,Iris-setosa
13,4.3,3.0,1.1,0.1,Iris-setosa
126,6.2,2.8,4.8,1.8,Iris-virginica


In [0]:
estatisticas_teste = tfdv.generate_statistics_from_dataframe(dataframe = dataframe_teste)
anomalias = tfdv.validate_statistics(statistics = estatisticas_teste, schema = schema)
tfdv.display_anomalies(anomalias)

Unnamed: 0_level_0,Anomaly short description,Anomaly long description
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1
'sepal-length',Column dropped,The feature was present in fewer examples than expected.
'class',Unexpected string values,Examples contain values missing from the schema: 10 (~2%).


# Gerar diferentes schemas baseados em um ambiente
Podemos ter algumas diferenças entre o ambiente de treinamento e produção por exemplo que podem ser importantes de se levar em conta no schema.

Por isso, podemos criar diferentes ambientes.

In [0]:
schema.default_environment.append('TRAINING')
schema.default_environment.append('SERVING')

# Removendo uma feature de um ambiente específico.
tfdv.get_feature(schema, 'class').not_in_environment.append('SERVING')

serving_anomalies_with_env = tfdv.validate_statistics(serving_stats, schema, environment='SERVING')

# Data Skew (Viés nos dados)
Algo interessante que o TFDV também proporciona é a verificação por viés nos dados de treinamento em relação aos dados de produção.

Acontece quando os dados de treinamento não são iguais os de produção, seja pela ausência de determinada feature ou por valores muito diferentes.

Pode ser causado por:

- Modificação na fonte de dados de treinamento e produção
- Lógica diferente na geração dos dados de treino e produção
- Falha na geração da amostra dos dados de treinamento.