## Validação de Qualidade de Dados - **Great Expectations**

Em engenharia de dados, garantir a qualidade e integridade dos dados é fundamental. Dados inconsistentes ou incorretos podem levar a análises erradas, decisões equivocadas e retrabalho em várias etapas do pipeline. Na prática, falhas de qualidade em fases iniciais podem resultar em problemas cascata, afetando análises e previsões. 

### **O que é Validação de Dados?**

   - **Definição**: A validação de dados é o processo de garantir que os dados atendam a critérios pré-definidos de qualidade, como integridade, precisão, consistência e conformidade com padrões de negócio.
   - **Objetivo**: Prevenir a propagação de erros, assegurar que os dados são confiáveis e prontos para uso, seja para relatórios, análises ou modelos de machine learning.
   - **Exemplos de Validações Comuns**:
     - Verificação de tipos de dados (números, strings, datas).
     - Restrições de unicidade e presença de valores não-nulos.
     - Checagens de intervalo (valores mínimos e máximos) e conformidade com padrões específicos.

---

### **Explorando Ferramentas de Validação de Dados**

Diferentes ferramentas de validação de dados podem atender a necessidades variadas.

#### a. **Great Expectations**
  link: https://greatexpectations.io/
   - **Descrição**: Biblioteca de código aberto que organiza validações de dados em "expectativas" para diversos formatos de dados.
   - **Diferenciais**:
     - **Expectativas Flexíveis**: Suporte a múltiplos formatos (DataFrames Spark, Pandas, CSVs, bancos de dados).
     - **Checkpoints e Relatórios (Data Docs)**: Cria checkpoints para automação e gera relatórios visuais.
     - **Reusabilidade**: Expectativas podem ser salvas e reutilizadas.
   - **Caso de Uso**: Ideal para validações constantes e detalhadas em pipelines complexos.

#### b. **Soda Core**
  link: https://docs.soda.io/
   - **Descrição**: Ferramenta de monitoramento e validação de qualidade de dados em tempo real, ideal para arquiteturas de data lake e data warehouse.
   - **Diferenciais**:
     - **Configuração Simples em YAML**: Permite configurar validações de forma acessível.
     - **Integração com Soda Cloud**: Centraliza monitoramento e alertas.
   - **Caso de Uso**: Monitoramento de qualidade em ambientes de dados distribuídos.

#### c. **OpenMetadata**
  link: https://open-metadata.org/
   - **Descrição**: Plataforma de governança e rastreabilidade de dados, com foco em qualidade e colaboração entre equipes.
   - **Diferenciais**:
     - **Gestão de Qualidade e Governança**: Validação, documentação e conformidade de dados.
     - **Rastreabilidade Completa (Lineage)**: Crucial para mapear fluxos de dados.
   - **Caso de Uso**: Empresas que necessitam de uma plataforma centralizada de governança de dados e rastreabilidade.

#### d. **Pydantic**
  link: https://docs.pydantic.dev/latest/
   - **Descrição**: Biblioteca de validação e definição de modelos de dados em Python, utilizada em APIs e pipelines de ETL.
   - **Diferenciais**:
     - **Definição de Schemas de Dados**: Valida automaticamente dados contra schemas definidos.
     - **Conversão de Tipos**: Garante que os dados estejam no formato esperado.
   - **Caso de Uso**: Validação em tempo real em APIs e processos de ETL.

#### e. **Pytest**
  link: https://docs.pytest.org/en/stable/
   - **Descrição**: Framework de testes para Python, adaptável para validação de dados durante o desenvolvimento de pipelines.
   - **Diferenciais**:
     - **Testes Unitários**: Estrutura completa para criação e execução de testes.
     - **Fixtures**: Permite carregar dados de teste para validações.
   - **Caso de Uso**: Garantir integridade e consistência em transformações de dados e scripts durante o desenvolvimento.

#### f. **dbt (Data Build Tool)**
  link: https://www.getdbt.com/product/what-is-dbt
   - **Descrição**: Ferramenta para transformação de dados em SQL, com validação embutida para ambientes de data warehouse.
   - **Diferenciais**:
     - **Testes de Qualidade Embutidos**: Verificações de integridade e unicidade nos dados.
     - **Automação e Documentação**: Automatiza transformações e gera documentação.
   - **Caso de Uso**: Ambientes de data warehouse modernos, onde a transformação e validação de dados em SQL é essencial.

---


### 1. Motivação por Trás do Great Expectations

Great Expectations foi criado como uma ferramenta open-source para validar dados de forma declarativa. Ele permite definir "expectativas" sobre os dados, documentando automaticamente os resultados. Com isso, o GE promove uma abordagem proativa para a qualidade de dados, garantindo que dados inconsistentes sejam detectados e corrigidos o mais cedo possível nos pipelines.

---

### 2. Componentes e Funcionalidades do Great Expectations
<img src="https://docs.greatexpectations.io/assets/images/data_context_does_for_you-df2eca32d0152ead16cccd5d3d226abb.png"  width="80%" height="60%">


Para usar o GE de forma eficiente, é importante entender seus principais componentes e como eles se conectam:

#### 2.1 Expectations
**Definição:**  
"Expectations" são as regras que definem o que esperamos dos dados. Elas cobrem uma ampla variedade de validações, como verificar valores nulos, garantir unicidade em colunas e definir padrões específicos para valores.

DOC: https://greatexpectations.io/expectations/

**Exemplo:**  
- `expect_column_values_to_be_unique`: Verifica se todos os valores de uma coluna são únicos.
- `expect_column_values_to_match_regex`: Garante que os valores de uma coluna seguem um padrão regex específico.

**Personalização e Reuso:**  
As "expectations" podem ser configuradas com parâmetros para adaptar-se a diferentes contextos. Por exemplo, podemos especificar limites de tolerância, como `expect_column_mean_to_be_between`, com valores mínimos e máximos para médias.

#### 2.2 Data Assets
**Definição:**  
Os "Data Assets" são as fontes de dados que queremos validar. Podem ser representações de tabelas, arquivos de dados (como CSV, Parquet) ou DataFrames. Eles são usados como entrada nas validações de GE.

**Ponto Importante:**  
Cada "Data Asset" pode ter seu próprio conjunto de expectativas, adequado ao seu esquema e tipo de dados.

#### 2.3 Suites de Expectativas
**Definição:**  
Uma "Suite de Expectativas" é um conjunto de expectativas para validar um Data Asset específico. Essa estrutura ajuda a organizar as validações, permitindo agrupar regras específicas para cada contexto de dados.

**Exemplo de Suite:**  
Uma suite para um DataFrame de transações financeiras pode conter expectativas que verificam:
- Se a coluna `amount` não possui valores nulos.
- Se a coluna `transaction_date` contém datas válidas e formatadas corretamente.
- Se a coluna `currency` tem valores permitidos, como "USD", "EUR", "BRL".

#### 2.4 Validations
**Definição:**  
As validações são as execuções das "expectations" em um conjunto de dados específico. Ao validar, o GE gera relatórios de sucesso/falha para cada expectativa, ajudando a identificar rapidamente os problemas nos dados.

**Exemplo de Relatório de Validação:**  
Um relatório típico pode mostrar que:
- `expect_column_values_to_be_unique` falhou para uma coluna.
- `expect_column_values_to_not_be_null` foi bem-sucedida para outra coluna.

#### 2.5 Checkpoints
**Definição:**  
Os "Checkpoints" são pontos de controle para organizar as validações e automatizar a execução. Com os checkpoints, as validações podem ser integradas a pipelines e executadas periodicamente, garantindo a qualidade de dados em tempo real.

#### 2.6 Data Docs
**Definição:**  
Os Data Docs são relatórios interativos e human-readable que o GE gera automaticamente. Eles documentam os resultados das validações e ajudam na auditoria e monitoramento dos dados.

#### 2.7 Stores
**Definição:**  
Os "Stores" são locais de armazenamento para metadados das validações. Eles podem ser armazenados em diferentes backends, como arquivos no sistema, bancos de dados, ou armazenamento em nuvem, permitindo um histórico de validações e monitoramento a longo prazo.

---


### Comparação entre Table Constraints e Great Expectations

| Aspecto                    | Table Constraints                          | Great Expectations                                        |
|----------------------------|--------------------------------------------|-----------------------------------------------------------|
| **Objetivo Principal**     | Garantir a integridade estrutural e referencial dos dados diretamente no banco. | Garantir a qualidade e a consistência dos dados em qualquer ponto do pipeline. |
| **Validação de Dados**     | Realiza validações no momento da inserção/atualização de dados. | Permite validações customizadas em diversas etapas do pipeline, sem restringir operações de escrita. |
| **Escopo de Aplicação**    | Limitado ao banco de dados relacional onde as tabelas estão armazenadas. | Pode ser aplicado em diversas fontes de dados (CSV, JSON, DataFrames, Data Lakes, bancos de dados, etc.). |
| **Flexibilidade**          | Focado em restrições rígidas, como unicidade, não-nulidade e chaves estrangeiras. | Altamente flexível e expansível, com mais de 50 tipos de expectativas (e permite criar novas). |
| **Documentação e Relatórios** | Pouco suporte para documentação ou relatórios detalhados; logs de erros de inserção. | Gera relatórios completos e documentados (Data Docs) com a possibilidade de auditoria e monitoramento contínuo. |
| **Integração com Pipelines** | Exige triggers ou scripts adicionais para integração com pipelines de dados ETL/ELT. | Feito para integração direta com pipelines, com checkpoints para automação e agendamento de validações. |
| **Armazenamento de Resultados** | Registro limitado a logs de erros; geralmente não armazena histórico detalhado. | Armazena o histórico completo de validações, com a opção de persistência em diferentes backends. |

### Quando Usar Cada Ferramenta?

- **Table Constraints** são ideais para garantir a integridade básica dos dados que precisam ser rigidamente controlados, especialmente quando há dependências de integridade referencial e regras estruturais. Elas são práticas em bancos de dados relacionais que devem lidar com um volume contínuo de operações de escrita.

- **Great Expectations** é mais apropriado para cenários onde a validação de dados deve ser mais granular e flexível, especialmente em fluxos de dados complexos que envolvem várias transformações e várias fontes de dados. É indicado para pipelines de dados modernos, onde a qualidade dos dados precisa ser monitorada desde a origem até o destino final.


In [0]:
 pip install great_expectations

Python interpreter will be restarted.
Collecting great_expectations
  Downloading great_expectations-1.2.1-py3-none-any.whl (5.0 MB)
Collecting numpy>=1.21.6
  Downloading numpy-2.0.2-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (19.5 MB)
Collecting tqdm>=4.59.0
  Downloading tqdm-4.66.6-py3-none-any.whl (78 kB)
Collecting posthog<3,>=2.1.0
  Downloading posthog-2.5.0-py2.py3-none-any.whl (36 kB)
Collecting ruamel.yaml>=0.16
  Downloading ruamel.yaml-0.18.6-py3-none-any.whl (117 kB)
Collecting marshmallow<4.0.0,>=3.7.1
  Downloading marshmallow-3.23.0-py3-none-any.whl (49 kB)
Collecting tzlocal>=1.2
  Downloading tzlocal-5.2-py3-none-any.whl (17 kB)
Collecting altair<5.0.0,>=4.2.1
  Downloading altair-4.2.2-py3-none-any.whl (813 kB)
Collecting pydantic>=1.10.7
  Downloading pydantic-2.9.2-py3-none-any.whl (434 kB)
Collecting toolz
  Downloading toolz-1.0.0-py3-none-any.whl (56 kB)
Collecting monotonic>=1.5
  Downloading monotonic-1.6-py2.py3-none-any.whl (8.2 kB)
Collecting

In [0]:
import great_expectations as gx

context = gx.get_context()
df = spark.read.csv("/FileStore/dados_ada/auto.csv", header=True)

data_source = context.data_sources.add_spark("teste_spark")
data_asset  = data_source.add_dataframe_asset(name="spark dataframe asset")

batch_definition = data_asset.add_batch_definition_whole_dataframe("batch definition")
batch = batch_definition.get_batch(batch_parameters={"dataframe": df})

expectation = gx.expectations.ExpectColumnValuesToBeBetween(
    column="monthOfRegistration", min_value=1, max_value=12
)

validation_result = batch.validate(expectation)

  argspec = oinspect.getargspec(obj)


Calculating Metrics:   0%|          | 0/13 [00:00<?, ?it/s]

In [0]:
validation_result

Out[20]: {
  "success": false,
  "expectation_config": {
    "type": "expect_column_values_to_be_between",
    "kwargs": {
      "batch_id": "teste_spark-spark dataframe asset",
      "column": "monthOfRegistration",
      "min_value": 1.0,
      "max_value": 12.0
    },
    "meta": {},
    "rendered_content": [
      {
        "name": "atomic.prescriptive.summary",
        "value": {
          "schema": {
            "type": "com.superconductive.rendered.string"
          },
          "template": "$column values must be greater than or equal to $min_value and less than or equal to $max_value.",
          "params": {
            "column": {
              "schema": {
                "type": "string"
              },
              "value": "monthOfRegistration"
            },
            "min_value": {
              "schema": {
                "type": "number"
              },
              "value": 1.0
            },
            "max_value": {
              "schema": {
                "

In [0]:
from IPython.display import IFrame, HTML

suite = gx.ExpectationSuite(name="suite_teste")
suite = context.suites.add(suite)

suite.add_expectation(expectation)

context.build_data_docs()
f = open("/tmp/tmpccu9px3l/expectations/suite_teste.html", "r")

replace_string = """<script>
  if (sessionStorage.getItem("showCta") !== "false") {
    $('#ge-cta-footer').removeClass("invisible")
  }
  $('#ge-cta-footer').on('closed.bs.alert', function () {
    sessionStorage.setItem("showCta", false)
  })
</script>"""

text = f.read().replace(replace_string,"")

displayHTML(text)

Unnamed: 0,Unnamed: 1
Expectation Suite Name,suite_teste
Great Expectations Version,1.2.1
