# Great Expectations

## Instalando

In [None]:
# !pip install --upgrade pandas==1.5.1
# !pip install great_expectations==0.16.3

## Validando os dados

Validamos o conjunto de dados com a suíte de expectativas. 

Em seguida, verificamos se a validação foi bem-sucedida verificando o atributo success do objeto ExpectationValidationResult

### Validação de valores únicos em uma coluna

In [2]:
import great_expectations as gx
import pandas as pd

In [3]:
df = pd.DataFrame({'nome': ['João', 'Maria', 'Joaquim', 'Pedro', 'Ana']})
df

Unnamed: 0,nome
0,João
1,Maria
2,Joaquim
3,Pedro
4,Ana


Crie uma expectation que verifica se a coluna "codigo" contém apenas valores únicos.

Use a função ``expect_column_values_to_be_unique`` para definir essa expectativa

In [4]:
df_gx = gx.dataset.PandasDataset(df)
df_gx

Unnamed: 0,nome
0,João
1,Maria
2,Joaquim
3,Pedro
4,Ana


In [5]:
validation_result = df_gx.expect_column_values_to_be_unique(column= 'nome')
validation_result

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {},
  "result": {
    "element_count": 5,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "success": true
}

In [8]:
if validation_result['success']:
    print('A coluna nome contem apenas valores únicos')
else:
    print('A coluna nome possui valores duplicados')


A coluna nome contem apenas valores únicos


In [9]:
df2 = pd.DataFrame({'codigo': ['1001', '1002', '1003', '1006', '1001', '1005', '1002']})
df_gx2 = gx.dataset.PandasDataset(df2)
df_gx2

Unnamed: 0,codigo
0,1001
1,1002
2,1003
3,1006
4,1001
5,1005
6,1002


In [10]:
validation_result2 = df_gx2.expect_column_values_to_be_unique(column= 'codigo')
validation_result2

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {},
  "result": {
    "element_count": 7,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 4,
    "unexpected_percent": 57.14285714285714,
    "unexpected_percent_total": 57.14285714285714,
    "unexpected_percent_nonmissing": 57.14285714285714,
    "partial_unexpected_list": [
      "1001",
      "1002",
      "1001",
      "1002"
    ]
  },
  "success": false
}

In [12]:
if validation_result2['success']:
    print('A coluna codigo contem apenas valores únicos')
else:
    print('A coluna codigo possui valores duplicados')

A coluna codigo possui valores duplicados


### Validação de valores mínimos e máximos em uma coluna numérica

Use a função ``expect_column_values_to_be_between`` para verificar se a coluna "idade" contém apenas valores entre 18 e 65 anos.

Passamos os valores mínimo e máximo permitidos como argumentos. Em seguida, validamos o conjunto de dados com a suíte de expectativas e verificamos se a validação foi bem-sucedida.


In [15]:
df3 = pd.DataFrame({'idade': [15, 10, 18, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105]})
df_gx3 = gx.dataset.PandasDataset(df3)
df_gx3

Unnamed: 0,idade
0,15
1,10
2,18
3,20
4,25
5,30
6,35
7,40
8,45
9,50


In [16]:
result = df_gx3.expect_column_values_to_be_between(column= 'idade', min_value=18, max_value=65)
result

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {},
  "result": {
    "element_count": 21,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 10,
    "unexpected_percent": 47.61904761904761,
    "unexpected_percent_total": 47.61904761904761,
    "unexpected_percent_nonmissing": 47.61904761904761,
    "partial_unexpected_list": [
      15,
      10,
      70,
      75,
      80,
      85,
      90,
      95,
      100,
      105
    ]
  },
  "success": false
}

### Validação de formatos de data em uma coluna

In [17]:
df4 = pd.DataFrame({'data':['2022-02-02', '2022-01-02', '2022-01-04', '2022-13-04', '2022-01-05']})
df_gx4 = gx.dataset.PandasDataset(df4)

In [18]:
valida_data = df_gx4.expect_column_values_to_match_strftime_format(column='data', strftime_format="%Y-%m-%d")
valida_data

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {},
  "result": {
    "element_count": 5,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 1,
    "unexpected_percent": 20.0,
    "unexpected_percent_total": 20.0,
    "unexpected_percent_nonmissing": 20.0,
    "partial_unexpected_list": [
      "2022-13-04"
    ]
  },
  "success": false
}

### Validação de valores nulos em uma coluna

Criaremos uma Expectation que verifica se a coluna "salario" não contém valores nulos

In [20]:
df5 = pd.DataFrame({'salario': [2000, 2500, 3000, None, 4000, 4500]})
df_gx5 = gx.dataset.PandasDataset(df5)

In [21]:
results2 = df_gx5.expect_column_values_to_be_null(column='salario')
results2

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {},
  "result": {
    "element_count": 6,
    "unexpected_count": 5,
    "unexpected_percent": 83.33333333333334,
    "unexpected_percent_total": 83.33333333333334,
    "partial_unexpected_list": []
  },
  "success": false
}

### Validação de formatos de string em uma coluna (cpf)

Vamos criar uma Expectation que verifica se a coluna "cpf" contém apenas CPFs no formato 'XXX.XXX.XXX-XX'. 

Usaremos a função ``expect_column_values_to_match_regex`` para definir essa expectativa.

Para entender o regex você pode utilizar o site: https://regexr.com/3cr6f.

In [22]:
df6 = pd.DataFrame({'cpf':['123.456.789-10', '234.345.567.09', '345-578-908.96', '647.456.778-04']})
df_gx6 = gx.dataset.PandasDataset(df6)

In [23]:
results3 = df_gx6.expect_column_values_to_match_regex(column='cpf', regex='^(\d{3}\.\d{3}\.\d{3}\-\d{2})$')
results3

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {},
  "result": {
    "element_count": 4,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 2,
    "unexpected_percent": 50.0,
    "unexpected_percent_total": 50.0,
    "unexpected_percent_nonmissing": 50.0,
    "partial_unexpected_list": [
      "234.345.567.09",
      "345-578-908.96"
    ]
  },
  "success": false
}

### Validação de formatos de string em uma coluna (email)

Vamos criar uma Expectation que verifica se a coluna "email" tem um formato esperado.

Usaremos a função ``expect_column_values_to_match_regex`` para definir essa expectativa.

Para entender o regex você pode utilizar o site: https://regexr.com/3cr6f.

Email regex: https://pt.stackoverflow.com/a/276022.

### Validação de contagem de valores em uma coluna


Vamos criar um dataframe com uma coluna "cidade" e usar a função ``expect_column_unique_value_count_to_be_between`` para definir se a coluna "cidade" contém pelo menos 3 ocorrências de cada cidade. 

Em seguida, passamos um dicionário com os valores esperados de cada cidade e um valor mínimo e máximo de ocorrências permitidas. 

## Expectativas para us_tax_data_2016

### Definindo expectativas dos dados us_tax_data_2016

``expect_column_values_to_be_in_set`` agi_stub

``expect_column_values_to_be_in_set`` zip code zeros

``expect_column_to_exist`` mars columns

### Obtendo as Expectativas

Por padrão, ``get_expectation_suite()`` retorna apenas Expectations com ``success=True``. 

Você pode substituir esse comportamento com:

### Salve sua suíte Expectation