# Great Expectations

## Instalando

In [None]:
!pip install great_expectations

## Validando os dados

Validamos o conjunto de dados com a suíte de expectativas. 

Em seguida, verificamos se a validação foi bem-sucedida verificando o atributo success do objeto ExpectationValidationResult

### Validação de valores únicos em uma coluna

In [None]:
import great_expectations as ge
import pandas as pd

# Criação de um dataframe com uma coluna "nome" que deve conter apenas valores únicos
df = pd.DataFrame({'nome': ['João', 'Maria', 'João', 'Pedro', 'Ana']})


Crie uma expectation que verifica se a coluna "codigo" contém apenas valores únicos.

Use a função ``expect_column_unique`` para definir essa expectativa

In [None]:
# Criando um dataframe com uma coluna "codigo" que deve conter valores únicos
df = pd.DataFrame({'codigo': [1001, 1002, 1003, 1002, 1004, 1001]})

### Validação de valores mínimos e máximos em uma coluna numérica

In [None]:
# Criação de um dataframe com uma coluna "idade" que deve conter valores numéricos entre 0 e 100
df = pd.DataFrame({'idade': [20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105]})


### Validação de formatos de data em uma coluna

In [None]:
# Criação de um dataframe com uma coluna "data" que deve conter datas no formato 'YYYY-MM-DD'
df = pd.DataFrame({'data': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05']})



### Validação de valores nulos em uma coluna

Criaremos uma Expectation que verifica se a coluna "salario" não contém valores nulos

In [None]:
# Criação de um dataframe com uma coluna "salario" que não deve conter valores nulos
df = pd.DataFrame({'salario': [2000, 2500, 3000, None, 4000, 4500]})



### Validação de formatos de string em uma coluna

Vamos criar uma Expectation que verifica se a coluna "cpf" contém apenas CPFs no formato 'XXX.XXX.XXX-XX'. 

Usaremos a função ``expect_column_values_to_match_regex`` para definir essa expectativa.

In [None]:
import great_expectations as ge
import pandas as pd

# Criação de um dataframe com uma coluna "cpf" que deve conter CPFs no formato 'XXX.XXX.XXX-XX'
df = pd.DataFrame({'cpf': ['123.456.789-10', '234.567.890-12', '345.678.901-23', '456.789.012-34', '567.890.123-45']})



### Validação de valores numéricos em uma coluna

Use a função ``expect_column_values_to_be_between`` para verificar se a coluna "idade" contém apenas valores entre 18 e 60 anos.

Passamos os valores mínimo e máximo permitidos como argumentos. Em seguida, validamos o conjunto de dados com a suíte de expectativas e verificamos se a validação foi bem-sucedida.


In [None]:
# Criação de um dataframe com uma coluna "idade" que deve conter valores entre 18 e 60 anos
df = pd.DataFrame({'idade': [25, 40, 50, 32, 18, 70]})



### Validação de contagem de valores em uma coluna


Vamos criar um dataframe com uma coluna "cidade" e usar a função ``expect_column_value_counts_to_be_between`` para definir se a coluna "cidade" contém pelo menos 3 ocorrências de cada cidade. 

Em seguida, passamos um dicionário com os valores esperados de cada cidade e um valor mínimo e máximo de ocorrências permitidas. 

In [None]:
# Criação de um dataframe com uma coluna "cidade" que deve conter pelo menos 3 ocorrências de cada cidade
df = pd.DataFrame({'cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'São Paulo', 'Rio de Janeiro', 'Belo Horizonte']})



## Salve sua suíte Expectation

In [None]:
import json

with open( "data/expectations.json", "w") as my_file:
    my_file.write(
        json.dumps(df.get_expectation_suite().to_json_dict())
    )

## Carregando dados

In [None]:
import great_expectations as gx
import pandas as pd

df = gx.read_csv('data/us_tax_data_2016.csv')

In [None]:
df.head()

## Definindo expectativas dos dados

In [None]:
df.expect_column_values_to_be_in_set('zipcode', ['0'])

In [None]:
df.expect_column_values_to_be_in_set('zipcode', [0], mostly=.99)

## Obtendo as Expectativas

In [None]:
df.get_expectation_suite()

Por padrão, ``get_expectation_suite()`` retorna apenas Expectations com ``success=True``. 

Você pode substituir esse comportamento com:

In [None]:
df.get_expectation_suite(discard_failed_expectations=False)