# Great Expectations

## Instalando

In [None]:
!pip install --upgrade pandas==1.5.1
!pip install great_expectations==0.16.3

## Validando os dados

Validamos o conjunto de dados com a suíte de expectativas. 

Em seguida, verificamos se a validação foi bem-sucedida verificando o atributo success do objeto ExpectationValidationResult

### Validação de valores únicos em uma coluna

In [None]:
import great_expectations as gx 
import pandas as pd 

In [None]:
df = pd.DataFrame({'nome':['João', 'Maria', 'Joaquim', 'Pedro', 'Ana', 'pedro']})

Crie uma expectation que verifica se a coluna "codigo" contém apenas valores únicos.

Use a função ``expect_column_values_to_be_unique`` para definir essa expectativa

In [None]:
df_gx = gx.dataset.PandasDataset(df)
df_gx

In [None]:
validation_result = df_gx.expect_column_values_to_be_unique(column = 'nome')
validation_result

In [None]:
if validation_result['success']:
    print('A coluna nome contem apenas valores únicos')
else:
    print('A coluna nome possui valores duplicados')

In [None]:
df2 = pd.DataFrame({'codigo':[1001, 1002, 1003, 1006, 1002, 1005, 1003]})
df_gx2 = gx.dataset.PandasDataset(df2)
df_gx2

In [None]:
validation_result = df_gx2.expect_column_values_to_be_unique(column = 'codigo')
validation_result

### Validação de valores mínimos e máximos em uma coluna numérica

Use a função ``expect_column_values_to_be_between`` para verificar se a coluna "idade" contém apenas valores entre 18 e 65 anos.

Passamos os valores mínimo e máximo permitidos como argumentos. Em seguida, validamos o conjunto de dados com a suíte de expectativas e verificamos se a validação foi bem-sucedida.


In [None]:
df = pd.DataFrame({'idade': [15, 10, 18, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105]})
df

In [None]:
df_gx3 = gx.dataset.PandasDataset(df)
df_gx3

In [None]:
result = df_gx3.expect_column_values_to_be_between(column = 'idade', min_value = 18, max_value = 65)
result

### Validação de formatos de data em uma coluna

In [None]:
df = pd.DataFrame({'data':['2022-02-02', '2022-01-02', '2022-01-04', '2022-13-04', '2022-01-05', '01-01-2024']})
df_gx4 = gx.dataset.PandasDataset(df)

In [None]:
dict_ = df_gx4.expect_column_values_to_match_strftime_format(column='data', strftime_format = "%Y-%m-%d")

In [None]:
dict_['result']

### Validação de valores nulos em uma coluna

Criaremos uma Expectation que verifica se a coluna "salario" não contém valores nulos

In [None]:
df = pd.DataFrame({'salario': [2000, 2500, 3000, None, 4000, 4500]})
df_gx5 = gx.dataset.PandasDataset(df)

In [None]:
result = df_gx5.expect_column_values_to_not_be_null(column= 'salario')
result

### Validação de formatos de string em uma coluna (cpf)

Vamos criar uma Expectation que verifica se a coluna "cpf" contém apenas CPFs no formato 'XXX.XXX.XXX-XX'. 

Usaremos a função ``expect_column_values_to_match_regex`` para definir essa expectativa.

Para entender o regex você pode utilizar o site: https://regexr.com/3cr6f.

In [None]:
df = pd.DataFrame({'cpf':['123.456.789-10', '234.345.567.09', '345-578-908.96', '647.456.778-04', 'abc.003.456-02']})
df_gx6 = gx.dataset.PandasDataset(df)

In [None]:
result = df_gx6.expect_column_values_to_match_regex(column='cpf', regex='^\d{3}.\d{3}.\d{3}-\d{2}')
result

### Validação de formatos de string em uma coluna (email)

Vamos criar uma Expectation que verifica se a coluna "email" tem um formato esperado.

Usaremos a função ``expect_column_values_to_match_regex`` para definir essa expectativa.

Para entender o regex você pode utilizar o site: https://regexr.com/3cr6f.

Email regex: https://pt.stackoverflow.com/a/276022.

In [None]:
df = pd.DataFrame(
    {
        'email': [
            'fernando@gmail.com', 
            'fernando.barbarossa@gmail', 
            'fernando.barbarossa@ada.tech', 
            'fernando.barbarossa@ada.tech.br', 
            'fernando_barbarossa+@ada.tech', 
            'fernandoBarbarossa+@ada.tech', 
            'fernando_barbarossa08@itau.com.br',
            'fernando_barbarossa08@itau.edu.sp.br',
        ]
    }
)
df_gx = gx.dataset.PandasDataset(df)
df_gx

In [None]:
result = df_gx.expect_column_values_to_match_regex(column='email', regex='^[\w+.]+@\w+\.\w{2,}(?:\.\w{2})?$')
result

### Validação de contagem de valores em uma coluna


Vamos criar um dataframe com uma coluna "cidade" e usar a função ``expect_column_unique_value_count_to_be_between`` para definir se a coluna "cidade" contém pelo menos 3 ocorrências de cada cidade. 

Em seguida, passamos um dicionário com os valores esperados de cada cidade e um valor mínimo e máximo de ocorrências permitidas. 

In [None]:
df = pd.DataFrame({'cidade':['São Paulo', 'Rio de Janeiro', 'Belo Horizonte',
                             'São Paulo', 'Rio de Janeiro', 'Belo Horizonte',
                             'São Paulo', 'Rio de Janeiro', 'Belo Horizonte',
                            ]})
df_gx = gx.dataset.PandasDataset(df)
df_gx

In [None]:
result = df_gx.expect_column_unique_value_count_to_be_between(column = 'cidade', min_value = 2, max_value = 3)
result

## Expectativas para us_tax_data_2016

In [None]:
df = gx.read_csv('dados/atividade1/us_tax_data_2016.csv')
df.head()

### Definindo expectativas dos dados us_tax_data_2016

``expect_column_values_to_be_in_set`` agi_stub

In [None]:
df['agi_stub'].unique()

In [None]:
df.expect_column_values_to_be_in_set('agi_stub', [1,2,3,4], mostly = .66)

``expect_column_values_to_be_in_set`` zip code zeros

In [None]:
df.loc[df['zipcode']==0]

In [None]:
6/3001

In [None]:
df.expect_column_values_to_be_in_set('zipcode', [0], .001)

``expect_column_to_exist`` mars columns

### Obtendo as Expectativas

Por padrão, ``get_expectation_suite()`` retorna apenas Expectations com ``success=True``. 

Você pode substituir esse comportamento com:

### Salve sua suíte Expectation