## Módulo: Analytics Engineering

## Aula 3 - Parte 1


### Programação da Aula 3:

> ### 1. **O que é a "Great Expectations"**:
>
> ### 2. **"Great Expectations" na prática**;
>
> ### 3. **Apresentação do projeto**;
>
> ### 4. **Desenvolvimento de exercício ou projeto**;

#### Link para o formulário para informar os integrantes do grupo do projeto:

https://forms.gle/8kCUMyV7TDZCWz5t6

#### Link para o formulário de Feedback da aula:

https://forms.gle/WTqMrUForj3z1rbK6


### Great Expectations

#### Great Expectations é uma biblioteca para testar e documentar a qualidade dos dados em projetos. Ela permite que você defina, documente e teste as expectativas em seus dados, garantindo que eles atendam aos critérios desejados. Isso é útil para verificar a integridade, precisão e consistência dos seus dados.

<div style="text-align: center;">

<br>

<img src="https://docs.greatexpectations.io/assets/images/data_context_does_for_you-df2eca32d0152ead16cccd5d3d226abb.png"  width="80%" height="60%">

###### Fonte: https://docs.greatexpectations.io/assets/images/data_context_does_for_you-df2eca32d0152ead16cccd5d3d226abb.png

<br>

<img src="https://docs.greatexpectations.io/assets/images/data_context_flowchart-2d63bd4a6be784aa4d7f44a962a65b72.png"  width="80%" height="60%">

###### Fonte: https://docs.greatexpectations.io/assets/images/data_context_flowchart-2d63bd4a6be784aa4d7f44a962a65b72.png

<br>

<br>

<img src="https://docs.greatexpectations.io/assets/images/datasource_flowchart-73d07084d7c20d480f92dacb8001222f.png"  width="80%" height="60%">

###### Fonte: https://docs.greatexpectations.io/assets/images/datasource_flowchart-73d07084d7c20d480f92dacb8001222f.png

<br>

<img src="https://docs.greatexpectations.io/assets/images/checkpoint_flowchart-80a2dc06e90a4739f6cfdec60a115c1e.png"  width="80%" height="60%">

###### Fonte: https://docs.greatexpectations.io/assets/images/checkpoint_flowchart-80a2dc06e90a4739f6cfdec60a115c1e.png

<br>


### Instalação da biblioteca "Great Expectations"


In [None]:
!pip install great_expectations

In [None]:
!pip show great_expectations

### Leitura de um arquivo csv com o Pandas direto pelo "great_expectations"


In [None]:
import great_expectations as gx

df = gx.read_csv("dados/autos.csv", encoding='ISO-8859-1')
df.head()  # as funções funcionam igual

### Ou leitura do arquivo com o Pandas e depois convertando para o formato do "great_expectations"


In [None]:
import pandas as pd

df = pd.read_csv("dados/autos.csv", encoding='ISO-8859-1')
# de um dataframe pandas para o formato do "great_expectations"
df = gx.from_pandas(df)
df.head()

### Adiciona duas expectativas de tipo de coluna para a base de dados


In [None]:
# expectativa de que a coluna 'yearOfRegistration' precisa ser do tipo 'int64'
df.expect_column_values_to_be_of_type(
    column='yearOfRegistration', type_='int64')
# expectativa de que a coluna 'monthOfRegistration' precisa ser do tipo 'int64'
df.expect_column_values_to_be_of_type(
    column='monthOfRegistration', type_='int64')

### Lista com todas as expectativas disponíveis:

https://greatexpectations.io/expectations/


### As expectativas ficam armazenadas em um "Expectation Suite":


In [None]:
df.get_expectation_suite()

### Adicionando uma nova expectativa, agora com relação a valores esperados de 1 a 12 para a coluna 'monthOfRegistration'


In [None]:
df.expect_column_values_to_be_between(
    column="monthOfRegistration",
    min_value=1,  # valor minimo esperado
    max_value=12,  # valor maximo esperado
)

### Agora trabalhando com checkpoints e validadores


In [None]:
import great_expectations as gx

context = gx.get_context()  # inicia um contexto do "great_expectations"

print(context)

### Perceba que o contexto inicia sem nenhuma lista de Expectativas (as "Expectation Suites")


In [None]:
context.list_expectation_suite_names()

### Cria um validador a partir da base de dados pelo arquivo csv e o Pandas


In [None]:
validator = context.sources.pandas_default.read_csv(
    "dados/autos.csv", encoding='ISO-8859-1')  # cria o validador

# expectativa de que a coluna 'yearOfRegistration' precisa ser do tipo 'int64'
validator.expect_column_values_to_be_of_type(
    column='yearOfRegistration', type_='int64')
# expectativa de que a coluna 'monthOfRegistration' precisa ser do tipo 'int64'
validator.expect_column_values_to_be_of_type(
    column='monthOfRegistration', type_='int64')

# expectativa de valores esperados entre 1000 e 500000 para a coluna 'kilometer'
validator.expect_column_values_to_be_between(
    column="kilometer",
    min_value=1000,
    max_value=500000,
)

# expectativa de valores esperados entre 1900 e 2016 para a coluna 'yearOfRegistration'
validator.expect_column_values_to_be_between(
    column="yearOfRegistration",
    min_value=1900,
    max_value=2016,
)

### Salva a "Expectation Suite" criada pelo validador


In [None]:
# o parametro "discard_failed_expectations" igual a "False" indica que mesmos as expectativas que não foram cumpridas serão salvas
validator.save_expectation_suite(discard_failed_expectations=False)

In [None]:
# agora pode se observer que a "Expectation Suite" está disponível no "contexto"
context.list_expectation_suite_names()

### Cria um "checkpoint" a partir do resultado atual do validador


In [None]:
checkpoint = context.add_or_update_checkpoint(
    name="primeiro_checkpoint", validator=validator)

### Processa esse "checkpoint"


In [None]:
checkpoint_result = checkpoint.run()

### Disponibiliza uma documentação web com as informações das expectativas e testes dos "checkpoints" no link indicado


In [None]:
context.build_data_docs()

### Continuação dos testes com a adição de uma nova expectativa


In [None]:
# expectativa de valores esperados entre 0 e 30000 para a coluna 'powerPS'
validator.expect_column_values_to_be_between(
    column="powerPS",
    min_value=0,
    max_value=30000,
)

### Salva a novo conjunto de expectativas ("Expectation Suite") e processa mais um "checkpoint"


In [None]:
validator.save_expectation_suite(discard_failed_expectations=False)

In [None]:
checkpoint = context.add_or_update_checkpoint(
    name="segundo_checkpoint", validator=validator)

In [None]:
checkpoint_result = checkpoint.run()