---

## Introdução sobre o Great Expecations.

---

### Neste notebook faremos uma breve introdução ao tema e utilização de Great Expectations.

---

### Saiba mais sobre o Great Expectations nos tópicos abaixo.

#### - Site oficial e documentação v3: https://docs.greatexpectations.io/docs/

#### - Site oficial e documentação v2: https://legacy.docs.greatexpectations.io/en/latest/

#### - Glossary of Expectations da documentação v2: https://legacy.docs.greatexpectations.io/en/latest/reference/glossary_of_expectations.html#expectation-glossary

#### - Glossary of Terms General da documentação v3: https://docs.greatexpectations.io/docs/glossary

#### - Glossary of Terms Expectations da documentação v3: https://docs.greatexpectations.io/docs/terms/expectation

#### - Repositório no Github: https://github.com/great-expectations/great_expectations

#### - Casos de uso: https://greatexpectations.io/case-studies/

#### - Datasets para análises, testes, exploração, entre outros: https://www.kaggle.com/

#### - Dataset utilizado nesse notebook: https://www.kaggle.com/datasets/uciml/default-of-credit-card-clients-dataset

#### - Canal do Youtube: https://www.youtube.com/c/GreatExpectationsData/videos

---

### Algumas perguntas para analisarmos que podem ajudar na utilização do Great Expectations


- Is my data rigth?
- Meus dados estão corretos?


	- Does it have nulls it shouldn't ?
	- Tem nulos que não deveria?
	
		- How many values are null ?
		- Quantos valores são nulos?
		
	- Does it have the right distribution ?
	- Tem a distribuição correta?
	
		- What are the quantiles ?
		- Quais são os quantis?
		
		- What is the entropy relative to a given distribuition ?
		- Qual é a entropia relativa a uma dada distribuição ?
	
	- Do the values look like they should ?
	- Os valores parecem como deveriam?
	
		- Do the values match a given regex ?
		- Os valores correspondem a um determinado regex?


### Primeiramente iremos importar a biblioteca great_expectations.

In [1]:
# Importação da biblioteca

import great_expectations as ge

### Agora iremos ler o arquivo CSV atribuindo os dados em um dataframe.

In [2]:
# Inserindo o dataset (conjunto de dados) em um dataframe.
# Notar que a biblioteca great_expectations possuí o dataframe como a biblioteca pandas também possuí.

df = ge.read_csv('dataset.csv')

### Agora iremos realizar a leitura das 5 primeiras linhas do dataframe.

In [3]:
# Realizando a leitura do dataframe, que foi atribuído na variável acima chamada "df".
# Iremos ler somente as 5 primeira linhas.

df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,1,20000.0,2,2,1,24,2,2,-1,-1,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,2,120000.0,2,2,2,26,-1,2,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
2,3,90000.0,2,2,2,34,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
3,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
4,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0


### Aqui começaremos a aplicar "expectations" sobre a coluna "SEX" da dataset.

- Primeiramente iremos aplicar um **"expectations"** que irá analisar se temos realmente e somente os valores do intervalo 1 e 2 na coluna **SEX**. Lembrando que pelo dicionário de dados da tabela do Kaggle: **SEX: Gender (1=male, 2=female)**.


- Notar que neste caso testamos as informações do dicionário de dados, que são **SEX: Gender (1=male, 2=female)** e tivemos sucesso, onde não temos nenhum valor fora deste intervalo.


- Notar que se algum valor estivesse fora desse intervalo, seria informado na variável **partial_unexpected_list**, como veremos nos testes abaixo.

In [4]:
# Aplicando expectations.
# Analisando os valores do intervalo 1 e 2 do dicionário de dados dessa base.

df.expect_column_values_to_be_in_set('SEX', [1, 2])

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": true,
  "meta": {},
  "result": {
    "element_count": 30000,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  }
}

### Aqui continuaremos a aplicar "expectations" sobre a coluna "SEX" da dataset.

- Agora iremos aplicar um **"expectations"** que irá analisar se teríamos somente o valor do intervalo 1 na coluna **SEX**. Lembrando que pelo dicionário de dados da tabela do Kaggle: **SEX: Gender (1=male, 2=female)**.


- Notar que neste caso testamos as informações do dicionário de dados, que são **SEX: Gender (1=male, 2=female)** e não tivemos sucesso, onde não temos somente o valor 1 nessa coluna.


- Tivemos o retorno que houve a leitura de 30.000 registros e que desse valor, 18.112 correspondem ao valor 1 inserido no **expectations**.


- Notar que em **partial_unexpected_list** ele informa o valor **2**, onde quer dizer que temos mais valores no intervalo.

In [5]:
# Aplicando expectations.
# Analisando os valores do intervalo 1 do dicionário de dados dessa base.

df.expect_column_values_to_be_in_set('SEX', [1])

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": false,
  "meta": {},
  "result": {
    "element_count": 30000,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 18112,
    "unexpected_percent": 60.373333333333335,
    "unexpected_percent_total": 60.373333333333335,
    "unexpected_percent_nonmissing": 60.373333333333335,
    "partial_unexpected_list": [
      2,
      2,
      2,
      2,
      2,
      2,
      2,
      2,
      2,
      2,
      2,
      2,
      2,
      2,
      2,
      2,
      2,
      2,
      2,
      2
    ]
  }
}

### Aqui continuaremos a aplicar "expectations" sobre a coluna "SEX" da dataset.

- Agora iremos aplicar um **"expectations"** que irá analisar se teríamos somente o valor do intervalo 2 na coluna **SEX**. Lembrando que pelo dicionário de dados da tabela do Kaggle: **SEX: Gender (1=male, 2=female)**.


- Notar que neste caso testamos as informações do dicionário de dados, que são **SEX: Gender (1=male, 2=female)** e não tivemos sucesso, onde não temos somente o valor 2 nessa coluna.


- Tivemos o retorno que houve a leitura de 30.000 registros e que desse valor, 11.888 correspondem ao valor 2 inserido no **expectations**.


- Notar que em **partial_unexpected_list** ele informa o valor **1**, onde quer dizer que temos mais valores no intervalo.

In [6]:
# Aplicando expectations.
# Analisando os valores do intervalo 2 do dicionário de dados dessa base.

df.expect_column_values_to_be_in_set('SEX', [2])

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": false,
  "meta": {},
  "result": {
    "element_count": 30000,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 11888,
    "unexpected_percent": 39.626666666666665,
    "unexpected_percent_total": 39.626666666666665,
    "unexpected_percent_nonmissing": 39.626666666666665,
    "partial_unexpected_list": [
      1,
      1,
      1,
      1,
      1,
      1,
      1,
      1,
      1,
      1,
      1,
      1,
      1,
      1,
      1,
      1,
      1,
      1,
      1,
      1
    ]
  }
}

### Caso houvessem espaços em branco na coluna, assim dificultando e prejudicando a análise, poderiam ser retirados pela função abaixo.

### Notar que no comando "if isinstance(df[column][2], str):" o "2" significa o índice da coluna que estamos querendo aplicar o comando do loop for.

In [7]:
# Função para retirar espaços em branco de colunas do dataset.
# Caso queira utilizar, descomente os comandos e mantenha correta a identação.
# Ou seja, retire somente os "#" dos comandos.

#def our_processing_pipeline(df):
    #for column in df.columns:
        #if isinstance(df[column][2], str):
            #df[column] = df[column].apply(str.strip)
            
#our_processing_pipeline(df)

### Agora iremos verificar se na coluna "AGE" temos valores em branco, nulos e/ou vazios.

- Lembrando que pelo dicionário de dados da base no Kaggle, temos a descrição da coluna como **AGE: Age in years**.


- Notar que neste caso tivemos sucesso, onde não temos nenhuma valor da coluna **AGE** como em branco, nulos e/ou vazios.


- Notar que se algum valor tivesse como em branco, nulo e/ou vazio, seria informado na variável **partial_unexpected_list**.

In [8]:
# Aplicando expectations.
# Analisando se a coluna "AGE" tem valores em branco, nulos e/ou vazios.

df.expect_column_values_to_not_be_null('AGE')

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": true,
  "meta": {},
  "result": {
    "element_count": 30000,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "partial_unexpected_list": []
  }
}

### Aqui iremos ler novamente o dataset só para relembrar visualmente sobre os dados.

In [9]:
# Realizando a leitura do dataframe, que foi atribuído na variável acima chamada "df".
# Iremos ler somente as 5 primeira linhas.

#df.head()

### Aqui iremos analisar a expectativa para a coluna "LIMIT_BAL", que é o limite de crédito concedido.

- No dicionário de dados do Kaggle deste dataset temos a descrição abaixo:
    - **LIMIT_BAL : Valor do crédito concedido em NT dólares (inclui crédito individual e familiar/complementar)**.



- Estamos limitando o intervalo de valor de crédito entre 0 e 1100000.


- Notar que para este intervalo de valor teremos sucesso, pois o maior valor da coluna é 1000000, e o intervalo é maior que este valor.


- Notar que se algum valor estivesse fora desse intervalo, seria informado na variável **partial_unexpected_list**, como veremos nos testes abaixo.

In [10]:
# Aplicando expectations.
# Analisando o o limite de crédito para concessão no intervalo de valores entre 0 e 1100000.

df.expect_column_values_to_be_between('LIMIT_BAL', 0, 1100000.0)

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": true,
  "meta": {},
  "result": {
    "element_count": 30000,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  }
}

### Aqui iremos continuar analisando a expectativa para a coluna "LIMIT_BAL", que é o limite de crédito concedido.

- No dicionário de dados do Kaggle deste dataset temos a descrição abaixo:
    - **LIMIT_BAL : Valor do crédito concedido em NT dólares (inclui crédito individual e familiar/complementar)**.


- Estamos limitando o intervalo de valor de crédito entre 0 e 350000.


- Notar que para este intervalo de valor não teremos sucesso, pois o maior valor da coluna é 1000000, e o intervalo é menor que este valor, onde limitamos em 350000.



- Notar que em **partial_unexpected_list** ele informa outros valores, onde quer dizer que temos mais valores no intervalo que limitamos para concessão de crédito.


- Notar também que podemos interpretar que o intervalo de valores de limite de crédito para concessão atende quase 90% dos cliente, onde 11.19% não seriam atendidos para a concessão de crédito.

In [11]:
# Aplicando expectations.
# Analisando o o limite de crédito para concessão no intervalo de valores entre 0 e 350000.

df.expect_column_values_to_be_between('LIMIT_BAL', 0, 350000.0)

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": false,
  "meta": {},
  "result": {
    "element_count": 30000,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 3357,
    "unexpected_percent": 11.19,
    "unexpected_percent_total": 11.19,
    "unexpected_percent_nonmissing": 11.19,
    "partial_unexpected_list": [
      500000.0,
      630000.0,
      360000.0,
      450000.0,
      500000.0,
      500000.0,
      360000.0,
      380000.0,
      500000.0,
      400000.0,
      500000.0,
      470000.0,
      360000.0,
      400000.0,
      360000.0,
      360000.0,
      380000.0,
      480000.0,
      360000.0,
      400000.0
    ]
  }
}

### Aqui iremos continuar analisando a expectativa para a coluna "LIMIT_BAL", que é o limite de crédito concedido.

- No dicionário de dados do Kaggle deste dataset temos a descrição abaixo:
    - **LIMIT_BAL : Valor do crédito concedido em NT dólares (inclui crédito individual e familiar/complementar)**.


- Estamos limitando o intervalo de valor de crédito entre 0 e 350000.


- Notar que para este intervalo de valor não teremos sucesso, pois o maior valor da coluna é 1000000, e o intervalo é menor que este valor, onde limitamos em 350000.



- Notar que em **partial_unexpected_list** ele informa outros valores, onde quer dizer que temos mais valores no intervalo que limitamos para concessão de crédito.


- Notar também que podemos interpretar que o intervalo de valores de limite de crédito para concessão atende quase 90% dos cliente, onde 11.19% não seriam atendidos para a concessão de crédito.


- Mas agora iremos adicionar um parâmetro, que informaremos que queremos que 90% dos dados atendam a expectativa para o limite de concessão de crédito, onde não teremos sucesso neste caso.

In [12]:
# Aplicando expectations.
# Analisando o o limite de crédito para concessão no intervalo de valores entre 0 e 350000.
# Inserimos um novo parâmetro para informar que queremos que 90% dos dados atendam a expectativa.

df.expect_column_values_to_be_between('LIMIT_BAL', 0, 350000.0, mostly=0.90)

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": false,
  "meta": {},
  "result": {
    "element_count": 30000,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 3357,
    "unexpected_percent": 11.19,
    "unexpected_percent_total": 11.19,
    "unexpected_percent_nonmissing": 11.19,
    "partial_unexpected_list": [
      500000.0,
      630000.0,
      360000.0,
      450000.0,
      500000.0,
      500000.0,
      360000.0,
      380000.0,
      500000.0,
      400000.0,
      500000.0,
      470000.0,
      360000.0,
      400000.0,
      360000.0,
      360000.0,
      380000.0,
      480000.0,
      360000.0,
      400000.0
    ]
  }
}

### Aqui iremos continuar analisando a expectativa para a coluna "LIMIT_BAL", que é o limite de crédito concedido.

- No dicionário de dados do Kaggle deste dataset temos a descrição abaixo:
    - **LIMIT_BAL : Valor do crédito concedido em NT dólares (inclui crédito individual e familiar/complementar)**.


- Estamos limitando o intervalo de valor de crédito entre 0 e 350000.


- Notar que para este intervalo de valor não teremos sucesso, pois o maior valor da coluna é 1000000, e o intervalo é menor que este valor, onde limitamos em 350000.



- Notar que em **partial_unexpected_list** ele informa outros valores, onde quer dizer que temos mais valores no intervalo que limitamos para concessão de crédito.


- Notar também que podemos interpretar que o intervalo de valores de limite de crédito para concessão atende quase 90% dos cliente, onde 11.19% não seriam atendidos para a concessão de crédito.


- Mas agora iremos adicionar um parâmetro, que informaremos que queremos que 85% dos dados atendam a expectativa para o limite de concessão de crédito, onde teremos sucesso neste caso.

In [13]:
# Aplicando expectations.
# Analisando o o limite de crédito para concessão no intervalo de valores entre 0 e 350000.
# Inserimos um novo parâmetro para informar que queremos que 85% dos dados atendam a expectativa.

df.expect_column_values_to_be_between('LIMIT_BAL', 0, 350000.0, mostly=0.85)

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": true,
  "meta": {},
  "result": {
    "element_count": 30000,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 3357,
    "unexpected_percent": 11.19,
    "unexpected_percent_total": 11.19,
    "unexpected_percent_nonmissing": 11.19,
    "partial_unexpected_list": [
      500000.0,
      630000.0,
      360000.0,
      450000.0,
      500000.0,
      500000.0,
      360000.0,
      380000.0,
      500000.0,
      400000.0,
      500000.0,
      470000.0,
      360000.0,
      400000.0,
      360000.0,
      360000.0,
      380000.0,
      480000.0,
      360000.0,
      400000.0
    ]
  }
}

### Aqui conseguiremos ver a configuração que utilizamos até o momento com as "expectations".

In [14]:
# Verificando as configurações que utilizamos até o momento com as "expectations".

df.get_expectation_suite()

{
  "expectation_suite_name": "default",
  "ge_cloud_id": null,
  "data_asset_type": "Dataset",
  "expectations": [
    {
      "kwargs": {
        "column": "AGE"
      },
      "meta": {},
      "expectation_type": "expect_column_values_to_not_be_null"
    },
    {
      "kwargs": {
        "column": "LIMIT_BAL",
        "min_value": 0,
        "max_value": 350000.0,
        "mostly": 0.85
      },
      "meta": {},
      "expectation_type": "expect_column_values_to_be_between"
    }
  ],
  "meta": {
    "great_expectations_version": "0.15.19"
  }
}

### Aqui iremos salvar as configurações na variável "config".

In [15]:
# Salvando as configurações variável "config".

config = df.get_expectation_suite()

### Salvando as configurações em um arquivo de extensão JSON no mesmo repositório que estamos lendo esse notebook.

In [16]:
# Salvando as configurações em um arquivo de extensão JSON no mesmo repositório que estamos lendo esse notebook.

df.save_expectation_suite('config_dataset_credit_card.json')

### Agora iremos ler o arquivo CSV atribuindo os dados em um dataframe, mas agora a variável "df2".

### Iremos realizar de outro arquivo CSV com os mesmos dados.

In [17]:
# Inserindo o dataset (conjunto de dados) em um dataframe.
# Notar que a biblioteca great_expectations possuí o dataframe como a biblioteca pandas também possuí.

df2 = ge.read_csv('dataset2.csv')

### Agora iremos realizar a leitura das 5 primeiras linhas do dataframe.

In [18]:
# Realizando a leitura do dataframe, que foi atribuído na variável acima chamada "df".
# Iremos ler somente as 5 primeira linhas.

df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,1,20000.0,2,2,1,24,2,2,-1,-1,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,2,120000.0,2,2,2,26,-1,2,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
2,3,90000.0,2,2,2,34,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
3,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
4,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0


### Agora iremos utilizar o comando abaixo para realizar a aplicação do "great_expectations", mas em vez de escrevermos tudo novamente, iremos utilizar a variável que foi configurada mais acima chamada "config".

### Nessa variável salvamos as configurações que utilizamos mais acima, tanto na variável quanto no repositório deste Jupyter Notebook, onde agora é possível utiliza-la na leitura de arquivos que tenham os nomes de colunas iguais.

### Notar que essa validação é realizada no dataframe que criamos da variável "df2".

In [19]:
df2.validate(expectation_suite=config)

{
  "evaluation_parameters": {},
  "success": true,
  "results": [
    {
      "exception_info": {
        "raised_exception": false,
        "exception_message": null,
        "exception_traceback": null
      },
      "success": true,
      "expectation_config": {
        "kwargs": {
          "column": "AGE"
        },
        "meta": {},
        "expectation_type": "expect_column_values_to_not_be_null"
      },
      "meta": {},
      "result": {
        "element_count": 30000,
        "unexpected_count": 0,
        "unexpected_percent": 0.0,
        "unexpected_percent_total": 0.0,
        "partial_unexpected_list": []
      }
    },
    {
      "exception_info": {
        "raised_exception": false,
        "exception_message": null,
        "exception_traceback": null
      },
      "success": true,
      "expectation_config": {
        "kwargs": {
          "column": "LIMIT_BAL",
          "min_value": 0,
          "max_value": 350000.0,
          "mostly": 0.85
        },
     

### Agora iremos verificar se alguma validação com "great_exepctations" falhou, ou seja, se na aplicação das regras da variável "config" falharem na leitura deste novo dataset da variável "df2".

### Vale notar que neste caso nenhuma aplicação de regra falhou.

### Conseguimos verificar isso pelo primeiro bloco com as informações abaixo:
### "evaluated_expectations": 3,
### "successful_expectations": 3,
### "unsuccessful_expectations": 0,
### "success_percent": 100.0

### Caso alguma regra tivesse falhado, logo o campo "unsuccessful_expectations": 0 e o campo ""success_percent": 100.0" não seriam respectivamente "0" e "100.0", indicando que em alguma regra houve falha.

In [20]:
df2.validate(expectation_suite=config, only_return_failures=True)

{
  "evaluation_parameters": {},
  "success": true,
  "results": [],
  "statistics": {
    "evaluated_expectations": 2,
    "successful_expectations": 2,
    "unsuccessful_expectations": 0,
    "success_percent": 100.0
  },
  "meta": {
    "great_expectations_version": "0.15.19",
    "expectation_suite_name": "default",
    "run_id": {
      "run_name": null,
      "run_time": "2022-08-28T15:59:37.337058+00:00"
    },
    "batch_kwargs": {
      "ge_batch_id": "699702a6-26ea-11ed-8857-706979ad57b3"
    },
    "batch_markers": {},
    "batch_parameters": {},
    "validation_time": "20220828T155937.337058Z",
    "expectation_suite_meta": {
      "great_expectations_version": "0.15.19"
    }
  }
}

In [None]:
context.