# Great Expectations

## Instalando

In [1]:
!pip install great_expectations

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting great_expectations
  Downloading great_expectations-0.16.3-py3-none-any.whl (5.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.3/5.3 MB[0m [31m34.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting makefun<2,>=1.7.0
  Downloading makefun-1.15.1-py2.py3-none-any.whl (22 kB)
Collecting ruamel.yaml<0.17.18,>=0.16
  Downloading ruamel.yaml-0.17.17-py3-none-any.whl (109 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m109.1/109.1 KB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting altair<4.2.1,>=4.0.0
  Downloading altair-4.2.0-py3-none-any.whl (812 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m812.8/812.8 KB[0m [31m39.1 MB/s[0m eta [36m0:00:00[0m
Collecting colorama>=0.4.3
  Downloading colorama-0.4.6-py2.py3-none-any.whl (25 kB)
Collecting jsonpatch>=1.22
  Downloading jsonpatch-1.32-py2.py3-none-any.whl 

## Validando os dados

Validamos o conjunto de dados com a suíte de expectativas. 

Em seguida, verificamos se a validação foi bem-sucedida verificando o atributo success do objeto ExpectationValidationResult

### Validação de valores únicos em uma coluna

In [2]:
import great_expectations as ge
import pandas as pd

# Criação de um dataframe com uma coluna "nome" que deve conter apenas valores únicos
df = pd.DataFrame({'nome': ['João', 'Maria', 'João', 'Pedro', 'Ana']})


In [3]:
df_ge = ge.dataset.PandasDataset(df)

In [8]:
result = df_ge.expect_column_values_to_be_unique(column = 'nome')
result

{
  "expectation_config": {
    "kwargs": {
      "column": "nome",
      "result_format": "BASIC"
    },
    "meta": {},
    "expectation_type": "expect_column_values_to_be_unique"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "result": {
    "element_count": 5,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 2,
    "unexpected_percent": 40.0,
    "unexpected_percent_total": 40.0,
    "unexpected_percent_nonmissing": 40.0,
    "partial_unexpected_list": [
      "Jo\u00e3o",
      "Jo\u00e3o"
    ]
  },
  "success": false
}

In [9]:
if result['success']:
  print('só há registros unicos')
else:
  print('há registros repetidos')


há registros repetidos


Crie uma expectation que verifica se a coluna "codigo" contém apenas valores únicos.

Use a função ``expect_column_values_to_be_unique`` para definir essa expectativa

In [10]:
# Criando um dataframe com uma coluna "codigo" que deve conter valores únicos
df = pd.DataFrame({'codigo': [1001, 1002, 1003, 1002, 1004, 1001]})

In [13]:
result = ge.dataset.PandasDataset(df).expect_column_values_to_be_unique('codigo')

In [14]:
result

{
  "expectation_config": {
    "kwargs": {
      "column": "codigo",
      "result_format": "BASIC"
    },
    "meta": {},
    "expectation_type": "expect_column_values_to_be_unique"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "result": {
    "element_count": 6,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 4,
    "unexpected_percent": 66.66666666666666,
    "unexpected_percent_total": 66.66666666666666,
    "unexpected_percent_nonmissing": 66.66666666666666,
    "partial_unexpected_list": [
      1001,
      1002,
      1002,
      1001
    ]
  },
  "success": false
}

### Validação de valores mínimos e máximos em uma coluna numérica

In [15]:
# Criação de um dataframe com uma coluna "idade" que deve conter valores numéricos entre 0 e 100
df = pd.DataFrame({'idade': [20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105]})


In [19]:
result = df_ge.dataset.PandasDataset(df).expect_column_values_to_be_between(column = 'idade',10,20)
result

SyntaxError: ignored

### Validação de formatos de data em uma coluna

In [22]:
# Criação de um dataframe com uma coluna "data" que deve conter datas no formato 'YYYY-MM-DD'
df = pd.DataFrame({'data': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05']})



In [24]:
df_ge = ge.dataset.PandasDataset(df)
result = df_ge.expect_column_values_to_match_regex(column='data', regex='^\d{4}-\d{2}-\d{2}$')
result



  result = df_ge.expect_column_values_to_match_regex(column='data', regex='^\d{4}-\d{2}-\d{2}$')



{
  "expectation_config": {
    "kwargs": {
      "column": "data",
      "regex": "^\\d{4}-\\d{2}-\\d{2}$",
      "result_format": "BASIC"
    },
    "meta": {},
    "expectation_type": "expect_column_values_to_match_regex"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "result": {
    "element_count": 5,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "success": true
}

### Validação de valores nulos em uma coluna

Criaremos uma Expectation que verifica se a coluna "salario" não contém valores nulos

In [32]:
# Criação de um dataframe com uma coluna "salario" que não deve conter valores nulos
df = pd.DataFrame({'salario': [2000, 2500, 3000, None, 4000, 4500]})



In [33]:
df_ge = ge.dataset.PandasDataset(df)
result = df_ge.expect_column_values_to_not_be_null(column = 'salario')
result

{
  "expectation_config": {
    "kwargs": {
      "column": "salario",
      "result_format": "BASIC"
    },
    "meta": {},
    "expectation_type": "expect_column_values_to_not_be_null"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "result": {
    "element_count": 6,
    "unexpected_count": 1,
    "unexpected_percent": 16.666666666666664,
    "unexpected_percent_total": 16.666666666666664,
    "partial_unexpected_list": []
  },
  "success": false
}

### Validação de formatos de string em uma coluna

Vamos criar uma Expectation que verifica se a coluna "cpf" contém apenas CPFs no formato 'XXX.XXX.XXX-XX'. 

Usaremos a função ``expect_column_values_to_match_regex`` para definir essa expectativa.

In [29]:

# Criação de um dataframe com uma coluna "cpf" que deve conter CPFs no formato 'XXX.XXX.XXX-XX'
df = pd.DataFrame({'cpf': ['123.456.789-10', '234.567.890-12', '345.678.901-23', '456.789.012-34', '567.890.123-45']})



In [30]:
df_ge = ge.dataset.PandasDataset(df)
result = df_ge.expect_column_values_to_match_regex(column='cpf', regex='^\d{3}.\d{3}.\d{3}-\d{2}$')
result



  result = df_ge.expect_column_values_to_match_regex(column='cpf', regex='^\d{3}.\d{3}.\d{3}-\d{2}$')



{
  "expectation_config": {
    "kwargs": {
      "column": "cpf",
      "regex": "^\\d{3}.\\d{3}.\\d{3}-\\d{2}$",
      "result_format": "BASIC"
    },
    "meta": {},
    "expectation_type": "expect_column_values_to_match_regex"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "result": {
    "element_count": 5,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "success": true
}

### Validação de valores numéricos em uma coluna

Use a função ``expect_column_values_to_be_between`` para verificar se a coluna "idade" contém apenas valores entre 18 e 60 anos.

Passamos os valores mínimo e máximo permitidos como argumentos. Em seguida, validamos o conjunto de dados com a suíte de expectativas e verificamos se a validação foi bem-sucedida.


In [48]:
# Criação de um dataframe com uma coluna "idade" que deve conter valores entre 18 e 60 anos
df = pd.DataFrame({'idade': [25, 40, 50, 32, 18, 70]})
df


Unnamed: 0,idade
0,25
1,40
2,50
3,32
4,18
5,70


In [49]:
df_ge = ge.dataset.PandasDataset(df)
result = df_ge.expect_column_values_to_be_between(column='idade', min_value= 18, max_value= 60)
result

{
  "expectation_config": {
    "kwargs": {
      "column": "idade",
      "min_value": 18,
      "max_value": 60,
      "result_format": "BASIC"
    },
    "meta": {},
    "expectation_type": "expect_column_values_to_be_between"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "result": {
    "element_count": 6,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 1,
    "unexpected_percent": 16.666666666666664,
    "unexpected_percent_total": 16.666666666666664,
    "unexpected_percent_nonmissing": 16.666666666666664,
    "partial_unexpected_list": [
      70
    ]
  },
  "success": false
}

### Validação de contagem de valores em uma coluna


Vamos criar um dataframe com uma coluna "cidade" e usar a função ``expect_column_value_counts_to_be_between`` para definir se a coluna "cidade" contém pelo menos 3 ocorrências de cada cidade. 

Em seguida, passamos um dicionário com os valores esperados de cada cidade e um valor mínimo e máximo de ocorrências permitidas. 

In [61]:
# Criação de um dataframe com uma coluna "cidade" que deve conter pelo menos 3 ocorrências de cada cidade
df = pd.DataFrame({'cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'São Paulo', 'Rio de Janeiro', 'Belo Horizonte']})

df

Unnamed: 0,cidade
0,São Paulo
1,Rio de Janeiro
2,Belo Horizonte
3,São Paulo
4,Rio de Janeiro
5,Belo Horizonte
6,São Paulo
7,Rio de Janeiro
8,Belo Horizonte


In [62]:
df_ge = ge.dataset.PandasDataset(df)
result = df_ge.expect_column_unique_value_count_to_be_between(column = 'cidade', min_value=3, max_value=5)
result

{
  "expectation_config": {
    "kwargs": {
      "column": "cidade",
      "min_value": 3,
      "max_value": 5,
      "result_format": "BASIC"
    },
    "meta": {},
    "expectation_type": "expect_column_unique_value_count_to_be_between"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "result": {
    "observed_value": 3,
    "element_count": 9,
    "missing_count": null,
    "missing_percent": null
  },
  "success": true
}

## Salve sua suíte Expectation

In [63]:
import json

with open( "data/expectations.json", "w") as my_file:
    my_file.write(
        json.dumps(df.get_expectation_suite().to_json_dict())
    )

FileNotFoundError: ignored

## Carregando dados

In [None]:
import great_expectations as gx
import pandas as pd

df = gx.read_csv('data/us_tax_data_2016.csv')

In [None]:
df.head()

## Definindo expectativas dos dados

In [None]:
df.expect_column_values_to_be_in_set('zipcode', ['0'])

In [None]:
df.expect_column_values_to_be_in_set('zipcode', [0], mostly=.99)

## Obtendo as Expectativas

In [None]:
df.get_expectation_suite()

Por padrão, ``get_expectation_suite()`` retorna apenas Expectations com ``success=True``. 

Você pode substituir esse comportamento com:

In [None]:
df.get_expectation_suite(discard_failed_expectations=False)

##desafio
Crie um dataset contendo as seguites colunas:
    nome
    email
    telefone
    idade
    
expectativas:
    pelo menos 10% tem que ser maior de idade
    todos os emails devem ser sintaticamente validos
    os telefones devem possuir dd + 9 digitos
    

In [66]:
!pip install faker


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting faker
  Downloading Faker-18.3.1-py3-none-any.whl (1.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m28.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: faker
Successfully installed faker-18.3.1


In [76]:
from faker import Faker

fake = Faker()

fake_df = pd.DataFrame({
    'name':  [fake.name() for i in range(10)],
    'email': [fake.email() for i in range(10)],
    'idade': [fake.random_int(min=18, max=99) for i in range(10)],
    'telefone': [fake.phone_number() for i in range(10)]
})

fake_df

Unnamed: 0,name,email,idade,telefone
0,Patricia Robinson,waltersjennifer@example.com,94,212-192-2392
1,Michael Stephenson,ocarlson@example.net,61,820.492.2699x475
2,Austin Brown,kennethstevens@example.org,68,4886436185
3,Melinda Long,alexandria04@example.net,69,985.074.2042x6244
4,Jeffrey Herman,thomas64@example.net,48,001-736-378-3051
5,Maureen Harris,dariuswilliams@example.org,64,001-471-668-6788
6,Mark Nelson,solomoncassandra@example.net,63,(825)585-5701x38003
7,Robert Cunningham,kharper@example.org,18,6398708668
8,Samantha Johnson,justin72@example.com,35,001-066-994-3621
9,Cindy Blanchard,jack24@example.org,90,728.610.8631x7321
