## Atividade 02

Vamos praticar a criação de várias expectativas para um dataset público. 
Para isso, vamos utilizar o dataset Titanic disponível no Kaggle. 
Este dataset contém informações sobre os passageiros do navio Titanic, incluindo informações como nome, idade, sexo, classe da cabine e se sobreviveram ou não ao naufrágio.

### 1. Importando os dados

1.1 Crie um objeto DataContext

In [3]:
import great_expectations as ge
import pandas as pd
import json

context = ge.data_context.DataContext

1.2 Salve o Contexto de Dados no Sistema de Arquivos

In [None]:

with open( "data/expectations.json", "w") as my_file:
    my_file.write(
        json.dumps(context.get_expectation_suite().to_json_dict())
    )

1.3 Crie um validator e carregue o dataset Titanic: https://storage.googleapis.com/tf-datasets/titanic/train.csv

In [None]:
from great_expectations.dataset import PandasDataset
from great_expectations.validator.validator import Validator

reference_data = pd.read_csv('train.csv')
reference_dataset = PandasDataset(reference_data)

validator = Validator(reference_dataset)


### 2. Definindo expectativas

Agora que temos o dataframe, podemos começar a criar expectativas sobre os dados. 

2.1 Crie uma expectativa que defina que as colunas do dataframe estão na ordem correta. 

In [1]:
import great_expectations as ge
import pandas as pd

df = ge.read_csv('train.csv')
df.head()

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.25,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.925,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y


2.2 Agora crie uma expectativa para verificar se os valores da coluna "Survived" só podem ser 0 ou 1. 

In [2]:
df.expect_column_values_to_be_in_set('survived', ['0','1'])

{
  "success": false,
  "result": {
    "element_count": 627,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 627,
    "unexpected_percent": 100.0,
    "unexpected_percent_total": 100.0,
    "unexpected_percent_nonmissing": 100.0,
    "partial_unexpected_list": [
      0,
      1,
      1,
      1,
      0,
      0,
      1,
      1,
      1,
      0,
      0,
      0,
      0,
      1,
      0,
      1,
      0,
      1,
      1,
      0
    ]
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {}
}

2.3 Defina que a coluna "Pclass" só pode ter valores de 1 a 3. 

In [None]:
df.expect_column_values_within_range(column='Pclass', min_value=1, max_value=3)

2.4 Crie expectativas para verificar se as colunas "Survived" e "Pclass" existem no dataframe.

In [6]:
df.expect_column_to_exist(column='survived')

{
  "success": true,
  "result": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {}
}

In [7]:
df.expect_column_to_exist(column='Pclass')

{
  "success": false,
  "result": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {}
}

2.5 Verifique se os valores das colunas "Age" e "Fare" não são nulos e se estão dentro de um intervalo razoável (0 a 100 para "Age" w 0 a 100 para "Fare".

In [12]:
df.expect_column_values_to_be_between(column='age', min_value=0.0, max_value=100.0)

{
  "success": true,
  "result": {
    "element_count": 627,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {}
}

In [13]:
df.expect_column_values_to_be_between(column='fare', min_value=0.0, max_value=100.0)

{
  "success": false,
  "result": {
    "element_count": 627,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 43,
    "unexpected_percent": 6.8580542264752795,
    "unexpected_percent_total": 6.8580542264752795,
    "unexpected_percent_nonmissing": 6.8580542264752795,
    "partial_unexpected_list": [
      263.0,
      146.5208,
      263.0,
      247.5208,
      146.5208,
      113.275,
      512.3292,
      153.4625,
      135.6333,
      247.5208,
      110.8833,
      108.9,
      262.375,
      164.8667,
      134.5,
      135.6333,
      153.4625,
      133.65,
      211.5,
      227.525
    ]
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {}
}

2.6 Define que a coluna "Sex" só pode ter os valores "male" ou "female".

In [14]:
df.expect_column_values_to_be_in_set('sex', ['male','female'])

{
  "success": true,
  "result": {
    "element_count": 627,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {}
}

### 3. Executando as Expectativas

3.1 Defina um Checkpoint e execute-o para receber os resultados do validator.