**Giovano Panatta**

**Qualidade de Dados**

**Introdução:** Dimensão de Qualidade de Dados

- **Precisão:** Grau de conformidade dos dados com os valores reais.
- **Integridade:** Completeness and wholeness of the data.
- **Consistência:** Uniformidade dos dados em diferentes fontes.
- **Atualidade:** Relevância dos dados no tempo.
- **Confiabilidade:** Confiabilidade das fontes de dados.
- **Disponibilidade:** Facilidade de acesso aos dados quando necessário.
- **Relevância:** Adequação dos dados para o propósito de uso.
- **Compreensibilidade:** Facilidade com que os dados podem ser entendidos.
- **Interoperabilidade:** Capacidade dos dados serem integrados com outros sistemas.
- **Conformidade:** Adesão a padrões e regulamentos pertinentes.


**Exemplo de Qualidade de Dados aplicados à uma empresa:**

Cenário: Uma empresa de comércio eletrônico deseja garantir a qualidade dos dados em seu sistema para fornecer uma experiência confiável aos clientes e garantir a precisão e integridade das informações.

Regras de Qualidade de Dados:

* Precisão dos Preços: Verificar se todos os preços dos produtos correspondem exatamente aos preços listados pelos fornecedores.
* Atualização de Estoque: Garantir que as informações de estoque sejam atualizadas em tempo real para refletir as mudanças após cada venda ou recebimento de novos produtos.
* Consistência de Dados de Cliente: Assegurar que as informações dos clientes sejam consistentes em todos os sistemas da empresa.
* Integridade das Avaliações de Produtos: Certificar-se de que as avaliações dos produtos sejam completas, incluindo autor, data e conteúdo da avaliação, e que venham de clientes verificados.

In [1]:
#Importando as bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


**Baseado na base de dados do Titanic, criaremos validações simples sem o uso de ferramentas de testes.**

In [None]:
titanic = sns.load_dataset("titanic")
print(titanic.head())

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  


In [None]:
titanic.shape

(891, 15)

In [None]:
#Verificando se há a coluna 'age' possuem valores com menos de 0 ou mais de 100 anos

invalid_ages = titanic[(titanic['age'] < 0) | (titanic['age'] > 100)]
print("Registros com idades inválidas:\n", invalid_ages)


Registros com idades inválidas:
 Empty DataFrame
Columns: [survived, pclass, sex, age, sibsp, parch, fare, embarked, class, who, adult_male, deck, embark_town, alive, alone]
Index: []


**Obs: O resultado Empty DataFrame indica que não há valores fora dos filtros aplicados**

In [None]:
# Verificar se há valores diferentes de 0 e 1
invalid_survived = titanic[~titanic['survived'].isin([0, 1])]
print("Registros com valores inválidos para 'Survived':\n", invalid_survived)


Registros com valores inválidos para 'Survived':
 Empty DataFrame
Columns: [survived, pclass, sex, age, sibsp, parch, fare, embarked, class, who, adult_male, deck, embark_town, alive, alone]
Index: []


In [None]:
#Verificando se há classes fora de 1, 2 ou 3
invalid_class = titanic[~titanic['pclass'].isin([1,2,3])]
print('Registro com classes inválidas:\n', invalid_class)

Registro com classes inválidas:
 Empty DataFrame
Columns: [survived, pclass, sex, age, sibsp, parch, fare, embarked, class, who, adult_male, deck, embark_town, alive, alone]
Index: []


In [None]:
#verificando se há strings diferentes entre male ou female na coluna sex

sex = titanic[~titanic['sex'].isin(['male', 'female'])]
print("Registros com valores invalidos na colna sex:\n", sex)

Registros com valores invalidos na colna sex:
 Empty DataFrame
Columns: [survived, pclass, sex, age, sibsp, parch, fare, embarked, class, who, adult_male, deck, embark_town, alive, alone]
Index: []


In [None]:
# Verificando se há valores fora de 'S', 'C', 'Q'
invalid_embarked = titanic[~titanic['embarked'].isin(['S', 'C', 'Q'])]
print("Registros com portos de embarque inválidos:\n", invalid_embarked)


Registros com portos de embarque inválidos:
      survived  pclass     sex   age  sibsp  parch  fare embarked  class  \
61          1       1  female  38.0      0      0  80.0      NaN  First   
829         1       1  female  62.0      0      0  80.0      NaN  First   

       who  adult_male deck embark_town alive  alone  
61   woman       False    B         NaN   yes   True  
829  woman       False    B         NaN   yes   True  


**Obs:** O retorno acima indica que há duas entradas com valores nulos (NaN)

**Vamos completar os dados faltantes na base do Titanic e explicar a regra usada para isso.**

In [None]:
missing_data = titanic.isnull().sum()
print(missing_data)


survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


**Notamos os seguintes valores ausentes:**

* age            177
* embarked   2
* deck 688
* embark_town      2

**Soluções:** Como a coluna 'age' é bastante importante para o entendimento dos dados ou mesmo modelos preditivos, e,  por sua própria natureza bastante suscetível a outliers, se utilizarmos a média, obteremos uma distorção muito grande. Desta forma, a abordagem mais apropriada parece ser a utilização da mediana.

In [None]:
titanic['age'].fillna(titanic['age'].median(), inplace=True)


**Abaixo:** uma abordagem interessante para essa coluna pode ser a utilização do valor mais comum, no caso, a moda:

In [None]:
#filtrando os dados conforme a moda
most_commom_emb1 =titanic['embarked'].mode()[0]
#Substituindo os dados pela moda
titanic['embarked'].fillna(most_commom_emb1, inplace=True)

In [None]:
#filtrando os dados conforme a moda
most_commom_emb2 =titanic['embark_town'].mode()[0]
#Substituindo os dados pela moda
titanic['embark_town'].fillna(most_commom_emb2, inplace=True)

**Obs:** A coluna 'deck' , além de possuir muitos valores ausentes, pode não possuir muita importância nem para a nossa análise e tampouco para a implementação de um modelo preditivo. Desta forma, a minha opção foi excluí-la do nosso DataFrame:

In [None]:
titanic.drop('deck', axis=1, inplace=True)

In [None]:
#Verificando valores ausentes após o tratamento dos dados
missing_data = titanic.isnull().sum()
print(missing_data)


survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       0
class          0
who            0
adult_male     0
embark_town    0
alive          0
alone          0
dtype: int64


**O resultado do código acima nos apresenta que não existem mais valores ausentes em nosso DataFrame**

**Função do Pandera:** Validar esquemas de DataFrames do Pandas, garantindo a qualidade e consistência dos dados.

**Vantagens:**

* Melhora a qualidade dos dados.
* Detecta erros precocemente.
* Documenta a estrutura esperada dos dados.
* Integra-se facilmente em pipelines de dados existentes.

**Desvantagens:**

* Adiciona complexidade ao processamento de dados.
* Pode impactar o desempenho, especialmente com grandes volumes de dados ou regras complexas.
* Regras muito estritas podem impedir o processamento de dados válidos.

**Base de Dados Faker**

In [None]:
!pip install faker

Collecting faker
  Downloading Faker-20.1.0-py3-none-any.whl (1.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m44.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: faker
Successfully installed faker-20.1.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0.1[0m[39;49m -> [0m[32;49m23.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [None]:
from faker import Faker

fake = Faker('pt_BR')
num_linhas = 400

dados = {

'Nome': [fake.name() for _ in range(num_linhas)],

'Idade': [fake.random_int(min=18, max=80) if random.random() > 0.05 else np.nan for _ in range(num_linhas)],

'Email': [fake.email() for _ in range(num_linhas)],

'Endereço': [fake.address() for _ in range(num_linhas)],

'Telefone': [fake.phone_number() for _ in range(num_linhas)],

'Profissão': [fake.job() for _ in range(num_linhas)],

'Data de Nascimento': [fake.date_of_birth() for _ in range(num_linhas)],

'Cidade': [fake.city() for _ in range(num_linhas)],

'Estado': [fake.state_abbr() if random.random() > 0.05 else np.nan for _ in range(num_linhas)], 

'Salário': [fake.random_int(min=30000, max=120000) if random.random() > 0.05 else np.nan for _ in range(num_linhas)]}

In [None]:
print(dados)

{'Nome': ['Gustavo Henrique Rezende', 'Melissa Silveira', 'Vitor Rodrigues', 'Amanda Moreira', 'Sr. Enrico Dias', 'Isabel Peixoto', 'Sr. Marcos Vinicius Pinto', 'Amanda Ramos', 'Maria Julia Costa', 'Thiago Novaes', 'Francisco Azevedo', 'Natália Souza', 'Carolina Sales', 'Helena Alves', 'Noah Santos', 'Cecília Nogueira', 'Clara Monteiro', 'Dr. Eduardo Cardoso', 'Lara Viana', 'Dr. Vitor Nogueira', 'Emanuella Vieira', 'Ana Carolina Ferreira', 'Guilherme Correia', 'Dr. Heitor Gonçalves', 'Diogo Duarte', 'Pietro da Rocha', 'Emanuella Gomes', 'Joana Ramos', 'Pietra Nascimento', 'Ana Clara da Costa', 'Sra. Marina Correia', 'Brenda Cunha', 'João Felipe Nascimento', 'Dr. Luiz Henrique Oliveira', 'Pietra da Conceição', 'Esther Freitas', 'Mirella Rezende', 'Daniela Oliveira', 'Bruna Jesus', 'Davi Luiz Costela', 'Arthur da Mata', 'Helena Almeida', 'Vitória Silveira', 'Sr. Vicente Vieira', 'Eloah da Mata', 'Nina Gonçalves', 'Pedro Henrique Costela', 'Rodrigo Pires', 'Ana Carolina Sales', 'Leandro P

In [None]:
#Criando um DataFrame com o dicionário de Faker
df = pd.DataFrame(dados)

In [None]:
df.head()

Unnamed: 0,Nome,Idade,Email,Endereço,Telefone,Profissão,Data de Nascimento,Cidade,Estado,Salário
0,Gustavo Henrique Rezende,67.0,umartins@example.net,"Pátio de Teixeira, 3\nSão Damião\n41661967 Nun...",+55 (031) 8481-1851,Engenheiro industrial,1965-12-05,Melo,SP,84253.0
1,Melissa Silveira,,jesusmaria-alice@example.net,"Lagoa Moreira, 6\nJardim Do Vale\n10525-565 Sa...",+55 41 3960-6540,Agente de combate à endemias,1920-04-10,Mendes,RN,76862.0
2,Vitor Rodrigues,58.0,maysa66@example.com,"Feira de da Costa, 88\nCalafate\n37260-662 Tei...",(084) 0335-2029,Apresentador,1920-09-22,Porto do Galho,SE,31742.0
3,Amanda Moreira,26.0,cnovaes@example.org,Setor Carolina Rocha\nFrei Leopoldo\n17036-324...,+55 (061) 9596 8176,Vendedor,1920-01-14,Ramos de Peixoto,PI,87573.0
4,Sr. Enrico Dias,59.0,luiz-miguelda-mota@example.org,"Parque Vitor Gabriel da Conceição, 279\nNossa ...",(051) 7570-3946,Terapeuta Holístico,2012-11-17,Monteiro do Amparo,AM,93671.0


**Usaremos o Pandera para realizar testes e validações para cada uma das 10 colunas na base de dados criada neste trabalho. Faremos isso usando o método lazy e retornaremos uma mensagem indicando que não passar no teste é uma resposta.**

In [None]:
!pip install pandera

Collecting pandera
  Downloading pandera-0.18.0-py3-none-any.whl (209 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.0/209.0 kB[0m [31m15.1 MB/s[0m eta [36m0:00:00[0m
Collecting typeguard>=3.0.2
  Downloading typeguard-4.1.5-py3-none-any.whl (34 kB)
Collecting multimethod
  Downloading multimethod-1.10-py3-none-any.whl (9.9 kB)
Collecting typing-inspect>=0.6.0
  Downloading typing_inspect-0.9.0-py3-none-any.whl (8.8 kB)
Collecting typing-extensions>=4.7.0
  Downloading typing_extensions-4.9.0-py3-none-any.whl (32 kB)
Collecting mypy-extensions>=0.3.0
  Downloading mypy_extensions-1.0.0-py3-none-any.whl (4.7 kB)
Installing collected packages: typing-extensions, mypy-extensions, multimethod, typing-inspect, typeguard, pandera
  Attempting uninstall: typing-extensions
    Found existing installation: typing_extensions 4.4.0
    Not uninstalling typing-extensions at /shared-libs/python3.9/py/lib/python3.9/site-packages, outside environment /root/venv
    Can't u

In [None]:
import pandera as pa
from pandera import Column, DataFrameSchema

In [None]:
schema = DataFrameSchema({
    "Nome": Column(str),
    "Idade": Column(float, nullable=True),  
    "Email": Column(str),
    "Endereço": Column(str),
    "Telefone": Column(str),
    "Profissão": Column(str),
    "Data de Nascimento": Column(str),
    "Cidade": Column(str),
    "Estado": Column(str, nullable=True),  
    "Salário": Column(float, nullable=True)  
})


In [None]:
try:
    validated_df = schema.validate(df, lazy=True)
except pa.errors.SchemaErrors as e:
    print(e.failure_cases)  


    schema_context              column         check check_number  \
0           Column  Data de Nascimento  dtype('str')         None   
263         Column  Data de Nascimento  dtype('str')         None   
273         Column  Data de Nascimento  dtype('str')         None   
272         Column  Data de Nascimento  dtype('str')         None   
271         Column  Data de Nascimento  dtype('str')         None   
..             ...                 ...           ...          ...   
130         Column  Data de Nascimento  dtype('str')         None   
129         Column  Data de Nascimento  dtype('str')         None   
128         Column  Data de Nascimento  dtype('str')         None   
127         Column  Data de Nascimento  dtype('str')         None   
399         Column  Data de Nascimento  dtype('str')         None   

    failure_case  index  
0     1965-12-05      0  
263   2015-05-04    263  
273   1994-11-16    273  
272   1956-11-08    272  
271   1914-09-14    271  
..           ..

In [None]:
#Verificando o tipo de dado da coluna Data de Nascimento
print(df['Data de Nascimento'].dtypes)


object


In [None]:
#verificando a formatação em Data de Nascimento (obs: os 5 primeiros registros indicam uma formatação correta)
print(df['Data de Nascimento'].head())


0    1965-12-05
1    1920-04-10
2    1920-09-22
3    1920-01-14
4    2012-11-17
Name: Data de Nascimento, dtype: object


**Obs:** Essa a coluna 'Data de Nascimento' apresenta anomalias que devem ser tratadas.

**Vamos completar os dados nulos na base de dados usando a regra que melhor se aplica a cada caso.**

In [None]:
missing_values = df.isnull().sum()
print("Valores nulos em cada coluna:\n", missing_values)


Valores nulos em cada coluna:
 Nome                   0
Idade                 24
Email                  0
Endereço               0
Telefone               0
Profissão              0
Data de Nascimento     0
Cidade                 0
Estado                10
Salário               20
dtype: int64


**Obs:** Para a correção dos dados nulos, vamos utilizar a mesma proposta do exercício anterior: mediana para idade e salário (por possuírem grande variação - outliers - de dados) e a moda para Estado - utilizando como base a entrada mais comum

In [None]:
df['Idade'].fillna(df['Idade'].median(), inplace=True)
df['Estado'].fillna(df['Estado'].mode()[0], inplace=True)
df['Salário'].fillna(df['Salário'].median(), inplace=True)


In [None]:
#verificando novamente os valores nulos
missing_values = df.isnull().sum()
print("Valores nulos em cada coluna:\n", missing_values)

Valores nulos em cada coluna:
 Nome                  0
Idade                 0
Email                 0
Endereço              0
Telefone              0
Profissão             0
Data de Nascimento    0
Cidade                0
Estado                0
Salário               0
dtype: int64


**Utilizando o Pandera**: Este código utiliza o Pandera para definir um esquema de validação para um DataFrame, onde a coluna "Idade" deve ser do tipo float e a média das idades deve estar entre 30 e 40 anos. Se o DataFrame não passar na validação de acordo com esse esquema, uma mensagem será impressa indicando que a média da idade não está dentro do intervalo esperado, juntamente com os casos de falha.

In [None]:
from pandera import DataFrameSchema, Column, Check

schema = DataFrameSchema({
    "Idade": Column(
        float,
        Check(lambda s: 30 <= s.mean() <= 40),
        nullable=True 
    )
})

try:
    validated_df = schema.validate(df)
    print("A média da idade está entre 30 e 40 anos.")
except pa.errors.SchemaError as e:
    print("A média da idade não está entre 30 e 40 anos.")
    print(e.failure_cases)



A média da idade não está entre 30 e 40 anos.
  index  failure_case
0  None         False


<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=7509455c-0157-4e67-84fd-05e033da073d' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>