In [3]:
import psycopg2
import pandas as pd
from sqlalchemy import create_engine

# Conexão com o banco
engine = create_engine("postgresql+psycopg2://airflow:airflow@localhost:5432/airflow")

# Carregar a tabela gold
dm = pd.read_sql('SELECT * FROM gold."dm_vendas_clientes";', engine)

# Testes Automatizados na Camada Gold
Este notebook executa testes de qualidade e integridade nos dados da camada Gold do pipeline Olist.

In [4]:
print("Nulos em chave primária (customer_unique_id):")
print(dm['customer_unique_id'].isnull().sum())

Nulos em chave primária (customer_unique_id):
0


# 2. Checar duplicados na chave
Este teste verifica se há duplicados na coluna `customer_unique_id`, que deve ser única para cada cliente.

In [5]:
print("Duplicados em customer_unique_id:")
print(dm.duplicated(subset=['customer_unique_id']).sum())

Duplicados em customer_unique_id:
0


# 3. Checar se colunas obrigatórias existem
Este teste verifica se todas as colunas esperadas estão presentes na tabela.

In [6]:
colunas_esperadas = [
    "customer_unique_id",
    "estado_cliente",
    "cidade_cliente",
    "total_pedidos",
    "total_gasto",
    "data_primeira_compra",
    "data_ultima_compra",
    "dias_desde_ultima_compra",
    "avg_delivery_time_days",
    "categoria_mais_comprada"
 ]
print("Colunas faltantes:")
print(set(colunas_esperadas) - set(dm.columns))

Colunas faltantes:
set()


# 4. Consistência de datas
Este teste verifica se há clientes cuja data da primeira compra é maior que a data da última compra, o que seria inconsistente.

In [7]:
inconsistentes = (dm["data_primeira_compra"] > dm["data_ultima_compra"]).sum()
print("Clientes com primeira_compra > ultima_compra:", inconsistentes)

Clientes com primeira_compra > ultima_compra: 0


# 5. Recência (dias desde última compra não negativo)
Este teste verifica se há valores negativos na coluna `dias_desde_ultima_compra`, o que não faz sentido para o negócio.

In [8]:
print("Dias desde última compra inválidos (< 0):")
print((dm["dias_desde_ultima_compra"] < 0).sum())

Dias desde última compra inválidos (< 0):
0


# 1. Checar nulos em chave primária
Este teste verifica se há valores nulos na coluna `customer_unique_id`, que é a chave primária da tabela.

In [9]:
# 1. Importação das Bibliotecas
import os
import pandas as pd
import psycopg2
import logging

In [10]:
# 2. Configuração do Ambiente de Teste
GOLD_SCHEMA = 'gold'
DB_CONFIG = {
    'host': 'localhost',
    'dbname': 'airflow',
    'user': 'airflow',
    'password': 'airflow'
}
TABLES = [
    'dm_vendas_clientes'
 ]

In [11]:
# 3. Carregamento dos Dados da Camada Gold
def load_gold_table(table_name):
    conn = psycopg2.connect(**DB_CONFIG)
    df = pd.read_sql(f'SELECT * FROM {GOLD_SCHEMA}."{table_name}"', conn)
    conn.close()
    return df
gold_dfs = {tb: load_gold_table(tb) for tb in TABLES}

  df = pd.read_sql(f'SELECT * FROM {GOLD_SCHEMA}."{table_name}"', conn)


In [12]:
# 4. Validação de Schema dos Dados
def validate_schema(df, table_name):
    print(f"Tabela: {table_name}")
    print("Colunas:", list(df.columns))
    print("Tipos:", df.dtypes)
    print("Total de registros:", len(df))
for tb, df in gold_dfs.items():
    validate_schema(df, tb)

Tabela: dm_vendas_clientes
Colunas: ['customer_unique_id', 'estado_cliente', 'cidade_cliente', 'total_pedidos', 'total_gasto', 'data_primeira_compra', 'data_ultima_compra', 'dias_desde_ultima_compra', 'avg_delivery_time_days', 'categoria_mais_comprada']
Tipos: customer_unique_id                  object
estado_cliente                      object
cidade_cliente                      object
total_pedidos                        int64
total_gasto                        float64
data_primeira_compra        datetime64[ns]
data_ultima_compra          datetime64[ns]
dias_desde_ultima_compra             int64
avg_delivery_time_days             float64
categoria_mais_comprada             object
dtype: object
Total de registros: 96096


In [13]:
# 5. Testes de Qualidade dos Dados
def test_quality(df, table_name):
    print(f"\nTestes para: {table_name}")
    print("Nulos por coluna:")
    print(df.isnull().sum())
    print("Duplicados:", df.duplicated().sum())
    print("Exemplo de registros duplicados:")
    print(df[df.duplicated()])
for tb, df in gold_dfs.items():
    test_quality(df, tb)


Testes para: dm_vendas_clientes
Nulos por coluna:
customer_unique_id             0
estado_cliente                 0
cidade_cliente                 0
total_pedidos                  0
total_gasto                    0
data_primeira_compra           0
data_ultima_compra             0
dias_desde_ultima_compra       0
avg_delivery_time_days      2835
categoria_mais_comprada     2059
dtype: int64
Duplicados: 0
Exemplo de registros duplicados:
Empty DataFrame
Columns: [customer_unique_id, estado_cliente, cidade_cliente, total_pedidos, total_gasto, data_primeira_compra, data_ultima_compra, dias_desde_ultima_compra, avg_delivery_time_days, categoria_mais_comprada]
Index: []


In [14]:
# 6. Execução dos Testes Automatizados
def run_all_tests():
    for tb, df in gold_dfs.items():
        validate_schema(df, tb)
        test_quality(df, tb)
run_all_tests()

Tabela: dm_vendas_clientes
Colunas: ['customer_unique_id', 'estado_cliente', 'cidade_cliente', 'total_pedidos', 'total_gasto', 'data_primeira_compra', 'data_ultima_compra', 'dias_desde_ultima_compra', 'avg_delivery_time_days', 'categoria_mais_comprada']
Tipos: customer_unique_id                  object
estado_cliente                      object
cidade_cliente                      object
total_pedidos                        int64
total_gasto                        float64
data_primeira_compra        datetime64[ns]
data_ultima_compra          datetime64[ns]
dias_desde_ultima_compra             int64
avg_delivery_time_days             float64
categoria_mais_comprada             object
dtype: object
Total de registros: 96096

Testes para: dm_vendas_clientes
Nulos por coluna:
customer_unique_id             0
estado_cliente                 0
cidade_cliente                 0
total_pedidos                  0
total_gasto                    0
data_primeira_compra           0
data_ultima_compra  

# 7. Visualização dos Resultados dos Testes
Os resultados dos testes são exibidos acima. Para análises avançadas, utilize gráficos ou tabelas interativas conforme necessário.

In [15]:
# Exibir os primeiros registros de cada tabela gold
for tb, df in gold_dfs.items():
    print(f"\nTabela: {tb}")
    display(df.head(10))


Tabela: dm_vendas_clientes


Unnamed: 0,customer_unique_id,estado_cliente,cidade_cliente,total_pedidos,total_gasto,data_primeira_compra,data_ultima_compra,dias_desde_ultima_compra,avg_delivery_time_days,categoria_mais_comprada
0,0000366f3b9a7992bf8c76cfdf3221e2,SP,cajamar,1,141.9,2018-05-10 10:56:27,2018-05-10 10:56:27,160,6.0,cama_mesa_banho
1,0000b849f77a49e4a4ce2b2a4ca5be3f,SP,osasco,1,27.19,2018-05-07 11:11:27,2018-05-07 11:11:27,163,3.0,beleza_saude
2,0000f46a3911fa3c0805444483337064,SC,sao jose,1,86.22,2017-03-10 21:05:03,2017-03-10 21:05:03,585,25.0,papelaria
3,0000f6ccb0745a6a4b88665a16c9f078,PA,belem,1,43.62,2017-10-12 20:29:41,2017-10-12 20:29:41,369,20.0,telefonia
4,0004aac84e0df4da2b147fca70cf8255,SP,sorocaba,1,196.89,2017-11-14 19:45:42,2017-11-14 19:45:42,336,13.0,telefonia
5,0004bd2a26a76fe21f786e4fbd80607f,SP,sao paulo,1,166.98,2018-04-05 19:33:16,2018-04-05 19:33:16,194,1.0,ferramentas_jardim
6,00050ab1314c0e55a6ca13cf7181fecf,SP,campinas,1,35.38,2018-04-20 12:57:23,2018-04-20 12:57:23,180,6.0,telefonia
7,00053a61a98854899e70ed204dd4bafe,PR,curitiba,1,419.18,2018-02-28 11:15:41,2018-02-28 11:15:41,231,16.0,esporte_lazer
8,0005e1862207bf6ccc02e4228effd9a0,RJ,teresopolis,1,150.12,2017-03-04 23:32:12,2017-03-04 23:32:12,591,4.0,fashion_bolsas_e_acessorios
9,0005ef4cd20d2893f0d9fbd94d3c0d97,MA,sao luis,1,129.76,2018-03-12 15:22:12,2018-03-12 15:22:12,219,53.0,esporte_lazer


In [16]:
# Teste: Tabela e colunas obrigatórias
colunas_esperadas = [
    "customer_unique_id", "estado_cliente", "cidade_cliente", "total_pedidos",
    "total_gasto", "data_primeira_compra", "data_ultima_compra",
    "dias_desde_ultima_compra", "avg_delivery_time_days", "categoria_mais_comprada"
 ]
missing_cols = set(colunas_esperadas) - set(dm.columns)

## Verificação de colunas obrigatórias
Confere se todas as colunas essenciais estão presentes na tabela.

In [17]:
print("Colunas faltantes:", missing_cols)

Colunas faltantes: set()


In [18]:
assert not missing_cols, "Existem colunas obrigatórias faltando!"

## Verificação de nulos em customer_unique_id
Confere se há valores nulos na chave primária dos clientes.

In [19]:
nulos = dm['customer_unique_id'].isnull().sum()
print("Nulos em customer_unique_id:", nulos)

Nulos em customer_unique_id: 0


In [20]:
assert nulos == 0, "Existem nulos em customer_unique_id!"

## Verificação de duplicados em customer_unique_id
Confere se há valores duplicados na chave primária dos clientes.

In [21]:
duplicados = dm.duplicated(subset=['customer_unique_id']).sum()
print("Duplicados em customer_unique_id:", duplicados)

Duplicados em customer_unique_id: 0


In [22]:
assert duplicados == 0, "Existem duplicados em customer_unique_id!"

## Verificação de consistência de datas
Confere se há clientes cuja data da primeira compra é maior que a data da última compra.

In [23]:
inconsistentes = (dm["data_primeira_compra"] > dm["data_ultima_compra"]).sum()
print("Clientes com primeira_compra > ultima_compra:", inconsistentes)

Clientes com primeira_compra > ultima_compra: 0


In [24]:
assert inconsistentes == 0, "Existem clientes com datas inconsistentes!"

In [26]:
# Verificar duplicados em customer_unique_id
duplicados_df = dm[dm.duplicated(subset=['customer_unique_id'], keep=False)]
print("Quantidade de duplicados:", len(duplicados_df))
print("IDs duplicados:")
print(duplicados_df['customer_unique_id'].value_counts())
print("Registros duplicados:")
display(duplicados_df)

Quantidade de duplicados: 0
IDs duplicados:
Series([], Name: count, dtype: int64)
Registros duplicados:


Unnamed: 0,customer_unique_id,estado_cliente,cidade_cliente,total_pedidos,total_gasto,data_primeira_compra,data_ultima_compra,dias_desde_ultima_compra,avg_delivery_time_days,categoria_mais_comprada
