In [1]:
import psycopg2
import pandas as pd
from sqlalchemy import create_engine

# Conexão com o banco
engine = create_engine("postgresql+psycopg2://airflow:airflow@localhost:5432/airflow")

# Carregar a tabela gold
dm = pd.read_sql('SELECT * FROM gold."dm_vendas_clientes";', engine)

print("===== Validação da Tabela dm_vendas_clientes =====")

# 1. Checar nulos em chave primária
print("\nNulos em chave primária (customer_unique_id):")
print(dm['customer_unique_id'].isnull().sum())

# 2. Checar duplicados na chave
print("\nDuplicados em customer_unique_id:")
print(dm.duplicated(subset=['customer_unique_id']).sum())

# 3. Checar se colunas obrigatórias existem
colunas_esperadas = [
    "customer_unique_id",
    "estado_cliente",
    "cidade_cliente",
    "total_pedidos",
    "total_gasto",
    "data_primeira_compra",
    "data_ultima_compra",
    "dias_desde_ultima_compra",
    "avg_delivery_time_days",
    "categoria_mais_comprada"
]
print("\nColunas faltantes:")
print(set(colunas_esperadas) - set(dm.columns))

# 4. Consistência de datas
print("\nDatas inconsistentes:")
inconsistentes = (dm["data_primeira_compra"] > dm["data_ultima_compra"]).sum()
print(f"Clientes com primeira_compra > ultima_compra: {inconsistentes}")

# 5. Recência (dias desde última compra não negativo)
print("\nDias desde última compra inválidos (< 0):")
print((dm["dias_desde_ultima_compra"] < 0).sum())

# 6. Total de pedidos e gasto não negativos
print("\nTotal de pedidos inválidos (< 0):", (dm["total_pedidos"] < 0).sum())
print("Total gasto inválido (< 0):", (dm["total_gasto"] < 0).sum())

# 7. Estatísticas descritivas
print("\nEstatísticas básicas:")
print(dm.describe(include='all'))

# 8. Valores suspeitos (entregas muito longas)
if "avg_delivery_time_days" in dm.columns:
    print("\nClientes com tempo médio de entrega > 60 dias:")
    print(dm[dm["avg_delivery_time_days"] > 60].shape[0])

# 9. Categorias mais compradas nulas
print("\nClientes sem categoria mais comprada (null):")
print(dm["categoria_mais_comprada"].isnull().sum())

print("\n===== Validação concluída =====")




ProgrammingError: (psycopg2.errors.UndefinedTable) relation "gold.dm_vendas_clientes" does not exist
LINE 1: SELECT * FROM gold."dm_vendas_clientes";
                      ^

[SQL: SELECT * FROM gold."dm_vendas_clientes";]
(Background on this error at: https://sqlalche.me/e/20/f405)