<a href="https://colab.research.google.com/github/rodrigodesouza7/data-observability-platform/blob/main/validador_py.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## ====================================================
# 🔍 Validador de Qualidade de Dados
# 📦 Módulo responsável por detectar erros estruturais e semânticos
### ====================================================

# ===============================
# 📚 1.Bibliotecas
# ===============================

In [None]:
# Bibliotecas

import pandas as pd
import re
from datetime import datetime

# ===============================
# ⚙️ 2.Regras de Domínio
# ===============================

In [None]:
CATEGORIAS_VALIDAS = ["Eletrônicos", "Roupas", "Livros", "Alimentos", "Beleza", "Esportes"]
STATUS_VALIDOS = ["aprovado", "pendente", "falha"]


# ============================================================
# 🧪 3. FUNÇÕES DE VALIDAÇÃO POR COLUNA
# ============================================================


In [None]:

# ============================================================
# 🧪 3. FUNÇÕES DE VALIDAÇÃO POR COLUNA
# ============================================================

def validar_email(email: str) -> bool:
    """Valida formato de e-mail com regex simples"""
    padrao = r"[^@]+@[^@]+\.[^@]+"
    return bool(re.match(padrao, str(email)))


def validar_valor_compra(valor: float) -> bool:
    """Valor deve ser positivo e dentro de uma faixa realista"""
    return isinstance(valor, (int, float)) and valor > 0


def validar_categoria(produto: str) -> bool:
    """Categoria deve pertencer ao domínio conhecido"""
    return produto in CATEGORIAS_VALIDAS


def validar_status_pagamento(status: str) -> bool:
    """Status de pagamento deve estar entre os aceitos"""
    return status in STATUS_VALIDOS


def validar_data(data_str: str) -> bool:
    """Data deve ser válida e não futura"""
    try:
        data = datetime.fromisoformat(data_str)
        return data <= datetime.now()
    except ValueError:
        return False

# ============================================================
# 🧩 4. PIPELINE DE VALIDAÇÃO DO DATAFRAME
# ============================================================

In [None]:
# ============================================================
# 🧩 4. PIPELINE DE VALIDAÇÃO DO DATAFRAME
# ============================================================

def validar_dataframe(df: pd.DataFrame) -> pd.DataFrame:
    """
    Executa validações linha a linha e agrega erros por registro.
    Retorna o DataFrame com nova coluna: 'erros'
    """
    erros = []

    for _, row in df.iterrows():
        linha_erros = []

        if not validar_email(row["email_cliente"]):
            linha_erros.append("email_invalido")

        if not validar_valor_compra(row["valor_compra"]):
            linha_erros.append("valor_invalido")

        if not validar_categoria(row["produto"]):
            linha_erros.append("categoria_invalida")

        if not validar_status_pagamento(row["status_pagamento"]):
            linha_erros.append("status_invalido")

        if not validar_data(row["data_venda"]):
            linha_erros.append("data_invalida")

        erros.append(", ".join(linha_erros) if linha_erros else "")

    df["erros"] = erros
    return df



# ============================================================
# 🚀 5. BLOCO DE EXECUÇÃO (EXEMPLO PARA NOTEBOOK)
# ============================================================

In [None]:
if __name__ == "__main__":
    # Leitura do arquivo (certifique-se de que o caminho esteja correto no ambiente)
    df = pd.read_csv("dados_simulados_com_anomalias.csv")

    # Aplicar validações
    df_validado = validar_dataframe(df)

    # Exibir apenas registros com erros
    erros_encontrados = df_validado[df_validado["erros"] != ""]
    print(f"🔎 Total de registros com erros: {len(erros_encontrados)}")
    display(erros_encontrados.head(20))

🔎 Total de registros com erros: 125


Unnamed: 0,id_venda,data_venda,nome_cliente,email_cliente,valor_compra,produto,status_pagamento,erros
0,8a44ed7f-3519-41a8-9745-efc9464a2c4a,2025-05-04T16:46:23,Ana Sophia Araújo,levicunha@ig.com.br,-9999.99,Esportes,aprovado,valor_invalido
1,c808715a-d95a-4302-a6ef-e2af9ec95ec7,2050-01-01T00:00:00,Renan Viana,bazevedo@da.com,1846.45,Esportes,aprovado,data_invalida
2,e03dad1c-24b0-41ac-a7a1-d61e7caa1f65,2025-05-22T16:46:23,Catarina Viana,ana-liviafreitas@gmail.com,-9999.99,Eletrônicos,aprovado,valor_invalido
3,56737faf-3b98-4729-8e72-876ca8336f3e,2050-01-01T00:00:00,Samuel Pereira,henrique35@gmail.com,1273.28,Eletrônicos,aprovado,data_invalida
4,8b56101f-7486-47b6-b08e-ab6917e21f72,2025-05-11T16:46:23,João Miguel Castro,invalido_email,566.69,Beleza,aprovado,email_invalido
5,b9dd8969-eb75-40e0-bac1-07fdd23897f8,2025-04-30T16:46:23,Maria Alice Costa,vieiranicolas@ig.com.br,2018.43,Desconhecido,aprovado,categoria_invalida
6,5ac84a32-f116-4806-b97e-621c2363c637,2025-05-20T16:46:23,Isabelly da Mota,diassophia@cardoso.net,553.98,Livros,cancelado,status_invalido
7,9e1f3aff-b2ad-49e2-abf4-dd8d5f360f31,2025-05-21T16:46:23,João Miguel Freitas,invalido_email,910.27,Livros,aprovado,email_invalido
8,e10f78e6-59f9-4339-882d-4a170739c603,2025-05-01T16:46:23,Emanuelly Cardoso,igorrezende@fogaca.net,1159.37,Eletrônicos,cancelado,status_invalido
9,aa80d358-ba1a-43de-957e-3dc78602cdc3,2025-05-22T16:46:23,Giovanna Caldeira,lopesalana@campos.net,1389.06,Desconhecido,aprovado,categoria_invalida
