# 📘 verificacao_qualidade
### **Objetivo:**
- Avaliar integridade, completude e consistência dos dados

In [4]:
import pandas as pd
from datetime import datetime

df_dep = pd.read_json("../data/processed/deputados.json")
df_evt = pd.read_json("../data/processed/eventos.json")

# Verificar valores ausentes 
missing_dep = df_dep.isna().sum()
missing_evt = df_evt.isna().sum()

print("🔍 Campos com valores ausentes — Deputados:")
print(missing_dep[missing_dep > 0])
print("\n🔍 Campos com valores ausentes — Eventos:")
print(missing_evt[missing_evt > 0])

🔍 Campos com valores ausentes — Deputados:
Series([], dtype: int64)

🔍 Campos com valores ausentes — Eventos:
dataHoraFim     1066
localExterno    9119
urlRegistro     1201
dtype: int64


In [5]:
# IDs duplicados
duplicados_dep = df_dep[df_dep.duplicated("id")]
print(f"\n🔁 Deputados duplicados: {len(duplicados_dep)}")


🔁 Deputados duplicados: 0


In [6]:
# Datas inválidas (futuras ou não convertíveis)
df_evt["dataHoraInicio"] = pd.to_datetime(df_evt["dataHoraInicio"], errors="coerce")
invalidos = df_evt[df_evt["dataHoraInicio"] > pd.Timestamp.now()]
print(f"\n⏳ Eventos com datas futuras: {len(invalidos)}")


⏳ Eventos com datas futuras: 0


In [10]:
# Montar resumo da qualidade 
qualidade = {
    "Campos nulos (deputados)": int(missing_dep.sum()),
    "Campos nulos (eventos)": int(missing_evt.sum()),
    "Deputados duplicados": int(len(duplicados_dep)),
    "Eventos com data futura": int(len(invalidos)),
    "Data de geração": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
}

# Salvar relatório de qualidade como JSON 
pd.DataFrame([qualidade]).to_json(
    "../data/quality/relatorio_qualidade.json",
    orient="records",
    indent=2,
    force_ascii=False
)

print("\n✅ Relatório salvo em: data/quality/relatorio_qualidade.json")
qualidade


✅ Relatório salvo em: data/quality/relatorio_qualidade.json


{'Campos nulos (deputados)': 0,
 'Campos nulos (eventos)': 11386,
 'Deputados duplicados': 0,
 'Eventos com data futura': 0,
 'Data de geração': '2025-10-25 23:53:17'}