In [None]:
# C√©lula 1: Importa√ß√µes e Carregamento de Dados

import pandas as pd
import numpy as np
from datetime import datetime

# Configura√ß√£o para melhor visualiza√ß√£o (opcional)
pd.set_option('display.max_rows', 50)
pd.set_option('display.max_columns', 20)
base_path = 'datasets/'

# Inicializa√ß√£o das vari√°veis para garantir que existam
df_clientes, df_produtos, df_vendas = None, None, None

# -----------------------------------------------------------
# ATEN√á√ÉO: Carregamento dos Datasets
# -----------------------------------------------------------
try:
    # Tente carregar seus dados reais
    df_clientes = pd.read_csv(f'{base_path}clientes.csv')
    df_produtos = pd.read_csv(f'{base_path}produtos.csv')
    df_vendas = pd.read_csv(f'{base_path}vendas.csv')

    print("‚úÖ Dados de Clientes, Produtos e Vendas carregados com sucesso!")

except FileNotFoundError as e:
    print(f"‚ùå ERRO: Arquivo n√£o encontrado. Usando DataFrames de Exemplo para demonstra√ß√£o da l√≥gica. Detalhe: {e}")
    # Cria√ß√£o de DataFrames de exemplo (para garantir que o resto do c√≥digo funcione)
    df_clientes = pd.DataFrame({
        'id_cliente': [1, 2, np.nan, 4, 1, 6], 
        'nome': ['Ana', 'Bruno', 'Carlos', 'Diana', 'Ana', 'Eva'], 
        'email': ['a@a.com', 'b@b.com', 'c@c.com', 'd@d.com', 'a@a.com', 'e@e.com'], 
        'estado': ['SP', 'RJ', 'SP', 'XX', 'RJ', 'MG']
    })
    df_produtos = pd.DataFrame({
        'id_produto': [101, 102, 103, 104, 105], 
        'nome_produto': ['Laptop', np.nan, 'Mouse', 'Teclado', 'Cadeira'], 
        'preco': [1000.50, -50.00, 20.00, 100.00, 300.00], 
        'categoria': ['Eletr√¥nico', 'Livro', 'Eletr√¥nico', 'Roupa', 'M√≥vel']
    })
    df_vendas = pd.DataFrame({
        'id_venda': [1001, 1002, 1003, 1004, 1005, 1006, 1007], 
        'id_cliente': [1, 2, 999, 4, 1, 6, 777], 
        'id_produto': [101, 102, 103, 105, 101, 999, 104], 
        'quantidade': [1, 0, 3, 2, 1, 5, 1], 
        'valor_unitario': [1000.5, 50.0, 20.0, 150.0, 1000.5, 10.0, 100.0], 
        'valor_total': [1000.5, 0.0, 60.0, 300.0, 1000.5, 50.0, 100.0],
        'data_venda': ['2023-01-10', '2023-10-01', '2023-12-31', '2025-01-01', '2023-01-10', '2023-05-20', '2023-01-10'], 
        'status': ['Conclu√≠da', 'Conclu√≠da', 'Pendente', 'Cancelada', 'Conclu√≠da', 'Conclu√≠da', 'Conclu√≠da']
    })
    print("\n‚ö†Ô∏è A an√°lise a seguir reflete os problemas dos dados de exemplo.")

# Atribuindo nome interno para refer√™ncias na fun√ß√£o
if df_clientes is not None:
    df_clientes._internal_name = 'Clientes'
    df_produtos._internal_name = 'Produtos'
    df_vendas._internal_name = 'Vendas'

    print("\n--- Informa√ß√µes de Clientes (Amostra) ---")
    display(df_clientes.head())
else:
    print("\n‚ùå N√£o foi poss√≠vel carregar ou criar nenhum DataFrame. Verifique a C√©lula 1.")

In [None]:
# C√©lula 2: Identifica√ß√£o e Classifica√ß√£o dos Problemas

problemas_encontrados = []

def registrar_problema(dataset, coluna, dimensao, descricao, afetados):
    """
    Registra um problema de qualidade de dados, calcula o impacto
    e atribui uma criticidade baseada na dimens√£o e no impacto.
    """
    total_registros = len(dataset)
    impacto_percentual = (afetados / total_registros) * 100
    
    # Heur√≠stica de Criticidade:
    # ALTA: Problemas que quebram chaves prim√°rias ou integridade referencial.
    # M√âDIA: Problemas de alto impacto em campos cr√≠ticos (Completude ou Validade > 5%).
    # BAIXA: Problemas de baixo impacto ou formatacao.
    if dimensao in ['Unicidade', 'Integridade'] and afetados > 0:
        criticidade = 'ALTA'
    elif impacto_percentual >= 5:
        criticidade = 'M√âDIA'
    else:
        criticidade = 'BAIXA'

    problemas_encontrados.append({
        'Dataset': dataset._internal_name,
        'Coluna/Entidade': coluna,
        'Dimens√£o': dimensao,
        'Descri√ß√£o': descricao,
        'Registros Afetados': afetados,
        'Impacto (%)': round(impacto_percentual, 2),
        'Criticidade': criticidade
    })

# --- AN√ÅLISE DE CLIENTES ---
total_clientes = len(df_clientes)
clientes_validos_id = df_clientes['id_cliente'].dropna().astype(int).unique()

# 1. Completude: ID nulo
nulos_id_cliente = df_clientes['id_cliente'].isnull().sum()
if nulos_id_cliente > 0:
    registrar_problema(df_clientes, 'id_cliente', 'Completude', 'IDs de Cliente nulos (Chave Prim√°ria)', nulos_id_cliente)

# 2. Unicidade: IDs duplicados
duplicados_total = df_clientes['id_cliente'].duplicated(keep=False).sum()
if duplicados_total > 0:
    registrar_problema(df_clientes, 'id_cliente', 'Unicidade', 'IDs de Cliente duplicados', duplicados_total)
    
# 3. Validade: Estado Inv√°lido (formato de 2 caracteres)
invalidos_estado = df_clientes[df_clientes['estado'].str.len() != 2].shape[0]
if invalidos_estado > 0:
    registrar_problema(df_clientes, 'estado', 'Validade', 'Campo ESTADO com formato diferente de 2 caracteres', invalidos_estado)


# --- AN√ÅLISE DE PRODUTOS ---
total_produtos = len(df_produtos)
produtos_validos_id = df_produtos['id_produto'].dropna().astype(int).unique()

# 4. Completude: Nome de Produto Nulo
nulos_nome_produto = df_produtos['nome_produto'].isnull().sum()
if nulos_nome_produto > 0:
    registrar_problema(df_produtos, 'nome_produto', 'Completude', 'Nome do Produto nulo', nulos_nome_produto)

# 5. Validade: Pre√ßo Negativo (assume-se que preco > 0)
invalidos_preco = df_produtos[df_produtos['preco'] <= 0].shape[0]
if invalidos_preco > 0:
    registrar_problema(df_produtos, 'preco', 'Validade', 'Pre√ßo de Produto menor ou igual a zero', invalidos_preco)

# 6. Consist√™ncia: Categoria fora do padr√£o (exemplo de lista v√°lida)
categorias_validas = ['Eletr√¥nico', 'Livro', 'Vestu√°rio', 'M√≥vel', 'Acess√≥rio']
invalidos_categoria = df_produtos[~df_produtos['categoria'].isin(categorias_validas)].shape[0]
if invalidos_categoria > 0:
    registrar_problema(df_produtos, 'categoria', 'Consist√™ncia', 'Categoria de Produto fora da lista de valores permitidos', invalidos_categoria)


# --- AN√ÅLISE DE VENDAS ---
total_vendas = len(df_vendas)

# 7. Integridade: IDs de Cliente √≥rf√£os
vendas_com_cliente_invalido = df_vendas[~df_vendas['id_cliente'].isin(clientes_validos_id)].shape[0]
if vendas_com_cliente_invalido > 0:
    registrar_problema(df_vendas, 'id_cliente', 'Integridade', 'Chave estrangeira ID_CLIENTE n√£o existe na tabela Clientes', vendas_com_cliente_invalido)

# 8. Integridade: IDs de Produto √≥rf√£os
vendas_com_produto_invalido = df_vendas[~df_vendas['id_produto'].isin(produtos_validos_id)].shape[0]
if vendas_com_produto_invalido > 0:
    registrar_problema(df_vendas, 'id_produto', 'Integridade', 'Chave estrangeira ID_PRODUTO n√£o existe na tabela Produtos', vendas_com_produto_invalido)

# 9. Consist√™ncia: valor_total (Regra de Neg√≥cio)
df_vendas['valor_calculado'] = df_vendas['quantidade'] * df_vendas['valor_unitario']
# Verifica diferen√ßa, considerando pequena margem de erro por float
inconsistentes_valor = df_vendas[np.abs(df_vendas['valor_total'] - df_vendas['valor_calculado']) > 0.01].shape[0]
if inconsistentes_valor > 0:
    registrar_problema(df_vendas, 'valor_total', 'Consist√™ncia', 'Valor Total n√£o corresponde a Quantidade √ó Valor Unit√°rio', inconsistentes_valor)

# 10. Validade: Data Futura
hoje = pd.to_datetime(datetime.now().date())
df_vendas['data_venda'] = pd.to_datetime(df_vendas['data_venda'], errors='coerce')
futuras_venda = df_vendas[df_vendas['data_venda'] > hoje].shape[0]
if futuras_venda > 0:
    registrar_problema(df_vendas, 'data_venda', 'Validade', 'Data de Venda no futuro', futuras_venda)

# 11. Validade: Quantidade Zero ou Negativa (assume-se quantidade >= 1)
invalidos_quantidade = df_vendas[df_vendas['quantidade'] <= 0].shape[0]
if invalidos_quantidade > 0:
    registrar_problema(df_vendas, 'quantidade', 'Validade', 'Quantidade vendida √© zero ou negativa', invalidos_quantidade)

In [None]:
# C√©lula 3: Consolida√ß√£o, Impacto e Prioriza√ß√£o

df_relatorio = pd.DataFrame(problemas_encontrados)

# -----------------------------------------------------------------
# Prioriza√ß√£o: Ordenar por Criticidade (ALTA > M√âDIA > BAIXA) e Impacto
# -----------------------------------------------------------------
ordem_criticidade = {'ALTA': 3, 'M√âDIA': 2, 'BAIXA': 1}
df_relatorio['Criticidade_Ord'] = df_relatorio['Criticidade'].map(ordem_criticidade)

# Ordena, priorizando problemas de ALTA criticidade e maior impacto
df_relatorio_final = df_relatorio.sort_values(
    by=['Criticidade_Ord', 'Impacto (%)', 'Dataset'], 
    ascending=[False, False, True]
).drop(columns='Criticidade_Ord')

print("--- üö® Relat√≥rio Consolidado de Problemas de Qualidade üö® ---")
print(f"Total de Registros Analisados: Clientes={total_clientes}, Produtos={total_produtos}, Vendas={total_vendas}")

display(df_relatorio_final)

    ## üéØ Sum√°rio Executivo e Estrat√©gia de Remedia√ß√£o de Qualidade de Dados

O relat√≥rio de an√°lise aponta **falhas cr√≠ticas na qualidade dos dados**, exigindo interven√ß√£o imediata, focada primordialmente nas dimens√µes de **Integridade** e **Unicidade**. A estrat√©gia de remedia√ß√£o deve ser dividida por criticidade, come√ßando pela corre√ß√£o do **Pipeline de Ingest√£o**.

---

### 1. Problemas de ALTA Criticidade (Foco Imediato no Pipeline de Ingest√£o) üö®

Estes problemas comprometem a validade de qualquer an√°lise ao violar regras fundamentais de relacionamento (Integridade) ou identifica√ß√£o (Unicidade).

* **Integridade Referencial (ID √ìrf√£o em Vendas):**
    * **Problema:** Registros de Vendas sem um `id_cliente` ou `id_produto` v√°lido s√£o **in√∫teis**.
    * **Estrat√©gia:** A **primeira linha de defesa** deve ser um **teste de integridade referencial** no *pipeline* de ingest√£o. Registros que falharem nesta checagem devem ser **rejeitados** ou **isolados** para tratamento.

* **Unicidade (Clientes Duplicados / IDs Nulos):**
    * **Problema:** A duplicidade de `id_cliente` ou a presen√ßa de valores nulos em IDs **destr√≥i a confian√ßa** na m√©trica de clientes √∫nicos.
    * **Estrat√©gia:** O *pipeline* deve incluir uma etapa de **deduplica√ß√£o rigorosa** e valida√ß√£o de n√£o-nulidade para as chaves prim√°rias.

---

### 2. Problemas de M√âDIA Criticidade (Foco em Transforma√ß√£o e Limpeza) üßπ

Estes problemas afetam a usabilidade e a precis√£o do dado, exigindo etapas de corre√ß√£o ou imputa√ß√£o na camada de transforma√ß√£o.

* **Completude (Nome/ID Nulo):**
    * **Problema:** Nomes nulos em produtos e IDs nulos em clientes na base de dados (n√£o-chave prim√°ria).
    * **Estrat√©gia:** Exige a corre√ß√£o na **fonte de dados** ou a aplica√ß√£o de uma regra de **imputa√ß√£o** (ex: valor padr√£o "N√£o Informado") onde for cab√≠vel, priorizando sempre a corre√ß√£o na origem.

* **Consist√™ncia (Regra de Neg√≥cio Quebrada):**
    * **Problema:** Falha na regra de neg√≥cio: $valor\_total \ne quantidade \times valor\_unitario$.
    * **Estrat√©gia:** Exige um **re-c√°lculo e valida√ß√£o** na etapa de transforma√ß√£o (`ETL/ELT`) para garantir que o $valor\_total$ reflita o produto das colunas $quantidade$ e $valor\_unitario$ antes de ser persistido.

---

### Pr√≥ximo Passo: Implementa√ß√£o do Pipeline (Parte 2) üõ†Ô∏è

O foco imediato ser√° a **codifica√ß√£o das expectativas de qualidade** para prevenir futuras ocorr√™ncias das falhas identificadas.

Utilizaremos o **Great Expectations** para:

1.  **Codificar** as regras de neg√≥cio e integridade (unicidade, integridade referencial, validade de pre√ßo/quantidade) nas **Expectation Suites**.
2.  **Integrar** estas checagens no *pipeline* de ingest√£o e transforma√ß√£o, garantindo que as falhas identificadas neste relat√≥rio sejam **prevenidas** em futuras cargas de dados.