In [None]:
import pandas as pd
import os
import sys

PROJECT_ROOT = '/workspaces/dataops-governance-lab/desafio_techcommerce'
RAW_DATA_PATH = os.path.join(PROJECT_ROOT, 'data', 'raw')
PROCESSED_DATA_PATH = os.path.join(PROJECT_ROOT, 'data', 'processed')

print('✓ Caminhos configurados')

## 1. Carregar Dados Processados

In [None]:
# Carregar dados processados
df_clientes_clean = pd.read_csv(os.path.join(PROCESSED_DATA_PATH, 'clientes_clean.csv'), sep=';')
df_produtos_clean = pd.read_csv(os.path.join(PROCESSED_DATA_PATH, 'produtos_clean.csv'), sep=';')
df_vendas_clean = pd.read_csv(os.path.join(PROCESSED_DATA_PATH, 'vendas_clean.csv'), sep=';')
df_logistica_clean = pd.read_csv(os.path.join(PROCESSED_DATA_PATH, 'logistica_clean.csv'), sep=';')

print('DATASETS PROCESSADOS:')
print(f'  Clientes: {len(df_clientes_clean)} linhas')
print(f'  Produtos: {len(df_produtos_clean)} linhas')
print(f'  Vendas: {len(df_vendas_clean)} linhas')
print(f'  Logística: {len(df_logistica_clean)} linhas')

## 2. Verificar Integridade dos Dados

In [None]:
print('\nVALIDACÃO DE INTEGRIDADE:\n')

# Clientes
print(f'CLIENTES:')
print(f'  Duplicatas: {len(df_clientes_clean) - len(df_clientes_clean.drop_duplicates())}')
print(f'  Valores nulos: {df_clientes_clean.isnull().sum().sum()}')
print(f'  Emails válidos: {df_clientes_clean["email"].notna().sum()}')

# Produtos
print(f'\nPRODUTOS:')
print(f'  Duplicatas: {len(df_produtos_clean) - len(df_produtos_clean.drop_duplicates())}')
print(f'  Preços > 0: {(pd.to_numeric(df_produtos_clean["preco"], errors="coerce") > 0).sum()}')

# Vendas
print(f'\nVENDAS:')
print(f'  Total: {len(df_vendas_clean)} registros')
print(f'  IDs cliente válidos: {df_vendas_clean["id_cliente"].isin(df_clientes_clean["id_cliente"]).sum()}')
print(f'  IDs produto válidos: {df_vendas_clean["id_produto"].isin(df_produtos_clean["id_produto"]).sum()}')

# Logística
print(f'\nLOGÍSTICA:')
print(f'  Total: {len(df_logistica_clean)} registros')
print(f'  IDs venda válidos: {df_logistica_clean["id_venda"].isin(df_vendas_clean["id_venda"]).sum()}')

## 3. Resumo de Melhoria

In [None]:
# Carregar raw para comparação
df_clientes_raw = pd.read_csv(os.path.join(RAW_DATA_PATH, 'clientes.csv'), sep=',')
df_produtos_raw = pd.read_csv(os.path.join(RAW_DATA_PATH, 'produtos.csv'), sep=',')
df_vendas_raw = pd.read_csv(os.path.join(RAW_DATA_PATH, 'vendas.csv'), sep=',')
df_logistica_raw = pd.read_csv(os.path.join(RAW_DATA_PATH, 'logistica.csv'), sep=',')

print('\nMELHORIA ALCANÇADA:\n')
print(f'CLIENTES: {len(df_clientes_raw)} → {len(df_clientes_clean)} (-{len(df_clientes_raw) - len(df_clientes_clean)})')
print(f'PRODUTOS: {len(df_produtos_raw)} → {len(df_produtos_clean)} (-{len(df_produtos_raw) - len(df_produtos_clean)})')
print(f'VENDAS: {len(df_vendas_raw)} → {len(df_vendas_clean)} (-{len(df_vendas_raw) - len(df_vendas_clean)})')
print(f'LOGÍSTICA: {len(df_logistica_raw)} → {len(df_logistica_clean)} (-{len(df_logistica_raw) - len(df_logistica_clean)})')

print(f'\n✓ Pipeline validado com sucesso!')